Scale AI verwendet wenig | Nantong Woofers Group Co., Ltd

Die größten Entwickler künstlicher Intelligenz im Silicon Valley haben ein Sprachproblem. Generative KI-Tools wie ChatGPT gedeihen auf Englisch und Spanisch. Erste Untersuchungen zeigen jedoch, dass dieselben Tools in „ressourcenarmen“ Sprachen, die im Internet weniger vertreten sind, chronisch leistungsschwach sind. Nun scheint einer der größten Anbieter von Trainingsdaten dieses Problem direkt anzugehen.

Scale AI, eines der bekanntesten Unternehmen für Schulungsdaten im Silicon Valley, stellt derzeit fast 60 Stellen als Vertragsautoren in Dutzenden von Sprachen ein. In jeder Stellenausschreibung wird behauptet, dass es sich bei der Arbeit um ein Projekt handelt, bei dem es darum geht, „generative künstliche Intelligenzmodelle zu trainieren, um bessere Autoren zu werden“. Zu den Sprachen gehören unter anderem Hausa, Punjabi, Thailändisch, Litauisch, Persisch, Xhosa, Katalanisch und Zulu. In sechs Stellenausschreibungen in der Kategorie „Experten“ werden Autoren speziell für regionale südasiatische Sprachen gesucht, darunter Kannada, Gujarati, Urdu und Telugu.

Es gibt erhebliche Lohnunterschiede zwischen den Sprachen, wobei westliche Sprachen bis zu 15-mal mehr beherrschen als diejenigen aus dem globalen Süden. Beispielsweise kostet die Stellenausschreibung für deutsche Schriftsteller 21,55 US-Dollar pro Stunde, im Vergleich zu einer Stellenausschreibung für einen Experten in Telugu, die nur 1,43 US-Dollar pro Stunde bietet.

Viele der schlechter bezahlten Sprachen gelten als „ressourcenarm“ – d. h. Sprachen, die im Internet seltener verfügbar sind, was dazu führt, dass KI-Modelle nur über knappe und oft schlechte Daten verfügen. Einige der meistgesprochenen Sprachen der Welt, wie Urdu und Bengali, gelten aufgrund ihrer geringen Online-Präsenz immer noch als ressourcenarm. Laut Julian Posada, Assistenzprofessor an der Yale University und Mitglied des Information Society Project der juristischen Fakultät, stellt der Einsatz menschlicher Arbeitskräfte durch Scale AI zur Verbesserung der „ressourcenarmen“ Sprachleistung einen bemerkenswerten Wandel dar.

„Sie haben bereits das gesamte Internet gesäubert. Jetzt müssen Sie die Daten woanders beschaffen“, sagte Posada gegenüber Rest of World. „Dies könnte auf die Notwendigkeit hindeuten, dass es sich nicht um zufällige Daten handelt, die man von 4chan erhalten kann, sondern um Daten, die von jemandem mit Fachwissen erstellt werden.“

Laut Dylan Hadfield-Mennell, Assistenzprofessor für künstliche Intelligenz und Entscheidungsfindung am Massachusetts Institute of Technology (MIT), gibt es einige gängige Erklärungen dafür, warum generative KI-Systeme bei ressourcenarmen Sprachen so schlecht sind.

„Eine [Theorie] besagt, dass es nicht genügend unbeaufsichtigte Daten gibt, um gute Modelle davon zu erstellen, sagen wir, die sprachlichen Muster in Bengali“, sagte Hadfield-Mennell gegenüber Rest of World und stellte fest, wie wenig eine solche Sprache im Internet vertreten ist. Es gibt 270 Millionen Muttersprachler der bengalischen Sprache – fast 3 % der Weltbevölkerung –, aber es wird nur für 0,013 % aller Webdomänen verwendet.

Eine in den Einstellungsbeschreibungen von Scale AI beschriebene Aufgabe könnte darin bestehen, dieses Problem anzugehen: eine Kurzgeschichte zu schreiben. Datenarbeiter zu bitten, kreative Texte zu einem bestimmten Thema in einer Sprache wie Bengali zu verfassen, ist eine Möglichkeit, einen neuen Korpus digitalisierter Texte aufzubauen – einen, der nicht an bestehende Internetdomänen gebunden ist.

Die Verwendung dieser Originalgeschichten, die größtenteils frei von Hassreden wären und vollständig den Entwicklern gehören würden, könnte laut Posada den zusätzlichen Vorteil haben, dass die Notwendigkeit einer Inhaltsmoderation auf der ganzen Linie verringert würde. Es könnte auch dazu beitragen, potenziell kostspielige Klagen zu vermeiden, wie sie die New York Times gegen OpenAI erwägt.

Während die Generierung neuer Daten eine Lösung darstellt, sind natürlich auch andere Strategien im Spiel. Eine weitere Aufgabe in den Stellenausschreibungen fordert die Autoren auf, „eine Reihe von Antworten zu bewerten, die von einem KI-Modell erstellt wurden“.

Für Hadfield-Mennell ist das ein klares Beispiel für RLHF oder „verstärktes Lernen aus menschlichem Feedback“. RLHF ist eine Technik, die sich auf die Verfeinerung der Ausgaben eines Modells konzentriert, anstatt nur seine Eingaben zu ändern. Dies befasst sich mit einer weiteren verbreiteten Theorie, warum Modelle mit Sprachen mit geringen Ressourcen zu kämpfen haben. „Die andere Möglichkeit besteht darin, dass Ihnen grundsätzlich das Feedback fehlt, wie man in diesen [ressourcenarmen] Sprachen gut schreibt“, sagte er.

Trotz der komplexen Theorie hinter RLHF ist es für Auftragnehmer relativ einfach. „Sie lassen ein Modell eine Reihe von Antworten auf Bengali generieren und bitten [Arbeiter], eine Rangfolge festzulegen, welche besser ist. Dann werden sie ihr System trainieren, um die vorhergesagten Rankings zu maximieren“, sagte Hadfield-Mennell. Mit anderen Worten: Der Kunde von Scale AI nutzt möglicherweise den von seinen Modellen erzeugten Text, um zu versuchen, diese zu verbessern.

Die Arbeit erfordert immer noch echte Sprachkenntnisse. In einer im Mai veröffentlichten Scale-AI-Vertragsliste wurden Autoren auf Hindi und Japanisch gesucht und die Bewerber mussten entweder einen Master-Abschluss oder einen Doktortitel haben. Die einzige Ausnahme für jahrelange Graduiertenausbildung waren frühere Erfahrungen als professioneller Dichter, Journalist oder Buchverleger in dieser Sprache. Das neuere Einstellungsverfahren stellt weniger strenge Anforderungen, verlangt aber immer noch mindestens die Einschreibung für einen geisteswissenschaftlichen Bachelor-Abschluss.

In einem aktuellen Bericht der Washington Post wurde festgestellt, dass Remotasks, die Arbeitsvertragstochter von Scale AI, regelmäßig Zahlungen an Arbeitnehmer auf den Philippinen zurückgehalten oder verzögert hat, was Zweifel an den allgemeinen Arbeitsbedingungen im Unternehmen aufkommen lässt. Ein im Juli von der Gig-Labour-Forschungsgruppe Fairwork veröffentlichter Bericht gab Remotasks eine Bewertung von 1 von 10 und gab an, dass die Plattform die Mindeststandards für faire Bezahlung und faire Verträge nicht erfüllt habe.

„In einer perfekten Welt wäre es genau das Gegenteil. Ressourcenarme Sprachen würden mehr bezahlt werden.“

Scale AI, der um einen Kommentar gebeten wurde, lehnte es unter Berufung auf die Vertraulichkeit der Kunden ab, auf die Stellenausschreibungen für Sprachen einzugehen, verteidigte jedoch die allgemeineren Vergütungssätze des Unternehmens. „Wir arbeiten mit der Global Living Wage Coalition zusammen und unsere Ökonomen führen vierteljährliche Gehaltsanalysen durch, die eine Reihe von Faktoren berücksichtigen, darunter lokale Miet-, Gesundheits- und Transportkosten, um eine faire und wettbewerbsfähige Vergütung zu gewährleisten“, sagte ein Sprecher Rest der Welt.

Das Ergebnis sind niedrigere Sätze für Arbeitnehmer in Regionen mit einem niedrigeren existenzsichernden Lohn, selbst wenn sie Beispiele einer weniger zugänglichen Sprache bereitstellen. Einem Autor der Marathi-Sprache werden höchstens 1,67 US-Dollar pro Stunde geboten, während einem Finnischen fast das 14-fache garantiert wird. In einem noch bizarreren Fall wurden portugiesischen Schriftstellern aus Portugal bis zu 8,20 Dollar pro Stunde geboten, während portugiesische Schriftsteller aus Brasilien nur 3,97 Dollar pro Stunde verdienen konnten. Abgesehen von Lohn und Herkunftsland ist die Beschreibung der beiden Berufe identisch.

„In einer perfekten Welt wäre es genau das Gegenteil. „Sprachen mit geringen Ressourcen würden mehr bezahlt“, sagte Milagros Miceli, ein wissenschaftlicher Mitarbeiter am Distributed Artificial Intelligence Research Institute (DAIR), der sich mit den Arbeitsbedingungen in der Datenarbeit befasst, gegenüber Rest of World. Obwohl sie in der KI-Entwicklung „seltener“ sind, erhalten Sprachexperten mit geringen Ressourcen nur ein Fünfzehntel des Gehalts einiger ihrer europäischen Sprachkollegen.

„Es besteht ein Zusammenhang zwischen Sprachen, die nur an historisch benachteiligten Orten gesprochen werden, und den Löhnen, die man den Menschen an diesen Orten zahlen kann“, sagte Miceli.

Chatbots und generative KI-Tools sind nicht die einzigen Technologien, die Schwierigkeiten haben, die Kluft bei den „ressourcenarmen“ Sprachtrainingsdaten zu überbrücken. Maschinelle Übersetzungsprodukte wie Google Translate haben in weniger vorherrschenden Sprachen immer noch Probleme – seien es die afghanischen Sprachen Paschtu und Dari oder die äthiopische Sprache Amharisch. Selbst die KI-Moderationstools von Meta versagen regelmäßig, wenn es darum geht, Hassreden in ressourcenarmen Sprachen zu identifizieren.

Hadfield-Mennell sagte, die ausgeschriebenen Stellen seien ein Zeichen dafür, dass einer der größten Entwickler im Silicon Valley sich der Lücken in ressourcenarmen Sprachen bewusst sei und zumindest Geld in die Lösung des Problems stecke.

„Es ist entweder eine Strategie zur Verbesserung der Leistung in einer Vielzahl von Sprachen oder eine Strategie, sich selbst als jemand zu vermarkten, der sie verbessert hat“, sagte er. „Es ist wahrscheinlich ein bisschen von beidem.“