KI-Unternehmen stehen vor einer Abrechnung wegen Data Scraping

Hallo und willkommen bei Eye on AI. In der vergangenen Woche kamen 12 Datenschutzbeauftragte aus der ganzen Welt zusammen, um eine gemeinsame Erklärung zum Thema Data Scraping und seinen Auswirkungen auf die Privatsphäre abzugeben.

Die Erklärung – unterzeichnet von Datenschutzbeauftragten aus Australien, Kanada, Mexiko, China, der Schweiz, Kolumbien, Argentinien und dem Vereinigten Königreich, um nur einige zu nennen – richtet sich an Website-Betreiber, insbesondere Social-Media-Unternehmen, und besagt, dass sie Verpflichtungen zum Datenschutz haben und Datenschutzgesetze, um Informationen auf ihren Plattformen vor rechtswidrigem Data Scraping zu schützen. Selbst öffentlich zugängliche personenbezogene Daten unterliegen in den meisten Rechtsordnungen diesen Gesetzen, heißt es in der Erklärung. Insbesondere wird in der Erklärung auch dargelegt, dass Vorfälle des Data Scraping, bei denen personenbezogene Daten erfasst werden, in vielen Gerichtsbarkeiten meldepflichtige Datenschutzverletzungen darstellen können.

Zusätzlich zur Veröffentlichung der Erklärung geben die Autoren an, sie direkt an Alphabet (YouTube), ByteDance (TikTok), Meta (Instagram, Facebook und Threads), Microsoft (LinkedIn), Sina Corp (Weibo) und X Corp. gesendet zu haben. (X, früher Twitter). Sie schlagen außerdem eine Reihe von Kontrollen vor, die diese Unternehmen einrichten sollten, um Benutzer vor Schäden im Zusammenhang mit Daten-Scraping zu schützen, einschließlich der Benennung eines Teams, das Scraping-Aktivitäten überwacht und darauf reagiert.

Zu den beschriebenen potenziellen Schäden zählen Cyberangriffe, Identitätsbetrug, Überwachung, unbefugte politische oder nachrichtendienstliche Sammlung sowie unerwünschtes Marketing und Spam. Obwohl künstliche Intelligenz in der Erklärung kein einziges Mal erwähnt wird, wird sie zunehmend zu einem wichtigen Brennpunkt in dieser Angelegenheit.

Das Scraping des Internets – einschließlich der Informationen auf Social-Media-Seiten – ist genau die Art und Weise, wie KI-Kraftpakete wie OpenAI, Meta und Google einen Großteil der Daten erhalten, um ihre Modelle zu trainieren. Und gerade in den letzten Wochen hat sich das Data Scraping zu einer wichtigen Kampffront in der neuen KI-Landschaft entwickelt. Die New York Times beispielsweise hat Anfang des Monats ihre Nutzungsbedingungen aktualisiert, um zu verhindern, dass ihre Inhalte durch KI gescrapt werden, und nun erwägt der Verlag, OpenAI in dieser Angelegenheit zu verklagen. Dies folgt auf eine geplante Sammelklage gegen OpenAI und den Investor Microsoft, die im Juni eingereicht wurde und in der behauptet wird, das Unternehmen habe heimlich die persönlichen Daten von Hunderten Millionen Nutzern ohne Vorankündigung, Zustimmung oder einfach nur eine Entschädigung aus dem Internet gelöscht.

Es ist äußerst unwahrscheinlich, dass ein stark formulierter Brief Auswirkungen auf die Aktivitäten dieser Technologiegiganten hat, wohl aber könnten Klagen und Vorschriften gegen Data Scraping Auswirkungen haben. In der EU, wo der Datenschutz und jetzt auch die KI-Regulierung ziemlich schnell voranschreitet, wird beispielsweise das Data Scraping von Regierungsbehörden zunehmend unter die Lupe genommen.

Im Kern geht es bei KI um Daten. Das wirft also die Frage auf: Wenn Unternehmen nicht in der Lage sind, Daten frei zu extrahieren, woher bekommen sie dann die Daten, die sie zum Trainieren ihrer Modelle benötigen?

Eine Option sind synthetische Daten, bei denen es sich um Informationen handelt, die künstlich generiert und nicht durch Ereignisse in der realen Welt erstellt wurden. Bei diesem Prozess wird oft, aber nicht immer, KI selbst eingesetzt, um aus einem kleineren Satz realer Daten einen großen Datensatz synthetischer Daten zu erstellen, wobei die resultierenden synthetischen Daten die statistischen Eigenschaften der realen Daten widerspiegeln.

Solange die Originaldaten nicht gelöscht werden, könnte dies eine praktikable Lösung sein. Gartner schätzt, dass synthetische Daten bis 2030 reale Daten in KI-Modellen überholen werden. Aber synthetische Daten haben ihre Nachteile. Es kann beispielsweise passieren, dass Ausreißer übersehen werden, Ungenauigkeiten auftreten und im Idealfall zusätzliche Verifizierungsschritte erforderlich sind, die den Prozess verlangsamen. Und während einige Unternehmen behaupten, dass synthetische Daten Verzerrungen beseitigen, widerlegen viele Experten dies und sehen Möglichkeiten, wie einige Formen synthetischer Daten tatsächlich zu zusätzlichen Verzerrungen in Datensätzen führen können.

Eine weitere mögliche Lösung ist das Opt-in von First-Party-Daten. Im Gegensatz zu der Art und Weise, wie Daten aus der realen Welt in der Vergangenheit abgekratzt, ohne Genehmigung verwendet und sogar unter den Nutzern verkauft wurden, handelt es sich hierbei um Daten aus der realen Welt, die freiwillig zur Verfügung gestellt werden.

Streamlytics mit Sitz in Miami ist ein Unternehmen, das im aufstrebenden Opt-in-First-Party-Datenbereich mit dem Ziel arbeitet, Datenströme ethischer zu gestalten. Das Unternehmen bezahlt Benutzer dafür, dass sie ihre eigenen Daten von von ihnen genutzten Websites wie Netflix herunterladen und auf Streamlytics hochladen, wo sie dann verpackt und an Kunden verkauft werden, die sie kaufen möchten. Kunden können bestimmte Arten von Daten anfordern, die sie benötigen, und Benutzer behalten das Eigentum an den Daten und können jederzeit deren Löschung beantragen.

Gründerin und CEO Angela Benton sagte gegenüber Eye on AI, dass ihr Unternehmen angesichts des aktuellen Booms generativer KI „einen bemerkenswerten Anstieg des Interesses“ verzeichnet habe. Ein großer Teil dieses Interesses komme, sagte sie, von kleinen und mittleren Unternehmen, die nach Lösungen zum Trainieren benutzerdefinierter KI-Modelle suchen.

„Aufgrund der Größe dieser Unternehmen fehlt ihnen in den meisten Fällen der Datenumfang, der zum Trainieren und Anpassen ihrer Modelle erforderlich ist“, sagte sie. „Sie suchen aktiv nach Lösungen, die die Daten liefern können, die sie benötigen, und die meisten neigen zu Modellen, die von Grund auf ethisch sind.“

Aus diesem Grund entwickelt Streamlytics neue Angebote, um dem zunehmenden Einstieg von Unternehmen in die generative KI gerecht zu werden. So können Unternehmen beispielsweise zwischen rein von Menschen generierten Daten, synthetischen Daten oder einer Mischung aus beidem wählen, die alle einvernehmlich erfasst werden.

In Gesprächen mit Kunden sagte Benton, es bestehe „ein hohes Maß an Besorgnis hinsichtlich rechtlicher Rückwirkungen durch die Verwendung gecrackter Daten“.

„Während alle von KI begeistert sind, möchte niemand verklagt werden“, sagte sie. „Daher gibt es eine zusätzliche Sorgfaltsebene, insbesondere bei größeren Organisationen, die die Überprüfung der Prozesse zur Datenbeschaffung und der Zeitpläne für die Datenbereinigung umfasst.“

Es ist ironisch, dass die größeren Organisationen, die genau die Modelle entwickelt haben, die diesen generativen KI-Boom auslösten, dies nicht mit der gleichen Sorgfalt oder Sorgfalt taten. Darüber hinaus verfügen diese Unternehmen über nahezu unbegrenzte Ressourcen und sind daher am besten für den ethischen Weg gerüstet.

Sogar ImageNet, der Datensatz mit Millionen getaggter Bilder, der nach seiner Veröffentlichung im Jahr 2010 im Alleingang den Aufstieg der KI vorangetrieben hat, bestand größtenteils aus Bildern, die nicht einvernehmlich aus dem Internet gefischt wurden. Seit ihren Anfängen basierte die KI auf gestohlenen Daten, und nun beginnt ihre Abrechnung.

Und damit ist hier der Rest der KI-Neuigkeiten dieser Woche.

Aber zuerst ein kurzer Hinweis auf die bevorstehende Brainstorm AI-Konferenz von Fortune in San Francisco11.–12. Dezember Hier erhalten Sie wichtige Einblicke darüber, wie die leistungsstärkste und weitreichendste Technologie unserer Zeit Unternehmen verändert, die Gesellschaft verändert und unsere Zukunft beeinflusst. Zu den bestätigten Rednern zählen KI-Koryphäen wie PayPalJohn Kim,CEO von Salesforce AIClara Shih,IBMsChristina Montgomery, CEO von QuizletLex Bayer,und mehr.Bewerben Sie sich noch heute für die Teilnahme!

Weiser Lazarus[email protected]

OpenAI veröffentlicht ChatGPT Enterprise. Das neue Angebot kann die gleichen Aufgaben wie ChatGPT ausführen, bietet jedoch einen schnelleren GPT-4-Zugriff, Anpassungsoptionen, erweiterte Datenanalysefunktionen, Verwaltungstools zur Verwaltung der Nutzung durch Mitarbeiter sowie Sicherheit und Datenschutz auf „Unternehmensniveau“. Auch wenn es keine gute Idee wäre, vertrauliche Informationen Ihres Unternehmens in das ursprüngliche ChatGPT einzugeben, wurde ChatGPT Enterprise speziell dafür entwickelt, Unternehmen genau dies zu ermöglichen. In seinem Blogbeitrag zur Ankündigung der neuen Version betonte OpenAI, dass es „nicht auf Ihren Geschäftsdaten oder Gesprächen trainiert und unsere Modelle nicht aus Ihrer Nutzung lernen“.

DoorDash führt KI-gestützte Sprachbestellung für Restaurants ein. Mit der Begründung, dass 20 % der Kunden es vorziehen, Essen zum Mitnehmen per Telefon zu bestellen, aber bis zu 50 % der Restaurantanrufe unbeantwortet bleiben, kündigte DoorDash eine neue Funktion an, die den Einsatz von KI mit Live-Agenten koppelt, um sicherzustellen, dass alle Kundenanrufe umgehend beantwortet werden. Das Unternehmen behauptet, dass die Technologie es Restaurantmitarbeitern ermöglichen wird, sich stärker auf die Kunden im Geschäft zu konzentrieren, ohne potenzielle Einnahmen durch Kunden zu verpassen, die versuchen, Bestellungen zum Mitnehmen aufzugeben.

Das Nationalarchiv stellt seinen Plan vor, KI für die Aktenverwaltung einzusetzen. Die mit der Verwaltung aller US-Regierungsdokumente beauftragte Behörde – die National Archives and Records Administration – hat laut FedScoop ihr Interesse daran bekundet, KI für das automatische Ausfüllen von Metadaten und die Beantwortung von FOIA-Anfragen zu nutzen. Die meisten Bundesbehörden sind aufgrund einer Durchführungsverordnung aus dem Jahr 2020 verpflichtet, ihre KI-Anwendungsfallbestände offenzulegen.

Hugging Face sammelt 235 Millionen US-Dollar von Big Tech. Google, Amazon, Nvidia, Intel, AMD, Qualcomm, IBM und Salesforce sowie Sound Ventures nahmen alle an der Serie-D-Runde teil, bei der das beliebte Modell-Repository und MLOps-Unternehmen mit 4,5 Milliarden US-Dollar bewertet wurde. Hugging Face ist laut TechCrunch eines der finanzkräftigsten KI-Unternehmen und liegt hinter OpenAI, Anthropic, Inflection AI und nur wenigen anderen. Die Einbeziehung von Nvidia ist besonders interessant (und vorteilhaft für Hugging Face), da große und kleine Unternehmen um die Aufmerksamkeit des Unternehmens wetteifern, um sich seine äußerst wertvollen H100-GPUs zu sichern. Bereits vor der Finanzierungsrunde bestand zwischen Hugging Face und Nvidia eine Arbeitspartnerschaft.

Die Cloud-Abteilung von Alibaba kündigt im Hinblick auf einen Börsengang zwei neue KI-Modelle an. Laut CNBC können die neuen Versionen Qwen-VL und Qwen-VL-Chat im Vergleich zu Alibabas früheren Modellen Bilder besser verstehen und komplexere Gespräche führen. Die neuen Modelle stammen von Alibabas Cloud Intelligence Group, einer der sechs Geschäftsbereiche, in die sich das chinesische Megaunternehmen Anfang des Jahres aufgeteilt hat. Laut CNBC drängt die Gruppe AI dazu, ihr Geschäft neu zu beleben, während sie sich auf den Börsengang vorbereitet. Das Unternehmen gibt an, dass Qwen-VL und Qwen-VL-Chat Open-Source-Lösungen sind (Details, die verraten würden, wie offen sie wirklich sind, sind jedoch noch nicht verfügbar), und tatsächlich könnte es einen einfachen Einstieg für Entwickler ermöglichen, auf seinen Modellen aufzubauen Cloud-Gruppe, um mehr Geschäfte zu machen.

LLMs abfragen. Wenn ein LLM wie ChatGPT an einer Prüfung teilnehmen würde, würde er die Daumen drücken, dass die Fragen in Form von Kurzantworten oder Essays gestellt werden. Das liegt daran, dass laut einer neuen Forschungsarbeit von Megagon Labs LLMs bei der Beantwortung von Multiple-Choice-Fragen ziemlich schlecht sind.

Unter Berufung auf frühere Untersuchungen, die zeigten, dass LLMs empfindlich auf die Formulierung von Eingabeaufforderungen reagieren und auf die Tatsache, dass Multiple-Choice-Fragen beim Testen von Modellen üblich sind, versuchten die Forscher zu verstehen, wie sich die Reihenfolge der Antworten auf die Antwort eines Modells auswirkt. Sie führten eine Reihe von Tests mit GPT-4 und InstructGPT von OpenAI durch und stellten bei der Reihe von Fragen, die sie den LLMs stellten, eine „erhebliche Leistungslücke“ von etwa 13 % bis 75 % fest. Im Wesentlichen führte die bloße Änderung der Reihenfolge, in der die Auswahlmöglichkeiten angeordnet waren, häufig dazu, dass das Modell von der Auswahl der richtigen Antwort zur Auswahl einer falschen wechselte.

Insgesamt stellten die Forscher fest, dass die Sensitivität auftritt, wenn das Modell sich zwischen den Top-2- oder Top-3-Optionen nicht sicher ist, und sie offenbaren ein Muster dafür entdeckt, wie sich die Reihenfolge darauf auswirkt, welche Antwort das Modell letztendlich wählt. „Um die Voreingenommenheit zu verstärken, haben wir herausgefunden, dass die optimale Strategie darin besteht, die beiden besten Optionen als erste und letzte Option zu positionieren. Um die Verzerrung zu mildern, empfehlen wir umgekehrt, diese Auswahlmöglichkeiten zu den benachbarten Optionen zu zählen“, schrieb er in dem Papier.

Große Medienorganisationen stellen für ChatGPT „Zutritt verboten“-Schilder auf – Rachyl Jones

Nvidia-Ergebnisse werden als historischer Moment für die Technologie gefeiert, aber einige warnen davor, dass die KI ihren Höhepunkt erreicht – „dieses Ausmaß an Hype ist gefährlich“ – Chloe Taylor

China macht im KI-Wettrüsten einen Sprung nach vorne, als Alibaba einen neuen Chatbot herausbringt, der Bilder „lesen“ kann – Paolo Confino

Hollywood sollte KI nicht völlig ablehnen – sie läutet bereits eine neue Ära der Filmmagie ein – Howard Wright

Ich habe ChatGPT gegen einen echten Finanzberater antreten lassen, der mir helfen soll, für den Ruhestand zu sparen – und die Gewinnerin steht fest: Coryanne Hicks

Die dreitägige Cloud Next-Konferenz von Google hat heute in San Francisco begonnen und hat bereits einen guten Start hingelegt, da am frühen Morgen mehrere Neuerscheinungen erscheinen.

Das Unternehmen kündigte neue, für KI optimierte Infrastrukturtools an, darunter TPU v5e, die fünfte Generation seiner Tensorverarbeitungseinheiten für KI-Training und -Inferenz. Mit dieser Version wirbt Google für Effizienz mit einer zweifachen Verbesserung der Trainingsleistung pro Dollar und einer 2,5-fachen Verbesserung der Inferenzleistung pro Dollar im Vergleich zur letzten Generation. Insgesamt „lieferte Cloud TPU v5e durchweg eine bis zu viermal höhere Leistung pro Dollar als vergleichbare Lösungen auf dem Markt für die Ausführung von Inferenzen auf unserem Produktions-ASR-Modell“, heißt es im Ankündigungs-Blogbeitrag. Da die hohen Kosten, die mit dem Training und dem anschließenden tatsächlichen Betrieb von KI-Modellen verbunden sind, neben dem Zugriff auf Trainingsdaten und Rechenleistung eine der größten Hürden und Hürden für den Einstieg darstellen, werden wir bei zukünftigen Versionen von wahrscheinlich einen noch stärkeren Fokus auf Effizienz sehen Google und darüber hinaus.

Google kündigte außerdem mehrere neue Modelle und Tools an, die in seiner Vertex AI Cloud-Plattform verfügbar sind – darunter Modelle von Meta (Llama 2 und Code Llama), Anthropic (Claude 2) und Falcon LLM, einem beliebten Open-Source-Modell des Technology Innovative Institute. Dies bedeutet, dass Unternehmen diese Modelle innerhalb der Google-Plattform für ihre eigenen Zwecke nutzen können und sich so als All-in-One-Plattform positionieren können, auf der Kunden ihre Cloud-Anforderungen erfüllen und auf die wichtigsten Modelle zugreifen können, die den generativen KI-Boom vorantreiben.

Im Rahmen von Vertex kündigte Google außerdem digitale Wasserzeichen an, die von DeepMind SynthID unterstützt werden. Das Unternehmen gibt an, dass dies einen „skalierbaren Ansatz zur verantwortungsvollen Erstellung und Identifizierung von KI-generierten Bildern“ bietet und behauptet, es sei der erste Hyperscale-Cloud-Anbieter, der diese Technologie für KI-generierte Bilder anbietet. Da sich unsere Welt schnell mit von KI generierten Inhalten füllt, wird das digitale Wasserzeichen zunehmend als Lösung zur Unterscheidung dessen, was von Menschenhand und was von KI gemacht ist, in Umlauf gebracht, und dies könnte ein erster Schritt sein, um herauszufinden, ob es tatsächlich funktioniert.

Darüber hinaus kündigte Google neue Upgrades seiner Duet AI-Erlebnisse für Google Meet und Google Chat an. Am interessantesten sind vielleicht die neuen KI-gestützten Notizfunktionen, mit denen die App ein Meeting in Echtzeit zusammenfasst, Aktionspunkte bereitstellt und die Notizen sowie Videoclips wichtiger Momente des Meetings in Google Docs speichert Zukunftsbezug. Wenn ein Teilnehmer zu spät zu einem Meeting kommt, kann er sogar privat mit einem Google-Chatbot sprechen, der ihn darüber informiert, was er verpasst hat – und das alles, während das Meeting noch läuft. So gut wie alle sind sich einig, dass Meetings scheiße sind. Bei solchen Funktionen fragen wir uns möglicherweise bald, ob wir überhaupt Besprechungen abhalten müssen. Oder, wenn Unternehmen sie weiterhin haben, müssen wir dann überhaupt auftauchen?

Dies ist die Online-Version von Eye on AI, einem kostenlosen Newsletter, der dienstags in die Posteingänge verschickt wird. Hier anmelden.

11.–12. DezemberJohn Kim,Clara Shih,Christina MontgomeryLex Bayer,.Weiser Lazarus