KI-Stimmen sind schwer zu erkennen, selbst wenn Sie wissen, dass es sich beim Audio möglicherweise um einen Deepfake handelt

Deepfake-Audio kann Menschen täuschen, selbst wenn sie wissen, dass sie möglicherweise eine von KI erzeugte Stimme hören – KI-gestützte Detektoren müssen möglicherweise verstärkt werden, um Menschen dabei zu helfen, Deepfakes von authentischer menschlicher Sprache zu unterscheiden

Von Jeremy Hsu

2. August 2023

Können Sie erkennen, ob Sie einer KI-generierten Stimme zugehört haben?

Shutterstock/Fizkes

Selbst wenn Menschen wissen, dass sie möglicherweise KI-generierte Sprache hören, ist es sowohl für Englisch- als auch für Mandarin-Sprecher immer noch schwierig, eine Deepfake-Stimme zuverlässig zu erkennen. Das bedeutet, dass Milliarden von Menschen, die die am häufigsten gesprochenen Sprachen der Welt verstehen, potenziell gefährdet sind, wenn sie Deepfake-Betrügereien oder Fehlinformationen ausgesetzt werden.

Kimberly Mai vom University College London und ihre Kollegen forderten mehr als 500 Menschen auf, Sprach-Deepfakes in mehreren Audioclips zu identifizieren. Einige Clips enthielten die authentische Stimme einer Sprecherin, die generische Sätze entweder auf Englisch oder Mandarin vorlas, während es sich bei anderen um Deepfakes handelte, die von generativen KIs erstellt wurden, die auf Frauenstimmen trainiert wurden.

Mehr lesen:

Energiespeichernder Beton könnte das Fundament für solarbetriebene Häuser bilden

Die Studienteilnehmer wurden zufällig zwei verschiedenen möglichen Versuchsaufbauten zugeordnet. Eine Gruppe hörte sich 20 Sprachproben in ihrer Muttersprache an und musste entscheiden, ob die Clips echt oder gefälscht waren.

In etwa 70 Prozent der Fälle wurden die Deepfakes und die authentischen Stimmen korrekt klassifiziert, sowohl für die englischen als auch für die mandarinischen Sprachproben. Das deutet darauf hin, dass die menschliche Erkennung von Deepfakes im wirklichen Leben wahrscheinlich noch schlimmer sein wird, da die meisten Menschen nicht unbedingt im Voraus wissen würden, dass sie möglicherweise KI-generierte Sprache hören.

Eine zweite Gruppe erhielt 20 zufällig ausgewählte Paare von Audioclips. Jedes Paar enthielt den gleichen Satz, der von einem Menschen und der Deepfake gesprochen wurde, und die Teilnehmer wurden gebeten, die Fälschung zu kennzeichnen. Dadurch stieg die Erkennungsgenauigkeit auf über 85 Prozent – obwohl das Team einräumte, dass dieses Szenario den Zuhörern einen unrealistischen Vorteil verschaffte.

Abonnieren Sie unseren The Daily-Newsletter

Täglich die neuesten wissenschaftlichen Nachrichten in Ihrem Posteingang.

„Dieser Aufbau ist nicht vollständig repräsentativ für reale Szenarien“, sagt Mai. „Den Zuhörern wird nicht vorher mitgeteilt, ob das, was sie hören, echt ist, und Faktoren wie das Geschlecht und das Alter des Sprechers könnten die Erkennungsleistung beeinflussen.“

Die Studie forderte die Zuhörer auch nicht dazu auf, herauszufinden, ob die Deepfakes wie eine Nachahmung der Zielperson klingen oder nicht, sagt Hany Farid von der University of California in Berkeley. In realen Situationen ist es wichtig, die authentische Stimme bestimmter Sprecher zu identifizieren: Betrüger haben die Stimmen von Wirtschaftsführern geklont, um Mitarbeiter zu Geldüberweisungen zu verleiten, und Fehlinformationskampagnen haben Deepfakes bekannter Politiker in soziale Netzwerke hochgeladen.

Mehr lesen:

Künstliche Spinnenseide könnte uns helfen, Trinkwasser aus der Luft zu gewinnen

Dennoch beschrieb Farid diese Forschung als hilfreich bei der Bewertung, wie gut sich KI-generierte Deepfakes „durch das unheimliche Tal bewegen“ und den natürlichen Klang menschlicher Stimmen nachahmen, ohne subtile Sprachunterschiede beizubehalten, die für Zuhörer unheimlich wirken könnten. Die Studie biete eine nützliche Grundlage für automatisierte Deepfake-Erkennungssysteme, sagt er.

Weitere Versuche, die Teilnehmer darin zu schulen, ihre Deepfake-Erkennung zu verbessern, scheiterten im Allgemeinen. Das legt nahe, dass es wichtig ist, KI-gestützte Deepfake-Detektoren zu entwickeln, sagt Mai. Sie und ihre Kollegen wollen testen, ob große Sprachmodelle, die Sprachdaten verarbeiten können, diese Aufgabe erfüllen können.

Zeitschriftenreferenz:

PLUS EIN DOI: 10.1371/journal.pone.0285333

Themen: