AI M2-Kopfhörer: Sofortübersetzung für mehrere Sprecher

Drahtlose Ohrhörer haben schon immer angeboten Pixelknospen Von der Google-Funktion Sofortübersetzung toll. In den letzten Jahren haben Marken wie Timkettle ähnliche Ohrhörer für Geschäftskunden angeboten. Allerdings können alle diese Lösungen jeweils nur einen Audiostream zur Übersetzung verarbeiten.

Forscher der University of Washington (UW) haben etwas wirklich Bemerkenswertes entwickelt: KI-betriebene Kopfhörer, die die Stimmen mehrerer Sprecher gleichzeitig übersetzen können. Stellen Sie sich das wie eine mehrsprachige Person in einer überfüllten Bar vor, die in der Lage ist, die Sprache der Menschen um sie herum zu verstehen, die verschiedene Sprachen gleichzeitig sprechen. Diese Innovation stellt einen Quantensprung in der Simultanübersetzungstechnologie dar.

Das Team bezeichnet seine Innovation als „räumliche Sprachübersetzung“ und sie wird durch binaurale Kopfhörer erreicht. Für diejenigen, die es nicht wissen: Mit der binauralen Audiotechnologie wird versucht, Klangeffekte genau so zu simulieren, wie das menschliche Ohr sie natürlicherweise wahrnimmt. Zur Aufnahme werden Mikrofone auf dem Kopf einer Puppe platziert, und zwar im gleichen Abstand wie die menschlichen Ohren auf beiden Seiten. Diese Technologie basiert auf der Aufnahme von Audio aus zwei verschiedenen Quellen, um ein 3D-Hörerlebnis zu erzeugen.

Dieser Ansatz ist von entscheidender Bedeutung, da unsere Ohren nicht nur Geräusche hören, sondern uns auch dabei helfen, die Richtung ihrer Quelle zu messen. Das Gesamtziel besteht darin, eine natürliche Klangbühne mit Stereoeffekt zu erzeugen, die ein lebendiges, konzertähnliches Gefühl vermitteln kann. Oder, im modernen Kontext, räumliches Zuhören. Diese Technologie verbessert das Benutzererlebnis durch realistischen Surround-Sound.

Diese Arbeit ist dem Team um Professor Shyam Gollakota zu verdanken. Zu seinen Erfolgen zählen Anwendungen wie Unterwasser-GPS auf Smartwatches, die Verwandlung von Käfern in Fotografen, Gehirnimplantate zur Interaktion mit elektronischen Geräten, eine mobile App zum Hören von Infektionen und vieles mehr. Diese Erfolge unterstreichen Professor Gollakotas Expertise im Bereich innovativer Technologien.

Wie funktioniert die Mehrsprecherübersetzung?

„Zum ersten Mal haben wir die Stimme jeder Person und ihre Richtung beibehalten“, erklärt Golkota, derzeit Professor an der Paul G. Allen School of Computer Science and Engineering des Instituts.

Das Team vergleicht seine Technologie mit einem Radar, das zunächst die Anzahl der Sprecher in der Umgebung ermittelt und diese Zahl in Echtzeit aktualisiert, wenn Personen in den Hörbereich hinein- und wieder hinausgehen. Dieser Ansatz ist vollständig gerätebasiert und beinhaltet nicht das Senden von Benutzer-Sprachströmen zur Übersetzung an einen Cloud-Server. Oh, Privatsphäre!

Neben der Übersetzung von Sprache sorgt die Gruppe auch dafür, dass „die Ausdrucksqualitäten und die Lautstärke der Stimme jedes Sprechers erhalten bleiben“. Darüber hinaus werden Richtungs- und Lautstärkeanpassungen vorgenommen, wenn sich der Lautsprecher im Raum bewegt. Interessanterweise soll Apple auch entwickeln Ein System, mit dem AirPods Sprache übersetzen können in Echtzeit.

Wie gelingt mit künstlicher Intelligenz eine Sofortübersetzung?

Das Team der University of Washington (UW) testete die Übersetzungsfunktionen von KI-gestützten intelligenten Kopfhörern an fast einem Dutzend Standorten im Innen- und Außenbereich. Was die Leistung betrifft, kann das System die übersetzten Audiodaten innerhalb von 12–2 Sekunden empfangen, verarbeiten und produzieren. Die Testteilnehmer scheinen eine Verzögerung von 4–3 Sekunden zu bevorzugen, aber das Team arbeitet daran, den Übersetzungsprozess zu beschleunigen.

Bisher hat das Team nur Übersetzungen für Spanisch, Deutsch und Französisch getestet, hofft aber, die Suite um Plus erweitern zu können. Technisch gesehen haben sie Blindquellentrennung, Lokalisierung, ausdrucksstarke Echtzeitübersetzung und binaurale Übertragung in einem einzigen Stream zusammengefasst – eine beeindruckende Leistung. Diese Integration fortschrittlicher Technologien stellt einen Quantensprung im Bereich der Simultanübersetzung dar.

Für das System entwickelte das Team ein Sprachübersetzungsmodell, das in Echtzeit auf dem Apple M2-Chip ausgeführt werden kann und so Echtzeit-Inferenz ermöglicht. Für die Audiowiedergabe sorgten ein Paar geräuschunterdrückende Kopfhörer Sony WH-1000XM4 und ein binaurales USB-Mikrofon Sonic Presence SP15C.

Und hier ist das Beste. „Der Proof-of-Concept-Maschinencode steht anderen zur Verfügung, damit sie darauf aufbauen können“, heißt es in der Pressemitteilung der Stiftung. Dies bedeutet, dass die wissenschaftliche Gemeinschaft und die Open-Source-Software-Community von fortgeschritteneren Projekten lernen und auf ihnen aufbauen können, die auf den Grundlagen des UW-Teams basieren. Dies öffnet die Tür für zukünftige Entwicklungen in der Übersetzungstechnologie mithilfe künstlicher Intelligenz.