ZUR SOFORTIGEN VERÖFFENTLICHUNG Nr. 3112

Bei diesem Text handelt es sich um eine Übersetzung der offiziellen englischen Version dieser Pressemitteilung, die nur als Hilfestellung und Referenz bereitgestellt wird. Ausführliche und/oder spezifische Informationen entnehmen Sie bitte der englischen Originalversion. Im Falle von Abweichungen hat der Inhalt der englischen Originalversion Vorrang.

Mitsubishi Electric trennt gleichzeitige, mit einem Mikrofon aufgenommene Sprachaufzeichnungen mehrerer unbekannter Sprecher

Die Sprachtrennungstechnologie wird mit der proprietären, auf künstlicher Intelligenz basierenden „Deep Clustering“-Methode ermöglicht

PDF-Version (PDF:372.2KB)

TOKIO, 24. Mai 2017 – Mitsubishi Electric Corporation (TOKIO: 6503) gab heute die Entwicklung der weltweit ersten Technologie bekannt, die gleichzeitige, mit einem Mikrofon in Echtzeit aufgenommene Sprachaufzeichnungen mehrerer unbekannter Sprecher trennt und mit hoher Qualität rekonstruiert. Im Rahmen von Tests wurden die gleichzeitigen Sprachaufzeichnungen von zwei und drei Personen mit jeweils bis zu 90- bzw. 80-prozentiger Genauigkeit getrennt, was zum Zeitpunkt dieser Mitteilung nach Auffassung des Unternehmens eine absolute Weltneuheit ist. Die brandneue Technologie, die mit der proprietären, auf künstlicher Intelligenz (KI) basierenden „Deep Clustering“-Methode von Mitsubishi Electric ermöglicht wurde, soll zu einer besser verständlichen Sprachkommunikation und einer genaueren automatischen Spracherkennung beitragen.

Bei zwei gleichzeitigen Sprechern wurde eine Genauigkeit von über 90 Prozent erzielt, was im gewerblichen Bereich ausreicht. Mit herkömmlicher Technologie wurde im Vergleich dazu nur eine Genauigkeit von 51 Prozent erreicht. Die neue Technologie kann zwischen verschiedenen Kombinationen von mehreren gesprochenen Sprachen und Geschlecht unterscheiden. Die oben genannten Ergebnisse basieren auf optimalen Aufnahmebedingungen wie niedrigem Hintergrund-Geräuschpegel und Sprechern, die ungefähr gleich laut sprechen.
Bei der Deep Clustering-Technologie wird die proprietäre Deep Learning-Methode von Mitsubishi Electric eingesetzt, um zu ermitteln, wie Signalkomponenten der Originalsprachdaten mehrerer Sprecher codiert werden müssen, damit die Signalkomponenten jedes einzelnen Sprechers anhand ihrer Codierungen einfach voneinander unterschieden werden können. Um dies zu erreichen werden die Codierungen so optimiert, dass verschiedene Signalkomponenten desselben Sprechers ähnliche Codierungen aufweisen, während die Signalkomponenten anderer Sprecher völlig andere Codierungen haben. Die ermittelte Codierungstransformation wird auf die Eingabesprache angewendet, und die Codierungen der Signalkomponenten jedes Sprechers werden mit einem Clustering-Algorithmus identifiziert, der Datenpunkte in Abhängigkeit ihrer Gemeinsamkeiten in Gruppen verarbeitet. Anschließend wird die Sprachaufzeichnung jedes Sprechers durch Resynthese von dessen getrennten Sprachkomponenten rekonstruiert.

Genauigkeit bei der Trennung gleichzeitiger Sprachaufzeichnungen mehrerer Sprecher*

  Zwei Sprecher (ein Mikrofon) Drei Sprecher (ein Mikrofon)
Neue Technologie > 90 % (absolute Weltneuheit) > 80 % (absolute Weltneuheit)
Herkömmliche Technologie 51 %

* Auf der Basis optimaler Aufnahmebedingungen

Hinweis: Die Pressemitteilungen sind zum Zeitpunkt ihrer Veröffentlichung korrekt. Sie können jedoch ohne vorherige Ankündigung geändert werden.