ZUR SOFORTIGEN VERÖFFENTLICHUNG Nr. 3259

Bei diesem Text handelt es sich um eine Übersetzung der offiziellen englischen Version dieser Pressemitteilung, die nur als Hilfestellung und Referenz bereitgestellt wird. Ausführliche und/oder spezifische Informationen entnehmen Sie bitte der englischen Originalversion. Im Falle von Abweichungen hat der Inhalt der englischen Originalversion Vorrang.

Mitsubishi Electric entwickelt mehrsprachige Spracherkennungstechnologie, die automatisch die jeweils gesprochene Sprache ermittelt

Die Technologie soll bei der Entwicklung geeigneter Sprachschnittstellen für verschiedenste Anwendungen helfen und basiert auf der unternehmenseigenen kompakten KI der Marke Maisart. Das Ziel ist es, gesprochene Sprachen gleichzeitig zu ermitteln und zu verstehen – selbst dann, wenn mehrere Personen sprechen.

PDF-Version (PDF:263.1KB)

TOKIO, 13. Februar 2019 – Mitsubishi Electric Corporation (TOKIO: 6503) gab heute die Entwicklung der laut eigener Aussage weltweit ersten Technologie bekannt, die in der Lage ist, zuverlässig mehrere Sprachen zu erkennen, ohne zuvor Hinweise zur gesprochenen Sprache zu erhalten. Die neuartige Technologie der nahtlosen Spracherkennung setzt auf die proprietäre, auf kompakter KI basierende Technologie der Marke Maisart®* von Mitsubishi Electric und basiert auf einem zentralen System, das gesprochene Sprachen gleichzeitig ermitteln und verstehen kann. In separaten Tests mit fünf bzw. zehn Sprachen, die jeweils in geräuscharmen Umgebungen durchgeführt wurden, erreichte das System eine Erkennungsquote von über 90 % bzw. 80 %, ohne Hinweise zur jeweils gesprochenen Sprache erhalten zu haben. Die Technologie ist zudem in der Lage, mehrere Personen zu verstehen, die entweder dieselbe oder aber verschiedene Sprachen gleichzeitig sprechen.

Mitsubishi Electric's AI creates the State-of-the-ART in Technology (Entwicklung hochmoderner Technologie dank künstlicher Intelligenz von Mitsubishi Electric)

Technologie für die nahtlose Spracherkennung

Die Technologie für die nahtlose Spracherkennung basiert auf der proprietären Deep-Learning-Methode von Mitsubishi Electric und bietet so beispiellose Flexibilität und Genauigkeit. Unter Verwendung eines End-to-End-Deep-Learning-Modells, bei welchem ein tief greifendes Netzwerk lediglich mittels Eingabe- und Ausgabemustern trainiert wird, erzeugt die Technologie ein zentrales System, das Sprachen gleichzeitig sowohl erkennt als auch versteht, ohne dabei auf Fachwissen wie Phonemsysteme und Aussprachelexika angewiesen zu sein. Gleichzeitiges Lernen anhand mehrsprachiger Sprachdaten erhöht die Robustheit.

Das neue System basiert auf der proprietären Hybrid-CTC-/Aufmerksamkeitsmethode von Mitsubishi Electric für die End-to-End-Spracherkennung, die die Genauigkeit der Spracherkennung deutlich verbessert. Die Methode setzt auf zwei repräsentative Methoden für die End-to-End-Spracherkennung (Connectionist Temporal Classification (CTC) und aufmerksamkeitsbasierende Decodierung), kombiniert deren Vorteile und mindert gleichzeitig ihre Nachteile. Die hybride Methode profitiert insbesondere von der Fähigkeit der CTC zur Vorhersage der genauen Zuordnung zwischen Eingangssprachsignalen und Ausgabezeichen sowie der Fähigkeit der Aufmerksamkeitsmethode zur Berücksichtigung zeitabschnittsübergreifender Interdependenzen bei akustischen und linguistischen Merkmalen gesprochener Sprache.

Genauigkeit der Spracherkennung

  Funktioniert ohne Angabe der gesprochenen Sprache 5 Sprachen 10 Sprachen
Neue Technologie Ja >90 % >80 %
Herkömmliche Technologie** Nein 87 % 72 %
  • Hinweis: Unter Annahme idealer Aufnahmebedingungen
  • ** Kombination mehrerer Systeme, die für jede Sprache separat entwickelt und trainiert werden, mit manueller Auswahl der gesprochenen Sprache im Vorfeld

Der Spracherkennungstechnologie verdanken wir es, dass wir Geräte wie Smartphones und Fahrzeugnavigationssysteme per Sprachbefehl bedienen können. Da jedoch herkömmliche Spracherkennungssysteme für jede Sprache separat entwickelt wurden, mussten Benutzer die gewünschte Sprache im Vorfeld auswählen. Es ist möglich, die Sprache vor der Spracherkennung ermitteln zu lassen. Dies beeinträchtigt jedoch die Anwenderfreundlichkeit, da die Sprachermittlung Verzögerungen zur Folge hat und es durch Fehler bei der Sprachermittlung durch suboptimale Spracherkennungssysteme, die mit unzureichenden einsprachigen Daten trainiert wurden, zu mehr Fehlern bei der Spracherkennung selbst kommt. Die Genauigkeit konventioneller Spracherkennungssysteme wird zudem deutlich beeinträchtigt, wenn mehrere Sprecher gleichzeitig sprechen, was den Anwendungsbereich dieser Systeme einschränkt.

Die Technologie für die nahtlose Spracherkennung von Mitsubishi Electric soll dabei helfen, geeignete Sprachschnittstellen für verschiedenste Anwendungen zu entwickeln. Beispiele hierfür wären eine mehrsprachige Familie, die dasselbe Haushaltsgerät per Sprachbefehl verwenden möchte, oder Reisende im Ausland, die das Leitsystem eines Flughafenterminals in ihrer Muttersprache bedienen möchten. Mitsubishi Electric wird weiterhin an der Genauigkeit und Anwendbarkeit der automatischen Spracherkennung unter Realbedingungen arbeiten, darunter Autos, Häuser, öffentliche Einrichtungen und mehr.

Hinweis: Die Pressemitteilungen sind zum Zeitpunkt ihrer Veröffentlichung korrekt. Sie können jedoch ohne vorherige Ankündigung geändert werden.