Wie erkennt EVE Sprache?

Künstliche Intelligenz nimmt uns heute viel Arbeit ab. Algorithmen erkennen Sprache und Gesichter und lernen dabei – und das ohne Augen und Ohren. 

 

Waveform

wie funktioniert das?

EVE analysiert jedes einzelne Wort. Zuerst optimiert der Algorithmus das Signal, und versucht z.B. Störgeräusche herauszufiltern und optimiert die Lautstärke von zu leisen oder lauten Teilen. Dann wird eine Waveform generiert, das ist quasi ein Abbild des Tonsignals.

Dieses Bild vergleicht EVE dann mit einer riesigen Datenbank aus Tonsignalen und sucht Einträge die ähnlich sind. Jeder Treffer wird bewertet und am Ende entscheidet sich EVE für den Wahrscheinlichsten. EVE fügt der Datenbank jedoch keine Daten hinzu, das ist aus Datenschutzgründen nicht möglich.

Die Datenbank ist jedoch nicht bei jeder Sprache gleich groß, deshalb ist EVE z.B. in Englisch besser als in Italienisch. Diese Genauigkeit messen wir in aufwändigen Tests. Dabei übersetzen wir einen Test-Text in die gewünschte Sprache, dann spricht ein Profi-Sprecher den Text in normaler Geschwindigkeit und EVE hört zu. Das Ergebnis korrigieren wir dann und vergleichen es mit dem Ausgangstext. Jeder Rechtschreibfehler, jedes falsche Wort und jede falsche Interpunktion zählen als Fehler. Aus deren Anzahl errechnen wir dann die Fehlerquote für die entsprechende Sprache. Da EVE jedoch ständig dazulernt müssen wir die Tests oft wiederholen und teilen die aktuellen Ergebnisse gerne auf Anfrage.

 

Neben der ständig wachsenden Datenbank hat EVE aber weitere Lernmöglichkeiten. Für jede Sprache gibt es drei Features: Akustik-, Sprach- und Aussprachemodell. Es sind aber nicht alle Hilfsmittel in jeder Sprache verfügbar. Eine komplette Liste gibt es hier.

 

Akustikmodell Mann am Mikrofon(Acoustic adaption)

EVE nimmt MP3- und Textdateien entgegen, um die Sprache besser vom Hintergrundgeräusch zu trennen. Das macht bei Event-Locations mit schwieriger Akustik Sinn, allerdings ist ein Probelauf im Vorfeld notwendig, um EVE mit realitätsnahen Daten zu füttern. EVE berechnet anhand der zwei Dateien dann Störgeräusche heraus und erkennt die Sprache für dieses Setup deutlich besser.

 

Sprachmodell (Language adaption)

Hiermit ist ein Wörterbuch gemeint. Es reicht, die gewünschten Fachwörter oder Familiennamen einzutippen. Per Knopfdruck trainiert EVE diese Wörter. Das dauert bis zu 30 Minuten, doch danach erkennt EVE diese Wörter zuverlässig.

 

 

AUSSPrACHEMODELL (PRONUNCIATION adaption)

Hiermit lassen sich EVE per Lautschrift Worte beibringen. Soll EVE z.B. “R2D2” erkennen, wird es einmal normal geschrieben und einmal in Lautschrift, also „er zwoh deh zwoh“ So erkennt EVE Wörter mit „besonderer“ Aussprache und sogar Dialekte.