Die automatische Sprachsynthese von KI-Robotern simuliert menschliche Stimmmuster. Sie ist nicht perfekt, aber wir haben große Fortschritte gemacht, besonders im letzten Jahrzehnt.
Du lernst, wie du eine menschliche Stimme synthetisieren kannst, indem du deine eigene Sprache analysierst. Absolut keine Betonungen? Dann sprichst du am Ende wie ein Roboter.
Beim Sprechen geht es um:
- Betonungen
- Emotionen
- Tonhöhenänderungen
- Zufällige Pausen
Akzente und Tonfall können für Nuancen sorgen und sogar die Bedeutung eines Satzes verändern. Ein veränderter Tonfall kann eine Aussage in eine Frage verwandeln, Betonung oder Sarkasmus hinzufügen, Humor oder Ernsthaftigkeit andeuten und auf andere Weise die Botschaft verändern.
Das ist natürlich nicht einfach. Um überzeugende Ergebnisse zu erzielen, muss ein Sprachsynthesesystem nicht nur die gesprochenen Worte verstehen, sondern auch ihre Bedeutung. Eine menschliche Stimme digital zu synthetisieren, erfordert eine Menge Aufwand.
Die meisten aktuellen Sprachsynthese-Engines verlassen sich bei der Erkennung von Betonungen auf statistische Methoden (groß angelegte neuronale Netze), die es ihnen ermöglichen, auch ohne ein vollständiges Verständnis der Sprache recht nah heranzukommen, indem sie auf analoge Kontexte schließen.
Die überwiegende Mehrheit der Interaktionen zwischen KIs und Robotern fällt heute in diese Kategorie, und diese Methode ist für diese Art von logischen Gesprächen sehr erfolgreich. Grenzen werden durch direkte Interaktion aufgezeigt.
Manche von ihnen klingen sogar menschlich, wenn sie sprechen. Emotionale Substanz und Timing sind das, was KI fehlt, nicht die Tonlage. Sie sind schwer zu imitieren. Dazu muss der Roboter die Bedeutung seiner Worte verstehen.
Bestehende Roboter verwenden allgemeine Algorithmen zur Berechnung von Pausen, Tonhöhenänderungen und Lautstärkeschwankungen. Der "Roboterklang", den der Roboter erzeugt, ist auf seine Grundregeln zurückzuführen.