Tech-News-Technologie

Google entwickelt ein menschenähnliches Text-to-Speech-KI-System, Tacotron 2

In einem großen Schritt in Richtung seines „AI first“-Traums hat Google ein Text-to-Speech-System für künstliche Intelligenz (KI) entwickelt, das Sie mit seiner menschenähnlichen Artikulation verwirren wird. Das Text-to-Speech-System des Technologiegiganten namens 'Tacotron 2' liefert eine KI-generierte Computersprache, die fast mit der Stimme von Menschen übereinstimmt, berichtete die Technologienachrichten-Website Inc.com. Bei Google I/O

Google, künstliche Intelligenz, Text-to-Speech-System, Google Tacotron 2 AI, menschliche Sprache, CEO Sundar Pichai, Google AI first, Google Lens, Google Assistant, Smart Reply for Gmail, WaveNet-Algorithmus, Mean Opinion ScoreDas Text-to-Speech-System des Technologiegiganten namens „Tacotron 2“ liefert eine KI-generierte Computersprache, die fast der menschlichen Stimme entspricht. (Bildquelle: Google)

In einem großen Schritt in Richtung seines „AI first“-Traums hat Google ein Text-to-Speech-System für künstliche Intelligenz (KI) entwickelt, das Sie mit seiner menschenähnlichen Artikulation verwirren wird. Das Text-to-Speech-System des Technologiegiganten namens 'Tacotron 2' liefert eine KI-generierte Computersprache, die fast mit der Stimme von Menschen übereinstimmt, berichtete die Technologienachrichten-Website Inc.com.

Auf der Entwicklerkonferenz Google I/O 2017 gab Sundar Pichai, CEO des Unternehmens mit indischem Ursprung, bekannt, dass der Internetgigant seinen Fokus von Mobile First auf 'AI First' verlagert und mehrere Produkte und Funktionen auf den Markt gebracht hat, darunter Google Lens, Smart Reply for Gmail und Google-Assistent für iPhone.

Laut einem auf arXiv.org veröffentlichten Papier erstellt das System zunächst ein Spektrogramm des Textes, eine visuelle Darstellung dessen, wie die Sprache klingen soll. Dieses Bild wird durch den bestehenden WaveNet-Algorithmus von Google geleitet, der das Bild verwendet und die KI näher denn je an die unsichtbare Nachahmung der menschlichen Sprache heranführt. Der Algorithmus kann problemlos verschiedene Stimmen lernen und erzeugt sogar künstliche Atemzüge.



Unser Modell erreicht einen Mean Opinion Score (MOS) von 4,53, vergleichbar mit einem MOS von 4,58 für professionell aufgezeichnete Sprache, werden die Forscher zitiert. Auf der Grundlage seiner Audiobeispiele behauptete Google, dass „Tacotron 2“ aus dem Kontext den Unterschied zwischen dem Substantiv „wüste“ und dem Verb „wüste“ sowie dem Substantiv „present“ und dem Verb „present“ erkennen kann, und die Aussprache entsprechend ändern.

Es kann die Betonung auf großgeschriebene Wörter legen und beim Stellen einer Frage die richtige Flexion anwenden, anstatt eine Aussage zu machen, sagte das Unternehmen in der Zeitung. In der Zwischenzeit haben die Ingenieure von Google nicht viele Informationen preisgegeben, aber sie haben den Entwicklern einen großen Hinweis hinterlassen, um herauszufinden, wie weit sie bei der Entwicklung dieses Systems gekommen sind. Dem Bericht zufolge hat jedes der „.wav“-Dateibeispiele einen Dateinamen, der entweder den Begriff „gen“ oder „gt“ enthält.

Basierend auf dem Papier ist es sehr wahrscheinlich, dass „gen“ die von Tacotron 2 erzeugte Sprache anzeigt und „gt“ echte menschliche Sprache ist. (GT steht wahrscheinlich für Ground Truth, ein Begriff für maschinelles Lernen, der im Grunde genommen das Wahre bedeutet.)