Inhaltliche Vorbereitung von Markus Girrulat (hier ist der Autor nur der Bote).
Im Rahmen der Vorarbeiten für einen neuen Beitrag im PR-Magazin, haben wir uns diverse KI-gestützte Text-to-voice-Werkzeuge angeschaut und ausgetestet.
Alle wurden mit einem Text in zwei Sprachen bestückt, so dass es möglich war, jeweils die deutsch- und englischsprachigen Sprachmodelle (je eher männlich und eher weiblich klingende Stimmen) zu testen.
Wir haben vier Werkzeuge ausgewählt, die in bisherigen Rezensionen mit den besseren Bewertungen wegkamen, genauer: Beepboobly, Murf, NaturalReader und PlayHT.
Hier könnt Ihr Euch die Beispiele direkt anhören und selbst ein Urteil bilden.
Beepboobly
- Christoph / Deutsch
- Jonas / Deutsch
- Katja / Deutsch
- Vicky / Deutsch
- Brandon / Englisch
- Sara / Englisch
- Tim / Englisch
Murf
- Adele / Deutsch
- Ben / Deutsch
- Claudia / Deutsch
- Max / Deutsch
- Alicia / Englisch
- Hazel / Englisch
- Jackson / Englisch
- Ken / Englisch
- Stanley / Englisch
Natural Reader
PlayHT
Unser Fazit:
Die KI-gestützte Text-to-Voice-Technologie hat eine erstaunliche Entwicklung erlebt. Die Usability punktet durch einfache Handhabung: Sprache auswählen, Text eingeben, KI arbeiten lassen. Erweiterte Einstellungen, wie bei Murf, erlauben Tonhöhen- und Tenor-Anpassungen.
Die Qualität verbessert sich kontinuierlich. Im englischen Raum gibt es bereits Modelle, die kaum von professionellem Voiceover zu unterscheiden sind. Im deutschen Raum hat MURF die Nase vorn, gefolgt von Beepboobly und PlayHT.
Trotz Fortschritten gibt es Hürden: Bei Fachwörtern und Anglizismen kommen Fehler vor, ebenso kann die Aussprache im Kontext je nach Modell seltsam oder neutral und leblos wirken. Hier zeigt sich die Bedeutung der Textanalyse durch die KI und der Qualität des Voicemodells selbst.
Interessant ist die Beobachtung, dass viele Voicemodelle denselben Ursprung haben, wahrscheinlich Open Source. Zukünftig wird dies variieren und die Qualität der Voicemodelle wird mindestens 50% des Erfolgs einer Plattform ausmachen.
Die Anwendungen der KI-Voices sind vielfältig, ideal für schnelle Social Media Posts oder kleinere Audio- und Video-Projekte. Allerdings ist die Kontrolle eingeschränkt und Texte mit vielen Fach- oder Fantasiebegriffen sollten vermieden werden. Für Unternehmen könnten AI-Voices interessant sein, vor allem bei Übersetzungen für internationale Unternehmen.
Für Profis ist derzeit noch die Speech-to-Speech-Methode die bessere Wahl, da sie eine gezielte Beeinflussung von Ton und Betonung ermöglicht. Anbieter wie MURF bieten diese Option bereits an.