Neues aus dem KI-Dschungel: Wir bei textbest stecken mitten im KI-Fieber und testen viele verschiedene Tools auf ihre Einsatzmöglichkeiten im Content-Marketing. Aktuell auf unserer Agenda: Text-to-Speech-KI! In diesem Beitrag teilen wir mit dir unsere Erfahrungen mit ausgesuchten Werkzeugen.
Das kann Text-to-Speech-KI im Content-Marketing
Generative KI hält vielerlei Anwendungspotenziale im Content-Marketing bereit. Wir haben uns gefragt, was derzeit in Sachen KI für Text-to-Speech (TTS) machbar ist. Gemeint sind generative künstliche Intelligenzen, die aus geschriebenem Text gesprochenes Wort erstellen. Dieses soll laut den Angaben der Tool-Hersteller verblüffend echt klingen. Die KI-Stimmen lassen sich von den Lauten einer echten Person nicht oder nur kaum unterscheiden, so die Entwickler:innen.
Use Case für Text-to-Speech-KI: Sprecher:innenstimmen für Video-Content
Als Content-Marketing-Agentur produzieren wir für Kund:innen neben ausgereiften SEO-Texten ebenso Videos. Das Bewegtbild stellt eine wunderbare Ergänzung zu geschriebenem Content dar. Allerdings erfordert die Videoproduktion wesentlich mehr Ressourcen. Bei der Realisierung von Videoinhalten ist neben einem Storyboard und Text ebenso Bildmaterial und Musik für den Schnitt wichtig. Nicht zuletzt brauchen viele Videos eine Sprecher:innenstimme. Das betrifft vornehmlich Erklärvideos und Produktvorstellungen. Im Regelfall wird dann ein:e professionelle:r Sprecher:in engagiert, der:die den Text zum Video einspricht. Ein:e entsprechende:r Expert:in steht jedoch nicht immer zur Verfügung. Wenn ein Content-Marketing-Projekt sehr zeitnah über die Bühne laufen muss, kann das zu einer Herausforderung werden. Text-to-Speech-KI bietet sich dann als praktische Alternative an. So lässt sich, wenn kein:e Sprecher:in abrufbar ist, eine künstliche Stimme via Mausklick generieren – klingt in der Theorie vielversprechend!
Text-to-Speech-KI im Praxis-Check
Info: Wir haben einige der aktuellen Top-Tools im Bereich Text-to-Speech-KI im genannten Anwendungsszenario ausprobiert. Als Grundlage diente uns eine KI-Liste aus dem Beitrag „Top 6 KI-Stimmengeneratoren, die Sie nicht verpassen sollten“ des Online-Redakteurs Paul Richter.
Diese KI-Tools standen auf dem Prüfstand:
• Speechify
• Lovo.ai
• Clipchamp
• Play.ht
• Murf.ai
Unsere Anforderungen an eine Text-to-Speech-KI
Besonders wichtig ist uns der Output der Tools. Gebrauchen können wir für unser Anwendungsszenario jene Text-to-Speech-KI, die eine realistisch klingende Stimme generieren kann. Lediglich die Tools, die eine:n echte:n Sprecher:in erfolgreich imitieren, haben für uns also einen Nutzwert im beschriebenen Anwendungsfall. Die Qualität der generierten Stimmen stand beim Testen deshalb an erster Stelle. Außerdem wichtig ist für uns eine cloudbasierte Lösung. Im Vergleich zu einer Festinstallation kann jede:r Redakteur:in diese flexibel an jedem Endgerät im Browser öffnen und mit der Stimmenerzeugung orts- und geräteunabhängig loslegen.
So haben wir die Text-to-Speech-KI geprüft
Um Text-to-Speech-KI auszuprobieren, braucht man natürlich Text. Wir haben deshalb einen Dummy-Text erstellt – und selbigen für jedes Tool benutzt. Das macht den Output der einzelnen KIs vergleichbar. Dabei wollten wir es den künstlichen Intelligenzen nicht zu leicht machen. Der Probetext ist geprägt vom Nominalstil und enthält viele harte deutsche Silben, die eine künstliche Sprecher:innenstimme durchaus herausfordern. Danke an dieser Stelle an ChatGPT für die schnelle Dummy-Text-Vorlage.
Sonnige Tage laden zu ausgedehnten Spaziergängen ein, während regnerische Stunden sich ideal für gemütliche Lesestunden eignen. Die Vielfalt der Natur bietet stets neue Eindrücke und Inspirationen für kreative Köpfe.
Fünfmal Text-to-Speech im Schnell-Check
Vorausgeschickt sei: Um die Potenziale der Text-to-Speech-KIs zu durchleuchten, haben wir uns für unser Experiment mit den Testversionen der Entwickler:innenstudios begnügt. Diese bieten für einen gewissen Zeitraum einen kostenfreien Zugang zu allen Funktionen. Allerdings lassen sich keine Audio-Datei exportieren. Das geht nur mit den Bezahlplänen. Für diesen Magazinbeitrag können wir deshalb leider keine Audio-Beispiele aufführen. Wir haben allerdings alle Tools verlinkt – es kostet dich also nichts, diese selbst einmal auszuprobieren.
Text-to-Speech-KI: Speechify
Das erste Tool, das wir uns angesehen haben, heißt Speechify. Hierbei handelt es sich unter anderem um einen browserbasierten Sprach-Generator. Mit diesem lässt sich laut der Entwickler:innen die natürlichste Sprachausgabe für alle Inhalte generieren. Das Tool ist kostenlos, es bietet allerdings keinen Download der Audio-Datei. Zudem klingt die Sprachausgabe leider nicht sehr natürlich. Wesentlich besser klingt hingegen die kostenpflichtige Version von Speechify.
Das Modul AI Voice Over ist Teil der Video-Suite von Speechify. Es ist möglich, beliebige Texte einzugeben und daraus Audio-Dateien zu erstellen. Hierfür stehen viele verschiedene Stimmen zur Auswahl – sowohl männliche als auch weibliche Varianten. Diese sind allerdings überwiegend auf englische Texte ausgelegt. Die Ausgabe deutscher Inhalte klingt leider dementsprechend: Die Sprache hat einen englischen Akzent und entspricht nicht einer natürlichen deutschen Wortartikulation.
Tatsächlich bietet Speechify aber auch speziell auf deutsche Texte ausgelegte Stimmen. Allerdings mussten wir feststellen, dass alle KI-Sprecher:innen bei Weitem nicht natürlich genug klingen, um es mit einem:einer echten Sprecher:in aufzunehmen.
Text-to-Speech-KI: Lovo.ai
Das zweite Tool in der Runde heißt Lovo.ai. Die Entwickler:innen werben mit einem „Hyper realistic AI voice generator that captivates your audience“. Zunächst macht die Text-to-Speech-KI einen hervorragenden Eindruck: Alles ist aufgeräumt und nutzer:innenfreundlich. Die Stimmen klingen alle zwar noch nicht wirklich realistisch, aber sehr nah dran! Allerdings zeigt sich dieselbe Herausforderung wie bei Speechify: Die deutschen KI-Sprecher:innen kommen nicht an einen natürlichen Sprachklang heran. Hierbei zeigt sich deutlich, dass es sich bei diesem und anderen Tools um englischsprachige Entwicklungen handelt. Die deutsche sowie andere Sprachen stellen hier offenbar nur eine Ergänzung dar, was (noch) nicht als Ersatz für ein:e echte:n Sprecher:in ausreicht.
Nur geringer Support für die deutsche Sprachausgabe
Große Hoffnungen setzen wir in Play.ht: Diese Text-to-Speech-KI soll unter anderem über KI-Sprecher:innen speziell für Deutschland, Österreich und die Schweiz verfügen. Diese klingen in erster Instanz akzeptabel, wir müssen jedoch auch an dieser Stelle sagen: Die Qualität des KI-Outputs reicht noch nicht aus. Sämtliche Stimmen klingen abgehackt, der Sprachfluss ist unnatürlich – da ist der:die Sprecher:in schnell als künstliche KI-Stimme zu entlarven. Das Budget für eine:n echte:n Sprecher:in ist also nach wie vor jeden Cent wert.
Hier die Tools im übersichtlichen Vergleich:
Fazit zu den KI-Stimmgeneratoren
Es lässt sich feststellen, dass die Text-to-Speech-KIs größtenteils über gute bis sehr gute englische Stimmengeneratoren verfügen. Die deutschen Stimmen konnten uns im Test allerdings bei keinem der fünf von uns getesteten Tools überzeugen. Das macht die Werkzeuge für das vorgestellte Anwendungsszenario unbrauchbar – KIs können (bislang) eben noch keine:n echt:e Sprecher:in ersetzen. Das bedeutet allerdings nicht, dass es für KI-Stimmgeneratoren nicht andere interessante Einsatzmöglichkeiten gibt. Für den hier diskutierten Anwendungsfall jedoch ist der deutschsprachige Output der Tools aktuell nicht zu gebrauchen. Das mag sich aufgrund der rasanten Entwicklung von KI sicherlich in den kommenden Monaten ändern. Es lohnt sich also, die vorgestellten Tools – oder andere – in einigen Wochen erneut zu testen.
Achtung: Das Thema Barrierefreiheit rückt im Web immer weiter in den Vordergrund – das neue Barrierefreiheitsstärkungsgesetz tritt bereits im kommenden Jahr in Kraft. Es wird das Web, wie wir es kennen, verändern und macht es möglich, wirklich jede:n zu erreichen. Diesen Schritt möchten wir als Content-Marketing-Agentur von Anfang mitgehen. Du wirst in puncto Barrierefreiheit also bestimmt bald mehr im Magazin lesen. Zudem launchen wir neue Angebote für unsere Kund:innen speziell für barrierefreien Content. Wir halten dich dazu auf dem Laufenden!
Content-Nachtisch – made by KI
Um dich hier abschließend noch mit Zusatz-Inhalten zu fesseln, haben wir KI ins Boot geholt. Keine Geringere als ChatGPT, die Urmutter der modernen generativen KI, gibt dir zum Abschluss einen Überblick darüber, wie du Text-to-Speech-KI außerdem im Content-Marketing einsetzen kannst:
„Text-to-Speech (TTS) KI kann im Content-Marketing auf vielfältige Weise eingesetzt werden, um Inhalte zugänglicher, ansprechender und vielseitiger zu gestalten. Hier ist eine Liste mit Einsatzmöglichkeiten:
- Audioversionen von Blogartikeln: Erstellung von Audioversionen von Blogbeiträgen, damit Nutzer:innen Inhalte unterwegs anhören können
- Podcast-Generierung: automatische Erstellung von Podcasts aus schriftlichen Inhalten, um eine breitere Zuhörer:innenschaft zu erreichen
- Social-Media-Inhalte: Erstellung von gesprochenen Inhalten für Social-Media-Posts, um die Interaktion zu erhöhen und verschiedene Medienformate anzubieten
- Videokommentare und -erklärungen: Vertonung von Videos, Erklärungen oder Tutorials, um Inhalte dynamischer zu gestalten
- E-Learning und Schulungsmaterialien: Vertonung von E-Learning-Kursen oder Schulungsmaterialien, um die Zugänglichkeit und das Engagement der Lernenden zu verbessern
- Produktbeschreibungen und Anleitungen: Erstellung von gesprochenen Produktbeschreibungen und Bedienungsanleitungen, die Kund:innen ein Hörerlebnis bieten
- Kund:innenservice und FAQs: Einsatz von TTS für automatisierte, sprachbasierte Antworten in FAQ-Sektionen oder Chatbots, um eine schnellere und persönlichere Kund:innenbetreuung zu gewährleisten
- Barrierefreiheit: Verbesserung der Barrierefreiheit von Inhalten für Menschen mit Sehbehinderungen oder Leseschwierigkeiten, indem Textinhalte in gesprochene Sprache umgewandelt werden
- Newsletter und E-Mail-Marketing: Erstellung von Audioversionen von Newslettern oder Marketing-E-Mails, die Empfänger:innen anhören können, anstatt sie zu lesen
- Interaktive Sprachassistenz: Integration von TTS in digitale Sprachassistenten, um personalisierte Marketingbotschaften und Empfehlungen direkt an Nutzer:innen zu übermitteln
- Marktforschung und Umfragen: Vertonung von Marktforschungsumfragen, um die Teilnahme zu erhöhen und ein breiteres Feedback zu erhalten
- Storytelling und Markengeschichten: Erzählen von Marken- und Kund:innengeschichten durch vertonte Erzählungen, um eine tiefere emotionale Verbindung zur Zielgruppe aufzubauen
Durch den Einsatz von TTS-KI im Content-Marketing können Unternehmen ihre Reichweite erhöhen, das Nutzer:innenerlebnis verbessern und innovative Wege finden, um mit ihrem Publikum zu kommunizieren.“
Vielen Dank, ChatGPT !
Und dir, liebe:r Lesende, viel Spaß beim Testen von KI-Tools!