Review zu Synthesia
|

Review: Videos generieren mit Synthesia

Synthesia* ermöglicht es, Videos mit virtuellen Sprecher:innen zu generieren, die in Bild und Ton ein Skript vortragen. Ich habe mir in diesem Test angeschaut, wie gut das KI-Tool funktioniert.

Tatsächlich hält Synthesia was es verspricht: Man kopiert einfach den zu sprechenden Text in ein dafür vorgesehenes Feld. Die Sprache wird automatisch erkannt – in meinen Tests stets korrekt. Theoretisch könnte man es dabei bereits belassen und sich sein Video generieren von der künstlichen Intelligenz lassen. Es gibt allerdings auch noch eine Reihe an Einstellungsmöglichkeiten.

Die virtuellen Sprecher:innen

Insgesamt stehen über 100 Avatare in Synthesia* zur Auswahl. Dabei gibt es eine erfreulich große Diversität. Verschiedenste Ethnien und Altersgruppen sind vertreten. Sogar der Weihnachtsmann ist mit von der Partie. Einer Grußbotschaft von Santa Claus an die Belegschaft (oder die Kinder) steht also nichts im Wege.

Es sind allerdings teilweise einige Dopplungen bei den Avataren vorhanden – dieselbe Person in unterschiedlichen Outfits (z. B. Business / Casual) und in unterschiedlich naher Aufnahme.

Die Avatare wurden generiert, indem reale Schauspieler:innen vor einem Greenscreen beim Vortragen eines Skriptes gefilmt wurden. Dadurch wirken die Avatare so lebensecht. Die Schauspieler:innen haben vertraglich ihr Einverständnis gegeben, dass ihr virtueller Zwilling genutzt werden darf, um Videoinhalte über Synthesia zu generieren.

Dabei gibt es allerdings gewisse Einschränkungen bezüglich der Inhalte, die von den virtuellen Avataren gesprochen werden dürfen, zum Beispiel in den Bereichen Politik, Religion oder Sexualität. Hier empfiehlt sich ein genauer Blick in die Terms of Service unter Punkt 11 „Prohibited Uses – Acceptable Use Policy“. Dadurch soll verhindert werden, dass den Schauspieler:innen fragwürde Aussagen in den Mund gelegt werden, die sie so niemals tätigen würden.

Aber Synthesia bietet auch die Möglichkeit, eigene Avatare erstellen zu lassen. So ließe sich beispielsweise die vielbeschäftigte Geschäftsführerin in Synthesia integrieren, die sich nicht ständig Zeit für Videoproduktionen nehmen kann. So wäre es über Synthesia selbst dann möglich, die sie in einem Video auftreten zu lassen, wenn sie sich gerade im Ausland auf Geschäftsreise befindet oder verschnupft im Bett liegt. Und das sogar in Sprachen, die sie selbst gar nicht beherrscht.

Die Erstellung von Custom Avatars ist allerdings nicht gerade günstig. Sie kostet 1000$ pro Jahr. Soll die Geschäftsführerin dann auch noch mit ihrer eigenen Stimme sprechen, ist zudem eine Anbindung an den externen Service Descript Overdub erforderlich.

Ich habe nur den „Personal“ Plan für 26€ pro Monat getestet. Entsprechend konnte ich Custom Avatars nicht selbst ausprobieren. Hier ist jedoch ein Beispielvideo aus einer Case Study von Synthesia:

Custom Avatar Case Study von Synthesia

Position und Größe des Avatars können frei gewählt werden. Auch ist es möglich, den Avatar in einem Kreis anzeigen zu lassen, oder ihn ganz auszublenden und nur die Sprachaufnahme abspielen zu lassen.

Die Stimmen

Hat man sich für eine virtuelle Sprecherin oder einen Sprecher entschieden, wählt man noch eine passende Stimme aus. Hier gibt es sowohl mehrere männliche als auch weibliche Stimmen zur Auswahl. Die Anzahl und die Qualität der verfügbaren Stimmen hängen dabei allerdings stark von der ausgewählten Sprache ab. Für Englisch sind deutlich mehr unterschiedliche Stimmen verfügbar als für andere Sprachen. Und die meisten englischen Stimmen klingen auch erheblich natürlicher als die deutschen. Hier ein kleines selbstgeneriertes Testbeispiel:

Test deutscher und englischer Sprache in Synthesia

Während manche englischen Stimmen bei kurzen Sequenzen kaum als computergeneriert zu erkennen sind, klingen die deutschen Stimmen teilweise noch recht künstlich. Zwar ist auch die deutsche Sprachausgabe stets gut zu verstehen, aber die KI strauchelt immer mal wieder bei der Intonation.

Es empfiehlt sich auf jeden Fall, sich vor dem Generieren des Videos einmal die Audio-Preview anzuhören. Denn wenn die künstliche Intelligenz manche Wörter nicht richtig ausspricht, lässt sich dies mitunter noch beheben, indem man die Schreibweise des Wortes entsprechend anpasst.

Ironischerweise hatte die künstliche Intelligenz z. B. Probleme mit dem Wort „KI“. Hier Spricht Synthesia nicht beide Buchstaben separat, sondern zusammen – also wie „Knie“ ohne n. Dies lässt sich jedoch leicht beheben, indem man einen Bindestrich einfügt (K-I).

Zur Anpassung der Sprachausgabe gibt es auch die Möglichkeit, Pausen einzufügen, oder bestimmte Wörter im Skript besonders stark zu betonen.

Bearbeitungsmöglichkeiten

Direkt innerhalb von Synthesia* ist es möglich, einen Hintergrund hinter der Sprecher:in zu platzieren. Hierfür stehen verschiedene Farben, Fotos und Videos zur Verfügung.

Bei den Farben ist die Auswahl leider auf 11 verschiedene Farben limitiert – bis auf die Variante „Green screen“ jeweils mit leichter Vignette (Abdunklung zum Rand hin). Wer beispielsweise eine Farbe aus seinem Corporate Design hinterlegen möchte, muss stattdessen auf einen kleinen Workaround zurückgreifen: Man kann ein Viereck erzeugen, bei dem wiederum die Farbe frei wählbar ist, es auf die gesamte Bildschirmgröße vergrößern und es anschließend hinter den Avatar verschieben. Nicht ganz intuitiv, aber funktional.

Bei den Fotos finden sich aktuell sechs Büroumgebungen zur Auswahl, die von der Perspektive und Farbigkeit recht gut zu den Avataren passen. Zudem sind Bilder von der kostenlosen Bilddatenbank Unsplash über eine Suche verfügbar. Hier wären jedoch zweifelsohne mehr kuratierte Hintergründe wünschenswert.

Für Videos greift Synthesia wiederum auf die Datenbank von der ebenfalls kostenfreien Stock-Seite Pexels zurück. Hier sind allerdings oft Videos dabei, die nur wenige Sekunden lang sind und sich somit als kontinuierlich durchlaufendes Hintergrundvideo nicht wirklich eignen.

Was mir aber bei den Hintergrundoptionen am allermeisten fehlt, ist die Möglichkeit, den erzeugten Avatar einfach vor transparentem Hintergrund zu exportieren. Dadurch wäre es möglich, die Sprecher:in in Postproduktionsprogrammen wie After Effects* ohne zusätzliche Zwischenschritte vor beliebige Hintergründe zu setzen und diese ggf. sogar zeitlich abgestimmt auf den gesprochenen Text anzupassen – z. B. im Rahmen einer Art Nachrichtensendung, bei der im Hintergrund passende Bilder zu den angesprochenen Themen eingeblendet werden.

Die einzige Altarnative ist hier, den Avatar vor einen virtuellen Greenscreen zu setzen und diesen dann – z. B. in After Effects* – wieder heraus zu keyen. Natürlich ist auch das ein gangbarer Weg. Aber es sorgt für vermeidbaren Zusatzaufwand. Denn schließlich liegen die Avatare offenkundig bereits freigestellt vor.

Sobald irgendwelche Stakeholder das erzeugte Video freigeben müssen, würde ich diesen Weg auf jeden Fall bevorzugen. Denn falls es noch Änderungswünsche am Hintergrund gäbe, müsste das Video andernfalls erneut durch Synthesia berechnet und exportiert werden, wodurch bei jedem Export Credits verbraucht werden.

Hinzu kommt, dass Synthesia keine Möglichkeit bietet, Hintergrundbilder bzw. den Avatar in Helligkeit, Kontrast und Farben aufeinander abzustimmen. Wer ein möglichst stimmiges Ergebnis haben möchte, wird auch hier den Green-Screen-Export bevorzugen und nachträglich Avatar und Hintergrund in einem separaten Programm zusammenbasteln.

Musik kann ebenfalls direkt über Synthisia eingefügt werden. Hierfür stehen leider nur 12 vorbereitete Musikstücke zur Verfügung. Hinzukommt, dass diese mitunter sehr kurz sind. Das kürzeste Stück ist nur 7 Sekunden lang. Es ist auch hier möglich, eigene Musik hochzuladen. Allerdings würde ich auch hier darauf verzichten und die Musik lieber selbst mit einem geeigneten Programm wie z. B. Premiere Pro* einbauen. Wenn später noch Änderungswünsche bezüglich der Musik geäußert werden, kann die Musik dann schnell ausgetauscht werden, ohne zusätzliche Credits zu verbrauchen.

Aus demselben Grund würde ich auch nicht die weiteren Funktionen nutzen, um Texte, Formen oder Bilder einzublenden. Eine Möglichkeit, eigene Schriftarten hochzuladen konnte ich in der Personal-Version nicht entdecken. Jedoch ist es hier immerhin möglich, über Farbcodes exakte CD-Farben zu auszuwählen.

Dieses Video wurde komplett von KI generiert – unter anderem mit Synthesia

Tatsächlich praktisch ist allerdings die Möglichkeit, eigene PowerPoint-Präsentationen als Hintergründe hochzuladen. Hier ist man im Personal Plan jedoch auf 6 Folien pro Präsentation beschränkt.

Wer noch keine fertige Präsentation hat, kann auch auf eines der vorbereiteten Templates direkt innerhalb von Synthesia zurückgreifen. Diese Templates kombinieren die einzelnen bereits angesprochenen Gestaltungselemente zu professionell wirkenden Präsentationen.

Beim Export des Videos hat man noch die Möglichkeit, auszuwählen, ob Untertitel mit ins Video integriert werden sollen oder nicht. Das Generieren des fertigen Videos dauert ein Weilchen. Bei einer Minute Skriptlänge würde ich etwa 10-15 Minuten für die Verarbeitung einkalkulieren. Allerdings läuft die Generierung im Hintergrund ab und man kann Synthesia währenddessen vollumfänglich weiternutzen und beispielsweise bereits am nächsten Video arbeiten. Nach aktuellem Stand bezahlt man pro angefangener Export-Minute einen Credit. Pro Monat erhält man im Personal Plan 10 Credits. Eine Möglichkeit zu sehen, wie viele Credits man bereits verbraucht hat, gibt es seltsamerweise bisher nicht.

Fazit

Synthesia* liefert ausgesprochen beeindruckende virtuelle Sprecher:innen, die nicht auf den ersten Blick als computergeneriert zu enttarnen sind. Insbesondere die englische Sprachausgabe ist bereits jetzt ausgesprochen gut, während sich die deutsche Sprache vor allem in Bezug auf Intonation noch mitunter recht künstlich anhören kann. Aber wie bei anderen Tools im KI-Bereich würde ich auch hier eine rasante Weiterentwicklung erwarten.

Die darüber hinaus gehenden Bearbeitungsfunktionen (Einblendungen, Hintergründe, Musik) sind für professionelle Ansprüche nicht wirklich gut ausgebaut. Aber professionelle Anwender werden es wahrscheinlich ohnehin bevorzugen, dies in externen Programmen selbst umzusetzen. Was mir jedoch wirklich fehlt, ist eine Exportmöglichkeit mit transparentem Hintergrund.

Von diesen Kritikpunkten abgesehen ist Synthesia* bereits jetzt ein sehr gutes Tool, um virtuelle Sprecher:innen zu generieren – insbesondere für englischsprachige Texte.

Wenn ihr das KI-Tool selbst einmal ausprobieren möchtet, findet ihr es unter synthesia.io*

* Transparenz: Bei den mit Sternchen markierten Links handelt es sich um Affiliate-Links. Werden Käufe über diese Links getätigt, erhalte ich unter Umständen eine Provision. Die Tool-Anbieter hatten jedoch keinerlei Einfluss auf den Inhalt dieses Artikels oder der eingebetteten Videos. Uns ist es wichtig, neutral über die Entwicklungen in der KI-Welt zu berichten. Wenn ihr uns dabei unterstützen möchtet, schaut euch die Tools, für die ihr euch interessiert, gerne über unsere Links an. Denn die Partner-Programme helfen uns dabei, diese Arbeit zu finanzieren.

Ähnliche Beiträge

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert