Spracherkennung: Wie Sie Transkripte mit Hilfe von Auphonic erstellen

von | Podcasting, Podcasting - Produktion | 3 Kommentare

Die Suchmaschine Google sei blind und taub, sagte die Webentwicklerin Saskia Lund in meinem Podcast Suchmaschinenoptimierung für Podcaster im Herbst letzten Jahres. Das heißt, Google braucht Text, um Inhalte zu finden. Podcaster und Podcasterinnen, die sowieso ein ausführliches Skript schreiben, bevor Sie Ihre Folge aufnehmen, haben also die Nase vorn. Sie können das Skript direkt mit der Folge veröffentlichen. Kostenlos und schnell lassen sich Transkripte, die Verschriftlichungen gesprochener Sprache, mit dem Webservice Auphonic erstellen.

Sie nutzen Auphonic schon, um Ihren Audios den letzten Schliff zu geben? Prima, dann sind nur wenige zusätzliche Klicks notwendig, um sich auch den Text zum Audio herunterzuladen. Leider besteht diese Option nur noch für zahlende Nutzer:innen. Aber das kostet kein Vermögen 😉. Und für PodcasterInnen, die noch ohne Auphonic auskommen, ist die Erstellung von Transkripten auch nur ein kleiner zusätzlicher Aufwand.

Transkripte erstellen mit dem Webservice Auphonic

Richten Sie sich einen kostenlosen Account bei Auphonic ein. Damit können Sie zwei Stunden Audio- oder Videomaterial im Monat hochladen und über die Algorithmen des Webservices laufen lassen. Für mehr bietet Auphonic faire Preise an.

Loggen Sie sich bei Auphonic ein und klicken Sie rechts oben unter „Select File“ auf Datei auswählen. Ihr Dateiverzeichnis öffnet sich und Sie können die zu transkribierende Datei auf Ihrem Rechner auswählen.

Dann scrollen Sie nach unten bis „Add Output File“ und klicken auf Speech Recognition. Ein Dialogfenster wird sichtbar.

Bevor Sie unter „Service“ aktiv werden können, müssen Sie sich zuerst für einen Service entscheiden und sich bei diesem registrieren. Dieser Schritt ist nur beim ersten Mal notwendig.

Hinter „Please register a service first!“ finden Sie vier verschiedene externe Services. Auphonic gibt die Aufgabe des Transkribierens also weiter. Und zwar an Wit.ai, Google, Amazon und Speechmatics.

Wit.ai ist ein kostenloses Angebot mit Sitz in Kalifornien, das zahlreiche Sprachen von Afrikaans bis Zulu transkribiert. Google Cloud Speech unterstützt über 80 Sprachen und bietet seinen Dienst bis 60 Minuten kostenlos an. Hier müssen Sie schon bei der Anmeldung Angaben zu Ihrer Kreditkarte machen. Amazon Transcribe transkribiert ebenfalls mehrere Sprachen und auch hier gibt es ein kostenfreies Kontingent. Und der vierte Service ist Speechmatics, ein in Cambridge, United Kingdom, ansässiges Unternehmen, das 74 Sprachen transkribieren kann und 0,06 £ pro Minute berechnet.

Mit Wit.ai vom Audio zum Text

Ich zeige Ihnen die nächsten Schritte am Beispiel von Wit.ai. Klicken Sie auf „Please register a service first!“ und wählen unter der Überschrift „Automatic speech recognition services“ den Service Wit.ai. Es öffnet sich eine weitere Auphonic-Seite mit einem Link, der Sie direkt auf die Seite von Wit.ai führt.

Wit.ai Speech Recognition Account in Auphonic

Auf Wit.ai können Sie sich nur mit einem Facebook- oder GitHub-Account einloggen.

 

Nach dem Einloggen klicken Sie oben auf + New App. Im sich öffnenden Fenster geben Sie Ihrer App einen Namen, wählen die zu transkribierende Sprache aus und aktivieren „Private“ bei „Visibility“. Mit einem Klick auf Create unten rechts im Fenster wird die App erstellt. 

Sie landen in einem neuen Fenster in welchem Sie über Settings rechts im Menü Änderungen vornehmen können. Hier finden Sie den „Server Access Token“, den Sie kopieren und so in die Zwischenablage legen. 

Dann fügen Sie den Server Access Token (befindet sich in der Zwischenablage)  auf der Seite in Auphonic ein, um die Dienste miteinander zu verbinden.

Um weitere Sprachen zu transkribieren, legen Sie weitere Apps an

Bedenken Sie, dass Sie für jede Sprache eine weitere App bei Wit.ai anlegen müssen. Das machen Sie über den blauen Button + New App am oberen Bildschirmrand in Ihrem Wit.ai-Account. Geben Sie der App wieder einen Namen, wählen Sie die Sprache aus und machen Sie ein Häkchen bei „Private“.

Abschließend klicken Sie auf den Button Create unten rechts.  

Klicken Sie auf den Namen der App, finden Sie wieder unter Settings den entsprechenden „Server Access Token“, um die Verbindung mit Auphonic herzustellen.

Nachdem Sie die App in Wit.ai angelegt haben, wählen Sie im Interface von Auphonic unter „Speech Recognition“ den von Ihnen gewählten Service und die Sprache aus, die Sie transkribieren lassen wollen.

Möchten Sie Auphonic nicht für die Nachbearbeitung Ihres Audios nutzen, können Sie ganz unten im Eingabefenster die Haken bei „Audio Algorithms“ entfernen und auf den roten Button Start Production klicken. Diesen Befehl dürfen Sie im folgenden Fenster wiederholen.

Nach einer kurzen Wartezeit können Sie Ihre transkribierte Audiodatei herunterladen und bearbeiten. Und zwar in unterschiedlichen Formaten. Klicken Sie auf download rechts hinter „transcript“ oder unter „Transcript Editor“ auf Correct and edit speech recognition results. In beiden Fällen sehen Sie das Transkript im HTML-Format.

Bearbeitungsfenster Transkript in wit.ai

Klicken Sie auf Edit Transcript und korrigieren Sie, wo nötig, die Transkription. In meinem Beispiel wurde beispielsweise „App Anchor“ in „app Inka“ und „app NK“ übertragen. Wenn Sie auf die zu korrigierende Zeile klicken, wird Ihnen diese vorgespielt und Sie hören genau, was an dieser Stelle gesagt wurde. Auch Kommas dürfen sie noch korrigieren. Insgesamt finde ich das Ergebnis wirklich großartig!

Exportieren Sie das Ganze, indem Sie oben rechts auf „Export“ klicken. Sie können dann mit „Save Editor“ den Text als HTML-Datei auf Ihrem PC speichern. Diese Datei lässt sich wiederum mit dem Texteditor Word öffnen und dann als DOC-Datei speichern. Dann haben Sie die Möglichkeit, den Text weiter zu bearbeiten. Denn selten sind mündliche Interviews in ihrer Eins-zu-eins-Verschriftlichung auch gut lesbar, das heißt, die Texte brauchen meistens eine Überarbeitung, die über die reine Fehlerkorrektur hinausgeht.

Die HTML-Datei lässt sich natürlich auch direkt im Texteditor auf Ihrer Webseite einbinden. Ebenfalls ist die Speichung des Textes als PDF möglich, das Sie Ihren Hörern zur Verfügung stellen können. Das Speichern als VTT-Datei ist auch eine Variante, dieses Format wird für Untertitel genutzt. Das kann interessant sein, wenn Sie aus Ihrem Audio auch ein Video machen möchten.

Mein Fazit: Die mit der Verschriftlichung und gegebenenfalls mit der Bearbeitung und Veröffentlichung verbundene Arbeit lohnt sich allemal. Wenn Sie die Beiträge beispielsweise auf Ihrem Blog einstellen, bieten Sie den anfangs erwähnten Suchmaschinen mehr „Futter“. Dadurch finden neue, interessierte Menschen besser zu Ihrem Podcast. Es gibt die Möglichkeit, den Hörern die schon erwähnten PDFs anzubieten und Sie können ein E-Book mit den Inhalten mehrerer interessanter Podcastfolgen veröffentlichen. Oder Sie nehmen einfach ein paar gute Statements aus der Episode und verwenden sie für die Shownotes. Sie haben mit einem Transkript die Folge einfach schon einmal schwarz auf weiß – und da lässt sich immer etwas draus machen. Und in Zeiten von KI geht das blitzschnell. Transkript bei Chat GPT hochladen und daraus die Shownotes generieren und einen guten Titel sind nur zwei Möglichkeiten.

Newsletter Podcasting: Finden Sie Gehör bei Ihren Kunden!

Sichern Sie sich meine Impulse für den Start des eigenen Podcasts und fürs Podcasten.

  • Tipps aus der Praxis für die Praxis.
  • Rabatt auf meine Online-Kurse.
  • Zugang zur kostenlosen Podcast-Sprechstunde.
  • Nur 1x im Monat.

Tragen Sie sich gleich ein:

Teilen Sie diesen Beitrag, ohne eine digitale Spur zu hinterlassen.