Alle Tools

Sprache-zu-Text

Sprache live mit Ihrem Mikrofon zu Text transkribieren

So funktioniert es

Sprache-zu-TextSprache live mit Ihrem Mikrofon zu Text transkribieren. Alle Verarbeitung erfolgt in deinem Browser — kein Upload, keine Anmeldung, keine E-Mail. Für immer kostenlos.

Zuletzt aktualisiert:

Über Sprache-zu-Text

Sprache zu Text transkribiert live alles, was du in dein Mikrofon sprichst, in Text auf der Seite. Das Tool nutzt die Web Speech Recognition API des Browsers und ist damit ein installationsfreies Diktiertool — perfekt für schnelle Notizen, das Verfassen von Nachrichten oder das Festhalten von Gedanken in einem Meeting.

Journalisten halten Interview-Schnipsel fest, Studenten diktieren Lernnotizen und Entwickler prototypen Sprachfunktionen ohne Backend. Die Erkennung läuft kontinuierlich, bis du Stop klickst, und baut ein Transkript auf, das du kopieren oder bearbeiten kannst.

Die Browser-Unterstützung ist uneinheitlich. Die Erkennung funktioniert am besten in Chrome und Edge; die meisten Chromium-Browser (Brave, Opera) ebenfalls. Safari hat auf macOS Teilunterstützung, und Firefox stellt die API derzeit nicht bereit.

So verwenden Sie Sprache-zu-Text

  1. Wähle eine Language aus dem Dropdown, damit der Erkenner das richtige akustische Modell verwendet.
  2. Klicke Start listening. Der Browser fragt nach Mikrofonberechtigung — einmal akzeptieren.
  3. Sprich natürlich. Der Status Listening… erscheint, solange das Mikrofon aktiv ist, und das Transkript füllt sich, während Wörter erkannt werden.
  4. Klicke Stop, wenn du fertig bist. Das Transkript bleibt auf dem Bildschirm, sodass du es bearbeiten oder kopieren kannst.
  5. Pausiert die Erkennung unerwartet, klicke erneut Start listening, um fortzufahren.

Häufige Anwendungsfälle

  • Sprachmemos beim Spazierengehen aufnehmen und in editierbaren Text verwandeln.
  • Blogposts oder E-Mails per Sprache statt per Tastatur entwerfen — viel schneller für erste Entwürfe.
  • Grobe Transkripte von Interviews oder Podcasts für durchsuchbare Archive erstellen.
  • Barrierefreiheit: freihändige Eingabe für Nutzer, denen das Tippen schwerfällt oder schmerzt.
  • Eine Fremdsprache üben und prüfen, ob deine Aussprache korrekt erkannt wird.

Tipps und häufige Fehler

  • Verwende eine ruhige Umgebung und ein anständiges Mikrofon. Hintergrundgeräusche zerstören die Genauigkeit.
  • Sprich in kurzen, vollständigen Sätzen — der Erkenner setzt Satzzeichen anhand von Pausen und Intonation.
  • Stoppt die API nach ein paar Sekunden Stille das Zuhören, klicke einfach erneut Start. Wir machen dort weiter, wo du aufgehört hast.
  • Wähle die richtige Sprachvariante (z. B. en-US vs. en-GB). Das Modell ist je Locale getunt, und Akzente machen einen Unterschied.

Häufig gestellte Fragen

Welche Browser unterstützen das?

Chrome, Edge und die meisten Chromium-basierten Browser (Brave, Opera). Safari unterstützt es auf macOS mit Einschränkungen. Firefox stellt derzeit keine Web Speech API bereit.

Wo findet die Erkennung statt?

Browser-Implementierungen senden Audio typischerweise an einen Cloud-Dienst (z. B. Google) zur Transkription. Die Transkription kommt zurück zu deinem Browser; wir sehen sie nie. Für vollständig auf dem Gerät, schau dir Tools mit whisper.cpp an.

Kann es mehrere Sprecher oder verrauschtes Audio transkribieren?

Die Web Speech API ist für einen einzelnen Sprecher in ruhiger Umgebung optimiert. Für Multi-Sprecher-Diarisation oder verrauschtes Audio funktionieren spezialisierte Tools viel besser.

Geht das Audio an einen Server?

Browser-Implementierungen der Web Speech API senden das Audio typischerweise zur Erkennung an den Cloud-Dienst des Anbieters (Google für Chrome, Microsoft für Edge). Wir sehen weder das Audio noch das Transkript — der Browserhersteller jedoch schon. Für vollständig geräteinterne Erkennung schau dir whisper.cpp-basierte Tools an.

Warum ist die Erkennung in Safari so viel schlechter als in Chrome?

Safari implementiert eine ältere Teilmenge der Speech-Recognition-Spezifikation und nutzt Apples geräteinternes Modell, das auf Siri-Befehle optimiert ist und nicht auf offene Diktate. Versuche Chrome oder Edge für deutlich bessere Genauigkeit.

Kann ich eigenes Vokabular wie Produktnamen hinzufügen?

Die Web Speech API stellt keinen Hook für eigenes Vokabular bereit. Übliche Workarounds: ungewöhnliche Namen beim ersten Mal buchstabieren oder im Transkript nachträglich Suchen-und-Ersetzen anwenden.

Ähnliche Tools