Question 1

Welche Browser unterstützen das?

Accepted Answer

Chrome, Edge und die meisten Chromium-basierten Browser (Brave, Opera). Safari unterstützt es auf macOS mit Einschränkungen. Firefox stellt derzeit keine Web Speech API bereit.

Question 2

Wo findet die Erkennung statt?

Accepted Answer

Browser-Implementierungen senden Audio typischerweise an einen Cloud-Dienst (z. B. Google) zur Transkription. Die Transkription kommt zurück zu deinem Browser; wir sehen sie nie. Für vollständig auf dem Gerät, schau dir Tools mit whisper.cpp an.

Question 3

Kann es mehrere Sprecher oder verrauschtes Audio transkribieren?

Accepted Answer

Die Web Speech API ist für einen einzelnen Sprecher in ruhiger Umgebung optimiert. Für Multi-Sprecher-Diarisation oder verrauschtes Audio funktionieren spezialisierte Tools viel besser.

Question 4

Geht das Audio an einen Server?

Accepted Answer

Browser-Implementierungen der Web Speech API senden das Audio typischerweise zur Erkennung an den Cloud-Dienst des Anbieters (Google für Chrome, Microsoft für Edge). Wir sehen weder das Audio noch das Transkript — der Browserhersteller jedoch schon. Für vollständig geräteinterne Erkennung schau dir whisper.cpp-basierte Tools an.

Question 5

Warum ist die Erkennung in Safari so viel schlechter als in Chrome?

Accepted Answer

Safari implementiert eine ältere Teilmenge der Speech-Recognition-Spezifikation und nutzt Apples geräteinternes Modell, das auf Siri-Befehle optimiert ist und nicht auf offene Diktate. Versuche Chrome oder Edge für deutlich bessere Genauigkeit.

Question 6

Kann ich eigenes Vokabular wie Produktnamen hinzufügen?

Accepted Answer

Die Web Speech API stellt keinen Hook für eigenes Vokabular bereit. Übliche Workarounds: ungewöhnliche Namen beim ersten Mal buchstabieren oder im Transkript nachträglich Suchen-und-Ersetzen anwenden.

Sprache-zu-Text

So funktioniert es

Über Sprache-zu-Text

So verwenden Sie Sprache-zu-Text

Häufige Anwendungsfälle

Tipps und häufige Fehler

Häufig gestellte Fragen

Ähnliche Tools