Todas las herramientas

Voz a texto

Transcribe voz a texto en vivo usando tu micrófono

Cómo funciona

Voz a textoTranscribe voz a texto en vivo usando tu micrófono. Todo el procesamiento ocurre en tu navegador — sin subida, sin registro, sin email. Gratis para siempre.

Última actualización:

Acerca de Voz a texto

Voz a texto transcribe en directo todo lo que dices por el micrófono y lo convierte en texto en la página. Utiliza la API Web Speech Recognition del navegador, lo que la convierte en una herramienta de dictado sin instalación, perfecta para tomar notas rápidas, redactar mensajes o capturar ideas durante una reunión.

Los periodistas capturan fragmentos de entrevistas, los estudiantes dictan apuntes y los desarrolladores prototipan funciones de voz sin montar un backend. El reconocimiento sigue activo hasta que pulses Stop, generando una transcripción que puedes copiar o editar.

El soporte en navegadores es desigual. El reconocimiento funciona mejor en Chrome y Edge; la mayoría de navegadores Chromium (Brave, Opera) también funcionan. Safari ofrece soporte parcial en macOS y Firefox no expone actualmente la API.

Cómo usar Voz a texto

  1. Elige un Idioma en el desplegable para que el reconocedor utilice el modelo acústico correcto.
  2. Pulsa Start listening. El navegador pedirá permiso para acceder al micrófono: acéptalo una vez.
  3. Habla con naturalidad. El estado Listening… aparece mientras el micrófono está activo y la transcripción se rellena conforme se reconocen las palabras.
  4. Pulsa Stop cuando termines. La transcripción se queda en pantalla para que puedas editarla o copiarla.
  5. Si el reconocimiento se pausa de forma inesperada, vuelve a pulsar Start listening para reanudarlo.

Casos de uso comunes

  • Capturar notas de voz durante un paseo y convertirlas en texto editable.
  • Redactar entradas de blog o correos hablando en lugar de teclear, mucho más rápido para un primer borrador.
  • Crear transcripciones aproximadas de entrevistas o pódcasts para tener archivos buscables.
  • Accesibilidad: entrada manos libres para personas a las que escribir les resulta difícil o doloroso.
  • Practicar un idioma extranjero y verificar que tu pronunciación se reconoce correctamente.

Consejos y errores comunes

  • Trabaja en un entorno tranquilo y con un micrófono decente. El ruido de fondo destroza la precisión.
  • Habla en frases cortas y completas: el reconocedor inserta la puntuación basándose en pausas y entonación.
  • Si la API deja de escuchar tras unos segundos de silencio, simplemente vuelve a pulsar Start. Retomamos donde lo dejaste.
  • Elige la variante de idioma adecuada (por ejemplo, es-ES frente a es-MX). El modelo se afina por locale y el acento importa.

Preguntas frecuentes

¿Qué navegadores lo soportan?

Chrome, Edge y la mayoría de navegadores basados en Chromium (Brave, Opera). Safari lo soporta en macOS pero con limitaciones. Firefox actualmente no expone la Web Speech API.

¿Dónde ocurre el reconocimiento?

Las implementaciones del navegador suelen enviar el audio a un servicio en la nube (p. ej. Google) para transcribir. La transcripción regresa a tu navegador; nosotros nunca la vemos. Si necesitas todo en el dispositivo, busca herramientas con whisper.cpp.

¿Puede transcribir múltiples hablantes o audio ruidoso?

La Web Speech API está optimizada para un solo hablante en un entorno silencioso. Para diarización multi-hablante o audio sucio, herramientas dedicadas funcionan mucho mejor.

¿El audio se envía a algún servidor?

Las implementaciones de la Web Speech API en los navegadores suelen enviar el audio al servicio en la nube del fabricante para reconocerlo (Google en Chrome, Microsoft en Edge). Nosotros no vemos ni el audio ni la transcripción, pero el fabricante del navegador sí. Para reconocimiento totalmente en dispositivo, mira herramientas basadas en whisper.cpp.

¿Por qué el reconocimiento es mucho peor en Safari que en Chrome?

Safari implementa un subconjunto más antiguo de la especificación Speech Recognition y usa el modelo on-device de Apple, optimizado para órdenes de Siri más que para dictado de vocabulario abierto. Prueba Chrome o Edge para una precisión claramente mejor.

¿Puedo añadir vocabulario personalizado, como nombres de producto?

La Web Speech API no expone un hook de vocabulario personalizado. Soluciones habituales: deletrear los nombres poco comunes la primera vez o aplicar un find-and-replace sobre la transcripción al terminar.

Herramientas relacionadas