Fala para texto

Transcreva fala para texto ao vivo usando seu microfone

Idioma

Transcrição

Como funciona

Fala para texto — Transcreva fala para texto ao vivo usando seu microfone. Todo o processamento acontece no seu navegador — sem upload, sem cadastro, sem e-mail. Grátis para sempre.

Última atualização: 2026-05-06

Editor's note

Esta é a Web Speech API, que no Chrome significa que seu áudio está sendo transmitido para os servidores do Google para reconhecimento, e no Edge significa os da Microsoft. Falamos isso de cara porque a frase "fala para texto no navegador" faz as pessoas presumirem totalmente offline, e não é. Nunca vemos o áudio nem a transcrição nós mesmos — mas o fornecedor do navegador vê, e isso importa se você está ditando algo privado. Para reconhecimento genuinamente offline, rode um build de whisper.cpp localmente; esta ferramenta é para ditado de baixo risco.

Usamos para primeiros rascunhos e memos de voz em caminhadas. O reconhecedor insere pontuação a partir das suas pausas e entonação, o que é estranho quando funciona e uma pequena dor de cabeça quando não — frases curtas e completas ajudam. A API também tem mania de ficar quieta depois de alguns segundos de silêncio; ligamos o Start para retomar de forma limpa em vez de fingir que a sessão é contínua, porque fingir leva a vinte minutos de ditado que silenciosamente pararam de gravar no minuto três.

Sobre Fala para texto

Fala para Texto faz a transcrição ao vivo de tudo que você diz pelo microfone em texto na página. Usa a Web Speech Recognition API do navegador, sendo uma ferramenta de ditado sem instalação, perfeita para anotações rápidas, escrever mensagens ou capturar ideias durante uma reunião.

Jornalistas registram trechos de entrevistas, estudantes ditam notas de estudo e devs prototipam recursos de voz sem montar um backend. O reconhecimento roda continuamente até você clicar em Stop, formando uma transcrição que dá para copiar ou editar.

O suporte de navegador é desigual. O reconhecimento funciona melhor em Chrome e Edge; a maioria dos navegadores baseados em Chromium (Brave, Opera) também funciona. O Safari tem suporte parcial no macOS, e o Firefox atualmente não expõe a API. Como a Web Speech API tem limitações, Chrome e Edge entregam a melhor precisão.

Como usar Fala para texto

Escolha um Language (idioma) no dropdown para que o reconhecedor use o modelo acústico correto.
Clique em Start listening. O navegador pedirá permissão para o microfone — aceite uma vez.
Fale naturalmente. O status Listening… aparece enquanto o microfone está ativo e a transcrição se preenche conforme as palavras são reconhecidas.
Clique em Stop quando terminar. A transcrição permanece na tela, pronta para edição ou cópia.
Se o reconhecimento pausar inesperadamente, clique em Start listening novamente para retomar.

Casos de uso comuns

Capturar memorandos de voz durante uma caminhada e transformá-los em texto editável.
Rascunhar posts de blog ou e-mails falando em vez de digitar — bem mais rápido para um primeiro rascunho.
Criar transcrições aproximadas de entrevistas ou podcasts para arquivos pesquisáveis.
Acessibilidade: entrada hands-free para usuários que sentem dificuldade ou dor ao digitar.
Praticar um idioma estrangeiro e verificar se sua pronúncia está sendo reconhecida corretamente.

Dicas e erros comuns

Use um ambiente silencioso e um microfone razoável. Ruído de fundo derruba a precisão.
Fale em frases curtas e completas — o reconhecedor insere pontuação a partir de pausas e entonação.
Se a API parar de ouvir após alguns segundos de silêncio, basta clicar em Start de novo. Continuamos de onde paramos.
Escolha a variante de idioma certa (ex.: en-US vs en-GB, pt-BR vs pt-PT). O modelo é ajustado por locale e o sotaque importa.

Perguntas frequentes

Quais navegadores suportam isso?

Chrome, Edge e a maioria dos navegadores baseados em Chromium (Brave, Opera). Safari suporta no macOS com limitações. Firefox atualmente não expõe a Web Speech API.

Onde ocorre o reconhecimento?

Implementações de navegador geralmente enviam o áudio a um serviço de nuvem (ex. Google) para transcrição. A transcrição retorna ao seu navegador; nunca a vemos. Se precisa totalmente no dispositivo, procure ferramentas usando whisper.cpp.

Pode transcrever múltiplos falantes ou áudio ruidoso?

A Web Speech API é otimizada para um único falante em ambiente silencioso. Para diarização multi-falante ou áudio sujo, ferramentas dedicadas funcionam muito melhor.

O áudio vai para um servidor?

As implementações de Web Speech API nos navegadores normalmente enviam o áudio para o serviço em nuvem do fornecedor (Google no Chrome, Microsoft no Edge) para reconhecimento. Nós nunca vemos o áudio nem a transcrição — mas o fabricante do navegador vê. Para reconhecimento totalmente no dispositivo, considere ferramentas baseadas em whisper.cpp.

Por que o reconhecimento é muito pior no Safari do que no Chrome?

O Safari implementa um subconjunto antigo da spec de Speech Recognition e usa o modelo on-device da Apple, otimizado para comandos da Siri em vez de ditado de vocabulário aberto. Tente Chrome ou Edge para precisão notavelmente maior.

Posso adicionar vocabulário personalizado, como nomes de produtos?

A Web Speech API não expõe um hook de vocabulário customizado. Soluções comuns: soletre nomes incomuns na primeira vez, ou faça um find-and-replace na transcrição depois.