Como funciona
Fala para texto — Transcreva fala para texto ao vivo usando seu microfone. Todo o processamento acontece no seu navegador — sem upload, sem cadastro, sem e-mail. Grátis para sempre.
Última atualização:
Sobre Fala para texto
Fala para Texto faz a transcrição ao vivo de tudo que você diz pelo microfone em texto na página. Usa a Web Speech Recognition API do navegador, sendo uma ferramenta de ditado sem instalação, perfeita para anotações rápidas, escrever mensagens ou capturar ideias durante uma reunião.
Jornalistas registram trechos de entrevistas, estudantes ditam notas de estudo e devs prototipam recursos de voz sem montar um backend. O reconhecimento roda continuamente até você clicar em Stop, formando uma transcrição que dá para copiar ou editar.
O suporte de navegador é desigual. O reconhecimento funciona melhor em Chrome e Edge; a maioria dos navegadores baseados em Chromium (Brave, Opera) também funciona. O Safari tem suporte parcial no macOS, e o Firefox atualmente não expõe a API. Como a Web Speech API tem limitações, Chrome e Edge entregam a melhor precisão.
Como usar Fala para texto
- Escolha um Language (idioma) no dropdown para que o reconhecedor use o modelo acústico correto.
- Clique em Start listening. O navegador pedirá permissão para o microfone — aceite uma vez.
- Fale naturalmente. O status Listening… aparece enquanto o microfone está ativo e a transcrição se preenche conforme as palavras são reconhecidas.
- Clique em Stop quando terminar. A transcrição permanece na tela, pronta para edição ou cópia.
- Se o reconhecimento pausar inesperadamente, clique em Start listening novamente para retomar.
Casos de uso comuns
- Capturar memorandos de voz durante uma caminhada e transformá-los em texto editável.
- Rascunhar posts de blog ou e-mails falando em vez de digitar — bem mais rápido para um primeiro rascunho.
- Criar transcrições aproximadas de entrevistas ou podcasts para arquivos pesquisáveis.
- Acessibilidade: entrada hands-free para usuários que sentem dificuldade ou dor ao digitar.
- Praticar um idioma estrangeiro e verificar se sua pronúncia está sendo reconhecida corretamente.
Dicas e erros comuns
- Use um ambiente silencioso e um microfone razoável. Ruído de fundo derruba a precisão.
- Fale em frases curtas e completas — o reconhecedor insere pontuação a partir de pausas e entonação.
- Se a API parar de ouvir após alguns segundos de silêncio, basta clicar em Start de novo. Continuamos de onde paramos.
- Escolha a variante de idioma certa (ex.: en-US vs en-GB, pt-BR vs pt-PT). O modelo é ajustado por locale e o sotaque importa.
Perguntas frequentes
Quais navegadores suportam isso?
Chrome, Edge e a maioria dos navegadores baseados em Chromium (Brave, Opera). Safari suporta no macOS com limitações. Firefox atualmente não expõe a Web Speech API.
Onde ocorre o reconhecimento?
Implementações de navegador geralmente enviam o áudio a um serviço de nuvem (ex. Google) para transcrição. A transcrição retorna ao seu navegador; nunca a vemos. Se precisa totalmente no dispositivo, procure ferramentas usando whisper.cpp.
Pode transcrever múltiplos falantes ou áudio ruidoso?
A Web Speech API é otimizada para um único falante em ambiente silencioso. Para diarização multi-falante ou áudio sujo, ferramentas dedicadas funcionam muito melhor.
O áudio vai para um servidor?
As implementações de Web Speech API nos navegadores normalmente enviam o áudio para o serviço em nuvem do fornecedor (Google no Chrome, Microsoft no Edge) para reconhecimento. Nós nunca vemos o áudio nem a transcrição — mas o fabricante do navegador vê. Para reconhecimento totalmente no dispositivo, considere ferramentas baseadas em whisper.cpp.
Por que o reconhecimento é muito pior no Safari do que no Chrome?
O Safari implementa um subconjunto antigo da spec de Speech Recognition e usa o modelo on-device da Apple, otimizado para comandos da Siri em vez de ditado de vocabulário aberto. Tente Chrome ou Edge para precisão notavelmente maior.
Posso adicionar vocabulário personalizado, como nomes de produtos?
A Web Speech API não expõe um hook de vocabulário customizado. Soluções comuns: soletre nomes incomuns na primeira vez, ou faça um find-and-replace na transcrição depois.