Tesseract (software)
Tesseract é um software de reconhecimento ótico de caracteres de código aberto (Licença Apache 2.0),[2] originalmente desenvolvido pela Hewlett-Packard e foi por um tempo mantido pelo Google; atualmente o projeto está hospedado no GitHub.
Tesseract 4.1.1 lendo uma mensagem | |
Desenvolvedor | |
Plataforma | Linux, Windows e MacOS |
Versão estável | 5.5.0[1] (10 de novembro de 2024 ) |
Idioma(s) | Interface: inglês
Reconhecimento: africâner, alemão albanês, árabe, azerbaijano, basco, bielorrusso, bengali, búlgaro, catalão, canarês, checo, cherokee, coreano, croata, dinamarquês, eslovaco, esloveno, espanhol, esperanto, estoniano, finlandês, francês, galego, grego, hindi, holandês, húngaro, inglês, indonésio, italiano, japonês, letão, lituano, malaiala, macedônio, maltês, malaio, norueguês, polonês, português, romeno, russo, sérvio, suaíli, sueco, tagalog, tâmil, télugo, tailandês, turco, ucraniano e vietnamita |
Escrito em | C e C++ |
Sistema operacional | Linux, Windows e MacOS |
Licença | Licença Apache 2.0. |
Estado do desenvolvimento | Ativo |
Página oficial | github |
Repositório | github |
Se aplica a imagens em formato tiff com texto puro em uma única coluna, convertendo a saída em um arquivo txt. Não possui mecanismos para reconhecimento de layout, desta forma não é recomendável para textos que possuam imagens, fórmulas ou mais de uma coluna.
Referências
- ↑ «Releases – tesseract-ocr/tesseract». GitHub (em inglês). Consultado em 11 de novembro de 2024
- ↑ https://github.com/tesseract-ocr/tesseract/blob/master/README.md Consultado em 4 de fevereiro de 2016