O arquivo com as palavras e os arquivos de treinamento, que eu criei e disponibilizei no post mais lido deste blog (OCR de qualidade no Linux)
, foram aceitos na versão oficial do programa, a partir da sua versão 2.01. Atualize o Tesseract e use aquele arquivo ao invés do que eu coloquei no post.
Discussão
Gostaria de saber como posso fazer o download do Tesseract-OCR cuja versão comporta o português brasileiro.
Obrigado, espero resposta.
Oi Tiago,
é só clicar no link do Teserract no post acima e ir na seção de Downloads. Baixe os arquivos tesseract-2.01.por.tar.gz e tesseract-2.01.tar.gz.
Eu estou lendo o READ ME e encontrei isso aqui: The command line is: tesseract <image.tif> <output> [-l langid] Gostaria de saber onde que eu vou colocar esse comando, no execurar do windows? e esse ”<output>” deve ser escrito assim mesmo ou é como ”<image.tif>” em que o image deve ser trocado pelo nome da imagem.
Obrigado, espero resposta.
Olá Thadeu,
Estou querendo usar o Teserract para reconhecer apenas números e algumas poucas letras maiúsculas. Existe alguma forma de apagar algumas letras dos arquivos de língua e ficar apenas com os caracteres que preciso sem ter que treinar uma nova lingua?
Obrigado, Eduardo.
Oi Eduardo,
o gocr já tem um opção para reconhecer apenas números. No Tesseract, você tem que mexer no código e recompilá-lo
, em especial a função TessBaseAPI::Init.
Outra saída, mais trabalhosa, é treinar o Tesseract para usar uma linguagem nova só com caracteres maiúsculos e números. O quanto vale a pena vai depender de quantas vezes você vai precisar reconhecer isto.
Boa tarde amigo, parabens pelo trabalho! Gostaria de saber se consigo reconhecer fontes CMC7 com o tesseract, e caso consiga como devo proceder? obrigado!!!
Oi Gustavo
Sim, você pode treinar o tesseract para reconhecer as fontes CMC7. Não creio que seu objetivo seja reconhecer palavras e frases mas apenas poucos caracteres, certo ? Neste caso, você pode usar o tesseract para aprender as fontes como uma nova linguagem, sem a necessidade de dicionários. O link para o manual de treinamento é http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract
Boa sorte e informe seus resultados!
Só para dizer que funciona muito bem com português europeu. Bela aplicação de OCR.
Cara,
Isto é um software, ou uma API? Eu preciso utilizar em uma aplicação JAVA um OCR! Sabes como eu posso fazer? Estou procurando algumas APIs java de OCR, mas todas que encotnrei, são pagas… :(
Valeu, abraço!
Igor,
Eu não sei Java, mas creio que qualquer aplicação pode chamar um programa no Linux.
Estou fazendo um aplicativo em QMbasic/OpenQM e o programa de OCR funcionou bem.
… LOCAL:'teste1.tif' LOCAL$:'texto -l por'
o (!) chama o sh t+ Cleber
Estou com o mesmo problema do Igor, vc poderia ajudar?
abraço, obrigado.
Olá meo Ocr não reconhece em português! já baixei o plugin e nada de funcionar! o que faço???
Adriano,
veja este post, mais recente: OCR de qualidade no Linux: agora é fácil.
Pois é eu dei uma olhada! mas não entendi muito bem! obs: quero rodar no windonsXP! eu baixei o pacote dito logo acima e descompactei dentro da pasta do programa. ele não reconheceu português! os textos que estão em ingles o danado interpreta certinho! eu tenho já escaneado e esta em dois formatos jpg e tif pelo pothoshop
Não tenho nenhuma experiência com o XP. Nesta, não vou poder te ajudar :)
Bom dia, onde eu consigo um código em java (pode ser bem basicão) para executar a leitura de uma imagem utilizando o tesseract-ocr? Obrigado.