Brazilian Portuguese oficialmente suportado no Tesseract-OCR

O arquivo com as palavras e os arquivos de treinamento, que eu criei e disponibilizei no post mais lido deste blog (OCR de qualidade no Linux) :-), foram aceitos na versão oficial do programa, a partir da sua versão 2.01. Atualize o Tesseract e use aquele arquivo ao invés do que eu coloquei no post.

Discussão

Tiago José Soares SilvaTiago José Soares Silva, 25/Oct/2007 18:25

Gostaria de saber como posso fazer o download do Tesseract-OCR cuja versão comporta o português brasileiro.

Obrigado, espero resposta.

Thadeu PennaThadeu Penna, 25/Oct/2007 18:41

Oi Tiago,

é só clicar no link do Teserract no post acima e ir na seção de Downloads. Baixe os arquivos tesseract-2.01.por.tar.gz e tesseract-2.01.tar.gz.

Tiago José Soares SilvaTiago José Soares Silva, 25/Oct/2007 19:18

Eu estou lendo o READ ME e encontrei isso aqui: The command line is: tesseract <image.tif> <output> [-l langid] Gostaria de saber onde que eu vou colocar esse comando, no execurar do windows? e esse ”<output>” deve ser escrito assim mesmo ou é como ”<image.tif>” em que o image deve ser trocado pelo nome da imagem.

Obrigado, espero resposta.

Eduardo O. NetoEduardo O. Neto, 12/Nov/2007 06:06

Olá Thadeu,

Estou querendo usar o Teserract para reconhecer apenas números e algumas poucas letras maiúsculas. Existe alguma forma de apagar algumas letras dos arquivos de língua e ficar apenas com os caracteres que preciso sem ter que treinar uma nova lingua?

Obrigado, Eduardo.

Thadeu PennaThadeu Penna, 12/Nov/2007 08:51

Oi Eduardo,

o gocr já tem um opção para reconhecer apenas números. No Tesseract, você tem que mexer no código e recompilá-lo :-( , em especial a função TessBaseAPI::Init.

Outra saída, mais trabalhosa, é treinar o Tesseract para usar uma linguagem nova só com caracteres maiúsculos e números. O quanto vale a pena vai depender de quantas vezes você vai precisar reconhecer isto.

Gustavo ClementeGustavo Clemente, 22/Nov/2007 15:32

Boa tarde amigo, parabens pelo trabalho! Gostaria de saber se consigo reconhecer fontes CMC7 com o tesseract, e caso consiga como devo proceder? obrigado!!!

Thadeu PennaThadeu Penna, 22/Nov/2007 19:08

Oi Gustavo

Sim, você pode treinar o tesseract para reconhecer as fontes CMC7. Não creio que seu objetivo seja reconhecer palavras e frases mas apenas poucos caracteres, certo ? Neste caso, você pode usar o tesseract para aprender as fontes como uma nova linguagem, sem a necessidade de dicionários. O link para o manual de treinamento é http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract

Boa sorte e informe seus resultados!

JoãoJoão, 01/Jul/2008 08:32

Só para dizer que funciona muito bem com português europeu. Bela aplicação de OCR.

IgorIgor, 03/Sep/2008 11:49

Cara,

Isto é um software, ou uma API? Eu preciso utilizar em uma aplicação JAVA um OCR! Sabes como eu posso fazer? Estou procurando algumas APIs java de OCR, mas todas que encotnrei, são pagas… :(

Valeu, abraço!

CleberCleber, 23/Nov/2011 10:21

Igor,

Eu não sei Java, mas creio que qualquer aplicação pode chamar um programa no Linux.

Estou fazendo um aplicativo em QMbasic/OpenQM e o programa de OCR funcionou bem.

… LOCAL:'teste1.tif' LOCAL$:'texto -l por'

o (!) chama o sh t+ Cleber

Ramon LeonnRamon Leonn, 10/Nov/2008 00:27

Estou com o mesmo problema do Igor, vc poderia ajudar?

abraço, obrigado.

Adriano Adriano , 21/Nov/2008 09:54

Olá meo Ocr não reconhece em português! já baixei o plugin e nada de funcionar! o que faço???

Thadeu PennaThadeu Penna, 21/Nov/2008 11:05

Adriano,

veja este post, mais recente: OCR de qualidade no Linux: agora é fácil.

adrianoadriano, 21/Nov/2008 11:34

Pois é eu dei uma olhada! mas não entendi muito bem! obs: quero rodar no windonsXP! eu baixei o pacote dito logo acima e descompactei dentro da pasta do programa. ele não reconheceu português! os textos que estão em ingles o danado interpreta certinho! eu tenho já escaneado e esta em dois formatos jpg e tif pelo pothoshop

Thadeu PennaThadeu Penna, 21/Nov/2008 11:45

Não tenho nenhuma experiência com o XP. Nesta, não vou poder te ajudar :)

Vanderval borges de sozuaVanderval borges de sozua, 15/Apr/2009 11:32

Bom dia, onde eu consigo um código em java (pode ser bem basicão) para executar a leitura de uma imagem utilizando o tesseract-ocr? Obrigado.

Enter your comment
NPIVR
 

Linkbacks

Use the following URL for manually sending trackbacks: http://profs.if.uff.br/tjpp/lib/plugins/linkback/exe/trackback.php/blog:entradas:brazilian-portuguese-oficialmente-suportado-no-tesseract-ocr
Tesseract portuguese | Onyximage, 26/Aug/2011 03:05 (Pingback)
[...] Brazilian Portuguese oficialmente suportado no Tesseract-OCR [Blog … [...]
 
blog/entradas/brazilian-portuguese-oficialmente-suportado-no-tesseract-ocr.txt · Última modificação: 27/Mar/2010 23:52 (edição externa)
chimeric.de = chi`s home Creative Commons License Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0