OCR de qualidade no Linux: agora é fácil

Para quem acompanha a saga de realizar um OCR no Linux (veja OCR de qualidade no Linux, Brazilian Portuguese oficialmente suportado no Tesseract-OCR e Tesseract OCR chega no Debian Sid), devo dizer que aproximamos do clímax (com duplo sentido, por favor), três meses depois. Mostrei como rodar o tesseract, criar um dicionário, como instalar no Debian Sid mas fica a sensação de incompleto pois faltava uma interface gráfica que tornasse o processo menos doloroso. O autor da jóia, Jeffrey Ratcliffe, frequenta a lista do tesseract e disponibilizou o gscan2pdf (e o pacote .deb do mesmo, para 32 bits!!). O gscan2pdf tem suporte ao Tesseract, mas não é só um programinha gráfico de OCR: ele escaneia em batch, frente e verso (ajustando as margens), roda o unpaper, bate córner e vai para a área cabecear. Veja os posts anteriores e instale o tesseract-ocr, tesseract-por e o gscan2pdf. Rode o programa (está em Gráficos, no menu Gnome) e escaneie o documento, eu usei estas opções (marquei em amarelo, o que eu modifiquei):

Mande escanear (precisa dizer que é para clicar no botão com um scanner :-P ?). Ele vai fazer o processo e aplicar o OCR em seguida. O texto reconhecido fica em baixo do texto escaneado. Note que eu coloquei algumas dificuldades para o programa, como um texto girado e manuscrito (que não será reconhecido mas aparece como ruído no texto abaixo):

P.S.: Não leio esta revista, mas era uma xerox que tinha disponível aqui em casa. Foi o primeiro que achei. P.P.S: o unpaper ajuda a tirar o manuscrito lateral, mas piora a performance em outras seções. Teste e veja o que melhor lhe agrada, agora é fácil!!

Postado por 21/Nov/2007 11:52 · Thadeu Penna

Discussão

José Vitor Lopes e SilvaJosé Vitor Lopes e Silva, 21/Nov/2007 14:05

Este programa é MUITO bom, comentei sobre ele no post http://tinyurl.com/39kjzw

Uso diariamente no escritório (advocacia) e recomendo muito.

Ainda não é o programa da hp mas tá chegando lá!

Marcelo SantanaMarcelo Santana, 27/Jan/2009 15:48

Olá prof. Thadeu,

Ótimo post.

No link http://www.howtoforge.com/ocr_with_tesseract_on_ubuntu704 tem alguns passos simples, que ajudam a melhorar ainda mais o reconhecimento do texto. Vale a pena dar uma olhada.

Um abraço.

PauloPaulo, 20/Sep/2009 15:56

estou a utilizar o gscan2pdf, e tenho ambos tesseract e gocr instalados do repositório do ubuntu - tesseract não funciona (instalei as bibliotecas de língua todas disponíveis), e o resultado do gocr é um lixo…

Enter your comment (wiki syntax is allowed):
RYPUA

Linkbacks

Use the following URL for manually sending trackbacks: http://profs.if.uff.br/tjpp/lib/plugins/linkback/exe/trackback.php/blog:entradas:ocr-de-qualidade-no-linux-agora-e-facil
blog/entradas/ocr-de-qualidade-no-linux-agora-e-facil.txt · Última modificação: 07/Mar/2009 16:28 (edição externa)
chimeric.de = chi`s home Creative Commons License Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0