====== OCR de qualidade no Linux: agora é fácil ====== Para quem acompanha a saga de realizar um OCR no Linux (veja [[ocr-de-qualidade-no-linux]], [[brazilian-portuguese-oficialmente-suportado-no-tesseract-ocr]] e [[tesseract-ocr-chega-no-debian-sid]]), devo dizer que aproximamos do clímax (com duplo sentido, por favor), três meses depois. Mostrei como rodar o tesseract, criar um dicionário, como instalar no Debian Sid mas fica a sensação de incompleto pois faltava uma interface gráfica que tornasse o processo menos doloroso. O autor da jóia, Jeffrey Ratcliffe, frequenta a lista do tesseract e disponibilizou o [[ http://gscan2pdf.sourceforge.net/|gscan2pdf]] (e o pacote .deb do mesmo, para 32 bits!!). O gscan2pdf tem suporte ao Tesseract, mas não é só um programinha gráfico de OCR: ele escaneia em batch, frente e verso (ajustando as margens), roda o unpaper, bate córner e vai para a área cabecear. Veja os posts anteriores e instale o tesseract-ocr, tesseract-por e o gscan2pdf. Rode o programa (está em Gráficos, no menu Gnome) e escaneie o documento, eu usei estas opções (marquei em amarelo, o que eu modifiquei): {{ blog:entradas:gscan2pdf-options.png | }} Mande escanear (precisa dizer que é para clicar no botão com um scanner :-P ?). Ele vai fazer o processo e aplicar o OCR em seguida. O texto reconhecido fica em baixo do texto escaneado. Note que eu coloquei algumas dificuldades para o programa, como um texto girado e manuscrito (que não será reconhecido mas aparece como ruído no texto abaixo): {{ blog:entradas:gscan2pdf.png |}} P.S.: Não leio esta revista, mas era uma xerox que tinha disponível aqui em casa. Foi o primeiro que achei. P.P.S: o unpaper ajuda a tirar o manuscrito lateral, mas piora a performance em outras seções. Teste e veja o que melhor lhe agrada, agora é fácil!! {{tag>debian linux}} ~~LINKBACK~~ ~~DISCUSSION~~