occorrendomi un OCR ho provato Tesseract che trovo molto interessante (e anche enormemente migliorato rispetto ad alcuni addietro quando l'avevo provato la prima volta).
Tuttavia non riesco ad impostare i parametri nel modo migliore per potere poi elaborare il testo.
Preciso che si tratta di fatture, quindi layout un po' complicato.
Tuttavia se provo con gImageReader, che si appoggia sempre a TesserAct, il risultato è perfetto nell'estrazione del testo.
Sempre con gImageReader, se invece genero il PDF ricercabile, il risultato è molto inferiore rispetto alla conversione in formato testo.
Dopo avere convertito il PDF in PNG:
Codice: Seleziona tutto
pdftoppm -png Pdf2.pdf > Pdf2_Poppler.png
Codice: Seleziona tutto
tesseract Page2_Poppler.png - -l eng+deu > Page2_Poppler.txt
Codice: Seleziona tutto
tesseract Page2_Poppler.png - -l eng+deu --psm 4 > Page2_Poppler_EngDeu_PSM4.txt
Qualcuno ha un suggerimento per ottenere lo stesso risultato che ottengo con gImageReader?
Vorrei lanciare TesserAct da un software esterno che qualora incontri un PDF grafico lo elabori con OCR, in alternativa al PdfToText per PDF normali (non grafici).
Ho anche provato ad utilizzare OCRMyPDF, per estrarre poi il testo con PdfToText, ma mi sembra peggiorativo rispetto ad utilizzare direttamente TesserAct:
Codice: Seleziona tutto
ocrmypdf -l eng+deu --tesseract-pagesegmode 4 Page2.pdf Page2_OCRMYPDF_PSM4.pdf
Buona giornata a tutti,
Stéphanie