Skip to content

ocrgrep è un tool da linea di comando che combina OCR e grep: estrae testo da PDF e immagini tramite Tesseract OCR e permette di cercare parole o espressioni regolari all’interno del testo.

Notifications You must be signed in to change notification settings

MattiaSaiko/ocrgrep

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 

Repository files navigation

🕵️‍♂️ ocrgrep

ocrgrep è un tool da linea di comando che combina OCR e grep:
estrae testo da PDF e immagini tramite Tesseract OCR e permette di cercare parole o espressioni regolari all’interno del testo.


✨ Funzionalità

  • Estrazione testo da:
    • PDF nativi
    • PDF scansiti (OCR pagina per pagina)
    • Immagini (.png, .jpg, .tif, .webp)
    • File di testo
  • Ricerca con:
    • regex o stringa fissa
    • case-insensitive (default) o case-sensitive
    • ricerca ricorsiva nelle cartelle (default)
  • Output a terminale con file, pagina, linea e contesto
  • Esportazione dei risultati in JSON e/o CSV

⚙️ Installazione

🔹 Installer automatico

Scarica il repository, entra nella cartella ed esegui:

chmod +x installer.sh
./installer.sh

Dopo l’installazione puoi verificare con:

ocrgrep -h

About

ocrgrep è un tool da linea di comando che combina OCR e grep: estrae testo da PDF e immagini tramite Tesseract OCR e permette di cercare parole o espressioni regolari all’interno del testo.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages