Table des matières

Tesseract OCR

Site du projet : https://github.com/tesseract-ocr/tesseract

Documentation : https://tesseract-ocr.github.io/

Installation sur Debian 12

# 20250604 Debian 12 @ tenko
sudo apt update
sudo apt install tesseract-ocr tesseract-ocr-fra tesseract-ocr-eng
tesseract --version # tesseract 5.3.0 + leptonica-1.82.0

Usage

Tesseract ne lit pas le format pdf en entrée, mais on peut passer par convert

convert -density 300 page.pdf page.png && tesseract page.png page -l fra 

Quelques exemples ici : https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html