Tesseract OCR

# 20250604 Debian 12 @ tenko
sudo apt update
sudo apt install tesseract-ocr tesseract-ocr-fra tesseract-ocr-eng
tesseract --version # tesseract 5.3.0 + leptonica-1.82.0

Tesseract ne lit pas le format pdf en entrée, mais on peut passer par convert

convert -density 300 page.pdf page.png && tesseract page.png page -l fra 

Quelques exemples ici : https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html

  • ressource/logiciel/tesseract/start.txt
  • Dernière modification: 2025/06/04 16:00
  • par emoc