Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
ressource:logiciel:manipulation_pdf:start [2025/11/27 19:57]
emoc [Remontage]
ressource:logiciel:manipulation_pdf:start [2026/05/13 17:08] (Version actuelle)
emoc [Extraire tous les mots d'un pdf]
Ligne 126: Ligne 126:
  
 Il faut __absolument__ indiquer un chemin absolu valide! Il faut __absolument__ indiquer un chemin absolu valide!
 +
 +==== Extraire tous les mots d'un pdf ====
 +
 ++ Compter les occurences de chaque mot après avoir éliminé les mots de moins de 3 lettres
 +
 +''​sudo apt install poppler-utils''​
 +
 +<code bash frequence-mots.sh>​
 +pdftotext "​$1"​ - \
 +  | perl -CS -ne 'while (/​(\p{L}+(?:​-\p{L}+)*)/​g) { print lc($1), "​\n";​ }' \
 +  | awk '​length($0) >= 3' \
 +  | sort \
 +  | uniq -c \
 +  | sort -nr
 +</​code>​
 +
 +Usage : ''​frequence-mots.sh fichier.pdf > liste_mots.txt''​ \\
 +
 +**Détails** : \\
 +''​perl -CS -ne''​ : CS pour travailelr en unicode (lettres accentuées,​ etc.), n pour traiter ligne par ligne, e pour fournir le code perl directement sur la ligne de commande \\
 +''​while (/​(\p{L}+(?:​-\p{L}+)*)/​g) { print lc($1), "​\n";​ }''​ : code perl qui se répète tant que l'​expression régulière trouve des mots (les mots composés avec tiret sont considérés comme un seul mot), $1 contient le mot trouvé, lc($1) le transforme en minuscule \\
 +''​awk '​length($0) >= 3'''​ : seuls les mots de plus de 3 lettres sont conservés \\
 +''​sort''​ : tri par ordre alphabétique \\
 +''​uniq -c''​ : regroupe les mots identiques sur la même ligne, préfixé par le nombre d'​occurences \\
 +''​sort -nr''​ : tri numérique des lignes en ordre décroissant  ​
 +
 +Utile pour réordonner le fichier par ordre alphabétique et insensible à la casse : 
 +<code bash>
 +LC_ALL=fr_FR.UTF-8 sort -f -o lexique.txt lexique.txt
 +</​code>​
  
 ==== Conversion de profil de couleur ==== ==== Conversion de profil de couleur ====
  • ressource/logiciel/manipulation_pdf/start.1764269879.txt.gz
  • Dernière modification: 2025/11/27 19:57
  • par emoc