Différences

Ci-dessous, les différences entre deux révisions de la page.

--- ressource:logiciel:manipulation_pdf:start [2025/11/27 19:53]
emoc [Passer d'une format A4 à 4xA6 sur le même document]
+++ ressource:logiciel:manipulation_pdf:start [2026/05/13 17:08] (Version actuelle)
emoc [Extraire tous les mots d'un pdf]
@@ Ligne 77: / Ligne 77: @@
 ==== Remontage ====
+**assembler plusieurs pdf dans un même fichier à plusieurs pages**
+  pdfjam page_1.pdf page_2.pdf page_3.pdf --paper a4paper --outfile doc.pdf
 **Passer de 12 pages A4 paysage à 6 pages A3 portraits**
@@ Ligne 123: / Ligne 126: @@
 Il faut __absolument__ indiquer un chemin absolu valide!
+==== Extraire tous les mots d'un pdf ====
++ Compter les occurences de chaque mot après avoir éliminé les mots de moins de 3 lettres
+''sudo apt install poppler-utils''
+<code bash frequence-mots.sh>
+pdftotext "$1" - \
+  | perl -CS -ne 'while (/(\p{L}+(?:-\p{L}+)*)/g) { print lc($1), "\n"; }' \
+  | awk 'length($0) >= 3' \
+  | sort \
+  | uniq -c \
+  | sort -nr
+</code>
+Usage : ''frequence-mots.sh fichier.pdf > liste_mots.txt'' \\
+**Détails** : \\
+''perl -CS -ne'' : CS pour travailelr en unicode (lettres accentuées, etc.), n pour traiter ligne par ligne, e pour fournir le code perl directement sur la ligne de commande \\
+''while (/(\p{L}+(?:-\p{L}+)*)/g) { print lc($1), "\n"; }'' : code perl qui se répète tant que l'expression régulière trouve des mots (les mots composés avec tiret sont considérés comme un seul mot), $1 contient le mot trouvé, lc($1) le transforme en minuscule \\
+''awk 'length($0) >= 3''' : seuls les mots de plus de 3 lettres sont conservés \\
+''sort'' : tri par ordre alphabétique \\
+''uniq -c'' : regroupe les mots identiques sur la même ligne, préfixé par le nombre d'occurences \\
+''sort -nr'' : tri numérique des lignes en ordre décroissant
+Utile pour réordonner le fichier par ordre alphabétique et insensible à la casse :
+<code bash>
+LC_ALL=fr_FR.UTF-8 sort -f -o lexique.txt lexique.txt
+</code>
 ==== Conversion de profil de couleur ====