Différences
Ci-dessous, les différences entre deux révisions de la page.
| Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
|
ressource:logiciel:manipulation_pdf:start [2025/11/27 19:53] emoc [Passer d'une format A4 à 4xA6 sur le même document] |
ressource:logiciel:manipulation_pdf:start [2026/05/13 17:08] (Version actuelle) emoc [Extraire tous les mots d'un pdf] |
||
|---|---|---|---|
| Ligne 77: | Ligne 77: | ||
| | | ||
| ==== Remontage ==== | ==== Remontage ==== | ||
| + | |||
| + | **assembler plusieurs pdf dans un même fichier à plusieurs pages** | ||
| + | pdfjam page_1.pdf page_2.pdf page_3.pdf --paper a4paper --outfile doc.pdf | ||
| **Passer de 12 pages A4 paysage à 6 pages A3 portraits** | **Passer de 12 pages A4 paysage à 6 pages A3 portraits** | ||
| Ligne 123: | Ligne 126: | ||
| Il faut __absolument__ indiquer un chemin absolu valide! | Il faut __absolument__ indiquer un chemin absolu valide! | ||
| + | |||
| + | ==== Extraire tous les mots d'un pdf ==== | ||
| + | |||
| + | + Compter les occurences de chaque mot après avoir éliminé les mots de moins de 3 lettres | ||
| + | |||
| + | ''sudo apt install poppler-utils'' | ||
| + | |||
| + | <code bash frequence-mots.sh> | ||
| + | pdftotext "$1" - \ | ||
| + | | perl -CS -ne 'while (/(\p{L}+(?:-\p{L}+)*)/g) { print lc($1), "\n"; }' \ | ||
| + | | awk 'length($0) >= 3' \ | ||
| + | | sort \ | ||
| + | | uniq -c \ | ||
| + | | sort -nr | ||
| + | </code> | ||
| + | |||
| + | Usage : ''frequence-mots.sh fichier.pdf > liste_mots.txt'' \\ | ||
| + | |||
| + | **Détails** : \\ | ||
| + | ''perl -CS -ne'' : CS pour travailelr en unicode (lettres accentuées, etc.), n pour traiter ligne par ligne, e pour fournir le code perl directement sur la ligne de commande \\ | ||
| + | ''while (/(\p{L}+(?:-\p{L}+)*)/g) { print lc($1), "\n"; }'' : code perl qui se répète tant que l'expression régulière trouve des mots (les mots composés avec tiret sont considérés comme un seul mot), $1 contient le mot trouvé, lc($1) le transforme en minuscule \\ | ||
| + | ''awk 'length($0) >= 3''' : seuls les mots de plus de 3 lettres sont conservés \\ | ||
| + | ''sort'' : tri par ordre alphabétique \\ | ||
| + | ''uniq -c'' : regroupe les mots identiques sur la même ligne, préfixé par le nombre d'occurences \\ | ||
| + | ''sort -nr'' : tri numérique des lignes en ordre décroissant | ||
| + | |||
| + | Utile pour réordonner le fichier par ordre alphabétique et insensible à la casse : | ||
| + | <code bash> | ||
| + | LC_ALL=fr_FR.UTF-8 sort -f -o lexique.txt lexique.txt | ||
| + | </code> | ||
| ==== Conversion de profil de couleur ==== | ==== Conversion de profil de couleur ==== | ||