Différences
Ci-dessous, les différences entre deux révisions de la page.
| Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
|
ressource:logiciel:manipulation_pdf:start [2025/10/14 00:51] emoc [Recomposer un document pdf à partir de pages extraites d'un autre document] |
ressource:logiciel:manipulation_pdf:start [2026/05/13 17:08] (Version actuelle) emoc [Extraire tous les mots d'un pdf] |
||
|---|---|---|---|
| Ligne 70: | Ligne 70: | ||
| # UNTESTED | # UNTESTED | ||
| pdfposter -mA3 -pA4 -x2 -y2 input.pdf output.pdf | pdfposter -mA3 -pA4 -x2 -y2 input.pdf output.pdf | ||
| + | | ||
| + | ==== Passer d'un format A4 à 4xA6 sur le même document ==== | ||
| + | |||
| + | pdfjam --nup 2x2 flyer.pdf flyer.pdf flyer.pdf flyer.pdf --paper a4paper --outfile flyer_podlab_4xA6.pdf | ||
| + | |||
| + | | ||
| + | ==== Remontage ==== | ||
| + | |||
| + | **assembler plusieurs pdf dans un même fichier à plusieurs pages** | ||
| + | pdfjam page_1.pdf page_2.pdf page_3.pdf --paper a4paper --outfile doc.pdf | ||
| + | |||
| + | **Passer de 12 pages A4 paysage à 6 pages A3 portraits** | ||
| + | pdfjam input_A4.pdf --nup 1x2 --paper a3paper --noautoscale true --outfile output_A3.pdf | ||
| + | |||
| + | **12 pages A4 portrait vers 6 pages A3 paysage** | ||
| + | pdfjam input_A4.pdf --nup 2x1 --landscape --paper a3paper --outfile montage_A3.pdf | ||
| ==== Convertir au format de papier A4 ==== | ==== Convertir au format de papier A4 ==== | ||
| Ligne 110: | Ligne 126: | ||
| Il faut __absolument__ indiquer un chemin absolu valide! | Il faut __absolument__ indiquer un chemin absolu valide! | ||
| + | |||
| + | ==== Extraire tous les mots d'un pdf ==== | ||
| + | |||
| + | + Compter les occurences de chaque mot après avoir éliminé les mots de moins de 3 lettres | ||
| + | |||
| + | ''sudo apt install poppler-utils'' | ||
| + | |||
| + | <code bash frequence-mots.sh> | ||
| + | pdftotext "$1" - \ | ||
| + | | perl -CS -ne 'while (/(\p{L}+(?:-\p{L}+)*)/g) { print lc($1), "\n"; }' \ | ||
| + | | awk 'length($0) >= 3' \ | ||
| + | | sort \ | ||
| + | | uniq -c \ | ||
| + | | sort -nr | ||
| + | </code> | ||
| + | |||
| + | Usage : ''frequence-mots.sh fichier.pdf > liste_mots.txt'' \\ | ||
| + | |||
| + | **Détails** : \\ | ||
| + | ''perl -CS -ne'' : CS pour travailelr en unicode (lettres accentuées, etc.), n pour traiter ligne par ligne, e pour fournir le code perl directement sur la ligne de commande \\ | ||
| + | ''while (/(\p{L}+(?:-\p{L}+)*)/g) { print lc($1), "\n"; }'' : code perl qui se répète tant que l'expression régulière trouve des mots (les mots composés avec tiret sont considérés comme un seul mot), $1 contient le mot trouvé, lc($1) le transforme en minuscule \\ | ||
| + | ''awk 'length($0) >= 3''' : seuls les mots de plus de 3 lettres sont conservés \\ | ||
| + | ''sort'' : tri par ordre alphabétique \\ | ||
| + | ''uniq -c'' : regroupe les mots identiques sur la même ligne, préfixé par le nombre d'occurences \\ | ||
| + | ''sort -nr'' : tri numérique des lignes en ordre décroissant | ||
| + | |||
| + | Utile pour réordonner le fichier par ordre alphabétique et insensible à la casse : | ||
| + | <code bash> | ||
| + | LC_ALL=fr_FR.UTF-8 sort -f -o lexique.txt lexique.txt | ||
| + | </code> | ||
| ==== Conversion de profil de couleur ==== | ==== Conversion de profil de couleur ==== | ||