Différences
Ci-dessous, les différences entre deux révisions de la page.
| Les deux révisions précédentes Révision précédente | |||
|
ressource:data_scraping [2024/11/25 22:29] emoc |
ressource:data_scraping [2024/11/25 22:30] (Version actuelle) emoc |
||
|---|---|---|---|
| Ligne 2: | Ligne 2: | ||
| Récupérer des données du web public pour whatever raison | Récupérer des données du web public pour whatever raison | ||
| + | |||
| + | **wget** | ||
| wget -p -k https://web.archive.org/web/20130328173258/http://videogramo.8bitpeoples.com/ | wget -p -k https://web.archive.org/web/20130328173258/http://videogramo.8bitpeoples.com/ | ||
| wget -p -k http://francoisegamma.computersclub.org/ | wget -p -k http://francoisegamma.computersclub.org/ | ||
| - | -p : télécharger tous les fichiers nécessaires (css, images, etc.) | + | -p : télécharger tous les fichiers nécessaires (css, images, etc.) \\ |
| -k : convertir les liens pour que la page fonctionne hors ligne | -k : convertir les liens pour que la page fonctionne hors ligne | ||
| Beaucoup d'autres possiblités avec wget | Beaucoup d'autres possiblités avec wget | ||
| - | **httrack** http://www.httrack.com/page/2/fr/index.html existe en paquet debian webhttrack | + | **httrack** |
| + | |||
| + | pour créer des miroirs locaux de sites | ||
| + | |||
| + | http://www.httrack.com/page/2/fr/index.html (existe en paquet debian : webhttrack) | ||