Différences
Ci-dessous, les différences entre deux révisions de la page.
Prochaine révision | Révision précédente | ||
ressource:data_scraping [2024/11/25 22:28] emoc créée |
ressource:data_scraping [2024/11/25 22:30] (Version actuelle) emoc |
||
---|---|---|---|
Ligne 3: | Ligne 3: | ||
Récupérer des données du web public pour whatever raison | Récupérer des données du web public pour whatever raison | ||
+ | **wget** | ||
+ | |||
+ | wget -p -k https://web.archive.org/web/20130328173258/http://videogramo.8bitpeoples.com/ | ||
wget -p -k http://francoisegamma.computersclub.org/ | wget -p -k http://francoisegamma.computersclub.org/ | ||
- | -p : télécharger tous les fichiers nécessaires (css, images, etc.) | + | -p : télécharger tous les fichiers nécessaires (css, images, etc.) \\ |
-k : convertir les liens pour que la page fonctionne hors ligne | -k : convertir les liens pour que la page fonctionne hors ligne | ||
Beaucoup d'autres possiblités avec wget | Beaucoup d'autres possiblités avec wget | ||
- | **httrack** http://www.httrack.com/page/2/fr/index.html existe en paquet debian webhttrack | + | **httrack** |
+ | |||
+ | pour créer des miroirs locaux de sites | ||
+ | |||
+ | http://www.httrack.com/page/2/fr/index.html (existe en paquet debian : webhttrack) |