Data Scraping

Récupérer des données du web public pour whatever raison

wget

wget -p -k https://web.archive.org/web/20130328173258/http://videogramo.8bitpeoples.com/
wget -p -k http://francoisegamma.computersclub.org/

-p : télécharger tous les fichiers nécessaires (css, images, etc.)
-k : convertir les liens pour que la page fonctionne hors ligne

Beaucoup d'autres possiblités avec wget

httrack

pour créer des miroirs locaux de sites

http://www.httrack.com/page/2/fr/index.html (existe en paquet debian : webhttrack)

  • ressource/data_scraping.txt
  • Dernière modification: 2024/11/25 22:30
  • par emoc