Ceci est une ancienne révision du document !


Data Scraping

Récupérer des données du web public pour whatever raison

wget -p -k https://web.archive.org/web/20130328173258/http://videogramo.8bitpeoples.com/
wget -p -k http://francoisegamma.computersclub.org/

-p : télécharger tous les fichiers nécessaires (css, images, etc.) -k : convertir les liens pour que la page fonctionne hors ligne

Beaucoup d'autres possiblités avec wget

httrack http://www.httrack.com/page/2/fr/index.html existe en paquet debian webhttrack

  • ressource/data_scraping.1732570156.txt.gz
  • Dernière modification: 2024/11/25 22:29
  • par emoc