Ceci est une ancienne révision du document !


Data Scraping

Récupérer des données du web public pour whatever raison

wget -p -k http://francoisegamma.computersclub.org/

-p : télécharger tous les fichiers nécessaires (css, images, etc.) -k : convertir les liens pour que la page fonctionne hors ligne

Beaucoup d'autres possiblités avec wget

httrack http://www.httrack.com/page/2/fr/index.html existe en paquet debian webhttrack

  • ressource/data_scraping.1732570125.txt.gz
  • Dernière modification: 2024/11/25 22:28
  • par emoc