Aspirer un site avec wget

Ce n’est pas un sujet nouveau. Mais trouver de l’info sur le sujet n’est pas toujours aisé.

Je demanderais aux gens qui voudraient aspirer les sites de faire attention, ceci peut mettre à genoux un serveur, donc il faut faire attention. Le but de l’aspiration est d’obtenir Off-Line des infos du web. Il est parfois plus sympathique de contacter le gestionnaire du site pour lui demander s’il peut donner les infos via un autre moyen (comme une extraction du contenu de ses pages).
Cependant, il y a des moyens de ne pas monopoliser la bande passante du serveur et de ne pas gêner les autres utilisateurs.

Cette manip ne marchera pas sur tous les serveurs web, car il existe des moyens de se protéger de l’aspiration (entre autre pour des raisons de BP).

Voici une commande utile :

wget -r -k -E -np http://tar.get/wanted/directory/

Donc la cible est http://tar.get/wanted/directory/. Les options :

  • -r pour parcourir tous les liens du sites.
  • -k conversion des liens en liens locaux.
  • -E conversion php vers HTML, pour relire aisément avec Firefox.
  • -np pour ne pas remonter dans l’arborescence du site

D’autre options utiles :

  • -lX, où X est un entier, pour ne parcourir que X niveaux de l’arborescence du site.
  • -c pour continuer un téléchargement interrompu.
  • –load-cookies  si nécessaire.

Les options pour ne pas pourir le serveur :

  • –limit-rate X, pour limiter la Bande Passante à X B/s
  • -w X pour attendre X secondes entre chaque téléchargement de fichiers.
  • -T X au bout de X secondes wget abandonne le téléchargement d’un fichier.

Vus : 566
Publié par Boutor : 56