martes, 20 de octubre de 2009

Descargar web completas

Cualquier distribución Linux dispone de una utilidad que permite descargar webs completas (entre otros muchos propósitos posibles). Se trata de wget.

La sintaxis es la siguiente:

$ wget -rkcp --wait=2 --limit-rate=100K -U Mozilla http://administracion-linux.blogspot.com

Cada uno de los parámetros significan lo siguiente:
  • -r: descarga recursiva
  • -k: una vez descargado un fichero, transforma los links para referirlos a archivos locales (para poder ver una web correctamente en local con todos sus elementos).
  • -c: termina de bajar ficheros que se hayan quedado a medio.
  • -p: se descarga todos los ficheros necesarios para poder ver bien la página web.
  • --wait: segundos de espera entre la descarga de un fichero y el siguiente. Este parámetro es interesante para que el servidor web no detecte que se trata de un programa de descarga masiva y nos corte la descarga.
  • --limit-rate: marca el máximo de descarga por archivo. Persigue el mismo propósito que el parámetro anterior.
  • -U: wget se hace pasar por un navegador. Tiene el mismo prósito que los dos parámetros anteriores.