Usar wget para descargar páginas web
El comando wget muy útil para descargar sitios web recursivamente. Con el propósito de archivarlos, normalmente lo que se hace es algo así:
wget -rkp -l3 -np -nH --cut-dirs=1 http://web.psung.name/emacstips/
Explicación
Ésto empezará en la URL especificada y descargará páginas recursivamente hasta 3 niveles de enlaces desde la página original, pero sólo páginas que están en el directorio de la URL que especificaste (emacstips/) o uno de sus subdirectorios.
Wget va a reescribir los enlaces en las páginas que descargó para hacer que la copia descargada sea una copia local usable, y descargará todos los prerequisitos de la página (ej: imágenes, estilos, etc ...).
Las dos últimas opciones -nH --cut-dirs=1 controlan donde colocar la salida. Si esas opciones son omitidas, wget podría, por ejemplo, descargar http://web.psung.name/emacstips/index.html y colocarlo bajo un subdirectorio web.psung.name/emacstips del actual directorio. Si quitamos sólo el -nH ("no host directory") wget podría escribir el mismo archivo al subdirectorio emacstips. Y con ambas opciones wget podría escribir ese mismo archivo al directorio actual. En general, si quieres reducir el número de directorios extraños creados, cambia cut-dirs con el número de directorios de tu URL.
Fuentes
http://psung.blogspot.com/2008/06/using-wget-or-curl-to-download-web.html
Tweet
si yo amo wget es lo maximo
Lo cierto es que es un comando muy potente.
Saludos.
Publicar un comentario