martes, 11 de agosto de 2009

Usar wget para descargar páginas web

CocoaWget_i.png


El comando wget muy útil para descargar sitios web recursivamente. Con el propósito de archivarlos, normalmente lo que se hace es algo así:




wget -rkp -l3 -np -nH --cut-dirs=1 http://web.psung.name/emacstips/




Explicación


Ésto empezará en la URL especificada y descargará páginas recursivamente hasta 3 niveles de enlaces desde la página original, pero sólo páginas que están en el directorio de la URL que especificaste (emacstips/) o uno de sus subdirectorios.


Wget va a reescribir los enlaces en las páginas que descargó para hacer que la copia descargada sea una copia local usable, y descargará todos los prerequisitos de la página (ej: imágenes, estilos, etc ...).


Las dos últimas opciones -nH --cut-dirs=1 controlan donde colocar la salida. Si esas opciones son omitidas, wget podría, por ejemplo, descargar http://web.psung.name/emacstips/index.html y colocarlo bajo un subdirectorio web.psung.name/emacstips del actual directorio. Si quitamos sólo el -nH ("no host directory") wget podría escribir el mismo archivo al subdirectorio emacstips. Y con ambas opciones wget podría escribir ese mismo archivo al directorio actual. En general, si quieres reducir el número de directorios extraños creados, cambia cut-dirs con el número de directorios de tu URL.




Fuentes


http://psung.blogspot.com/2008/06/using-wget-or-curl-to-download-web.html




2 Comentarios:

diseño web dijo...

si yo amo wget es lo maximo

Felipe Martínez D. dijo...

Lo cierto es que es un comando muy potente.

Saludos.

Publicar un comentario

Felinfo: Java, Linux, Virtualización. Open Source.  ©Template Blogger Green by Dicas Blogger .

TOPO