Mastering Wget (I)
El artículo se titula Mastering Wget, escrito por Gina Trapani para www.lifehacker.com. Antes que nada pedí los permisos oportunos, es decir, le envié un email preguntando si le importaba que lo hiciera, y me respondió que sin ningún problema, que con que pusiera un enlace a la fuente original era suficiente. Así que nada, aquí os dejo la primera parte:
“A la hora de cargar páginas, nuestro navegador realiza un buen trabajo, pero hay algunos momentos en las que es necesario un gestor de descargas externo más potente que se encargue de aquellos más duros.
Aquí es donde entra en juego Wget, una pequeña herramienta de la vieja escuela de Unix que puede encargarse de todas tus necesidades a la hora de descargar desde internet. Si necesitas un mirror de una página web completa, descargar automáticamente música y películas desde tus weblogs favoritos o transferir archivos enormes sin preocuparte por tu conexión lenta e intermitente, wget está hecho para tí.
Wget es un programa que se ejecuta en la consola, a la hora de llamarlo la estructura es la siguiente:
wget [opciones] … [URL] …
La URL es la dirección del archivo/s que queremos que Wget descargue. Aunque la magia de esta pequeña herramienta reside en la amplia lista de opciones disponibles. Aquí hay algunos ejemplos de lo que puedes hacer con Wget y las diferentes opciones disponibles:
- Mirror de un página web completa:
Si lo que te quieres es hacer una copia de seguridad de tu blog, o crear una copia local de un directorio entero de una página web para archivarlo o leerlo posteriormente. El comando :
wget -m http://ginatrapani.googlepages.comguardará las dos páginas que existen en esa URL en un directorio llamado de la misma manera en nuestro ordenador. La opción -m en el comando se podría entender como “haz una copia de este sitio”. Lo mejor es que convierte los enlaces entre las páginas del sitio para poder navegar desde el ordenador.
Si lo que quieres es descargar todas las páginas de un sitio más las páginas a las que este enlaza. Deberías utilizar :
wget -H -r --level=1 -k -p http://ginatrapani.googlepages.comAquí la cosa se complica, este comando traducido sería: “Descarga todas las páginas (-r, recursivo) de http://ginatrapani.googlepages.com además de un nivel (–level = 1) más de los sitios a los que enlaza (-H, span hosts), y conviérte los enlaces en versiones descargables (-k). ¡ Ah sí ! y además obten todo los componentes como las imágenes que forman parte de cada página (-p).”
Atención: Ten cuidado con los discos duros pequeños! Este tipo de comandos descargarán una gran cantidad de datos de los sitios que enlanzan a numerosas páginas (como los blogs)!. No intentéis hacer una copia de seguridad de Internet, porque te quedarás sin espacio !
”
Probando simplemente con esta sencilla página se ha descargado casi 1 mb de información ( No quiero probar lo que pasaría con mi blog…
). Este primer ejemplo de uso resulta interesante a gente que tiene su sitio web y le interesa guardar una copia de seguridad cada cierto tiempo. Yo no varío mucho el contenido que tengo el servidor, lo que más me preocuparía en todo caso es la base de datos donde se almacena el contenido del blog, sin embargo es recomendable tener una copia al día por si ocurre cualquier percance.
En Linux, existe otra utilidad que te permite programar la ejeccución periódica de diversas tareas. Se llama crontab. , para no enrollarme más en esta entrada, si queremos que nos haga una copia de seguridad todos los domingos a las 21:59, por ejemplo, simplemente deberíamos ejecutar en consola :
crontab 59 21 * * 6 wget -r http://www.j6o3s6e.com/blog(crontab [minutos][hora][día][mes][dia_de_semana][comando])
Sería más interesante que la hicera desde el ftp y demás, pero me anoto la idea y ya tengo un post que escribir
Hay 9 comentarios
Deja una respuesta
Y luego vas y posteas algo para los que se aburren en semana santa xDD, ahora fuera bromas te estas currando bastante el blog, buenos temas, muy actualizado… el contador debe echar humo
Me lo encontré en el Top 100 de Google después de postearlo
Alguno que otro se pasa a diario a verlo aunque se notan las vacaciones, eh?? To el mundo de vacaciones y yo aquí pringado trabajando y estudiando !! Yo tb quiero playita y barco y sol…
La versión inglesa la encontré el otro día… en menéame, creo… es un tema que tenía pensado postear… aunque me pasa con otros chopocientos posts
Me adelanté entonces
Yo también lo encontré por menéame (o eso creo) la mitad de las cosas que leo nunca sé como llego a ellas
Hola.
¿Se puede hacer un mirror de un sitio que me pide un usuario y una contraseña en la pagina inicial?.
¿Sí se puede, cual seria el comando a agregar en wget?
En el man de wget tienes los siguientes parámetros:
–http-user –http-passwd
con los que uedes poner el nombre de usuario y la contraseña
Muy buena la referencia al artículo de Gina Trapani.
Como puedo utilizar el wget para que todos los dias descargue a la 1:00 AM paquetes de un sitio????
Busca información de cómo temporizar tareas con Cron en Linux