¿Cómo archivar un sitio web completo para verlo sin conexión?


En realidad hemos quemado copias estáticas / archivadas de nuestro asp.net sitios web para clientes muchas veces. Hemos usado WebZIP hasta ahora, pero hemos tenido un sinfín de problemas con bloqueos, páginas descargadas que no se vuelven a vincular correctamente, etc.

Básicamente necesitamos una aplicación que rastree y descargue copias estáticas de todo en nuestro asp.net sitio web (páginas, imágenes, documentos, css, etc) y luego procesa las páginas descargadas para que puedan ser exploradas localmente sin un conexión a Internet (deshazte de las url absolutas en los enlaces, etc.). Cuanto más idiota sea la prueba, mejor. Esto parece un proceso bastante común y (relativamente) simple, pero he probado algunas otras aplicaciones y han sido realmente poco impresionados

¿Alguien tiene software de archivo que recomendaría? ¿Alguien tiene un proceso realmente simple que compartiría?

Author: Vadim Kotov, 2009-02-12

9 answers

En Windows, puedes mirar HTTrack. Es muy configurable permitiéndote configurar la velocidad de las descargas. Pero solo puede apuntar a un sitio web y ejecutarlo también sin ninguna configuración.

En mi experiencia ha sido una herramienta muy buena y funciona bien. Algunas de las cosas que me gustan de HTTrack son:

  • Licencia de código abierto
  • Reanuda descargas detenidas
  • Puede actualizar un archivo existente
  • Puede configurarlo para que no sea agresivo cuando se descarga para que no pierda su ancho de banda y el ancho de banda del sitio.
 35
Author: Jesse Dearing,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2009-02-11 21:40:40

Podrías usar wget :

wget -m -k -K -E http://url/of/web/site
 64
Author: chuckg,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2017-02-14 17:40:12

El Descargador de Wayback Machine de hartator es simple y rápido.

Instale a través de Ruby, luego ejecute con el dominio deseado y la marca de tiempo opcional desde el Archivo de Internet .

sudo gem install wayback_machine_downloader
mkdir example
cd example
wayback_machine_downloader http://example.com --timestamp 19700101000000
 5
Author: jtheletter,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2015-11-02 01:07:05

Utilizo Blue Craben OSX y WebCopier en Windows.

 4
Author: Syntax,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2009-02-11 21:26:07

Wget-r-k

... e investigar el resto de las opciones. Espero que hayas seguido estas pautas: http://www.w3.org/Protocols/rfc2616/rfc2616-sec9.html así que todos sus recursos están seguros con las solicitudes GET.

 2
Author: Joel Hoffman,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2009-02-11 21:26:28

Solo uso: wget -m <url>.

 1
Author: Aram Verstegen,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2009-02-11 21:25:26

Si sus clientes están archivando por problemas de cumplimiento, debe asegurarse de que el contenido se pueda autenticar. Las opciones enumeradas están bien para una visualización simple, pero no son legalmente admisibles. En ese caso, está buscando marcas de tiempo y firmas digitales. Mucho más complicado si lo haces tú mismo. Yo sugeriría un servicio como PageFreezer .

 1
Author: Dieghito,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2015-11-01 23:40:56

He estado usando HTTrack durante varios años. Maneja todos los enlaces entre páginas, etc. muy bien. Mi única queja es que no he encontrado una buena manera de mantenerlo limitado a un sub-sitio muy bien. Por ejemplo, si hay un sitio www.foo.com/steve que quiero archivar, es probable que siga enlaces a www.foo.com/rowe y archivar eso también. De lo contrario es genial. Altamente configurable y confiable.

 0
Author: Steve Rowe,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2009-02-11 21:58:38

Para los usuarios de OS X, he encontrado que la aplicación sitesucker found aquí funciona bien sin configurar nada más que la profundidad que sigue los enlaces.

 0
Author: user1011743,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2018-09-17 17:36:27