Recentemente precisei efetuar backup de um site para leitura offline, tinha feito um script mirabolante com wget e sed, convertendo links etc, mas pesquisando melhor descobri que o proprio wget tem opções pra muita coisa.
O comando que usei foi
wget \ --recursive \ --no-clobber \ --page-requisites \ --html-extension \ --convert-links \ --restrict-file-names=windows \ --domains website.org \ --no-parent \ http://website.org/diretorio/
As opções usadas são:
- –recursive: backup do site inteiro, de forma recursiva.
- –domains website.org: não vai seguir nenhum link de fora do domínio especificado.
- –no-parent: não vai seguir nenhum link que remeta a diretórios anteriores.
- –page-requisites: obter todos os elementos que compõem a página (imagens, css, etc).
- –html-extension: usar extensão html.
- –convert-links: converter links para uso offline.
- –restrict-file-names=windows: Modificar nomes de arquivos para funcionar em windows
- –no-clobber: não sobescrever arquvos (para caso o download ser interrompido e ter que recomeçar).