[Ищу] Очень нужен скрипт для слива сайтов с web.archive.org

для парсинга вебархива есть хороший сервис r-tools.org стоит копейки, сайты выгружает в html

На r-tools.org в чём он парсится? html? И по-моему сейчас бесплатного теста нет уже
при регистрации там страниц 100 можно скачать бессплатно

У меня есть виртуальная машина (VMware) с парсером вебархива, но я бы ее хотел продать за символическую сумму 200 руб. Желающие пишите в лс.

Она значительно лучше чем r-tools.org, поскольку можно сразу все снимки (за все года) сайта скачать, или только необходимые снимки, так же можно весь сайт скачать или с определенной категории.

скачивает все в html (с картинками).

В подарок расскажу как массово редактировать html код, например заменить название сайта, контакты и.т.д...
 
Последнее редактирование модератором:
Написал скрипт на ruby. Кому интересно - бесплатно вышлю и расскажу, как пользоваться! Пишите в ЛС.
 
А есть ли какой смысл вслепую парсить с вебархива?
 
Я вчера пробовал выкачать SiteCloner. Грабит отлично. Правда SiteCloner серверный скрипт
Без сервера никак не пойдёт? Или если не большие сайты в несколько страниц вытянуть, то можно и без сервера обойтись?
 
Нет к сожалению. Только так
Фигово очень. Спасибо за ответ.

А менее требовательной софтины или скрипт не знаете? Телепортом пробовал, но что-то не получается им нормально сделать всё или то я так пробовал...
 
Фигово очень. Спасибо за ответ.

А менее требовательной софтины или скрипт не знаете? Телепортом пробовал, но что-то не получается им нормально сделать всё или то я так пробовал...
есть такая софтина, называется wget. Скачай, помести на диск С в корень, потом вызови командную строку(WIN+R) и пропиши что то типа wget -r -k -l 7 -p -E -nc -U YandexBot Для просмотра ссылки Войди или Зарегистрируйся
  • -r — рекурсивное скачивание страниц сайта
  • -k — преобразовывать ссылки в html коде для локального просмотра сайта
  • -p — скачивать все файлы используемые при отображении страниц сайта - картинки/стили/скрипты и т.д.
  • -l — уровень вложенности страниц, насколько wget далеко будет парсить
  • -E — добавлять к скачанным страницам .html
  • -nc — при использовании этого параметра, скачанные до этого файлы не будут перезаписаны. используется если вам нужно докачать сайт
  • -U — задать юзерагент, часто на сайтах запрещается доступ для wget, таким образом мы обходим этот запрет
 
есть такая софтина, называется wget.
софтина хорошая,жаль не все сайты тянет. Простой сайт на НТМЛ- пошол на ура, правда и шаблон одного хостинг-сервиса удалось заполучить
 
Назад
Сверху