Получить urls всех страниц сайта

Статус
В этой теме нельзя размещать новые ответы.

Alexitdv

Гуру форума
Регистрация
4 Янв 2008
Сообщения
161
Реакции
73
В общем нужна помощь с идея реализации данного сабжа. Закинул сюда, так как не нашел подходящей ветки. Так, что основная реализация PHP, но можно и другие идеи :)

Что уже пробовал:
1. Зеркалить сайт wget'ом и выдирать ссылки из всех файлов, удалить дубли. (коряво да wget долго тянит)
2. Как вариант можно залить сайт на локалхост и дальше пункт 1. Но все сайты так делать - умру.
3. Парсить выдачу яндекса, но тут ограничение в 1К страниц.

Нужны свежие идеи.
 
Я не вижу иной вариант как тащить все страницы скриптом.
Парсить выдачу яндекса, но тут ограничение в 1К страниц.
А если например часть страниц закрыта роботом?

Как вариант использовать мульти-курл или хотя бы курл.
Можно посмотреть на принцип действия генераторов карт сайтов. Хотя врядли там принцип действия кардинально отличается от
Зеркалить сайт и выдирать ссылки из всех файлов, удалить дубли
 
Нашел подходящий вариант

3. Заюзать Для просмотра ссылки Войди или Зарегистрируйся. Заявку оформляешь, робот ссылки находит, но не оплачиваешь :)

PS: не канает такая тема) Наивный я))
 
Как вариант использовать мульти-курл или хотя бы курл.

Да, регулярные + cURL в помощь, только курл говорят не очень быстро работает, хотя по мне так норм но я больше 3-4 страниц не обрабатывал.

а схемка проста :
1) конект на головную донора
2) вытаскивание всех ссылок
3) сохранение в базу
ну а дольше вытаскивает из базы и цикл продолжается

а когда заканчивает тебе решать ))
 
  • Заблокирован
  • #5
Если все правильно понял то это должно опдойти.
Главное юзать с локалхоста а то если много страниц то затупит. Нужно будет переработать так как он просто выводит на экран.


Когда то писал для себя.


Посмотреть вложение leech.zip
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху