Настройки:
Перед началом работы,в главной таблице укажите нужные поисковики, а также необходимые Вам параметры парсинга:
Глубина - кол-во страниц, которые будут отпарсены по одному уникальному кейворду. (Надеюсь для Вас не секрет, чему равен максимум этой величины для каждого из СЕ
[google] - 10 ; [msn] - 25; [yahoo] - 10 ;[yandex] - от 10 до 100 ; [rambler] - от 2 до 20)
Прокси - нужно ли использовать прокси, при парсинге той или иной поисковой системой.
Зоны:
- Не использовать - Парсер не будет комбинировать запросы, используя различные зоны.
- Указанные - Парсер будет составлять дополнительные запросы по зонам, которые Вы указали в файле zones.txt.
- Все GEO - Парсер будет составлять дополнительные запросы, используя все территориальные (ru/us...) )зоны (Сейчас их в базе 244).
- Коммерч.+ - Запросы будут комбинироваться на основе коммерческих) (com/org..) )зон (Сейчас их в базе 18).
Языки - параметр отвечающий за парсинг поисковиков по языковым (Язык страницы) критериям (Для каждого поисковика используются свои макросы).
Результаты - максимальное число url на одной странице выдачи поиска.
Запросы - файлы,в которых указываются кейворды, по которым будет происходить парсинг.
[a-z] - для особо жирных кеев, можно разбавить их английским алфавитом .
Основные настройки:
PHP-root - полный адрес до установленного PHP.
Число потоков - колличество потоков, создаваемых парсером. Чем больше эта величина, тем быстрее будет идти процесс работы скрипта , однако и ресурсов потре***ться будет больше.
Прокси-лимит - Сколько раз разрешается использовать подряд один прокси при парсинге .(Через это колличество раз скрипт возьмет новый из сохраненной базы)
Таймаут для соединений - Максимальное колличество секунд,отводящееся на одно соединение.
Do reload - Сколько раз пробовать перезагрузить страничку через прокси, в случае какой-либо ошибки соединения.
Эпсилон окрестность - Величина позволяющая отсеивать повторы (REPEIT) - результаты,попавшие в эту окрестность.Данный параметр также позволяет определить забанен ли поисковиком данный прокси или нет,соответственно в случае бана - парсер берет следующий прокси.
Вспомогательные настройки:
ZONES.TXT - файл с нужными вам зонами. (В формате com/net/org и т.д.)
PROXY.TXT - здесь указываете свои анонимные прокси,чем больше качественных проксей,тем больше результат парсинга.
SITES.TXT - укажите адреса своих прокси-листов.В процессе парсинга, скрипт будет грабить с этих адресов прокси и подливать их в общую базу.
DIR - укажите полный адрес до папки со скриптом.
Работа с проксями:
В процессе парсинга, скрипт присваивает каждому потоку определенное коллимчество уникальных проксей.Поэтому так важно,заранее позаботиться о их качестве и колличестве . Если указан параметр 'перезагружать прокси' , то прямо в процессе парсинга, скрипт будет грабить новые прокси из файла или с сайтов и подменять ими старые/уже использованные..
Брать из файла - Скрипт использует только те прокси,которые указаны в файле proxy.txt
Добавлять с сайтов - Если у вас есть регулярно обновляющиеся прокси листы,то укажите их в файле sites.txt, а также укажите,через какое кол-во раз успешных соединений следует полностью перезагружать базу проксей.
Обработка url:
Вы также можете в режиме многопоточности отфильтровывать напарсенные скриптом url по следующим параметрам:
Простой парсинг - не использовать эту опцию.
Чекать УРЛ на валидность - найденные url будут чекаться на различного рода ошибки,чтобы в окончательную базу попали только живые ссылки.
Чекать на наличие в тексте страницы - укажите какой текст (символы) следует искать в напарсенных страницах . %% - разделитель между запросами. AND - искать ВСЕ указанные слова на данном сайте. OR - достаточно найти только одно слово. [Примечание: Case insensitive в формате регулярных выражений]
Чекать на отсутствие в тексте страницы - принайденных совпадениях в тексте страницы, соответственно при AND - всех и при OR - хотя бы одном ссылка не попадет в общую базу . Разделитель текста - %% . [Примечание: Case insensitive в формате регулярных выражений]
Почта - на данный email будет отправлена оканчательная напарсенная база ссылок.
Работа с напарсенными базами:
[-] - удалить все/текущую базу
[^] - склеить все базы в данной категории
[*] - отфильтровать базу на повторы
[?&] - удалить query часть (?var=value&var1=value2...)
[D] - оставить в базе только ссылки с уникальными доменами
[R] - архивировать и скачать
Проверить пиар
Напарсенные базы можно отсортировать по pagerank - результатом будет несколько созданных файлов, в каждом из которых будет записана ссылка с соответствующим PR.
Очищать директорию - Прежде чем начать проверять новые ссылки на ПР , старые будут удалены,иначе новые запишутся вместе с предыдущими.
Запускать в фон - Запустить процесс парсинга в background .
Работа через CRON
Для запуска скрипта через крон необходимо и достаточно сохранить нужные вам настройки через админ-панель парсера.После чего вы можете, ставить на КРОН файл cron.php, не боясь,что скрипт зациклится,в случае частых вызовов крон.
Работа с Лог - Файлами:
После запуска парсера создаются лог файлы,в каждом из которых будет записана вся информация о текущем потоке.
Count proxy for this thread - число проксей,попавших в данный поток
Count urls for this thread - число ссылок,попавших в данный поток
Напротив каждого из соединеий выводится его текущее состояние и общий прогресс.
Установка:
-Залить все файлы к себе на хост (php - в бинарном режиме,остальные файлы - в текстовом)
-Запустить парсер и следуя его инструкциям поставить права на запись на соответствующие файлы и папки.