Требования:
- set_time_limit(0) должна быть разрешена на хостинге
или должна быть разрешена директива:
php_value max_execution_time 0
в .htaccess. Проконсультируйтесь у хостера!
-Заливаем на хост
(Для версии под зендом заливать все PHP файлы в binary режиме)
-Задаем права 777 на папку со скриптом
-Задаем права 777 на папку /bases/
-Задаем права 777 на папку /bases/global/
-Задаем права 777 на папку /keywords/
-Задаем права 777 на папку /keywords/global/
-Задаем права 777 на папку /parsed/
-Задаем права 777 на папку /parsed/global/
-Задаем настройки в config.php
Запустите скрипт. Скорость работы скрипта зависит от Вашего хостинга,
заданных параметров фильтрования и размера базы.
Вы можете запустить данный скрипт, а затем выключить компьютер,
так как скрипт будет работать автономно! Вам останется только забрать
базы через какое-то время. Базы будут готовы, когда перестанет расти
размер файла good**.txt
В папку bases сохраняются фильтрованные базы
В папку keywords сохраняются фильтрованные кейворды
В папку parsed сохраняются собранные базы
В подпапках
- global - базы собранные за все время
- 2006XXXXXX - базы собранные за один запуск
Про парсер:
- Чем больше проксей, тем больше базы можно собрать
Используйте только качественные анонимные прокси. А то гугл нелюбит
много запросов получать с одного ip и базы не дает
- Без проксей парсится только несколько страниц (зависит от поисковика)
Если у Вас базы большого размера, то пропишите в .htaccess или php.ini
php_value upload_max_filesize 20000000 (20 MB)