unsiker
Постоялец
- Регистрация
- 6 Июн 2008
- Сообщения
- 465
- Реакции
- 173
- Автор темы
- #1
Ситуация такая есть список сайтов, порядка 20.000. Зная список сайтов нужно узнать емейлы администрации сайтов. Все сайты тематические по 10 - 20 страниц и без форумов. Так вот было сделано предположение что ключевой емейл находится на главной странице сайте. Был написан скрипт, которой проводит поиск нужных емейлов.
Но после отработки с 20к сайтов только у 3к сайтов был найден емейл. Осталось 17к.
Есть идея что нужно заходить на главную смотреть все ссылки на страницы, потом открывать все ссылки относящиеся к сайту их парсить на мейлы. Но тут встает ряд задач по оптимизации например: емейл найден, закончить поиск, на сайте левая ссылка на которой есть емейл но он не нужен.
Может кто то стыкался с подобного рода задачей. Или может поделется куском кода?
________________
за что буду очень благодарен.
PHP:
$page =file_get_contents("$sname");
preg_match_all('/[\.\-_A-Za-z0-9]+?@[\.\-A-Za-z0-9]+?[\.A-Za-z0-9]{2,}/', $page, $out);
Есть идея что нужно заходить на главную смотреть все ссылки на страницы, потом открывать все ссылки относящиеся к сайту их парсить на мейлы. Но тут встает ряд задач по оптимизации например: емейл найден, закончить поиск, на сайте левая ссылка на которой есть емейл но он не нужен.
Может кто то стыкался с подобного рода задачей. Или может поделется куском кода?
________________
за что буду очень благодарен.