выдергивание емейлов с сайта v2

Статус
В этой теме нельзя размещать новые ответы.

unsiker

Постоялец
Регистрация
6 Июн 2008
Сообщения
465
Реакции
173
Ситуация такая есть список сайтов, порядка 20.000. Зная список сайтов нужно узнать емейлы администрации сайтов. Все сайты тематические по 10 - 20 страниц и без форумов. Так вот было сделано предположение что ключевой емейл находится на главной странице сайте. Был написан скрипт, которой проводит поиск нужных емейлов.
PHP:
 $page =file_get_contents("$sname");
 preg_match_all('/[\.\-_A-Za-z0-9]+?@[\.\-A-Za-z0-9]+?[\.A-Za-z0-9]{2,}/', $page, $out);
Но после отработки с 20к сайтов только у 3к сайтов был найден емейл. Осталось 17к.

Есть идея что нужно заходить на главную смотреть все ссылки на страницы, потом открывать все ссылки относящиеся к сайту их парсить на мейлы. Но тут встает ряд задач по оптимизации например: емейл найден, закончить поиск, на сайте левая ссылка на которой есть емейл но он не нужен.

Может кто то стыкался с подобного рода задачей. Или может поделется куском кода?
________________
за что буду очень благодарен.
 
$text = eregi_replace(([[:alnum:]-.]+@[[:alnum:]-]+(\\.[[:alnum:]-]+)*(\\?([[:alnum:]?+&%]*)?)?)

такой вариант не пойдет?
 
Ситуация такая есть список сайтов, порядка 20.000. Зная список сайтов нужно узнать емейлы администрации сайтов. Все сайты тематические по 10 - 20 страниц и без форумов. Так вот было сделано предположение что ключевой емейл находится на главной странице сайте. Был написан скрипт, которой проводит поиск нужных емейлов.
PHP:
 $page =file_get_contents("$sname");
 preg_match_all('/[\.\-_A-Za-z0-9]+?@[\.\-A-Za-z0-9]+?[\.A-Za-z0-9]{2,}/', $page, $out);
Но после отработки с 20к сайтов только у 3к сайтов был найден емейл. Осталось 17к.

Есть идея что нужно заходить на главную смотреть все ссылки на страницы, потом открывать все ссылки относящиеся к сайту их парсить на мейлы. Но тут встает ряд задач по оптимизации например: емейл найден, закончить поиск, на сайте левая ссылка на которой есть емейл но он не нужен.

Может кто то стыкался с подобного рода задачей. Или может поделется куском кода?
________________
за что буду очень благодарен.
при написании email граббера нет такого понятия левое мыло или нет
если найдено в пределах сайта и не более 2-3х мыл, все ОК.
если же найдено больше 2-3 мыльников, тогда задаваться вопросом что это за страница на котором столько мыльников.

изначально гарантии что прямо на морде есть мыло самой компании никакой нет. там вполне может быть мыло обычного вебмастера, поэтому грабить надо все.



должно хватать с головой.

плюс если реально 20-30 страниц на сайте на не 200-300, то лучше найти все мыльники что там упоминаются, а отом думать, что с ними делать. Только не обязательно реальное рабочее мыло должно совпадать с доменом сайта который грабится, типа


оно может быть гдето на mail.ru или еще дальше :)

но умный дизайнер закроет это было всякими js скриптами, дабы такие лохотронские грабберы (простенькие) не смогли его выгрести.

Добавлено через 3 минуты
Ситуация такая есть список сайтов, порядка 20.000. Зная список сайтов нужно узнать емейлы администрации сайтов. Все сайты тематические по 10 - 20 страниц и без форумов. Так вот было сделано предположение что ключевой емейл находится на главной странице сайте. Был написан скрипт, которой проводит поиск нужных емейлов.
PHP:
 $page =file_get_contents("$sname");
 preg_match_all('/[\.\-_A-Za-z0-9]+?@[\.\-A-Za-z0-9]+?[\.A-Za-z0-9]{2,}/', $page, $out);
Но после отработки с 20к сайтов только у 3к сайтов был найден емейл. Осталось 17к.

Есть идея что нужно заходить на главную смотреть все ссылки на страницы, потом открывать все ссылки относящиеся к сайту их парсить на мейлы. Но тут встает ряд задач по оптимизации например: емейл найден, закончить поиск, на сайте левая ссылка на которой есть емейл но он не нужен.

Может кто то стыкался с подобного рода задачей. Или может поделется куском кода?
________________
за что буду очень благодарен.
да и еще . нелюбовь спамиров зачастую приводит к появлению на сайте формы обратной связи. если вы при граббинге сделаете закладку на поиск таких форм, то прогнав и по базе мыльников, и по базе форм обратной связи, отдача от поставленной задачи значительно возрастет
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху