[Архив] Lynx parser

Статус
В этой теме нельзя размещать новые ответы.
у меня гугля дальше 2 страницы не парсит, несмотря на кучу рабочих проксей....гугл банит ... никто не сталкивался?
да и еще, у кого мсн парсит?

803 строку в function.php поправь на:
$pattern = '|<h3><a href="([^"]+)"|i';

все заработает.
 
короче обфукали меня мрачно.

а по зрелом размышлении - нате вам всю правду, все равно мозгов не имея - софтом хоть обложись, бобла не будет :)

базовые постановы, которых не хватает линксу, навскидку две:
1. forbidden от гугла не обрабатывается - а фришные прокси часто забанены
2. msn не может парсить больше чем по 10 на страницу - а надо всего одну маленькую куку послать, будет по 50

ну и еще мнооого чего... уже менее важного
 
короче обфукали меня мрачно.

а по зрелом размышлении - нате вам всю правду, все равно мозгов не имея - софтом хоть обложись, бобла не будет :)

базовые постановы, которых не хватает линксу, навскидку две:
1. forbidden от гугла не обрабатывается - а фришные прокси часто забанены
2. msn не может парсить больше чем по 10 на страницу - а надо всего одну маленькую куку послать, будет по 50

ну и еще мнооого чего... уже менее важного

софт помогает, даже если есть мозги ;)

кто-то может выложить доведенное до ума? потому как времени уйма на доводку уйдет - как пить дать.
 
Если честно мне ваще ненравится этот скрипт такие вещи ваще нипишутся на PHP(быстро в даун уйдет) Вот на Perl надо как Aura!
 
Мне там много чего не нравится.
Например корявый код афтара, типа первокурсник писал - хрен разберешся сходу.
Или использование exec() - на виртуалах как правило это блокируют.
Пришлось к нему кое-что приделать конеш, как без этого.
Но вцелом - скрипт рабочий.
 
Fatal error: Allowed memory size of 8388608 bytes exhausted (tried to allocate 262144 bytes) in F:\Program Files\VertrigoServ\www\lynx\function.php on line 190

что это может быть и как это вылечить?
вертриго локальная машина
 
Увеличить в php.ini параметр memory_limit
У меня такое было. Должно помочь.:)
 
Fatal error: Allowed memory size of 8388608 bytes exhausted (tried to allocate 262144 bytes) in F:\Program Files\VertrigoServ\www\lynx\function.php on line 190

что это может быть и как это вылечить?
вертриго локальная машина

бывает еще, если ты даешь запредельное количество задач
я когда с ним игрался, озадачил МСН парсить так, что memory_limit 128M не помог :)

тоже, кстати, еще один бочок этого скрипта - ну да это бок всего ПХП вместе взятого - отсутствие shared ресурсов для потоков. может оно и есть, но ни разу не видел чтобы ктото юзал :)

Добавлено через 2 минуты
БТВ, дорогие мои, кто вам сказал что для пррсинга гугли нужны АНОНИМНЫЕ прокси?
подходят любые прозрачные, если не забанены :yahoo:

или вы боитесь, что к вам приедут автоматчики из Гугла и покрошат **х всю локалку? :D
 
а еще есть парсер встроенный в allsubmitter
в инете есть к нему инструкция
 
Fatal error: Allowed memory size of 8388608 bytes exhausted (tried to allocate 262144 bytes) in F:\Program Files\VertrigoServ\www\lynx\function.php on line 190

что это может быть и как это вылечить?
вертриго локальная машина

вообщем чертовщина какая то)

выдает такую от бню
ессно при нажатии 404


SHOW LOG File - 1 -------------------> 2468 urls
SHOW LOG File - 2 -------------------> 2468 urls
SHOW LOG File - 3 -------------------> 2468 urls
SHOW LOG File - 4 -------------------> 2468 urls
SHOW LOG File - 5 -------------------> 2468 urls
SHOW LOG File - 6 -------------------> 2468 urls
SHOW LOG File - 7 -------------------> 2468 urls
SHOW LOG File - 8 -------------------> 2468 urls
SHOW LOG File - 9 -------------------> 2468 urls
SHOW LOG File - 10 -------------------> 2460 urls
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху