e64f
Постоялец
- Регистрация
- 2 Ноя 2008
- Сообщения
- 95
- Реакции
- 6
- Автор темы
- #1
Как можно быстро проверить ликвидность большого списка прокси серверов?
Дано:
1) Список около 10 000 серверов прокси.
2) Программа на php которая проверяет большой список доменов в одной буржуйской пузомерке. Чтобы не забанили проверку нужно делать через прокси, и не слишком часто через одну и ту же прокси.
Занимаюсь, работой через прокси в первый раз, так что прошу поправлять меня если ошибаюсь в методологии.
Как делаю:
Прокси и домены лежат в двух таблицах. Беру по записи из каждой таблицы. Пытаюсь получить страницу (для грабинга значения пузомерки) если определенного шаблона (фрагмента) страницы нет то считаю проксю неликвидной и удаляю из таблицы. Если все ок, маркирую домен, чтобы в следующий раз его не брать повторно для проверки, маркирую проксю чтобы пользоваться ею на следующем цикле, когда пройду по циклу все прокси (и каждая из них или удалится или останется). Список проксей обновляется раз в полчаса в источнике, могу себе обновлять. Вообще по настройкам каждой рабочей проксей предполагаю воспользоваться 200 раз.
Проблемы:
1) Список проксей большой и не все прокси рабочие, речь идет о работе прокси как таковой так и бан прокси ресурсом куда я пытаюсь обратиться.
2) Из 10 000 проксей рабочие всего 10%
3) Процесс повешан на крон, в минуту обрабатываю по 5 записей, а в связи с тем что много неактуальных проксей, происходит холостой ход программы, в курлах на загрузку страницы отвожу 30 секунд.
Вопрос: Можно ли быстро прочекать большой список проксей на ликвидность?
Дано:
1) Список около 10 000 серверов прокси.
2) Программа на php которая проверяет большой список доменов в одной буржуйской пузомерке. Чтобы не забанили проверку нужно делать через прокси, и не слишком часто через одну и ту же прокси.
Занимаюсь, работой через прокси в первый раз, так что прошу поправлять меня если ошибаюсь в методологии.
Как делаю:
Прокси и домены лежат в двух таблицах. Беру по записи из каждой таблицы. Пытаюсь получить страницу (для грабинга значения пузомерки) если определенного шаблона (фрагмента) страницы нет то считаю проксю неликвидной и удаляю из таблицы. Если все ок, маркирую домен, чтобы в следующий раз его не брать повторно для проверки, маркирую проксю чтобы пользоваться ею на следующем цикле, когда пройду по циклу все прокси (и каждая из них или удалится или останется). Список проксей обновляется раз в полчаса в источнике, могу себе обновлять. Вообще по настройкам каждой рабочей проксей предполагаю воспользоваться 200 раз.
Проблемы:
1) Список проксей большой и не все прокси рабочие, речь идет о работе прокси как таковой так и бан прокси ресурсом куда я пытаюсь обратиться.
2) Из 10 000 проксей рабочие всего 10%
3) Процесс повешан на крон, в минуту обрабатываю по 5 записей, а в связи с тем что много неактуальных проксей, происходит холостой ход программы, в курлах на загрузку страницы отвожу 30 секунд.
Вопрос: Можно ли быстро прочекать большой список проксей на ликвидность?