Быстрый и функциональный X-Parser

Статус
В этой теме нельзя размещать новые ответы.

reboRn

Полезный
Регистрация
19 Июл 2007
Сообщения
277
Реакции
16
Самый быстрый из известных мне PHP парсеров – парсер контента X-Parser.
Что это вообще такое

Многофункциональный модульный многопоточный универсальный парсер, который в полной сборке позволяет делать следующее:

1. Парсить выдачу любых поисковых систем по ключевым фразам сохраняя сниппеты и ссылки.
2. Парсить контент (текстовый) с любого сайта по заданному домену.
3. Парсить контент (текстовый) по ключевым фразам из выдачи любой ПС.
4. Парсить контент (текстовый) по заданному списку URLов.
5. Парсить внутренние ссылки с любого URLа в частности или сайта в целом.
6. Парсить внешние ссылки с любого URLа в частности или сайта в целом.

Прокси чекер в комплекте

Чтобы можно было парсить неограниченное количество контента, парсер комплектуется таким же быстрым прокси чекером. Он позволяет:

1. Проверять прокси по заданному списку проксилистов.
2. Проверять прокси по списку проксей.
3. Проверять индивидуально любой прокси.
4. Отбирать из списка качественные проксилисты.
5. Парсить списки прокси из выдачи Google и отбирать качественные.

Проверка прокси происходит с привязкой к цели использования! Например, если Вы хотите использовать прокси для парсинга Google, то его можно легко настроить, чтобы сразу отбирать только прокси сервера, незабаненные Google.
Производительность парсера

Ну а теперь самое интересное. Парсер контента X-Parser использует многопоточность. Количество потоков настраивается. Скорость парсинга на мегабитном канале составляет примерно 160 секунд на 1 мегабайт чистого текста, т.е. 500 мегабайт в сутки!!!

Скорость проверки прокси составляет около 100 прокси за 100 секунд, то есть за 100 секунд будет найдено примерно 100 рабочих прокси.
Модульность и интеграция в сторонние приложения

Исходный код выполнен модульно. Каждый модуль имеет свои параметры и функции. Без проблем встраивается в любой другой код, например в доргены. Изначально парсер писался для интеграции в сторонний код, поэтому в безинтерфейсном варианте он очень гибок и удобен в использовании (абсолютно все можно настраивать под свои нужды). В интерфейсном варианте вынесены только базовые настройки для удобства использования парсера без наличия знаний в области PHP.
Функционал версий:

X-Parser-FREE: Содержит в себе парсер сниппетов и парсер контента по списку URL. Позволяет парсить сниппеты только с Google и Yandex. Парсер контента парсит не более 10 URL за заход. Служит как демонстрационная версия для оценивания качества контента на выходе. Так же может использоваться как полноценный парсер контента, но с очень ограниченным функционалом. Сборка произведена на базе фильтров X-Parser-PRO:

X-Parser-LIGHT: Содержит в себе:

* Парсер сниппетов с ПС
* Парсер ссылок с ПС
* Парсер контента по списку ключевиков
* Парсер контента по списку URL
* Парсер контента по списку доменов (производит парсинг контента с сайтов на всю глубину)
* Парсер внутренних ссылок по списку доменов (парсит сайты на всю глубину и собирает все внутренние ссылки)
* Парсер внешних ссылок по списку доменов (парсит сайты на всю глубину и собирает все внешние ссылки)
* Проксичеккер
* Чеккер проксилистов (отбирает качественные проксилисты из общего списка)
* Парсер картинок с флик.ком (бесплатное дополнение, позволяет парсить изображения по запросам и изменять их размер под Ваши нужды)

Позволяет парсить Google, Yandex, Yahoo, Altavista, Aol, Bing. Имеет вывод текста без разметки (под дорвеи) и с разметкой (заголовки, абзацы) в формат Textkit и собственный формат с разделителем . Версия имеет минимум вынесенных настроек и идеально подходит для неопытных пользователей

X-Parser-PRO: Содержит:

* Парсер сниппетов с ПС
* Парсер ссылок с ПС
* Парсер контента по списку ключевиков
* Парсер контента по списку URL
* Парсер контента по списку доменов (производит парсинг контента с сайтов на всю глубину)
* Парсер внутренних и внешних ссылок по списку доменов или URL (парсит сайты на указанную глубину и собирает все внутренние и/или внешние ссылки)
* Проксичеккер
* Чеккер проксилистов (отбирает качественные проксилисты из общего списка)
* Парсер картинок с различных источников

Усовершенствования, по сравнению с LIGHT-версией:

* Усовершенствованная система фильтров отпарсенного контента, которая дает на выходе максимально отфильтрованный контент
* Вынесенные настройки, которые позволят максимально гибко управлять каждым парсером
* Позволяет самостоятельно собирать парсеры любых поисковых систем
* Сохранение пресетов настроек
* Фильтры по стоп-словам и/или включениям слов или фраз
* Позволяет самостоятельно настраивать любые языки парсинга
* Позволяет самостоятельно настраивать форматы вывода отпарсенного контента
* Позволяет сохранять статьи как в один файл (группировка по ключевикам), так и в отдельные файлы
* Позволяет управлять таймаутом обращения к ПС и начайльной позицией, с которой парсить выдачу
* Позволяет находить заданное количество статей


Так же мне удалось навернуть на уже конечную версию парсер видио для вставки на сайт, конечно же по запросу.
Ну и еще я расширил возможности экспорта, добавил земрум лайт.

Что еще вообще можно добавить в фунционал интересного и нужного?

Пока из всех виденных мной парсеров это самый быстрый и функциональный.
 
Reborn что ты с разделом ошибся. Надо было в Рекламный раздел. Ты пользуешся им?
А по поводу скрипта, на сколько качественный выходит текст, если парсить по ключевому запросу в ПС? Нет проблем с кодировкой, а то в фри версии постоянно лезят кракозябры?
 
Reborn что ты с разделом ошибся. Надо было в Рекламный раздел. Ты пользуешся им?
А по поводу скрипта, на сколько качественный выходит текст, если парсить по ключевому запросу в ПС? Нет проблем с кодировкой, а то в фри версии постоянно лезят кракозябры?

Я им пользуюсь и продаю нулледовцем со скидкой.
С темой что ошибся прошу прощения, минут 5 думал куда запостить.
Рекламного раздела не увидел.

Из всех что пользовал этот наиболее адекватен. Позже наверное выложу пример парсенного текста статей.
Краказябров не разу не было сколько пользовал. С кодировкой проблем не наблюдалось.


Просьба модераторам, перенесите пожалуйста тему в правильный раздел. Извиняюсь что не туда запостил!
 
kolchakA
По многочисленным просьбам мы решили заметно снизить цену. Теперь цены следующие:
X-Parser-PRO : 60$!
X-Parser-LIGHT : 40$!


а по сути, есть неплохой десктопный парсер - ZParser - автора даже побанили на серче за тему:-]
 
*** скрытое содержание ***
а по сути, есть неплохой десктопный парсер - ZParser - автора даже побанили на серче за тему:-]
не совсем санкционированное с автором понижение цены, люди не допоняли друг друга, насколько я знаю цену понижать пока не будем, если будем, то первый пост я подравлю, но пока не планировалось
 
В течение 4х дней по заявкам всех переживающих и тп цена снижена до 30\50уе 30 лайт, 50 про. Отдасться 4 копии. Через 4 дня цена вернется до 80\160 уе. Намечаются доработки по расширению функционала и вкусных плюшек.
 
интересно на скольких машинах его можно запускать?
 
Привязка по айпи, и еще пару методов. При желании можно договориться чтоб старую версию заблокировали, и привязали новую.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху