KHyT
Знаток
- Регистрация
- 26 Апр 2008
- Сообщения
- 328
- Реакции
- 25
- Автор темы
- #1
Новый граббер новостей для CMS DataLife Engine, работает как отдельная система. Обладая хоть какими то знаниями PHP и HTML Вы сможете научить данный скрипт грабить новости с любых сайтов, на любых движках. Он легко устанавливается и конфигурируется
Граббер позволяет получать контент с большинства DLE-сайтов (не используя RSS), а полученный контент
можно использовать на любом сайте, независимо от того, базируется он на популярной CMS или на самописном скрипте.
Данную систему можно научить парсить новости с любого сайта, обладая начальными навыками PHP и HTML.
[*] Гибкость - два режима работы.
>>Классический режим:
В этом режиме дистрибутив граббера копируется непосредственно на Ваш сайт.
Все что нужно - указать тип используемой CMS.
Полученные новости, после их подтверждения, автоматически размещаются у Вас на сайте.
>>Пакетный режим:
Суть режима заключается в разделении процесса получения новостей от их добавления.
Грабить новости вы можете на своем локальном сервере (для пользователей Windows отлично подойдет набор denwer),
скрипт в этом режиме будет формировать специальные пакеты (.php файлы), которые, впоследствии, копируются на Ваш сайт, где другая копия граббера их обрабатывает.
Преимущества данного режима:
[*]Возможность грабить большое количество статей одновременно, если этого не позволяет делать Ваш хостинг;
[*]Если вы грабите долгое время с одного сайта, рано или поздно, Ваш IP на этом сайте может быть просто забанен,
а если грабить с локального сервера - тут Вам на помощь прокси и/или динамический IP.
[*] Функциональность.
[*]Поддержка авторизаций на сайте-источнике для получения элементов, недоступных гостям;
[*]Поддержка мультиграббинга (одновременное использование одной копии граббера для работы с множеством источников)
[*]Возможность получения новостей определенной категории или всех новостей, публекуемых на главной странице;
[*]Возможность ограничения количества одновременных запросов с указанием интервала для паузы;*
[*]Возможность добавления "случайных" дат при размещении новостей на Вашем сайте (перемешивание новостей);
[*]Возможность проверки новости на уникальность перед добавлением;
[*]Возможность поэтапного добавления новостей на Ваш сайт;
[*]Возможность автоматического определения категории новости по её содержимому (с помощью шаблонов);
[*]Возможность автоматического добавления "подписей" в новости, где можно указать сайт, например, сайт-источник или ключевые слова;
[*]Возможность цензурирования новостей (замены или удаления текста по точным совпадениям или шаблонам);
[*]Возможность "чистки" HTML-кода новости (начиная от удаления html-комментариев, заканчивая удалением ненужных конструкций);
[*]Возможность синонимизации текста (в дистрибутив входят две открытые базы синонимов);
[*]Возможность синонимизации текста с помощью Google Translate;
[*]Возможность добавления (в том числе и загрузки на сервер в двух режимах) потоковых видео (IMDb) с замещением flash-проигрывателя;
[*]Возможность загрузки картинок на сервер (с возможностью сортировки в разные папки по дате, титулу...);
[*]Возможность наложения водяных знаков на загружаемые картинки;
[*]Возможность расшифровки DLE ссылок (./engine/go.php);
[*]Возможность использования прокси-сервера для соединения с сайтом-источником;
[*]Возможность адаптирования скрипта под сайты, которые имеют нестандартную HTML-структуру;
[*]Возможность сохранения списка последних спарсенных сайтов;
[*]Возможность уменьшения картинок на уровне самих файлов или HTML-кода;
[*]Возможность добавления новостей от случайного автора из списка; появится в новой версии
[*]Возможность добавления meta-данных (ключевых слов и описание) в следующих режимах: появится в новой
версии
а) парсинг непосредственно с сайта-источника;
б) с помощью автоматической системы получения ключевых слов через анализ контента;
в) по собственным шаблонам;
[*]Наличие универсального модуля загрузки файлов: он может использоваться для загрузки любого типа файлов (будь-то .swf flash-ролики и/или .rar архивы)
[*]Наличие встроенного редактора новостей;
[*]Наличие встроенного онлайн синонимизатора (для проверки баз);
[*]Наличие универсального конвертора формата текстовых баз синонимов;
А также многое другое...
* - На некоторых DLE (да и не только) сайтах стоит анти-спам защита (ограничение количества обращений с одного IP в период времени). Данный скрипт имеет опцию ограничения количества одновременных запросов с указанием интервала для паузы. Что, конечно, увеличивает время граббинга, но все же оставляет его автоматизированным даже на сайтах с анти-спам защитой.
Данная опция также может быть полезна, если на Вашем хостинге отключена стандартная функция снятия ограничения времени выполнения скрипта.
(на большинстве серверов она по понятным причинам как раз отключена). В этом случае, обычно, вылетает ошибка 403 (Forbidden).
[*] Оптимизация.
Работа с граббером максимально нацелена на оптимизацию. Все конфиги расположены в отдельной директории и максимально документированы. С моей стороны гарантируется помощь в настройки системы.
[*] Надеждый механизм работы.
Весь полученный контент хранится в директориях скрипта и может быть использован при повторном запросе на получение тех же статей.
Это очень полезно, если объем получаемого контента большой, - ведь в этом случае возобновление работы
после любого сбоя не представляет проблем, достаточно заного указать начальную и конечную страницы,
а скрипт сам определит какие из статей уже получены, а какие предстоит сграбить.
[*] Расширяемость.
С граббером поставляется и документация к нему с описанием функций и структуры. Ключевые его элементы подробно закомментированы и
расположены в отдельных библиотеках, что позволит оптимизировать или расширить
функционал скрипта даже начинающему программисту. В граббер, также, встроен простой, но удобный механизм подключения
собственных модулей по обработке контента.
[*]Безопасность.
Граббер имеет встроенный механизм авторизации для ограничения доступа к скрипту.
Данную функцию можно включить и выключить в любой момент.
[*]Полный дистрибутив скрипта с открытым исходным кодом и документацией;
[*]Следующие драйвера:
[*]DLE 7.x / 8.x
[*]IPB
[*]SMF
[*]WordPress
[*]phpBB 3.0.x
[*]LiveStreet
[*]Joomla
[*]Конвертор новостей в текстовые файлы
[*]Универсальный драйвер удаленного импорта новостей для сайтов, на которых нельзя разместить свой сторонний php код (например, ucoz)
Стоймость 35$ тут бесплатно
У всех всё норма а у меня трабла вместо текста знаки вопроса помогите пожалуйста ну уж очень хороший грабер лучший что я видел , а у меня фигня такая
Граббер позволяет получать контент с большинства DLE-сайтов (не используя RSS), а полученный контент
можно использовать на любом сайте, независимо от того, базируется он на популярной CMS или на самописном скрипте.
Данную систему можно научить парсить новости с любого сайта, обладая начальными навыками PHP и HTML.
[*] Гибкость - два режима работы.
>>Классический режим:
В этом режиме дистрибутив граббера копируется непосредственно на Ваш сайт.
Все что нужно - указать тип используемой CMS.
Полученные новости, после их подтверждения, автоматически размещаются у Вас на сайте.
>>Пакетный режим:
Суть режима заключается в разделении процесса получения новостей от их добавления.
Грабить новости вы можете на своем локальном сервере (для пользователей Windows отлично подойдет набор denwer),
скрипт в этом режиме будет формировать специальные пакеты (.php файлы), которые, впоследствии, копируются на Ваш сайт, где другая копия граббера их обрабатывает.
Преимущества данного режима:
[*]Возможность грабить большое количество статей одновременно, если этого не позволяет делать Ваш хостинг;
[*]Если вы грабите долгое время с одного сайта, рано или поздно, Ваш IP на этом сайте может быть просто забанен,
а если грабить с локального сервера - тут Вам на помощь прокси и/или динамический IP.
[*] Функциональность.
[*]Поддержка авторизаций на сайте-источнике для получения элементов, недоступных гостям;
[*]Поддержка мультиграббинга (одновременное использование одной копии граббера для работы с множеством источников)
[*]Возможность получения новостей определенной категории или всех новостей, публекуемых на главной странице;
[*]Возможность ограничения количества одновременных запросов с указанием интервала для паузы;*
[*]Возможность добавления "случайных" дат при размещении новостей на Вашем сайте (перемешивание новостей);
[*]Возможность проверки новости на уникальность перед добавлением;
[*]Возможность поэтапного добавления новостей на Ваш сайт;
[*]Возможность автоматического определения категории новости по её содержимому (с помощью шаблонов);
[*]Возможность автоматического добавления "подписей" в новости, где можно указать сайт, например, сайт-источник или ключевые слова;
[*]Возможность цензурирования новостей (замены или удаления текста по точным совпадениям или шаблонам);
[*]Возможность "чистки" HTML-кода новости (начиная от удаления html-комментариев, заканчивая удалением ненужных конструкций);
[*]Возможность синонимизации текста (в дистрибутив входят две открытые базы синонимов);
[*]Возможность синонимизации текста с помощью Google Translate;
[*]Возможность добавления (в том числе и загрузки на сервер в двух режимах) потоковых видео (IMDb) с замещением flash-проигрывателя;
[*]Возможность загрузки картинок на сервер (с возможностью сортировки в разные папки по дате, титулу...);
[*]Возможность наложения водяных знаков на загружаемые картинки;
[*]Возможность расшифровки DLE ссылок (./engine/go.php);
[*]Возможность использования прокси-сервера для соединения с сайтом-источником;
[*]Возможность адаптирования скрипта под сайты, которые имеют нестандартную HTML-структуру;
[*]Возможность сохранения списка последних спарсенных сайтов;
[*]Возможность уменьшения картинок на уровне самих файлов или HTML-кода;
[*]Возможность добавления новостей от случайного автора из списка; появится в новой версии
[*]Возможность добавления meta-данных (ключевых слов и описание) в следующих режимах: появится в новой
версии
а) парсинг непосредственно с сайта-источника;
б) с помощью автоматической системы получения ключевых слов через анализ контента;
в) по собственным шаблонам;
[*]Наличие универсального модуля загрузки файлов: он может использоваться для загрузки любого типа файлов (будь-то .swf flash-ролики и/или .rar архивы)
[*]Наличие встроенного редактора новостей;
[*]Наличие встроенного онлайн синонимизатора (для проверки баз);
[*]Наличие универсального конвертора формата текстовых баз синонимов;
А также многое другое...
* - На некоторых DLE (да и не только) сайтах стоит анти-спам защита (ограничение количества обращений с одного IP в период времени). Данный скрипт имеет опцию ограничения количества одновременных запросов с указанием интервала для паузы. Что, конечно, увеличивает время граббинга, но все же оставляет его автоматизированным даже на сайтах с анти-спам защитой.
Данная опция также может быть полезна, если на Вашем хостинге отключена стандартная функция снятия ограничения времени выполнения скрипта.
(на большинстве серверов она по понятным причинам как раз отключена). В этом случае, обычно, вылетает ошибка 403 (Forbidden).
[*] Оптимизация.
Работа с граббером максимально нацелена на оптимизацию. Все конфиги расположены в отдельной директории и максимально документированы. С моей стороны гарантируется помощь в настройки системы.
[*] Надеждый механизм работы.
Весь полученный контент хранится в директориях скрипта и может быть использован при повторном запросе на получение тех же статей.
Это очень полезно, если объем получаемого контента большой, - ведь в этом случае возобновление работы
после любого сбоя не представляет проблем, достаточно заного указать начальную и конечную страницы,
а скрипт сам определит какие из статей уже получены, а какие предстоит сграбить.
[*] Расширяемость.
С граббером поставляется и документация к нему с описанием функций и структуры. Ключевые его элементы подробно закомментированы и
расположены в отдельных библиотеках, что позволит оптимизировать или расширить
функционал скрипта даже начинающему программисту. В граббер, также, встроен простой, но удобный механизм подключения
собственных модулей по обработке контента.
[*]Безопасность.
Граббер имеет встроенный механизм авторизации для ограничения доступа к скрипту.
Данную функцию можно включить и выключить в любой момент.
[*]Полный дистрибутив скрипта с открытым исходным кодом и документацией;
[*]Следующие драйвера:
[*]DLE 7.x / 8.x
[*]IPB
[*]SMF
[*]WordPress
[*]phpBB 3.0.x
[*]LiveStreet
[*]Joomla
[*]Конвертор новостей в текстовые файлы
[*]Универсальный драйвер удаленного импорта новостей для сайтов, на которых нельзя разместить свой сторонний php код (например, ucoz)
Стоймость 35$ тут бесплатно
У всех всё норма а у меня трабла вместо текста знаки вопроса помогите пожалуйста ну уж очень хороший грабер лучший что я видел , а у меня фигня такая
Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.