Централизованый Ньюс граббер c раздачей на базе NG

Статус
В этой теме нельзя размещать новые ответы.

cosogor

Писатель
Регистрация
6 Окт 2008
Сообщения
6
Реакции
0
Есть возможность замутить проект на базе NG который будет :

- парсить N-ое множество сайтов и RSS каналов (и проч где N будет постоянно расти)
- модерировать и сортировать контент
- бесплатно раздавать контент (ну либо за оч умеренную плату) на различные виды CMS

Прошу высказывать конструктивную критику-пожелания (пожеланя к функционалу, цене, поддерживаемых СМС и тд...).

Желающих учавствовать в проекте - прошу отдельно писать в личку.
 
была такая мысль... уже пытался реализовать... но, натолкнулся на следующие проблемы:
1. большое кол-во источников - очень не хилая нагрузка на проц...
для сравнения беру один из своих серваков на Core2Quad 6600:
attachment.php


Раз в час запускается парсилка... порядка 30 ресурсов...

PS. да, сервер сейчас стоит исключительно для парсинга и отображения одного ресурса........... как-то пока больше не повесили на него ничего... :) ....но... вот тепреь думаем как быть... с такой то нагрузкой... :-]

2. регулярное обновление источников и контроль за ними... Дизайны меняются... расположение блоков тоже... корректировка оформления... и т.д. - даже небольшие изменения влекут за собой отключение источника или не корректное восприятие его граббером.... что может повлечь за собой "корявый" текст на всех сайтах сети...
 

Вложения

  • stats.png
    stats.png
    9 KB · Просмотры: 144
так а почему бы не запускать парсилку на ресурсы по-очереди, а не все сразу.. Как дополнительный ограничитель можно еще шейпером канал парсилке придавить, чтобы медленно сосала сайты, отрабатывание тогда еще больше растянется по времени, уйдем от пиковых нагрузок.
Хотя если сервак затачивать чисто под эту задачу, то пусть он хоть всё время на 100% будет загружен, лишь-бы с задачей справлялся.. Даже наоборот хорошо - работает на все деньги :D
 
при таком раскладе дел - "растягивание" отметаем сразу!
...ибо если мы рассматриваем ресурс как "ОТЛИЧНЫЙ" источник новостей, то он должен просматривать не менее 100-150, а лучше 200 ресурсов... скажем, с запуском крона раз в 5-10 минут и интервалом проверки источников в 30-60 минут........ иначе просто начнется зацикливание, что предыдущий поток проверок ресурсов еще рабоатет а новый уже повторно првоеряет этот ресурс...(хотя это легко лечится) или дргой вариант что за сутки не будут просматриваться все ресурсы --> нафик он такой сдался... если в нем новости появлятсья будут с задержкой в 2е суток....
 
А если запускать проверку по 5 - 10 каналов с интервалом в 1 минуту? Думаю за одну минуту 10 каналов спарсить не проблема.
 
ну допустим что за одну минуты и один источник не сграбится никак......
можно запускать каешна в несколько потоков........ вернее, только в несколько потоков и покатит тогда... один поток - одна лента...

вобщем, суть-то вопрсоа в другом... кто источники заносить будет?! :-]
на них дофига времени уходит...
 
мое личное мнение данной затеи: игра не стоит свеч.. по нескольким причинам:
1. На данный момент есть куча грабберов с открытым и закрытым кодом и что мешает другому ресурсу так же грабить сайты?
2. Геморой с раздачей на другие CMS. Разные кодировки, подход к каждому клиенту свой что ли нужен?
3. Ньюс граббер убийца хостинга - большая нагрузка, нужно будет выделенный сервер делать.
4. При большом кол-ве статей, новостей нужно будет фильтровать инфу, сравнивать одинаковые статьи, не брать статьи с матом и т.д. и т.п. а это:
а) доработка скрипта
б) еще больше нагрузка на сервак.
в общем то на любую затею можно наковырять много НО, но если на это каждое НО есть решение то почему бы и нет.
Мое мнение - платформа не подходит, нужно что-то более существенное не на PHP а уже на .NET платформе + для снижения нагрузок AJAX(хотя не уверен что он сильно их снизит) а ИДЕЯ ХОРОШАЯ!:ay:
 
Есть возможность замутить проект на базе NG который будет :

- парсить N-ое множество сайтов и RSS каналов (и проч где N будет постоянно расти)
- модерировать и сортировать контент
- бесплатно раздавать контент (ну либо за оч умеренную плату) на различные виды CMS

Прошу высказывать конструктивную критику-пожелания (пожеланя к функционалу, цене, поддерживаемых СМС и тд...).
Желающих учавствовать в проекте - прошу отдельно писать в личку.
добавь сюда еще качественный синонимайзер
поддержка цмс необязательна, просто формируй РСС ленту
 
уж легче с нуля чем на базе NG
 
надо сказать что у ньюс граббера мне очень понравилась сама граббилка - очень удобная, хотя и не сильно оптимизированная... теперь юзаю ее еще в нескольких проектах... хотя надо будет переписать - в 5м пхп как-то не работает у меня... :nezn:

а так.. .если кто-то решистя писать такую штуку - готов помочь :ay:
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху