[Ищу] Content Cutter

Статус
В этой теме нельзя размещать новые ответы.
отпишитесь в личку, плиз, кто переписал скрипт, либо готов переписать за деньги
 
у меня, что на локале, что на серваке такая проблема: сначала - пункты -в очереди и страниц -показывают, что процесс идет, например, сначала в очереди 500, потом уменьшается это число и становится ноль, следовательно пункт страниц показывает -500 и все на этом - статей 0 и сами статьи не грабятся, уже даже ставила права 777 на все, но не работает, у кого нибудь была такая проблема?

может ли это быть оттого. что в самом начале меняю у файла get.php пути с относительных на абсолютные (иначе показывает ошибку синтаксиса) и вообще кто нибудь меняет пути или у всех в начальном варианте хорошо работает?
 
Парсит нормально, модерация не требуется. Скрипт втупую ищет на странице самый большой кусок текста - и вырезает его. Чтоб не парсились мелкие мусорные тексты - можно задать в параметрах парсинга минимальную длину текстового блока в символах. Всё просто и незатейливо, только с мускулем работает отвратительно. На файловые базы переводить есть ли смысл, как оно будет работать? Не проще ли будет оптимизировать работу скрипта с мускулем?

А можно немного подробней?
Скрипт парсит только те куски, где не встречаются теги? Или можно задать какие теги внутри допустимы, а какие нет?
Опять таки если статья размечена с помощью таблиц (например статья с несколькими картинками...) то на ск-ко я понима. скрипт спарсит какой-то левак?
 
кто нибудь пробовал работы скрипта на каталогах статей, типа Для просмотра ссылки Войди или Зарегистрируйся ???? получается грабить с них или нет?
 
Для просмотра ссылки Войди или Зарегистрируйся:

Скрипт иногда тянет не ВСЮ новость даже если там простой текст, без картинок.

п.с. собственно сам скрипт(тот что отвечает за парсер текста) писался очень давно, исходники в сети лежат..да и тут уже писали.

п.п.с. Все же я вернулся к тому, что надо писать парсер под конкретный двиг(а не универсальный)....что бы текст был уж наверняка полным + с картинками.

А да, и еще - перекопал весь скрипт - там кроме парсера(фришного) и паука(тоже не безупречного :) ) и оболочки ничего нет.
 
  • Заблокирован
  • #86
Попробывал я версию 1,5 поставить, которая частично зазендена. Не работает. :(

Я как понял - там всё замешано на кроне. Но толи я его не так запустить пытаюсь, толи скрипт кривой, вобщем теперь озадаченно чешу репу...

Подскажите, в чём может быть загвоздка ?

Вот в инструкции афтар пишет:
"5. Прописать запуск wget Для просмотра ссылки Войди или Зарегистрируйся"
А в видеоролике по установке у него :
"curl http://sait/cron/get.php"

И что надо в кроне тогда писать, чтобы хоть малейшая надежда на запуск этого чуда инженерной мысли появилась ??? :nezn:

______________________________________

p.s. Через час мучений я всё же догадался, что на моём VDS нет зенда. Перезалил поверх скрипта раззенденную версию и всё заработало как по инструкции.
Весч! :yahoo:

Только один минус у неё огромный - в jos_content нельзя созранить, а то вообще суперская вещь была бы.
 
Почему? на это похоже ? :
Иднексировать то они индексируют, но потом если много награбил контента через рсс, то сайт вылетает из выдачи, максимум 3 месяца будет в индексе такое чудо. Если же грабил не много(точный процент не скажу), то попадаешь под фильтр и забываешь про серп... Эта тема давно умерла.
А что есть из лучшего и надёжного?
 
Zerrikanez сможешь сделать под wordpress?я готов купить за умеренную цену.
 
Да не в цене дело...

Грабить контент по принципу "где самый большой кусок текста, там и пост" немного не правильно.

Когда тестировал - парсинг давал нормальные результаты... ну скажем терпимо... на практике же, пришлось парсить по индивидуальных шаблонах.


п.с. Если покупать, то под wp сейчас есть другие решения... тот же WP-import или Feedmaster.
 
  • Заблокирован
  • #90
Да не в цене дело...

Грабить контент по принципу "где самый большой кусок текста, там и пост" немного не правильно.
Я разбирал функцию, не совсем так реализовано.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху