Идеальный автоблоггер

Статус
В этой теме нельзя размещать новые ответы.

itex

Гуру форума
Регистрация
15 Ноя 2007
Сообщения
272
Реакции
66
Размышлял над тем, что требуется от идеального автонаполнителя сайтов, сделал небольшое ТЗ для себя, надеюсь Вам будет тоже интересно и Вы добавите некоторые пункты, чтобы Вам хотелось в идеале.
Для просмотра ссылки Войди или Зарегистрируйся
Предлагаю обсудить в теме желаемые возможности такого рода скриптов. Постараюсь добавлять пункты по мере поступления желаний. Интересно, что людям не хватает до кнопки Бабло.:idea:
 
  • Заблокирован
  • #2
т.к. сайт у самого грузился мега долго размещаю заодно и тут
Код:
   1.  Получение контента
         1. Источники
               1. Прописанные Рсс (R)
               2. Динамические рсс по кейвордам с поисковиков
               3. Обход заранее прописанных сайтов по и копирование контента по сигнатурам.
               4. Обход заранее прописанных сайтов, без сигнатур,
               5. Обход случайных сайтов и выдирание самого большого куска текста
         2. Ходить на сайты из пермалинков рсс и выдирать полные новости (R)
         3. Работа с проксями
         4. Получение тегов из рсс (R)
         5. Проверка не закачивался ли раньше файл по хешу (R)
         6. Частота опроса  (R)
   2. Фильтрация контента
         1. Порог входа
               1. Запрещенные слова(R)
               2. Обязательно нужные слова  (R)
               3. Контент только со страницы, а не из рсс  (R)
               4. Минимальное количество символов (R)
               5. Ссылки на сайты в блеклисте
         2. Работа с текстом
               1. Очистка от тегов, все кроме разрешенных (R)
               2. Синонимизация контента(R)
               3. Подсветка кейвордов
               4. Перевод текста из одного языка в другой
               5. Двойной перевод для уникализации
               6. Очистка от предопределенных распространенных фраз, например копирайты плагинов. (R)
               7. Замена указанных фраз на нужные
               8. Вставка тега <!more> в середину, соблюдая последовательность тегов
         3. Работа с титлом
               1. Обрезание титла по длине  (R)
               2. Синонимизация титла  (R)
         4. Работа с тегами
               1. Поиск тегов по шаблону популярных движков  (R)
               2. Поиск тегов при помощи Яху апи (R)
         5. Работа с изображениями
               1. Кеширование изображений к себе на сервер (R)
               2. Добавление альтов и титлов к изображениям  (R)
               3. Создание превью картинок
               4. Кеширование изображений на сторонние хостинги
         6. Темплейты
               1. {text}{url} (R)
               2. %text%%url% {qw|wq|qwq}
         7. Мешап
               1. Youtube видео
               2. Flickr фотографии
   3. Постинг
         1. XmlRpc
               1. Вордпресс, блоггер (R)
               2. Урл блога, логин, пароль, типа блога, статус поста  (R)
                     1. Использовать дату с источника (R)
                     2. Использовать случайное время, прибавленное или убавленное к времени источника  (R)
                     3. Автоматом создавать категории (R)
                     4. Добавлять к загружаемым изображениям хеш в имя.(R)
                     5. Расписание постинга, эмуляция человека
                     6. Максимум постов в день на блог
         2. В файл для распарсивания
         3. Посылать по почте
         4. Послать на урл в POST

А теперь дополнения:
По "Постинг" конверт в файлы экспота, в БД/Sql
По "Фильтрация контента" - уник различными путями с настройкой: синонимы, перевод, перемешка, замена похожих букв, и.т.д
А с "Получение контента" ввел кейворд, он полез в гугл -> загрузил сайты по тематике, с учетом обязательных слов в тайтале и.т.д отпарстил целиком сайты, выделил только текст путем отбрасывания повторяющегося лишнего и загрузил в БД.

p.s. и большую толстую кнопку "БАБЛО" чтобы нажать и всё сделал сам :D
 
Мои 5 копеек.
Основная задача сплогов - войти в индекс. На дублированном контенте это сделать оч сложно. Всю данную схему я успешно построил на DevilSeoComplex, однако даже если контент брался из далеких от яндекса источников, дубль не входил/вылетал из индекса.
Если парсить выдачу то это вообще кабздец, практически сразу.
Теперь по реализации
1. Получение контента
1. Источники
1. Прописанные Рсс (R)
2. Динамические рсс по кейвордам с поисковиков
3. Обход заранее прописанных сайтов по и копирование контента по сигнатурам.
4. Обход заранее прописанных сайтов, без сигнатур,
5. Обход случайных сайтов и выдирание самого большого куска текста
Все это может сделать яху пайпс. Он соберет и рсс и выдачу по нужным кивордам,почистит, поправит код + можно перевод сделать.
Если попросишь меня, то дам адрес своей трубы, она просто тянет контент с яху и гугла. При желании доработаешь
7. Мешап
1. Youtube видео
2. Flickr фотографии
Почитывай чувака, у него есть как это сделать.
Раз Для просмотра ссылки Войди или Зарегистрируйся
Два Для просмотра ссылки Войди или Зарегистрируйся

По третьему пункту.
XMLRPC на мой взгляд не лучший выход. Самый лучший вариант это напрямую в базу вносить INSERT INTO... но тут надо уметь сконструировать запрос. В том же вп надо еще и метки и кросспостинг если есть и т.п. Поэтому для постинга оптимальный вариант - юзать внутренние функции движка, например того же вп. В блоге выше я все это читал Для просмотра ссылки Войди или Зарегистрируйся
Разнос по дате делается скриптом. Количество в день это можно выставить в парсере.
2. В файл для распарсивания
3. Посылать по почте
4. Послать на урл в POST
Вот это не понял зачем вообще надо. Еще смс отправку себе на телефон сделай.
Надеюсь, хоть немного но помог тебе.
 
Еще смс отправку себе на телефон сделай.
:ay:
Напрямую через скуль или функцию движка добавить надо в список просто. Изначально в мозгах заело, что типа какойто централизованный скрипт будет, который разными способами будет постить контент в зависимости от условий.
Далее по пунктам, для чего нужно использование:
В файл для распарсивания - для различных самописных движков и тд.
Посылать по почте - для блоггера и тд. Кстати xmlrpc из той же оперы, плюс поддержка вордпресса и похожих движков.
Послать на урл в POST - аналог файла для распарсивания, тока посылать на какойнить сервис для дальнейшей обработки.
 
itex, ты пытаешся сделать комбайн для всего, а тебе надо лишь сажать и выкапывать картошку. Если ты не собираешся продавать парсенный контент, то все эти возможности вывода тебе не нужны. А если собираешся, то сделай отдачу в рсс (по паролю) и неипи мозг. Рсс запихнуть можно почти куда угодно.
Далее по теме, все мое имхо. Работают в основном простые схемы. Тот же девил, да круто, да функционала много, только всю его работу делают три скрипта - первый устанавливает, второй парсит, третий для красоты. Причем взаимодействие между ними до неприличия примитивно - exec("echo 0 0/2 0 0 0 php parser.php someparams >> crontab");
И все, установленный сплог сам начнет наполнятся каждые 2 часа.
Посылать по почте - для блоггера и тд.
Использование блоггера не думаю оправданным. Прокачивать такой сплог смысла нет, если только на траф работать, не факт что получится. Тут выбор между standalone платформами. Вордпресс замылен, но под него решений полно, я выше линков накидал. Под остальные придется самому думать. Хотя ты вроде плуги какие то писал, справишься я думаю.
 
Насчет блоггера хз, плюсы в том, что тама вложений не надо. Хоть тысячами сайты клепай. Проблемы с баном начальных акков тока надо будет обойти и прокси для постинга прикрутить.
 
Напрямую через скуль или функцию движка добавить надо в список просто.

Имхо, от версии движка и установленных модулей запрос каждый раз будет меняться. Хотя если всегд использовать одну версию и слегка её модифицировать.

По мне лучше сделать выдачу в RSS, а ВП и прочие движки будут забирать её, под каждый распространённый двиг куча плагинов по этой тематике.
 
  • Заблокирован
  • #8
Переписал под себя весь список, только то что мне нужно :)
и начал делать, правда в некоторых частях ступор, например вот контент как на странице выделить?
есть несколько вариантов:
  • По ранее заданым регуляркам - не универсален, под каждый сайт - нужна своя регулярка
  • По классам/названиям/идшникам тегов -- бывает часто что они повторяются, и решить где контент сложно, кто поможет как выбрать контент из этого всего -- регулярка на выделение этих тегов уже есть
  • По количеству именно текста в каких либо тегах -- тоже, может там внутри какая-то таблица, или дополнительный див, или много новостей на одной странице -> сложно выбрать из такого количеста все новости
  • Определяя тематику текста, и сопостовлять её с тематикой сайта, т.е. выделять ключевые слова присущие сайту -- могут быть куски вроде покупных ссылок или рекламы, => фигня
  • отсекая части которые есть на многих страницах сайта, выбирать только контент и составить в процессе регулярку для п.1 --- хз вот как найти эти повторяющиеся части, может как-то через поиск дублей (кто поможет с поиском дублей в массиве страниц - будет поиск контента на неплохом уровне)
вот так... у кого есть ешё какие идеи, пишите - скажу спасибо
 
Если кто хочет, то можно попробовать альфу версию скрипта сервиса выпустить. От Вас нужны будут ленты, откуда парсить, логины пароли для пользователя блога, который имеет доступ на добавление статей. Нужно будет создать отдельного, чтоб не раскрывать пасс админа. Ну можно и просто админа. И время от времени на блог будут падать статьи, пока без крона скрипты запускаю. Можно настроить, чтоб в черновики писалось, чтоб потом вручную на них смотреть и разрешать публикацию. Если контент английский, то будет хорошо синонимизирован. Русского синонимайзера пока не прикручено. Интерфейс довольно лаконичен, такчто о назначении той или иной настройки придется догадываться по названию.

Для просмотра ссылки Войди или Зарегистрируйся

инвайты:
Код:
9c27de999fb3e5f1ba7ac227315af74b
fbd5f3485e91a5beb6c82e5a70915ab2
ace59753179c2aa31179a67cf019e222
Пожалуйста, если наткнетесь на ошибку, не расстраивайтесь, все очень сырое.
 
Хых, все инвайты расхватали, и не отписали.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху