Парсер текста с сайта.

Вот самый простой парсер на php^
PHP:
$text = implode('', file ('http://news.yandex.ru/finances.rss'));
preg_match_all('|<item>(.*)</item>|Uis', $text, $item);
for($i = 0; $i < count($item['0']); $i++){
	preg_match('|<title>(.*)</title>|Uis', $item['0'][$i], $res['title'][$i]);
	preg_match('|<pubDateUT>(.*)</pubDateUT>|Uis', $item['0'][$i], $res['pubDateUT'][$i]);
	preg_match('|<description>(.*)</description>|Uis', $item['0'][$i], $res['description'][$i]);
}
for($i = 0; $i < 4; $i++){
	echo date('d.m.y H:i', $res['pubDateUT'][$i]['1']).'<br />';
это RSS парсер.
 
Пока лучше Content Downloader ничего не видел, за последний месяц функционал расширился многократно.

 
По поводу Content Downloader - игруша для сеошников, но не маркетологов. Прога предназначена только для сбора контента, но никак не профессиональных базы данных.

Предлагаю скинуться на Для просмотра ссылки Войди или Зарегистрируйся


Данный скрипт документируется обучающим курсом (видеоинструкцией по эксплуатации, без которой тяжело будет самому разобраться).

Краткое ревью:
- сбор всех страниц в одну;
- сбор разбросанных на страницах таблиц в одну;
- сбор конкретной повторяющейся ячейки в одну;
- сбор извлечение изображений из табличек или повторяющихся страничек в директорию;
- извлечение указанных однородных объектов в ячейки;

Более того:
- экранирование области поиска между тегами(например: <b></b>, <tr><td> < a href= "это1" title="это2 " > и даже это3 < / a > и еще вот это4 и так далее) ;
- одновременная работа 50 потоков;
- использование HTTP прокси по импортируемому из файла списку;
- список плохих ссылок (404 ошибок) и автоматическая перезагрузка(для сбивчивого пинга);
- возможность ввода диапозона;
- выбор методов GET или POST;
- скрытие (тунелирование) трафика;
- автозамены объектов на ходу;
- ограничитель частей ссылок для запрета сайтов;
- круговой обход ссылок в пределах домена(url, сайта);
- извлечение объектов, содержащих промежуточное значение альфы @;
- кодировки языка UTF-8 и др(кириллица, английский);
- инструменты автоматизации приведения кода в 1 строку, облегчающий работу;
- ограничитель таймаута обхода;
- браузер логин и пароль;
- установка приоритета;
- + в бонус автогенератор чисел, автосборщик, подборщик и сортировщик списков - супер инструмент для профессионалов!;
- модуль макросов для подстановки сложных объектов (типа &pref=xxx&pref2=yyy&pref3=zzz и т.д.);
- фиксация ограничителя символов при неожиданных случаях;
- множество количество полей(столбцов)

еще есть Для просмотра ссылки Войди или Зарегистрируйся но цена кусается! Кто-то юзал эту прогу?
 
Если парсить с Content Downloader в таблицу, а потом обработать (сгенерировать дополнительные данные), то полученный файл вполне подходит для импорта на любой сайт.
 
Если парсить с помощью Content Downloader, то в версии ULTIMATE предусмотрены дополнительные макросы
 
Если кому то нужно что то спарсить, обращайтесь
Мелкие задачи сделаю за спасибо :)
 
Добрый день!
Есть кое-какая задачка. Нужен парсер. Может кто-нибудь помочь?
 
Назад
Сверху