Парсер текста с сайта.

coguar

Постоялец
Регистрация
4 Авг 2007
Сообщения
61
Реакции
11
Вот самый простой парсер на php^
PHP:
$text = implode('', file ('http://news.yandex.ru/finances.rss'));
preg_match_all('|<item>(.*)</item>|Uis', $text, $item);
for($i = 0; $i < count($item['0']); $i++){
	preg_match('|<title>(.*)</title>|Uis', $item['0'][$i], $res['title'][$i]);
	preg_match('|<pubDateUT>(.*)</pubDateUT>|Uis', $item['0'][$i], $res['pubDateUT'][$i]);
	preg_match('|<description>(.*)</description>|Uis', $item['0'][$i], $res['description'][$i]);
}
for($i = 0; $i < 4; $i++){
	echo date('d.m.y H:i', $res['pubDateUT'][$i]['1']).'<br />';
это RSS парсер.
 

bork75

The Team
Регистрация
21 Июн 2008
Сообщения
1.455
Реакции
734
Пока лучше Content Downloader ничего не видел, за последний месяц функционал расширился многократно.

 

kraman

Постоялец
Регистрация
8 Июн 2006
Сообщения
142
Реакции
53
По поводу Content Downloader - игруша для сеошников, но не маркетологов. Прога предназначена только для сбора контента, но никак не профессиональных базы данных.

Предлагаю скинуться на Для просмотра ссылки Войди или Зарегистрируйся


Данный скрипт документируется обучающим курсом (видеоинструкцией по эксплуатации, без которой тяжело будет самому разобраться).

Краткое ревью:
- сбор всех страниц в одну;
- сбор разбросанных на страницах таблиц в одну;
- сбор конкретной повторяющейся ячейки в одну;
- сбор извлечение изображений из табличек или повторяющихся страничек в директорию;
- извлечение указанных однородных объектов в ячейки;

Более того:
- экранирование области поиска между тегами(например: <b></b>, <tr><td> < a href= "это1" title="это2 " > и даже это3 < / a > и еще вот это4 и так далее) ;
- одновременная работа 50 потоков;
- использование HTTP прокси по импортируемому из файла списку;
- список плохих ссылок (404 ошибок) и автоматическая перезагрузка(для сбивчивого пинга);
- возможность ввода диапозона;
- выбор методов GET или POST;
- скрытие (тунелирование) трафика;
- автозамены объектов на ходу;
- ограничитель частей ссылок для запрета сайтов;
- круговой обход ссылок в пределах домена(url, сайта);
- извлечение объектов, содержащих промежуточное значение альфы @;
- кодировки языка UTF-8 и др(кириллица, английский);
- инструменты автоматизации приведения кода в 1 строку, облегчающий работу;
- ограничитель таймаута обхода;
- браузер логин и пароль;
- установка приоритета;
- + в бонус автогенератор чисел, автосборщик, подборщик и сортировщик списков - супер инструмент для профессионалов!;
- модуль макросов для подстановки сложных объектов (типа &pref=xxx&pref2=yyy&pref3=zzz и т.д.);
- фиксация ограничителя символов при неожиданных случаях;
- множество количество полей(столбцов)

еще есть Для просмотра ссылки Войди или Зарегистрируйся но цена кусается! Кто-то юзал эту прогу?
 

ventus

Писатель
Регистрация
1 Июн 2013
Сообщения
5
Реакции
0
Если парсить с Content Downloader в таблицу, а потом обработать (сгенерировать дополнительные данные), то полученный файл вполне подходит для импорта на любой сайт.
 

printsprint

Постоялец
Регистрация
22 Июл 2009
Сообщения
85
Реакции
73
Если парсить с помощью Content Downloader, то в версии ULTIMATE предусмотрены дополнительные макросы
 

meromax

Знаток
Регистрация
19 Янв 2013
Сообщения
182
Реакции
26
Если кому то нужно что то спарсить, обращайтесь
Мелкие задачи сделаю за спасибо :)
 

Yul717

Писатель
Регистрация
11 Май 2017
Сообщения
1
Реакции
0
Добрый день!
Есть кое-какая задачка. Нужен парсер. Может кто-нибудь помочь?
 
Сверху