Парсер Datacol

APSALIM

Постоялец
Регистрация
28 Фев 2013
Сообщения
131
Реакции
95
Datacol - парсер для любых сайтов
Скрытое содержимое доступно для зарегистрированных пользователей!


Связанные темы:
Скрытое содержимое доступно для зарегистрированных пользователей!

Скрытое содержимое доступно для зарегистрированных пользователей!
 
Если Датакол вам реально нужен то 7ку лучше купить. А если на один раз то проще парсинг заказать.
Обновления выходят гдето 1 раз в месяц и доработка функционала приличная.
 
Салют!
Подходит ли сабж (5-ая версия) для следующей ситуации?
- есть несколько сайтов на которых предоставлена куча текстовой информации. Это всевозможные законы, указы с пунктами, подпунктами, главами и другой лабудой
- семантически сегменты плохо разделены, нет чёткого разделения по атрибутам. Т.е. пункты или подпункты в узлах никак не описаны классами или id

Задача правильно сегментировать весь текст, разделить его на логические составляющие (с минимальным ручным редактированием) для дальнейшего перевода в свою БД

Собственно, возможно ли это? Если ответ положительный, какие параметры изучить в программе для начала?
 
Всем привет!
Помогите с настройкой, все настроил кроме цены и фото, уже все перепробовал ничего не сохраняет.
Цену вообще не выдает, а фото сохраняет с кодировкой фото.jpg_dflgkdjflg
Все остальное ок!
Сайт: moreobuvi.com.ua
 

Цена:
Строки вырезания - обычное поле:
Цена за ед. <span class="price" style="font-size: 34px;">(.*?)<span

Замена:
Цена за ед. => замена на пусто
<span => замена на пусто
class="price" style="font-size: 34px;"> => замена на пусто

Картинка:
Строки вырезания - обычное поле:
<div class="image">(.*?)" class="zoom"

Замена:
<a href=" => замена на пусто
" class="zoom" => замена на пусто

Собирает ссылки на фото - потом можно выпарсить по ссылке. Обычно сбор таких фото делаю экселем.
 
Цена:
Строки вырезания - обычное поле:
Цена за ед. <span class="price" style="font-size: 34px;">(.*?)<span

Замена:
Цена за ед. => замена на пусто
<span => замена на пусто
class="price" style="font-size: 34px;"> => замена на пусто

Картинка:
Строки вырезания - обычное поле:
<div class="image">(.*?)" class="zoom"

Замена:
<a href=" => замена на пусто
" class="zoom" => замена на пусто

Собирает ссылки на фото - потом можно выпарсить по ссылке. Обычно сбор таких фото делаю экселем.
Сделал все как описано но цену по прежнему не сохраняет, а с фото ничего не изменилось.
Может и навигацию со сбором ссылок у вас получится. :)
Прикладываю ссылку на компанию datacol 5 гляньте что не так.
Для просмотра ссылки Войди или Зарегистрируйся
 
Прикладываю ссылку на компанию datacol 5 гляньте что не так.Для просмотра ссылки Войди или Зарегистрируйся
Стрелки не надо было копировать.
Поправил, вроде парсит. Поправьте пути до папок экспорта, глубину прохода по сайту, ну и свой метод экспорта.
расширение txt переименовать в par.
Получилось стянуть картинку 300х300 в папку. Большие картинки не тянет, тянет ссылки на них.
Лишние столбцы можно удалить, если не нужны.
 

Вложения

  • moreobuvi.new.txt
    50,6 KB · Просмотры: 6
друзья, подскажите please, чем спарсить или как спарсить
Для просмотра ссылки Войди или Зарегистрируйся

к примеру. телефонный номер. ...там как то на кнопку "показать номер" нажать)
 
друзья, подскажите please, чем спарсить или как спарсить
Качаете данные без дешифрровки, если они качаются.
<a data-phone="KzcgOTk5IDE1NS0yNy04Nw==" class="btnRed js-showPhone">Показать номер</a>
потом вставляете в base64 decoder
Как это выглядит можно глянуть здесь

Вставляете, дальше копируете результат в блокнот и сохраняете, открываете,
делаете замену в Notepad++
Найти +7
Заменить \n +7 (режим поиска расширенный).
 
Последнее редактирование:
Назад
Сверху