Есть знатоки datacol?

D'Jack

Постоялец
Регистрация
22 Сен 2012
Сообщения
444
Реакции
173
Привет, если кто то сталкивался при парсинге магазина на этапе сбора ссылок xpath выдает ссылку на товар как

Код:
//li[@id="mattress_6722"]/h2/a

сочетание символов "mattress_6722" соответствует коду товара и разное для всех товаров магазина, как написать регулярку (потому что xpath как я понимаю не подходит для данного случая) что бы datacol корректно собирал все эти ссылки?
 
тему можно закрыть
 
Настраиваю Datacol на sob.ru
проблема в Помощнике нужные ссылки (ссылки на последующие страницы) закрыты наплывшими объявлениями - скрин
Скрытое содержимое доступно для зарегистрированных пользователей!
)
ссылка Для просмотра ссылки Войди или Зарегистрируйся
то что в левом столбце соответствует
Код:
<div class="b-searchFooter__pages">
                                                            <div><div class="sb2g">page#$<a href="http://sob.ru/prodazha-kvartir?p=%page#results">%show</a>#$1,c|2|3|4|5|..|2679|2,»#$sp</div></div>
                    </div>
Я пока получил только
Код:
//div[@class="b-searchFooter__pages"]/a
но чего-то не хватает
Помогите с регулярным выражением
 
А что нужно со страницы получить ?

Методом перебора не подходит, так

13c5deab3fe6.png


Будет конечно дольше парсить, но точно все зацепит. В СБОРЕ ССЫЛОК выражения не ставим, сразу идем в СБОР ДАННЫХ и там задаем необходимые поля для парсинга.
 
Последнее редактирование:
  • Нравится
Реакции: fm86
В разделе Навигация мне нужно получить ссылки на объявления и ссылки на последующие страницы
ссылки на объявления я собираю с помощью
Код:
//div[@id="(.*?)"]/div
//div[@class="b-scardInfo__title"]/a
собирается первые 40 ссылок с 1й страницы, а ссылки на последующие страницы пока не осилил
в браузере ссылки на последующие страницы выглядят так
Код:
http://sob.ru/prodazha-kvartir?p=%25page
http://sob.ru/prodazha-kvartir?p=%25page&p=2#results
http://sob.ru/prodazha-kvartir?p=%25page&p=3#results

http://sob.ru/prodazha-kvartir?p=%25page&p=2689#results
Добавил строки
Код:
//div[@class="sb2g"]/a
//div[@class="b-searchFooter__pages"]/a
и получил +1 ссылку (почти то, что нужно)
Код:
http://sob.ru/prodazha-kvartir?p=%25page

Еще далее споткнулся на ячейке Телефон
Помощник выдает Xpatch выражение
Код:
//dd[@class="ya-phone-79295153322"]
, но у каждого объявления этот class разный(
В коде он выглядит так
Код:
<dt>Телефон</dt>
                            <dd class="ya-phone-79295153322">7 (929) 515-33-22</dd>
                    </dl>
 
Последнее редактирование:
А что нужно со страницы получить ?

Методом перебора не подходит, так

13c5deab3fe6.png


Будет конечно дольше парсить, но точно все зацепит. В СБОРЕ ССЫЛОК выражения не ставим, сразу идем в СБОР ДАННЫХ и там задаем необходимые поля для парсинга.
К сожалению данный метод собирает много лишнего: вот первые 100 собранных ссылок
Код:
Ссылка
http://sob.ru/card/1-1000563899
http://sob.ru/card/1-1000843947
http://sob.ru/card/1-1000969708
http://sob.ru/card/1-1001150802
http://sob.ru/card/1-1001173693
http://sob.ru/prodazha-kvartir/4-komn
http://sob.ru/card/1-1001237998
http://sob.ru/card/1-1001178139
http://sob.ru/prodazha-kvartir?&only_favourites=request
http://sob.ru/card/1-1001277010
http://sob.ru/card/1-1001258671
http://sob.ru/card/1-1001317824
http://sob.ru/card/1-1001329196
http://sob.ru/card/1-1001356820
http://sob.ru/card/1-1001327250
http://sob.ru/card/1-1001372006
http://sob.ru/card/1-1001338888
http://sob.ru/card/1-1001377259
http://sob.ru/card/1-1001415131
http://sob.ru/card/1-1001420673
http://sob.ru/card/1-1001384040
http://sob.ru/card/1-1001433820
http://sob.ru/card/1-1001423831
http://sob.ru/card/1-1001438026
http://sob.ru/card/1-1001427256
http://sob.ru/card/1-1001445152
http://sob.ru/card/1-1001448222
http://sob.ru/card/1-1001448001
http://sob.ru/card/1-1001458428
http://sob.ru/card/1-1001455551
http://sob.ru/card/1-1001442372
http://sob.ru/card/1-1001458521
http://sob.ru/card/1-1001458525
http://sob.ru/card/1-1001458028
http://sob.ru/card/1-1001458538
http://sob.ru/card/1-1001458534
http://sob.ru/card/1-1001458549
http://sob.ru/card/1-1001458544
http://sob.ru/card/1-1001464950
http://sob.ru/card/1-1001461065
http://sob.ru/prodazha/kvartiry/moskovskaya-oblast/balashiha-gor-okrug
http://sob.ru/card/1-1001467897
http://sob.ru/prodazha/kvartiry/moskovskaya-oblast/balashiha-gor-okrug/balashiha-g
http://sob.ru/prodazha/kvartiry/moskovskaya-oblast/jeleznodorojnyiy-gor-okrug/jeleznodorojnyiy-g
http://sob.ru/prodazha/kvartiry/moskovskaya-oblast/himki-gor-okrug/himki-g
http://sob.ru/prodazha/kvartiry/moskovskaya-oblast/krasnogorskiy-r-n
http://sob.ru/card/1-1001461209
http://sob.ru/prodazha/kvartiry/moskovskaya-oblast/krasnogorskiy-r-n/krasnogorsk-g
http://sob.ru/prodazha/kvartiry/moskovskaya-oblast/novostroyka/himki-gor-okrug/himki-g
http://sob.ru/prodazha/kvartiry/moskovskaya-oblast/myitischinskiy-r-n/myitischi-g
http://sob.ru/prodazha/kvartiry/moskovskaya-oblast/novostroyka/balashiha-gor-okrug/balashiha-g
http://sob.ru/prodazha/kvartiry/moskovskaya-oblast/novostroyka/krasnogorskiy-r-n/krasnogorsk-g
http://sob.ru/prodazha/kvartiry/moskovskaya-oblast/odintsovskiy-r-n
http://sob.ru/prodazha/kvartiry/moskovskaya-oblast/novostroyka/odintsovskiy-r-n/odintsovo-g
http://sob.ru/prodazha/kvartiry/moskovskaya-oblast/podolskiy-r-n
http://sob.ru/prodazha/kvartiry/moskovskaya-oblast/odintsovskiy-r-n/odintsovo-g
http://sob.ru/prodazha-kvartir/hamovniki-rayon
http://sob.ru/prodazha-kvartir/kuntsevo-rayon
http://sob.ru/prodazha-kvartir/novostroyka/hamovniki-rayon
http://sob.ru/prodazha-kvartir/novostroyka/tverskoy-rayon
http://sob.ru/prodazha-kvartir/troparevo-nikulino-rayon
http://sob.ru/prodazha-kvartir/tsao
http://sob.ru/prodazha-kvartir/novostroyka/troparevo-nikulino-rayon
http://sob.ru/prodazha-kvartir/vao
http://sob.ru/prodazha-kvartir/yuzao
http://sob.ru/prodazha-kvartir/zao
http://sob.ru/card/%7B%7B
http://sob.ru/prodazha-kvartir?p=%7B1,4000%7D&p=%25page
http://sob.ru/about
http://sob.ru/ads
http://sob.ru/prodazha-kvartir/tverskoy-rayon
http://sob.ru/arenda/komnaty/moskovskaya-oblast
http://sob.ru/arenda/komnaty/moskva
http://sob.ru/arenda/kvartiry/moskovskaya-oblast
http://sob.ru/arenda/zagorod/moskovskaya-oblast/doma?filter=3ja3333KLm3Oyrjjjjjjjjjjjjjjjjjjjljjjjjjj
http://sob.ru/prodazha-kvartir/novostroyka/nagatino-sadovniki-rayon
http://sob.ru/arenda/zagorod/moskovskaya-oblast/dachi
http://sob.ru/arenda/zagorod/moskovskaya-oblast/kottedzhi
http://sob.ru/arenda/kvartiry/moskva
http://sob.ru/novostroyki
http://sob.ru/arenda/zagorod/moskovskaya-oblast/v-kottedzhnom-poselke
http://sob.ru/arenda/zagorod/moskovskaya-oblast/taunkhausy
http://sob.ru/info
http://sob.ru/nashi-klienty?utm_source=frombaza
http://sob.ru/kontaktnaya-informatsiya?utm_source=frombaza
http://sob.ru/oferta?utm_source=frombaza
http://sob.ru/opyt
http://sob.ru/prodazha/komnaty/moskovskaya-oblast
http://sob.ru/faquestions
http://sob.ru/prodazha/kvartiry/moskovskaya-oblast/novostroyka
http://sob.ru/mag
http://sob.ru/prodazha/kvartiry/moskovskaya-oblast
http://sob.ru/prodazha/zagorod/moskovskaya-oblast/uchastki
http://sob.ru/prodazha/zagorod/moskovskaya-oblast
http://sob.ru/prodazha-komnat
http://sob.ru/prodazha-kvartir
http://sob.ru/prodazha-kvartir/novostroyka
http://sob.ru/prodazha/zagorod/moskovskaya-oblast/v-kottedzhnom-poselke
http://sob.ru/prodazha/zagorod/moskovskaya-oblast/taunkhausy
либо я что-то неверно настроил
 
Надо добавить исключения, те страницы которые мусорные.
 
Друзья у кого-то был опыт парсинга видео (код плеера) из vk?
 
Уважаемые, может ктото прислать скрин настройки для парсинга картинок, именно скачки их в папку на комп, насколько понимаю такая функция есть у датакол, но вот парсинг с алиэкспресс не могу никак настроить чтобы скачивал
 
Назад
Сверху