Парсинг на Питоне с имитацией действий пользователя

Insendio

Писатель
Регистрация
21 Апр 2018
Сообщения
8
Реакции
6
Попробуйте про анализировать запросы с помощью HTTP Analyzer, посмотреть какие POST / GET запросы отправляются, с помощь request, а парсить можно с помощью регулярных выражении(regex), если там json то парсит даже особо и не придётся питон с этим спокойно справляется.
 

andrei_k

Гуру форума
Регистрация
17 Янв 2010
Сообщения
266
Реакции
59

asd777

Создатель
Регистрация
14 Ноя 2015
Сообщения
1
Реакции
0
попробуй юзать random-agent
 

Windik

Писатель
Регистрация
24 Май 2018
Сообщения
2
Реакции
1
Я использую Python + Selenuim.
Связка как раз для тестирования веб-приложений\сайтов и выполнения на них действий имитирующих поведение обычного юзера.
В кратце это просто движок для удаленного управления браузером так сказать.
На машине открывается браузер и выполняет то что вы написали в .py скрипте.
Соответственно JS & другое полнофункционально так как вы используете реальный браузер.
При этом вы конечно же можете получить любые данные со страницы хоть по классу, хоть по css-selector'у.
Для просмотра ссылки Войди или Зарегистрируйся

Спасибо, Acider! Благодаря Вашему совету решил подобную задачу. Selenium оказался именно тем решением, что я искал ;-)
 

x5d6

Писатель
Регистрация
16 Янв 2014
Сообщения
9
Реакции
0
Спасибо, Acider! Благодаря Вашему совету решил подобную задачу. Selenium оказался именно тем решением, что я искал ;-)
Для заметки, есть не пайтоновское решение - BrowserAutomationStudio.
 

DEAD BEEF

Писатель
Регистрация
20 Окт 2016
Сообщения
1
Реакции
0
Когда Selenium станет мало, или он станет палиться сервером.

Может быть полезен Puppeteer АКА "Кукловод" ) Как я понял, он довольно нативно инжектится в страницу, с помощью chrome devtools протокола. Есть API для Python.

Puppeteer is a Node library which provides a high-level API to control Chrome or Chromium over the Для просмотра ссылки Войди или Зарегистрируйся. Puppeteer runs Для просмотра ссылки Войди или Зарегистрируйся by default, but can be configured to run full (non-headless) Chrome or Chromium.

Для просмотра ссылки Войди или Зарегистрируйся
 

man_from_nowhere

Создатель
Регистрация
20 Ноя 2007
Сообщения
18
Реакции
1
1) Selenium, Puppeteer - оба легко палятся целевыми сайтами (через navigator.webdriver и прочие артефакты). Не дают нормально имитировать движения мышью (т.е. на уровне OS)

2) Browser Automation Studio - довольно странная штука, лично мне не понравилось. Какой-то стремный визуальный полуязык программирования. Возможно, просто ориентировано всё на тех кто не шарит в программировании

3) Sikuli и подобные ему - 100% браузер, эмуляция движений мышью и нажатий клавиш на уровне OS. Идеальное решение для того чтобы имитировать живого человека, но за все приходится платить - он тормозной, да и программировать на нем не очень удобно
 

drema1971

Писатель
Регистрация
17 Окт 2017
Сообщения
3
Реакции
0
lxml,requests на запросах самый топ. На край можно юзать selenium если нужно прям браузерно. Если сайт сильно палит, что юзаете его, используйте мобильные прокси + selenium_stealth утилиту или undetected_chromedriver(в последнее время обнаруживается)
 

akkela

Постоялец
Регистрация
17 Дек 2014
Сообщения
47
Реакции
9
Все привет.
У кого-то есть готовые скрипты для парсинга Авито + Телефон?
Готов купить (до 3к).

[Ищу] Парсер + Авито + Телефон
А какой функционал необходим? Иногда использую следующий скрипт для парсинга -
Скрытое содержимое доступно для зарегистрированных пользователей!
 
Сверху