Парсинг на Питоне с имитацией действий пользователя

FidaSa

Постоялец
Регистрация
1 Мар 2013
Сообщения
511
Реакции
145
Привет, не подскажите на Питоне можно парсить вэбсайты (сделать паука) с имитация действий пользователя в браузере.

Допустим пропарсить сайт, периодически нажимать кнопки в браузере надо, вызывать события JS, вводить данные в поля форм , то есть имитировать работу юзера в браузере.

При помощи Питона или каких либо его либ или модулей можно такую работу организовать или нет ?
 
Имитация действий - это не парсинг. Парсинг - это выкачивание контента и извлечение нужных данных (scrapping); это pithon может делать хорошо. Но pithon не будет выполнять клиентский js.
Может быть (в зависимости от конкретной задачи) проще это решить разработкой расширения для браузера.
 
Я использую Python + Selenuim.
Связка как раз для тестирования веб-приложений\сайтов и выполнения на них действий имитирующих поведение обычного юзера.
В кратце это просто движок для удаленного управления браузером так сказать.
На машине открывается браузер и выполняет то что вы написали в .py скрипте.
Соответственно JS & другое полнофункционально так как вы используете реальный браузер.
При этом вы конечно же можете получить любые данные со страницы хоть по классу, хоть по css-selector'у.
Для просмотра ссылки Войди или Зарегистрируйся
 
Имитация действий - это не парсинг. Парсинг - это выкачивание контента и извлечение нужных данных (scrapping); это pithon может делать хорошо. Но pithon не будет выполнять клиентский js.
Может быть (в зависимости от конкретной задачи) проще это решить разработкой расширения для браузера.
Я как бя написала, что парсить С ИМИТАЦИЕЙ! тоесть и то и другое, так как мне по сути надо парсить результат, того что получилось после иммитации!
 
Я как бя написала, что парсить С ИМИТАЦИЕЙ! тоесть и то и другое, так как мне по сути надо парсить результат, того что получилось после иммитации!
Ну сказали же, что Python и Selenium для этого подходят. Сам, кстати, таким образом делал выкачиватель ссылок на фото из вк по ссылке на альбом (тогда в апи этого ещё не было). Полезная вещь.

К слову, драйвер использовал PhantomJS.
 
Ну сказали же, что Python и Selenium для этого подходят. Сам, кстати, таким образом делал выкачиватель ссылок на фото из вк по ссылке на альбом (тогда в апи этого ещё не было). Полезная вещь.

К слову, драйвер использовал PhantomJS.
Я поняла, питон уже смотрела, по селениуму на ютюбе смотрела но чета не поняла, там на английском много.
Есть может тренинг на русском по селениуму + питону, как парсить в связке ?
 
Я поняла, питон уже смотрела, по селениуму на ютюбе смотрела но чета не поняла, там на английском много.
Есть может тренинг на русском по селениуму + питону, как парсить в связке ?
В программировании, к сожалению, без английского никак. Единственное, что порекомендую, раз с английским плохо - почитать документацию (Для просмотра ссылки Войди или Зарегистрируйся), используя гугл-переводчик.
Знания Python тоже необходимы.

А вообще - прогуглите "parsing web pages using python and selenium" - я лично так и делал.
 
Назад
Сверху