Парсер HTML через API.

Интересен ли тебе платный сервис для парсинга HTML?

  • Да

    Голосов: 1 50,0%
  • Нет

    Голосов: 1 50,0%

  • Всего проголосовало
    2

Sorcus

Sorcus. A New Beginning.
Регистрация
10 Июл 2011
Сообщения
513
Реакции
1.002
Сабж. Интересен ли платный сервис для парсинга HTML?
Как это выглядит:
1. Загружаешь HTML документ на сервер и получаешь ID документа.
Код:
curl --data '{"action":"upload","args":{"html":"<!DOCTYPE html><html><head>..."}}' https://api.example.com/
2. Используя ID документа делаешь выборку контента (аттрибутов, HTML содержимого и т.д.) по селектору и получаешь результат.
Код:
curl --data '{"action":"get.content","args":{"hash":"A1B2C3","selector":"head > title"}}' https://api.example.com/
Результат возвращается в виде JSON-а.
Скриншот: screenshot-2019-09-17_13-10-31.png
 
Последнее редактирование:
Если такой парсер будет уметь парсить не с загруженых ему html, а сам доставать странички получив URL/пачкуURL, И выдавать это в csv, тогда такой инструмент может пригодиться, несомненно будет плюсом умение такого сервиса обходить капчу.
 
Если такой парсер будет уметь парсить не с загруженых ему html, а сам доставать странички получив URL/пачкуURL, И выдавать это в csv, тогда такой инструмент может пригодиться, несомненно будет плюсом умение такого сервиса обходить капчу.
Парсить по URL затея не очень.
IP-шник легко может в бан улететь, а нормальные прокси денег стоят.
Про капчу не совсем понял. Причём тут она? Или ты про защиту от Cloudflare, когда на сайт без капчи не пускает?
 
Парсить по URL затея не очень.
Пример: мне нужно спарсить цены конкурента 100 страниц, ты предлагаешь сначала выгрузить себе эти странички, а потом загрузить в твой сервис? Конечно никто не будет этого делать, потому на тебе денег и 100 урлов, а ты мне давай, тайтл, описание, и цену на товар.

IP-шник легко может в бан улететь, а нормальные прокси денег стоят.
Ну так ты ж денег просишь за выгрузку нужной мне информации, как тут без расходов, без проксей не обойтись. К тому же сколько ж они там стоят, можно и для начала 20-30 взять, пока наберется больше клиентов. Ну кончено, для парсинга всяких там авито, хотлайнов и т.п. этого не хватит, а для парсинга магов небольших - достаточно. К тому же парсят не одни и те же сайты.
А для авит и хотлайнов есть специализированные сервисы.
Про капчу не совсем понял. Причём тут она? Или ты про защиту от Cloudflare, когда на сайт без капчи не пускает?
По сути да, для обхода CDN cloudflare в том числе, ну и подобных защит.
 
Назад
Сверху