В чём лучше написать парсер?

jcstick · 9 Янв 2018

Я использую для парсинга xpath
в гугл хром есть... Под линукс у меня есть скрипты готовые

Вот пример парсинга
Установить libxml и проверить путь к программе.
rs=$(wget -q -O - Для просмотра ссылки Войди или Зарегистрируйся)
buyUSD1=$(echo -e "$rs" | xmllint --html --xpath '//*[@id="right-column"]/div[4]/div[2]/table[1]/tbody/tr[1]/td[2]/text()' - 2>/dev/null)
saleUSD1=$(echo -e "$rs" | xmllint --html --xpath '//*[@id="right-column"]/div[4]/div[2]/table[1]/tbody/tr[1]/td[3]/text()' - 2>/dev/null)

buyEUR1=$(echo -e "$rs" | xmllint --html --xpath '//*[@id="right-column"]/div[4]/div[2]/table[1]/tbody/tr[3]/td[2]/text()' - 2>/dev/null)
saleEUR1=$(echo -e "$rs" | xmllint --html --xpath '//*[@id="right-column"]/div[4]/div[2]/table[1]/tbody/tr[3]/td[3]/text()' - 2>/dev/null)

echo buyUSD1
echo saleUSD1

echo buyEUR1
echo saleEUR1

Technik2018 · 15 Янв 2018

За селениум вебдрайвер уже написали, но есть и отдельная библиотека для вытаскивания данных на java

Если делать на джаве, так делать приложение и с интерфейсом и функционалом, который покроет множество ситуация для парсинга с минимумом правок

Тот де питон или php быстрее для конкретных случаев парсинга

Ivan1212 · 29 Янв 2018

Я бы на C# написал, довольно простой язык и визуальная среда, если сравнивать с делфи.

amsirion · 20 Фев 2018

Парсер на Python конечно. IDE -- pycharm. Куча готовых библиотек для этого уже есть. Самая мощная это scrapy

BigJeff · 20 Фев 2018

Ivan1212 написал(а):
Я бы на C# написал, довольно простой язык и визуальная среда, если сравнивать с делфи.

Полностью поддерживаю, а потом всё это дело через зенку и будет то что доктор прописал.

amsirion · 20 Фев 2018

BigJeff написал(а):
Полностью поддерживаю, а потом всё это дело через зенку и будет то что доктор прописал.

С# это же для колхозников виндовых))

BigJeff · 25 Фев 2018

amsirion написал(а):
С# это же для колхозников виндовых))

Не стоит недооценивать С#

sparsame · 2 Мар 2018

С# через nuget содержит огромное кол-во готовых библиотек для парсинга

orka13 · 2 Мар 2018

jcstick написал(а):
Я использую для парсинга xpath
в гугл хром есть... Под линукс у меня есть скрипты готовые

Вот пример парсинга
Установить libxml и проверить путь к программе.
rs=$(wget -q -O - Для просмотра ссылки Войди или Зарегистрируйся)
buyUSD1=$(echo -e "$rs" | xmllint --html --xpath '//*[@id="right-column"]/div[4]/div[2]/table[1]/tbody/tr[1]/td[2]/text()' - 2>/dev/null)
saleUSD1=$(echo -e "$rs" | xmllint --html --xpath '//*[@id="right-column"]/div[4]/div[2]/table[1]/tbody/tr[1]/td[3]/text()' - 2>/dev/null)

buyEUR1=$(echo -e "$rs" | xmllint --html --xpath '//*[@id="right-column"]/div[4]/div[2]/table[1]/tbody/tr[3]/td[2]/text()' - 2>/dev/null)
saleEUR1=$(echo -e "$rs" | xmllint --html --xpath '//*[@id="right-column"]/div[4]/div[2]/table[1]/tbody/tr[3]/td[3]/text()' - 2>/dev/null)

echo buyUSD1
echo saleUSD1

echo buyEUR1
echo saleEUR1

Я паршу через ZennoPoster + XPath (HTMLAgilityPack C#-библиотека). В трудных случаях еще xNet библиотеку подключаю под сложные запросы.

Defqwe · 20 Мар 2018

php+curl+PHP Simple HTML DOM Parser Для просмотра ссылки Войди или Зарегистрируйся

В чём лучше написать парсер?

jcstick

Писатель

Technik2018

Создатель

Ivan1212

Писатель

amsirion

Создатель

BigJeff

Постоялец

amsirion

Создатель

BigJeff

Постоялец

sparsame

Постоялец

orka13

Писатель

Defqwe

Писатель