В чём лучше написать парсер?

jcstick

Писатель
Регистрация
20 Янв 2017
Сообщения
1
Реакции
0
Я использую для парсинга xpath
в гугл хром есть... Под линукс у меня есть скрипты готовые

Вот пример парсинга
Установить libxml и проверить путь к программе.
rs=$(wget -q -O - Для просмотра ссылки Войди или Зарегистрируйся)
buyUSD1=$(echo -e "$rs" | xmllint --html --xpath '//*[@id="right-column"]/div[4]/div[2]/table[1]/tbody/tr[1]/td[2]/text()' - 2>/dev/null)
saleUSD1=$(echo -e "$rs" | xmllint --html --xpath '//*[@id="right-column"]/div[4]/div[2]/table[1]/tbody/tr[1]/td[3]/text()' - 2>/dev/null)

buyEUR1=$(echo -e "$rs" | xmllint --html --xpath '//*[@id="right-column"]/div[4]/div[2]/table[1]/tbody/tr[3]/td[2]/text()' - 2>/dev/null)
saleEUR1=$(echo -e "$rs" | xmllint --html --xpath '//*[@id="right-column"]/div[4]/div[2]/table[1]/tbody/tr[3]/td[3]/text()' - 2>/dev/null)

echo buyUSD1
echo saleUSD1

echo buyEUR1
echo saleEUR1
 

Technik2018

Создатель
Регистрация
12 Янв 2018
Сообщения
30
Реакции
41
За селениум вебдрайвер уже написали, но есть и отдельная библиотека для вытаскивания данных на java

Если делать на джаве, так делать приложение и с интерфейсом и функционалом, который покроет множество ситуация для парсинга с минимумом правок

Тот де питон или php быстрее для конкретных случаев парсинга
 

Ivan1212

Писатель
Регистрация
28 Янв 2018
Сообщения
1
Реакции
0
Я бы на C# написал, довольно простой язык и визуальная среда, если сравнивать с делфи.
 

amsirion

Создатель
Регистрация
4 Янв 2014
Сообщения
10
Реакции
1
Парсер на Python конечно. IDE -- pycharm. Куча готовых библиотек для этого уже есть. Самая мощная это scrapy
 

BigJeff

Постоялец
Регистрация
25 Мар 2013
Сообщения
57
Реакции
9
Я бы на C# написал, довольно простой язык и визуальная среда, если сравнивать с делфи.
Полностью поддерживаю, а потом всё это дело через зенку и будет то что доктор прописал.
 

sparsame

Постоялец
Регистрация
20 Авг 2011
Сообщения
100
Реакции
13
С# через nuget содержит огромное кол-во готовых библиотек для парсинга
 

orka13

Писатель
Регистрация
11 Май 2015
Сообщения
7
Реакции
2
Я использую для парсинга xpath
в гугл хром есть... Под линукс у меня есть скрипты готовые

Вот пример парсинга
Установить libxml и проверить путь к программе.
rs=$(wget -q -O - Для просмотра ссылки Войди или Зарегистрируйся)
buyUSD1=$(echo -e "$rs" | xmllint --html --xpath '//*[@id="right-column"]/div[4]/div[2]/table[1]/tbody/tr[1]/td[2]/text()' - 2>/dev/null)
saleUSD1=$(echo -e "$rs" | xmllint --html --xpath '//*[@id="right-column"]/div[4]/div[2]/table[1]/tbody/tr[1]/td[3]/text()' - 2>/dev/null)

buyEUR1=$(echo -e "$rs" | xmllint --html --xpath '//*[@id="right-column"]/div[4]/div[2]/table[1]/tbody/tr[3]/td[2]/text()' - 2>/dev/null)
saleEUR1=$(echo -e "$rs" | xmllint --html --xpath '//*[@id="right-column"]/div[4]/div[2]/table[1]/tbody/tr[3]/td[3]/text()' - 2>/dev/null)

echo buyUSD1
echo saleUSD1

echo buyEUR1
echo saleEUR1
Я паршу через ZennoPoster + XPath (HTMLAgilityPack C#-библиотека). В трудных случаях еще xNet библиотеку подключаю под сложные запросы.
 
Сверху