В чём лучше написать парсер?

Я использую для парсинга xpath
в гугл хром есть... Под линукс у меня есть скрипты готовые

Вот пример парсинга
Установить libxml и проверить путь к программе.
rs=$(wget -q -O - Для просмотра ссылки Войди или Зарегистрируйся)
buyUSD1=$(echo -e "$rs" | xmllint --html --xpath '//*[@id="right-column"]/div[4]/div[2]/table[1]/tbody/tr[1]/td[2]/text()' - 2>/dev/null)
saleUSD1=$(echo -e "$rs" | xmllint --html --xpath '//*[@id="right-column"]/div[4]/div[2]/table[1]/tbody/tr[1]/td[3]/text()' - 2>/dev/null)

buyEUR1=$(echo -e "$rs" | xmllint --html --xpath '//*[@id="right-column"]/div[4]/div[2]/table[1]/tbody/tr[3]/td[2]/text()' - 2>/dev/null)
saleEUR1=$(echo -e "$rs" | xmllint --html --xpath '//*[@id="right-column"]/div[4]/div[2]/table[1]/tbody/tr[3]/td[3]/text()' - 2>/dev/null)

echo buyUSD1
echo saleUSD1

echo buyEUR1
echo saleEUR1
 
За селениум вебдрайвер уже написали, но есть и отдельная библиотека для вытаскивания данных на java

Если делать на джаве, так делать приложение и с интерфейсом и функционалом, который покроет множество ситуация для парсинга с минимумом правок

Тот де питон или php быстрее для конкретных случаев парсинга
 
Я бы на C# написал, довольно простой язык и визуальная среда, если сравнивать с делфи.
 
Парсер на Python конечно. IDE -- pycharm. Куча готовых библиотек для этого уже есть. Самая мощная это scrapy
 
Я бы на C# написал, довольно простой язык и визуальная среда, если сравнивать с делфи.
Полностью поддерживаю, а потом всё это дело через зенку и будет то что доктор прописал.
 
С# через nuget содержит огромное кол-во готовых библиотек для парсинга
 
Я использую для парсинга xpath
в гугл хром есть... Под линукс у меня есть скрипты готовые

Вот пример парсинга
Установить libxml и проверить путь к программе.
rs=$(wget -q -O - Для просмотра ссылки Войди или Зарегистрируйся)
buyUSD1=$(echo -e "$rs" | xmllint --html --xpath '//*[@id="right-column"]/div[4]/div[2]/table[1]/tbody/tr[1]/td[2]/text()' - 2>/dev/null)
saleUSD1=$(echo -e "$rs" | xmllint --html --xpath '//*[@id="right-column"]/div[4]/div[2]/table[1]/tbody/tr[1]/td[3]/text()' - 2>/dev/null)

buyEUR1=$(echo -e "$rs" | xmllint --html --xpath '//*[@id="right-column"]/div[4]/div[2]/table[1]/tbody/tr[3]/td[2]/text()' - 2>/dev/null)
saleEUR1=$(echo -e "$rs" | xmllint --html --xpath '//*[@id="right-column"]/div[4]/div[2]/table[1]/tbody/tr[3]/td[3]/text()' - 2>/dev/null)

echo buyUSD1
echo saleUSD1

echo buyEUR1
echo saleEUR1
Я паршу через ZennoPoster + XPath (HTMLAgilityPack C#-библиотека). В трудных случаях еще xNet библиотеку подключаю под сложные запросы.
 
Назад
Сверху