В чём лучше написать парсер?

shadowgm

Писатель
Регистрация
28 Мар 2014
Сообщения
4
Реакции
0
Смотря что парсить, а так конечно обеими руками за Python 3.x + SublimeText как среда разработки
 

VladimirPutin

Создатель
Регистрация
19 Мар 2017
Сообщения
19
Реакции
2
Python создан практически для этого
 

RORC

Постоялец
Команда форума
Модератор
Регистрация
14 Июн 2013
Сообщения
380
Реакции
154
Схема выбора, чем парсить

а) Готовый инструмент -> если есть готовое, проще спарсить и доразобрать на месте.
б) Сайт без защиты, парсинг без особых требований -> что знаем, тем и пользуемся, лучше с готовыми библиотеками.
в) Сайт с защитой от парсера -> Берем языки программирования где есть возможность управления браузером.

От выбора языка мало что зависит, разве что поддерживаемая версия браузера или библиотеки, для всех популярных языков решения есть.

На текущий момент, практически стандарт - это браузер chrome и его варианты запуска, cef, headless, selenium.
 

strannik_nuendo

Создатель
Регистрация
21 Мар 2016
Сообщения
32
Реакции
5
Из моего опыта: есть еще такая технология как XSLT. Не используйте ее!
Приходилось использовать XSLT на работе, и ради интереса написал пару парсеров на нем. Простые парсеры на xslt пишутся молниеносно, но чуть шаг влево - шаг вправо, начинается вынос мозга. Создание и отладка парсера занимает в разы больше времени чем PHP с библиотеками. А после изучения Питона вопрос оптимального языка для парсеров отпал сам собой из-за очевидности.
Добавлю только, что если знаете PHP, изучать Питон только ради парсера нет смысла.
Simple HTML DOM Parser для PHP очень прост, изучается за 10-15 минут и в большинстве случаев его достаточно.
 
Последнее редактирование:

Daniella

Не подарок, сюрпрайз)
Регистрация
1 Июн 2009
Сообщения
315
Реакции
308
Уважаемые! Все уже поняли по поводу Python
есть что сказать- пожалуйста, прекращайте просто повторяться
 

l0cky

Профессор
Регистрация
3 Май 2006
Сообщения
148
Реакции
49
То, что я видел под PHP, довольно медленно работает, но оправданно для специфических задач.
Для парсинга с локалки шустро работают решения на Delphy c использованием регулярок или JS опять же с регулярками.
 

Alexandrix

Писатель
Регистрация
19 Сен 2016
Сообщения
7
Реакции
0
Тот же PHP + обёртка его в бинарник нужной системы, соответствующие инстурменты есть. ИМХО парсить что-то на PHP самое то
 

dumnVuln

Писатель
Регистрация
21 Апр 2017
Сообщения
1
Реакции
0
любой скриптовый язык, поддерживающий сетевое взаимодействие.
питон\руби\другое
Если писать с нуля, то конечно проще всего использовать Питон. Однако у него есть и свои косяки.

ЗЫ главное ничего компилируемого, ибо вам часто придётся делать изменения в коде, а время на компиляцию в какой-то момент начнёт занимать намного больше времени, чем обновление кода.
+компилятор жрёт ресурсы(в том числе и среда разработки). А тот же питон можно писать хоть из блокнота (советую sublime).
 

GermanAizek

Писатель
Регистрация
21 Мар 2019
Сообщения
4
Реакции
0
  • Заблокирован
  • #39
edit
 
Последнее редактирование:

Senor_Vlad

Писатель
Регистрация
7 Май 2019
Сообщения
7
Реакции
1
Зная синтаксис регулярных выражений не составит труда написать парсер на любом языке, впринципе зная алгоритм работы парсера можно обойтись даже без регулярок.
 
Сверху