В чём лучше написать парсер?

Смотря что парсить, а так конечно обеими руками за Python 3.x + SublimeText как среда разработки
 
Python создан практически для этого
 
Схема выбора, чем парсить

а) Готовый инструмент -> если есть готовое, проще спарсить и доразобрать на месте.
б) Сайт без защиты, парсинг без особых требований -> что знаем, тем и пользуемся, лучше с готовыми библиотеками.
в) Сайт с защитой от парсера -> Берем языки программирования где есть возможность управления браузером.

От выбора языка мало что зависит, разве что поддерживаемая версия браузера или библиотеки, для всех популярных языков решения есть.

На текущий момент, практически стандарт - это браузер chrome и его варианты запуска, cef, headless, selenium.
 
Из моего опыта: есть еще такая технология как XSLT. Не используйте ее!
Приходилось использовать XSLT на работе, и ради интереса написал пару парсеров на нем. Простые парсеры на xslt пишутся молниеносно, но чуть шаг влево - шаг вправо, начинается вынос мозга. Создание и отладка парсера занимает в разы больше времени чем PHP с библиотеками. А после изучения Питона вопрос оптимального языка для парсеров отпал сам собой из-за очевидности.
Добавлю только, что если знаете PHP, изучать Питон только ради парсера нет смысла.
Simple HTML DOM Parser для PHP очень прост, изучается за 10-15 минут и в большинстве случаев его достаточно.
 
Последнее редактирование:
Уважаемые! Все уже поняли по поводу Python
есть что сказать- пожалуйста, прекращайте просто повторяться
 
То, что я видел под PHP, довольно медленно работает, но оправданно для специфических задач.
Для парсинга с локалки шустро работают решения на Delphy c использованием регулярок или JS опять же с регулярками.
 
Тот же PHP + обёртка его в бинарник нужной системы, соответствующие инстурменты есть. ИМХО парсить что-то на PHP самое то
 
любой скриптовый язык, поддерживающий сетевое взаимодействие.
питон\руби\другое
Если писать с нуля, то конечно проще всего использовать Питон. Однако у него есть и свои косяки.

ЗЫ главное ничего компилируемого, ибо вам часто придётся делать изменения в коде, а время на компиляцию в какой-то момент начнёт занимать намного больше времени, чем обновление кода.
+компилятор жрёт ресурсы(в том числе и среда разработки). А тот же питон можно писать хоть из блокнота (советую sublime).
 
  • Заблокирован
  • #39
edit
 
Последнее редактирование:
Зная синтаксис регулярных выражений не составит труда написать парсер на любом языке, впринципе зная алгоритм работы парсера можно обойтись даже без регулярок.
 
Назад
Сверху