честно не совсем понимаю о какой разнице в скорости говорится.
да, формально на простейших обработках регулярки быстрее.
но насколько?!
раза в два, а то и меньше, что в пересчете на парсинг 100к документов составляет пару часов.
мягко говоря экономия на спичках, потому что время скачивания 100к документов через прокси будет гораздо выше(не менее 24 часов, в зависимости от ресурса и качества проксь.это в идеале).
не вижу разницы, подождать 26 или 28 часов.
смысл этой экономии может быть только если вы "на лету" воруете чужой контент, и вам надо быстро выдать контент своему пользователю
я уже написал немало парсеров и граберов, и пришел к выводу, что DOM в этой ситуации гораздо удобнее в разработе и гибче в случае незначительных изменений сайта, чем регулярки. иногда и их приходится пользовать, потому что иногда разный по смыслу контент может торчать в одном теге.был один такой неудобный для анализа сайт
на сим считаю завершить холивар этот.
я показал альтернативу регуляркам, и расписал плюсы.
дальше каждый сам для себя пускай решает.
не думаю, что вы начнете писать парсеры на DOM-е из-за моих доводов, как и я не перейду для парсинга HTML-а на регулярки