dazed
Гуру форума
- Регистрация
- 31 Мар 2007
- Сообщения
- 208
- Реакции
- 54
Мои наблюдения по поводу парсинга, если же делать для небольшого количества порталов можно использовать и DOM подходы. НО если планируется парсить много разных сайтов, лучше сразу писать на регулярках (preg_match), т.к. насмотрелся как люди пишут HTML и очень сомневаюсь, что эти либы правильно будут работать. Для удобства, сделал админку, где можно создавать человеко понятные шаблоны с некоторыми спец символами, если тяжелый случай.
К примеру такого плана:
Но часто приходится прибегать к более сложным вариантам когда явной зацепки нету, приходится брать по две-три зацепки:
Регулярные выражения в таком виде и понятнее и надежнее. Правда тоже нужно знать нюансы, но это все на практике вырабатывается.
К примеру такого плана:
Код:
<h1{*}>^</h1>
Код:
<p class="imp">{*}</p>{|}^<img{*}Znuasmall{*}>
Регулярные выражения в таком виде и понятнее и надежнее. Правда тоже нужно знать нюансы, но это все на практике вырабатывается.