- Автор темы
- #1
Граббинг сайтов со статичными html
вот этот код чудесно парсит пхп а вот ка сайты на питоне грабануть??
кто нить сталкивался??
урлы типа
site.ru?pid=12
потом пид уходит и остаються ток
site.ru/index/
site.ru/index/1/
site.ru/text/... и т.п.
:bc:
вот этот код чудесно парсит пхп а вот ка сайты на питоне грабануть??
кто нить сталкивался??
урлы типа
site.ru?pid=12
потом пид уходит и остаються ток
site.ru/index/
site.ru/index/1/
site.ru/text/... и т.п.
:bc:
PHP:
$handle = fopen('http://site.ru/index.php?act=' . $act . '&CODE=' . $CODE . '&f=' . $f . '&t=' . $t . '&view=' . $view . '&showuser=' . $showuser, 'r');
while (!feof($handle))
{
$html .= fread($handle, 4096);
}
$begin = '<html>';
$end = '</html>';
$beginloc = strpos($html, $begin) + strlen($begin);
$endloc = strpos($html, $end);
$html = substr($html, $beginloc, $endloc - $beginloc);
$html=str_replace("http://site.ru/", "http://site2.com/", $html);
echo $html;
echo "</html>";