- Автор темы
- #1
Только начал учить питон и решил попробовать написать парсер сайта с использованием BeautifulSoup
Застрял на нескольких моментах и никак не могу понять как сделать
Пытаюсь спарсить хлебные крошки
результат:
все отлично, они берутся, но как получить не полностью тег a, а только текст?
в такой конструкции работает
дописываю также к хлебным крошкам
выдает ошибку: builtins.AttributeError: 'list' object has no attribute 'text'
И второй момент, как не брать определенные теги
Допустим нужно описание
Но внутри decription есть много лишнего (img, form, table), как от них избавится?
Спасибо!
Застрял на нескольких моментах и никак не могу понять как сделать
Пытаюсь спарсить хлебные крошки
Код:
data['path'] = viewPage.select("#path > a")
Код:
path': [<a href="./">Главная</a>, <a href="catalog/">Каталог</a>, <a href="catalog/category">Категория</a>, <a href="catalog/subcategory/">Подкатегория</a>]
в такой конструкции работает
Код:
data['name'] = viewPage.find('h1').text
Код:
data['path'] = viewPage.select("#path > a").text
И второй момент, как не брать определенные теги
Допустим нужно описание
Код:
data['desc'] = viewPage.select("#description")
Спасибо!