分类:python 日期:2020-12-05 作者:admin 浏览:72
pip install lxml #安装lxml
pip install bs4 #安装BeautifulSoup
示例
from lxml import etree
htmlObj = etree.HTML(html)
val = htmlObj.xpath(r'//*[@id="wmd-preview"]/pre[2]/code')
第一步
# 首先熬制一锅汤
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, '解析器')
解析器包括:
html.parser
;lxml(推荐)
;["lxml-xml"]/xml
;html5lib
基本使用方法:
soup.a
#第一个a标签(a标签及内容)
soup.a.string
#第一个a标签的内容
soup.a.name
# a标签的名字
soup.a['calss']
#第一个a标签的class名字
soup.find_all['a']
#所有a标签
soup.find[id='a'']
#id为a的标签
soupa.a.get('href')
#所有a标签的链接
soup.get_text()
#获取全部文本
tag
soup.a.attrs
#获取a的所有属性soup.a['href']
#像字典一样获取属性值NavigableString
soup.a.string
#获取标签内字符串BeautifulSoup
Comment
子节点
soup.div.a.string
#标签选择,a标签的内容soup.div.contents[1]
#第一个div下的第二个子节点
tag.children
#对子节点进行循环时soup.descendants
文档所有子孙节点
prettify()
该方法获取格式化输出
找到了我想看到,更多还是翻阅文档,靠谱!