python网页解析-简略

分类:python 日期:2020-12-05 作者:admin 浏览:72

相关库

  • lxml
  • bs4(BeautifulSoup)
pip install lxml  #安装lxml
pip install bs4   #安装BeautifulSoup

lxml

示例

from lxml import etree
htmlObj = etree.HTML(html)
val = htmlObj.xpath(r'//*[@id="wmd-preview"]/pre[2]/code')

bs4(BeautifulSoup)

第一步

# 首先熬制一锅汤

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, '解析器')

解析器包括: html.parser;lxml(推荐);["lxml-xml"]/xml;html5lib

基本使用方法:

soup.a
#第一个a标签(a标签及内容)

soup.a.string
#第一个a标签的内容

soup.a.name
# a标签的名字

soup.a['calss']
#第一个a标签的class名字

soup.find_all['a']
#所有a标签

soup.find[id='a'']
#id为a的标签

soupa.a.get('href')
#所有a标签的链接

soup.get_text()
#获取全部文本

bs4文档分类

  • tag

    • name属性,ex:soup.a.attrs #获取a的所有属性
    • Attributes属性;ex:soup.a['href'] #像字典一样获取属性值
  • NavigableString

    • soup.a.string #获取标签内字符串
  • BeautifulSoup

    • 整个文档
  • Comment

    • 注释之类

子节点

  • soup.div.a.string #标签选择,a标签的内容
  • soup.div.contents[1] #第一个div下的第二个子节点

    • tag.children #对子节点进行循环时
  • soup.descendants 文档所有子孙节点

prettify()该方法获取格式化输出

找到了我想看到,更多还是翻阅文档,靠谱!

参考文档

评论 (暂无评论)

发表评论

昵称:  
邮箱:  
网址: