Python爬虫beautifulsoup4常用的解析方法

@label:按照标签名称、id、class等信息获取某个标签

html = '<p class="title" id="p1"><b>The Dormouses story</b></p>'
soup = BeautifulSoup(html, 'lxml')
#根据class的名称获取p标签内的所有内容
soup.find(class_="title")
#或者
soup.find("p",class_="title" id = "p1")
#获取class为title的p标签的文本内容"The Dormouse's story"
soup.find(class_="title").get_text()
#获取文本内容时可以指定不同标签之间的分隔符，也可以选择是否去掉前后的空白。
soup = BeautifulSoup('<p class="title" id="p1"><b> The Dormouses story </b></p><p class="title" id="p1"><b>The Dormouses story</b></p>', "html5lib")
soup.find(class_="title").get_text("|", strip=True)
#结果为：The Dormouses story|The Dormouses story
#获取class为title的p标签的id
soup.find(class_="title").get("id")
#对class名称正则：
soup.find_all(class_=re.compile("tit"))
#recursive参数，recursive=False时，只find当前标签的第一级子标签的数据
soup = BeautifulSoup('<html><head><title>abc','lxml')
soup.html.find_all("title", recursive=False)

@label:按照标签名称、id、class等信息获取多个标签

soup = BeautifulSoup('<p class="title" id="p1"><b> The like story </b></p><p class="title" id="p1"><b>The Dormouses story</b></p>', "html5lib")
#获取所有class为title的标签
for i in soup.find_all(class_="title"):
  print(i.get_text())
#获取特定数量的class为title的标签
for i in soup.find_all(class_="title",limit = 2):
  print(i.get_text())

@label:按照标签的其他属性获取某个标签

html = '<a alog-action="qb-ask-uname" href="/usercent" rel="external nofollow" target="_blank">蜗牛宋</a>'
soup = BeautifulSoup(html, 'lxml')
# 获取"蜗牛宋",此时，该标签里既没有class也没有id，需要根据其属性来定义获取规则
author = soup.find('a',{"alog-action":"qb-ask-uname"}).get_text()
#或
author = soup.find(attrs={"alog-action": "qb-ask-uname"})

@label:找前头和后头的标签

soup.find_all_previous("p")
soup.find_previous("p")
soup.find_all_next("p")
soup.find_next("p")

@label:找父标签

soup.find_parents("div")
soup.find_parent("div")

@label:css选择器

soup.select("title") #标签名
soup.select("html head title") #多级标签名
soup.select("p > a") #p内的所有a标签
soup.select("p > #link1") #P标签内，按id查标签
soup.select("#link1 ~ .sister") #查找相同class的兄弟节点
soup.select("#link1 + .sister")
soup.select(".sister") #按class名称查
soup.select("#sister") #按id名称查
soup.select('a[href="http://example.com/elsie" rel="external nofollow" ]') # 按标签的属性查
soup.select('a[href$="tillie"]')
soup.select_one(".sister")

@label:四大对象种类

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

@label:Tag

Tag 通俗点讲就是 HTML 中的一个个标签

#创建 Beautiful Soup 对象
soup = BeautifulSoup(html)
 
 
print soup.title
# <title>The Dormouse's story</title>
 
print soup.head
# <head><title>The Dormouse's story</title></head>
 
print soup.a
# <a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>
 
print soup.p
# <p class="title" name="dromouse"><b>The Dormouse's story</b></p>
 
print type(soup.p)
# <class 'bs4.element.Tag'>

print soup.name
# [document] #soup 对象本身比较特殊，它的 name 即为 [document]
 
print soup.head.name
# head #对于其他内部标签，输出的值便为标签本身的名称
 
print soup.p.attrs
# {'class': ['title'], 'name': 'dromouse'}
# 在这里，我们把 p 标签的所有属性打印输出了出来，得到的类型是一个字典。
 
print soup.p['class'] # soup.p.get('class')
# ['title'] #还可以利用get方法，传入属性的名称，二者是等价的
 
soup.p['class'] = "newClass"
print soup.p # 可以对这些属性和内容等等进行修改
# <p class="newClass" name="dromouse"><b>The Dormouse's story</b></p>
 
del soup.p['class'] # 还可以对这个属性进行删除
print soup.p
# <p name="dromouse"><b>The Dormouse's story</b></p>

@label:NavigableString

print soup.p.string
# The Dormouse's story
 
print type(soup.p.string)
# In [13]: <class 'bs4.element.NavigableString'>

@label:BeautifulSoup

BeautifulSoup 对象表示的是一个文档的内容。

@label:Comment

Comment 对象是一个特殊类型的 NavigableString 对象，其输出的内容不包括注释符号。

# @label:按照标签名称、id、class等信息获取某个标签

# @label:按照标签名称、id、class等信息获取多个标签

# @label:按照标签的其他属性获取某个标签

# @label:找前头和后头的标签

# @label:找父标签

# @label:css选择器

# @label:四大对象种类

# @label:Tag

# @label:NavigableString

# @label:BeautifulSoup

# @label:Comment

@label:按照标签名称、id、class等信息获取某个标签

@label:按照标签名称、id、class等信息获取多个标签

@label:按照标签的其他属性获取某个标签

@label:找前头和后头的标签

@label:找父标签

@label:css选择器

@label:四大对象种类

@label:Tag

@label:NavigableString

@label:BeautifulSoup

@label:Comment