Python全栈开发-Python爬虫-08 Xpath详解
Xpath详解XPath原理:先将HTML文档转为XML文档,再用XPath查找HTML节点或元素一. 什么是XML?1,XML指可扩展标记语言2,XML是一种标记语言,类似于HTML3,XML的设计宗旨是传输数据,而非显示数据4,XML标签需要我们自己自定义5,XML被设计为具有自我描述性二. XML和HTML的区别数据格式描述设计目标XMLExtensible Markup Language
Xpath详解
XPath原理:先将HTML文档转为XML文档,再用XPath查找HTML节点或元素
一. 什么是XML?
1,XML指可扩展标记语言
2,XML是一种标记语言,类似于HTML
3,XML的设计宗旨是传输数据,而非显示数据
4,XML标签需要我们自己自定义
5,XML被设计为具有自我描述性
二. XML和HTML的区别
| 数据格式 | 描述 | 设计目标 |
|---|---|---|
| XML | Extensible Markup Language (可扩展标记语言) |
被设计为传输和存储数据,其焦点是数据的内容。 |
| HTML | HyperText Markup Language (超文本标记语言) |
显示数据以及如何更好显示数据。 |
| HTML DOM | Document Object Model for HTML (文档对象模型) |
通过 HTML DOM,可以访问所有的 HTML 元素,连同它们所包含的文本和属性。可以对其中的内容进行修改和删除,同时也可以创建新的元素。 |
XML文档示例:
<?xml version="1.0" encoding="utf-8"?>
<bookstore>
<book category="cooking">
<title lang="en">Everyday Italian</title>
<author>Giada De Laurentiis</author>
<year>2005</year>
<price>30.00</price>
</book>
<book category="children">
<title lang="en">Harry Potter</title>
<author>J K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>
<book category="web">
<title lang="en">XQuery Kick Start</title>
<author>James McGovern</author>
<author>Per Bothner</author>
<author>Kurt Cagle</author>
<author>James Linn</author>
<author>Vaidyanathan Nagarajan</author>
<year>2003</year>
<price>49.99</price>
</book>
<book category="web" cover="paperback">
<title lang="en">Learning XML</title>
<author>Erik T. Ray</author>
<year>2003</year>
<price>39.95</price>
</book>
</bookstore>
三. XML的节点关系
3.1 父(Parent)
每个元素以及属性都有一个父。
下面是一个简单的XML例子中,book 元素是 title、author、year 以及 price 元素的父:
<?xml version="1.0" encoding="utf-8"?>
<book>
<title>Harry Potter</title>
<author>J K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>
3.2 子(Children)
元素节点可有零个、一个或多个子。
在下面的例子中 title、author、year 以及 price 元素都是 book 元素的子:
<?xml version="1.0" encoding="utf-8"?>
<book>
<title>Harry Potter</title>
<author>J K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>
3.3 同胞(Sibling)
拥有相同的父的节点
在下面的例子中 title、author、year 以及 price 元素都是同胞:
<?xml version="1.0" encoding="utf-8"?>
<book>
<title>Harry Potter</title>
<author>J K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>
3.4 先辈(Ancestor)
某节点的父、父的父,等等。
在下面的例子中,title 元素的先辈是 book 元素和 bookstore 元素:
<?xml version="1.0" encoding="utf-8"?>
<bookstore>
<book>
<title>Harry Potter</title>
<author>J K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>
</bookstore>
3.5 后代(Descendant)
某个节点的子,子的子,等等。
在下面的例子中,bookstore 的后代是 book、title、author、year 以及 price 元素:
<?xml version="1.0" encoding="utf-8"?>
<bookstore>
<book>
<title>Harry Potter</title>
<author>J K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>
</bookstore>
四. 什么是XPath?
XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。
五. XPath 开发工具
-
开源的XPath表达式编辑工具:XMLQuire(XML格式文件可用)
-
Chrome插件 XPath Helper
-
Firefox插件 XPath Checker
六. XPath语法
6.1 选取节点
XPath使用路径表达式来选取XML文档中的节点或者节点集,这些路径表达式和我们在常规的电脑文件系统里看到的表达式非常相似
下面列出了最常用的路径表达式:
| 表达式 | 描述 |
|---|---|
| nodename | 选取此节点的所有子节点。 |
| / | 从根节点选取。 |
| // | 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。 |
| . | 选取当前节点。 |
| … | 选取当前节点的父节点。 |
| @ | 选取属性。 |
在下面的表格中,我们已列出了一些路径表达式以及表达式的结果:
| bookstore | 选取 bookstore 元素的所有子节点。 | |
| /bookstore | 选取根元素 bookstore。注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径! | |
| bookstore/book | 选取属于 bookstore 的子元素的所有 book 元素。 | |
| //book | 选取所有 book 子元素,而不管它们在文档中的位置。 | |
| bookstore//book | 选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置。 | |
| //@lang | 选取名为 lang 的所有属性。 |
6.2 选取未知节点
XPath 通配符可用来选取未知的 XML 元素。
| 通配符 | 描述 |
|---|---|
| * | 匹配任何元素节点。 |
| @* | 匹配任何属性节点。 |
| node() | 匹配任何类型的节点。 |
在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:
| 路径表达式 | 结果 |
|---|---|
| /bookstore/* | 选取 bookstore 元素的所有子元素。 |
| //* | 选取文档中的所有元素。 |
| html/node()/meta/@* | 选择html下面任意节点下的meta节点的所有属性 |
| //title[@*] | 选取所有带有属性的 title 元素。 |
6.3 选取若干路径
通过在路径表达式中使用“|”运算符,您可以选取若干个路径。
在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:
| 路径表达式 | 结果 |
|---|---|
| //book/title | //book/price | 选取 book 元素的所有 title 和 price 元素。 |
| //title | //price | 选取文档中的所有 title 和 price 元素。 |
| /bookstore/book/title | //price | 选取属于 bookstore 元素的 book 元素的所有 title 元素,以及文档中所有的 price 元素。 |
6.4 谓语(Predicates)
谓语用来查找某个特定的节点或者包含某个指定的值的节点,被嵌在方括号中。
在下面的表格中,我们列出了带有谓语的一些路径表达式,以及表达式的结果:
| 路径表达式 | 结果 |
|---|---|
| /bookstore/book[1] | 选取属于 bookstore 子元素的第一个 book 元素。 |
| /bookstore/book[last()] | 选取属于 bookstore 子元素的最后一个 book 元素。 |
| /bookstore/book[last()-1] | 选取属于 bookstore 子元素的倒数第二个 book 元素。 |
| /bookstore/book[position() < 3] | 选取最前面的两个属于 bookstore 元素的子元素的 book 元素。 |
| //title[@lang] | 选取所有拥有名为 lang 的属性的 title 元素。 |
| //title[@lang=’eng’] | 选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。 |
| /bookstore/book[price>35.00] | 选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。 |
| /bookstore/book[price>35.00]/title | 选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。 |
七. lxml库
-
lxml库是一个HTML/XML的解析器,主要功能是如何解析和提取HTML/XML数据
-
lxml和正则一样,都是通过C语言实现的,它是一款高性能的Python HTML/XML的解析器,我们可以利用之前所学习的XPath语法,来快速定位特定元素以及节点信息
-
lxml python 的官方文档:官方文档
-
需要安装C语言库,pip install lxml
7.1 初步使用
我们利用它来解析 HTML 代码,简单示例:
html = '''
<div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</div>
'''
# 1,使用lxml的etree模块
from lxml import etree
#,2,利用etree.HTML()构造一个xpath解析对象(转为xml文档)
xml_doc=etree.HTML(html)
print(xml_doc)
print('-----'*10)
# etree.tostring()输出修正后的html代码,
html_doc = etree.tostring(xml_doc)
print(html_doc) #自动补全了body,html标签
print(type(html_doc)) # bytes类型
print('-----'*10)
print(html_doc.decode('utf-8')) # 利用decode()方法将其转成str类型,
print(type(html_doc.decode('utf-8')))
运行结果如下:
<Element html at 0x2803cd52d40>
--------------------------------------------------
b'<html><body><div>\n <ul>\n <li class="item-0"><a href="link1.html">first item</a></li>\n <li class="item-1"><a href="link2.html">second item</a></li>\n <li class="item-inactive"><a href="link3.html">third item</a></li>\n <li class="item-1"><a href="link4.html">fourth item</a></li>\n <li class="item-0"><a href="link5.html">fifth item</a>\n </li></ul></div>\n</body></html>'
<class 'bytes'>
--------------------------------------------------
<html><body><div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</li></ul></div>
</body></html>
<class 'str'>
注意:lxml可以自动修正HTML代码 ,例子里不仅补全了li标签,还添加了body,html标签
7.2 文件读取:
除了直接读取字符串,lxml还支持从文件里读取内容。我们新建一个hello.html文件:
# 导模块
from lxml import etree
# etree.parse() 读取外部文件
html = etree.parse('./hello.html')
print(type(html)) # 类型就是lxml类型
print(html)
# 调用tostring()方法即可输出修正后的HTML代码
result = etree.tostring(html)
print(result)
print(result.decode('utf-8')) # 但是结果是bytes类型。这里利用decode()方法将其转成str类型,
运行结果如下:
<class 'lxml.etree._ElementTree'>
<lxml.etree._ElementTree object at 0x000002803CD50500>
b'<!DOCTYPE html>\n<html lang="en">\n<head>\n \n <title>Title</title>\n</head>\n<body>\n <div>\n <ul>\n <li class="item-0"><a href="link1.html">first item</a></li>\n <li class="item-1"><a href="link2.html">second item</a></li>\n <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>\n <li class="item-1"><a href="link4.html">fourth item</a></li>\n <li class="item-0"><a href="link5.html">fifth item</a></li>\n </ul>\n </div>\n</body>\n</html>'
<!DOCTYPE html>
<html lang="en">
<head>
<title>Title</title>
</head>
<body>
<div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
</body>
</html>
7.3 XPath实例测试
7.3.1获取所有的 <li>标签
html = '''
<div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
'''
from lxml import etree
html_doc = etree.HTML(html) # xml
result = html_doc.xpath('//li')
print(type(result))
for i in result:
r = etree.tostring(i)
print(r)
运行结果如下:
<class 'list'>
b'<li class="item-0"><a href="link1.html">first item</a></li>\n '
b'<li class="item-1"><a href="link2.html">second item</a></li>\n '
b'<li class="item-inactive"><a href="link3.html">third item</a></li>\n '
b'<li class="item-1"><a href="link4.html">fourth item</a></li>\n '
b'<li class="item-0"><a href="link5.html">fifth item</a></li> \n '
7.3.2 继续获取<li>标签的所有 class属性
re = html_doc.xpath('//li/@class')
print(re)
运行结果如下:
['item-0', 'item-1', 'item-inactive', 'item-1', 'item-0']
7.3.3 获取<li>标签下的<a>标签里的所有 href
re = html_doc.xpath('//li/a/@href')
print(re)
运行结果如下:
['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']
7.3.4 继续获取<li>标签下href为 link1.html 的 <a> 标签
re = html_doc.xpath('//li/a[@href="link1.html"]/text()')
print(re)
运行结果如下:
['first item']
注意:
1,只要涉及到条件,加 []
2,只要获取属性值,加 @
3,通过text()取内容
更多推荐




所有评论(0)