爬虫解析库xpath功能很强大吗?

2020/09/28 04:32
xpath,英文全称XML Path Language,即XML路径语言,它是一种用来确定XML文档中某部分位置的语言,可以在 XML文档中查找相关的信息,相对而言功能还是比较强大的。

xpath最初是一个通用的、介于XPointer与XSL间的语法模型,基于XML的树状结构,提供在数据结构树中找寻节点的能力。最初用来搜寻XML文档,同样适用于 HTML文档的搜索,所以在做爬虫时完全可以使用 XPath 做相应的信息抽取。

xpath的节点通过沿着路径或者step来选取,它最有用的途径表达式如下图:


xpath使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。路径表达式是从一个XML节点(当前的上下文节点)到另一个节点、或一组节点的书面步骤顺序。这些步骤以“/”字符分开,每一步有三个构成成分:

轴描述(用最直接的方式接近目标节点)

节点测试(用于筛选节点位置和名称)

节点描述(用于筛选节点的属性和子节点特征)

一般情况下,我们使用xpath简写后的语法。虽然完整的轴描述是一种更加贴近人类语言,利用自然语言的单词和语法来书写的描述方式,但是相比之下也更加啰嗦。

免费直播

    精选课程 更多

    注册电脑版

    版权所有 2003-2020 广州环球青藤科技发展有限公司