目录
- 前言
- 一、Xpath简介
- 二、Xpath语法规则
- 三、语法规则练习
- 总结
前言
网上已经有很多大佬发过Xpath,而且讲的都很好,我是因为刚开始学习网络爬虫,对这些基础重要知识不太了解,所以写一下来加深印象,本篇文章只是简单介绍一下Xpath及使用,总体来说比较基础。

一、Xpath简介
XPath(XML Path Language - XML路径语言),它是一种用来确定XML文档中某部分位置的语言。
Xpath以XML为基础,提供用户在数据结构树中寻找节点的能力,Xpath被很多开发者亲切的称为小型查询语言。
二、Xpath语法规则
xpath可以使用路径表达式在XML上选取节点,从而达到确认元素的目的,我们先来介绍以下语法规则。
语法规则
| 表达式 | 作用 |
|---|
| nodename | 选取此层级节点下的所有子节点 |
| / | 代表从根节点进行选取 |
| // | 可以理解为匹配,就是在所有节点中选取此节点,直到匹配为止 |
| . | 选取当前节点 |
| … | 选取当前节点上一层(上一级目录) |
| @ | 选取属性(也是匹配) |
标签定位
| 方式 | 效果 |
|---|
| /html/body/div | 表示从根节点开始寻找,标签与标签之间/表示一个层级 |
| /html//div | 表示多个层级 作用于两个标签之间(也可以理解为在html下进行匹配寻找标签div) |
| //div | 从任意节点开始寻找,也就是查找所有的div标签 |
| ./div | 表示从当前的标签开始寻找div |
属性定位
| 需求 | 格式 |
|---|
| 定位div中属性名为href,属性值为‘www.baidu.com’的div标签 | @属性名=属性值 |
| href为属性名 'www.baidu.com’为属性值 | /html/body/div[href=‘www.baidu.com’] |
索引定位
| 需求 | 格式 |
|---|
| 定位ul下第二个li标签(下图) | //ul/li[2] |
| 索引值开始位置为 | 1 |
取文本内容
| 方法 | 效果 |
|---|
| /text() | 获取标签下直系的标签内容 |
| //text() | 获取标签中所有的文本内容 |
| string() | 获取标签中所有的文本内容 |
在网页上获取Xpath其实很容易,直接找到标签后,右键复制就好了。
三、语法规则练习
接下来我们开始练习一下本地导入,加深一下理解,这个是一个比较简单的网页结构,我们先学会用法即可。
任务要求: 可以达到随心所欲的定位每一个元素
准备工作
#导入所需要的包
from lxml import etree
#采用本地源码获取方式并加载到etree内
tree = etree.parse('test.html')
1.获取百度、谷歌、搜狗文本内容
#引用xpath方法并进行标签定位
#''.join是取字符串内的内容
text = ' '.join(tree.xpath('/html/body/ul/li/a/text()'))
print(text)
2.获取单个谷歌
text1 = tree.xpath("//ul/li[2]/a/text()")[0]
print(text1)
3.获取北京、上海、天津的属性值
text2 = ' '.join(tree.xpath("//ol/li/a/@href"))
print(text2)
4.获取河南文本
#获取河南文本
text3 = tree.xpath("/html/body/div[2]/text()")[0]
print(text3)
5.获取谷歌属性值
text4 = tree.xpath("//ul/li[2]/a/@href")[0]
print(text4)
至此我们已经可以随心定位任意标签 完成任务 收工
总结
相关推荐:
URL站长的崛起:打造高效网站运营的秘密武器,网站建设费用计算依据
为什么seo这么难,seo难嘛 ,ai宁中则
ChatGPT3.5需要登录使用吗?AI使用的真相!,电脑版写作ai推荐怎么关闭
SEO做法-提升网站流量与排名的关键秘诀,屏东网站推广招聘
如何用AI改文章,让写作更高效、精准,提升内容质量
揭开“好的AI软件”背后的秘密:让生活和工作更智能的利器
SEO优化的话题:助力企业成功的关键,夏杰ai智能管家
文章去AI回归创作的本真之美
SEO优化如何为网站做好关键词研究和优化,ai直通
SEO经营:助力企业腾飞的秘密武器,靖边百度关键词排名
OpenAI无法验证支付方式?解决方案与常见问题解析,你好月光ai
ChatGPT的诞生,预示着人工智能大规模应用的时代已经来临,ai此生不渝
seo稿件是什么意思,seo文章写作要求 ,ai写作未来展望和展望
SEO怎么做才能提升网站流量与排名?这篇文章给你全攻略,铁岭定制网站推广公司电话
Bing搜索不能预览了?搜索引擎的新变革与挑战,ai制作一张窗花
ChatGPT暂时不可用?如何高效应对并寻找最佳替代方案!,logo ai教程视频
ChatGPT怎么有梯子?突破网络限制,轻松畅享AI智能,ai对唱音响
ChatGPT支持多种语言输入输出,让全球资讯触手可及,联想拯救者的ai写作
ChatGPT显示无法加载网站是怎么回事?解决方法!,glow将军ai
摘要AI生成:高效工作的新时代利器
SEO站内优化:提升网站排名的核心策略,厦门市网站优化企业
seo网站通过什么软件,网站seo软件哪个 ,战团ai
为什么网站要做seo,网站做seo的目的是什么 ,ai初选
SEO拓客,让您的业务飞速增长!,密云自适应网站建设
SEO优化如何进行:提升网站排名,轻松超越竞争对手,ai写作怎么操作手机
仿写AI:智能时代的创作革命,洛江区移动房网站推广
URL泄露:如何防止信息泄露带来的严重后果,抖音推广营销服务多少钱
ChatGPT显示“此网站无法加载站点”:背后原因与解决办法详解,用ai画明度渐变条
SEO合同:确保您网站优化成功的关键保障,微博营销推广规则最新
2025年SEO最新技术:让你的网站脱颖而出!,ai少女特色
高效创作之路:文章AI生成器的力量
ChatGPT网络故障报告从协调世界时(UTC)晚上1107左右开始激增,15分钟内引发广泛关注,ai无视进化
AI软件不用登录,让你的工作更高效轻松,智能ai写作改稿怎么改
ChatGPT维护页面-背后的技术与用户体验,ai领域ppt
SEO出来,打破流量瓶颈,助力企业增长的关键策略,南昌营销推广代理商电话
如何快速写出高质量的AI文章:从入门到精通
AI人工智能:开发与应用的必备软件推荐
SEO要点:提升网站排名的核心技巧与策略,福田市网站建设推广费用
怎么让AI写文章,轻松实现内容创作的智能化
“标题制造机”:颠覆内容创作的秘密武器,助你轻松打造吸引力十足的标题,景区线上推广用哪些网站
SEO分类:从基础到进阶,全面解析SEO优化的关键要素,新建设网站排名
乘风SEO-引领企业互联网时代的腾飞之路,南昌b站关键词排名优化贵不贵
文字写作AI生成工具:让创作更简单、更高效
AI免费免登录:轻松体验人工智能的魔力,无需繁琐注册,华为AI音箱2音质如何
为什么做抖音seo,为什么做抖音推广 ,描边ai虚线
seo线索收集是什么,seo线索收集是什么意思 ,ai生活ai童童
ChatGPT对于大数据发展的帮助:赋能行业变革,推动智能化未来,ai写作真的好吗
什么是seo反连接,网站反链多好还是少好 ,网易ai产品
GPT-3模型下载:开启智能时代的无限可能,ai走入
SEO获取流量的必杀技:如何通过优化轻松提升网站排名,德州全网营销推广价格