//*[@class='tcenter']/tbody/tr[position()=1]/td[position()=3]

//*[@class='tcenter']/tbody/tr[position()=3]/td[position()=3]
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

//*[@class='tcenter']/tbody/tr[position()=n]/td[position()=3]
像这种只有一个数字变化的  该怎么合并了写   
我想到了用contains   不过没用好  求大神指点迷津

举报 使用道具
| 回复

共 22 个关于本帖的回复 最后回复于 2017-1-6 17:45

沙发
xandy 论坛元老 发表于 2017-1-4 14:22:52 | 只看该作者
是取奇数的位置还是?你没有描述清楚。另外,xpath不一定要靠position定位,还有其他的语法。
所以,你可以补充下你的问题,比如你的规则的样本网址,主题名是什么?要取页面上哪个位置的所以要写xpath,截图说明一下,这样比较好对症下药。
举报 使用道具
板凳
xandy 论坛元老 发表于 2017-1-4 14:24:56 | 只看该作者
参看帖子:《请教xpath的or语法
参看xpath常见问题锦集
举报 使用道具
地板
zhengqing5566 初级会员 发表于 2017-1-4 15:04:35 | 只看该作者
本帖最后由 zhengqing5566 于 2017-1-4 15:07 编辑
xandy 发表于 2017-1-4 14:22
是取奇数的位置还是?你没有描述清楚。另外,xpath不一定要靠position定位,还有其他的语法。
所以,你可以 ...

http://www.310win.com/1x2/1336470.html
主题名称  点击111
这个就是  在做   点击    的  定位表达式   的时候  我要点击的那一竖列    class差别很大  我按照参考资料写不好


还有一  案例001  和   案例002    这个两个 点击  我按照你教的 把 案例001的规则写好了   但是  案例002的 怎么都写不好  尝过很多方法了   
提取出来的数据     会有遗漏     初始赔率 经常对不上

http://data.fox008.com/analysis/europe/586bcb8b0cf2b84dc913b3fa.html  说白了 我就是想把 足球网上的 各个博彩公司的赔率按照   公司名 时间  胜赔 平赔  负赔  的格式提取出来
举报 使用道具
5#
xandy 论坛元老 发表于 2017-1-4 15:10:36 | 只看该作者
zhengqing5566 发表于 2017-1-4 15:04
http://www.310win.com/1x2/1336470.html
主题名称  点击111
这个就是  在做   点击    的  定位表达式    ...

你再具体描述你要抓什么内容,你的爬虫路线是怎么规划的?
举报 使用道具
6#
zhengqing5566 初级会员 发表于 2017-1-4 15:29:00 | 只看该作者
xandy 发表于 2017-1-4 15:10
你再具体描述你要抓什么内容,你的爬虫路线是怎么规划的?

http://www.310win.com/1x2/1338884.html
以这个网站为例file:///C:\Users\zq\AppData\Roaming\Tencent\Users\343218397\QQ\WinTemp\RichOle\HBIDWK$~UL4VVJFD(J_VZOH.png

我需要提取  金宝博  SD bet365 还有下面所有的 博彩公司的赔率变化表


点击  主胜  下面的赔率后  会弹出 新的网页(没有href)   新网页里的数据就是我要提取的

所以我设置了两个步骤
第一步   做点击     点击主胜下的赔率  这样能弹窗新的网页
第二步 提取数据   就是提取第二章图上的数据



file:///C:\Users\zq\AppData\Roaming\Tencent\Users\343218397\QQ\WinTemp\RichOle\HBIDWK$~UL4VVJFD(J_VZOH.png

file:///C:\Users\zq\AppData\Roaming\Tencent\Users\343218397\QQ\WinTemp\RichOle\HBIDWK$~UL4VVJFD(J_VZOH.png

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
7#
xandy 论坛元老 发表于 2017-1-4 15:46:59 | 只看该作者
本帖最后由 xandy 于 2017-1-4 15:49 编辑

首先,点击主胜列的数据后会弹出新的窗口,新的窗口是有链接的,不是没有@href,所以抓到链接就可以了。
抓链接不需要点击,正常做规则就行了(不用连续动作),不过和平常映射给@href抓链接不同的是,这里指数的链接不是在@href里面,而是在onclick里面,如下图所示:

所以将链接提取出来你要自定义xpath,因为链接是包含在onlick值里面的OddsHistory括号里头,所以你要自定义xpath才能提取。
  1. OddsHistory('/info/oddshistory.aspx?id=63477203&r1=%u6E05%u5316U19&r2=TT%u6CB3%u5185U19&Company=188bet')
复制代码
可以用xpath常用函数用法里头的substring-before和substring-after函数。

PS:
  • 如果是在当前窗口弹出新的页面,并且URL网址是不变的,你可以用连续动作
  • 如果弹出了一个新的窗口,并且URL网址是不变的,就要用到飞掠模式

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
8#
zhengqing5566 初级会员 发表于 2017-1-4 16:11:56 | 只看该作者
xandy 发表于 2017-1-4 15:46
首先,点击主胜列的数据后会弹出新的窗口,新的窗口是有链接的,不是没有@href,所以抓到链接就可以了。
...

这个网站上需要点击的地方是有颜色的   上次说他们的 class 是不一样的  所以用样例映射  是行不通的  是不是要用 定位映射呢
举报 使用道具
9#
xandy 论坛元老 发表于 2017-1-4 16:16:17 | 只看该作者
zhengqing5566 发表于 2017-1-4 16:11
这个网站上需要点击的地方是有颜色的   上次说他们的 class 是不一样的  所以用样例映射  是行不通的  是 ...

刚刚说了,不用点击,直接抓onclick括号里面的值就可以取到实际的链接
举报 使用道具
10#
xandy 论坛元老 发表于 2017-1-4 16:39:37 | 只看该作者
zhengqing5566 发表于 2017-1-4 16:11
这个网站上需要点击的地方是有颜色的   上次说他们的 class 是不一样的  所以用样例映射  是行不通的  是 ...

要采集多条数据也是正常样例复制就可以了,对TR进行样例复制,如下图所示:

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-23 09:01