9 7057

抓取结果不准确

giraffax 于 2021-11-2 16:23 发表 [复制链接]
任务名: app_inf
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2021-11-2 21:49

giraffax 新手上路 发表于 2021-11-2 16:24:54 | 显示全部楼层
结果如图
221.PNG
举报 使用道具
gz51837844 管理员 发表于 2021-11-2 16:36:33 | 显示全部楼层

你发一条抓取字段不完整的页面的网址
举报 使用道具
giraffax 新手上路 发表于 2021-11-2 16:45:06 | 显示全部楼层
gz51837844 发表于 2021-11-2 16:36
你发一条抓取字段不完整的页面的网址

https://sensortower.com/ios/kr/nexon-company/app/fifa-online-4-m-by-ea-sports/1273957743/
举报 使用道具
gz51837844 管理员 发表于 2021-11-2 16:58:15 | 显示全部楼层
你要抓取的内容,没有特殊的@class或者@id作为区分, 自动生成的采集规则会使用子元素的位置。
不同的页面上, 要抓取的内容的位置不是固定的, 所以需要自定义xpath来做精准抓取。


比如那个mostpopC字段,可以使用下面这个xpath,其它的字段你可以照葫芦画瓢:
//*[@class='name' and contains(.,'Most Popular Country:')]/following-sibling::*[1]

QQ截图20211102165746.png
举报 使用道具
giraffax 新手上路 发表于 2021-11-2 17:04:24 | 显示全部楼层
gz51837844 发表于 2021-11-2 16:58
你要抓取的内容,没有特殊的@class或者@id作为区分, 自动生成的采集规则会使用子元素的位置。
不同的页面 ...

好的,谢谢!我再试试
举报 使用道具
giraffax 新手上路 发表于 2021-11-2 18:45:21 | 显示全部楼层
gz51837844 发表于 2021-11-2 16:58
你要抓取的内容,没有特殊的@class或者@id作为区分, 自动生成的采集规则会使用子元素的位置。
不同的页面 ...

任务名是rank103 我想要抓到三排到第两百的数据,不知道为什么不行。  
111.PNG
举报 使用道具
gz51837844 管理员 发表于 2021-11-2 19:31:08 | 显示全部楼层
giraffax 发表于 2021-11-2 18:45
任务名是rank103 我想要抓到三排到第两百的数据,不知道为什么不行。

那你就把第三排作为第1个样例
举报 使用道具
giraffax 新手上路 发表于 2021-11-2 19:57:43 | 显示全部楼层
gz51837844 发表于 2021-11-2 19:31
那你就把第三排作为第1个样例

也不行。之前有几次是 可以的……
举报 使用道具
gz51837844 管理员 发表于 2021-11-2 21:49:55 | 显示全部楼层
giraffax 发表于 2021-11-2 19:57
也不行。之前有几次是 可以的……

现在是把前2行也抓下来了, 抓多了? 我倒是觉得这个没啥好纠结的, 可以在excel里去处理
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 19:10