抓取结果不准确

giraffax

任务名: app_inf

giraffax · 发表于 2021-11-2 16:24:54

结果如图

gz51837844 · 发表于 2021-11-2 16:36:33

giraffax 发表于 2021-11-2 16:24
结果如图

你发一条抓取字段不完整的页面的网址

giraffax · 发表于 2021-11-2 16:45:06

gz51837844 发表于 2021-11-2 16:36
你发一条抓取字段不完整的页面的网址

https://sensortower.com/ios/kr/nexon-company/app/fifa-online-4-m-by-ea-sports/1273957743/

gz51837844 · 发表于 2021-11-2 16:58:15

你要抓取的内容，没有特殊的@class或者@id作为区分，自动生成的采集规则会使用子元素的位置。
不同的页面上，要抓取的内容的位置不是固定的，所以需要自定义xpath来做精准抓取。

比如那个mostpopC字段，可以使用下面这个xpath，其它的字段你可以照葫芦画瓢：
//*[@class='name' and contains(.,'Most Popular Country:')]/following-sibling::*[1]

giraffax · 发表于 2021-11-2 17:04:24

gz51837844 发表于 2021-11-2 16:58
你要抓取的内容，没有特殊的@class或者@id作为区分，自动生成的采集规则会使用子元素的位置。
不同的页面 ...

好的，谢谢！我再试试

giraffax · 发表于 2021-11-2 18:45:21

gz51837844 发表于 2021-11-2 16:58
你要抓取的内容，没有特殊的@class或者@id作为区分，自动生成的采集规则会使用子元素的位置。
不同的页面 ...

任务名是rank103 我想要抓到三排到第两百的数据，不知道为什么不行。

gz51837844 · 发表于 2021-11-2 19:31:08

giraffax 发表于 2021-11-2 18:45
任务名是rank103 我想要抓到三排到第两百的数据，不知道为什么不行。

那你就把第三排作为第1个样例

giraffax · 发表于 2021-11-2 19:57:43

gz51837844 发表于 2021-11-2 19:31
那你就把第三排作为第1个样例

也不行。之前有几次是可以的……

gz51837844 · 发表于 2021-11-2 21:49:55

giraffax 发表于 2021-11-2 19:57
也不行。之前有几次是可以的……

现在是把前2行也抓下来了，抓多了？我倒是觉得这个没啥好纠结的，可以在excel里去处理

抓取结果不准确

共 9 个关于本帖的回复最后回复于 2021-11-2 21:49

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

抓取结果不准确

共 9 个关于本帖的回复 最后回复于 2021-11-2 21:49

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 9 个关于本帖的回复最后回复于 2021-11-2 21:49