任务名: app_inf
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2021-11-2 21:49

沙发
giraffax 新手上路 发表于 2021-11-2 16:24:54 | 只看该作者
结果如图

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
gz51837844 管理员 发表于 2021-11-2 16:36:33 | 只看该作者

你发一条抓取字段不完整的页面的网址
举报 使用道具
地板
giraffax 新手上路 发表于 2021-11-2 16:45:06 | 只看该作者
gz51837844 发表于 2021-11-2 16:36
你发一条抓取字段不完整的页面的网址

https://sensortower.com/ios/kr/nexon-company/app/fifa-online-4-m-by-ea-sports/1273957743/
举报 使用道具
5#
gz51837844 管理员 发表于 2021-11-2 16:58:15 | 只看该作者
你要抓取的内容,没有特殊的@class或者@id作为区分, 自动生成的采集规则会使用子元素的位置。
不同的页面上, 要抓取的内容的位置不是固定的, 所以需要自定义xpath来做精准抓取。


比如那个mostpopC字段,可以使用下面这个xpath,其它的字段你可以照葫芦画瓢:
//*[@class='name' and contains(.,'Most Popular Country:')]/following-sibling::*[1]


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
6#
giraffax 新手上路 发表于 2021-11-2 17:04:24 | 只看该作者
gz51837844 发表于 2021-11-2 16:58
你要抓取的内容,没有特殊的@class或者@id作为区分, 自动生成的采集规则会使用子元素的位置。
不同的页面 ...

好的,谢谢!我再试试
举报 使用道具
7#
giraffax 新手上路 发表于 2021-11-2 18:45:21 | 只看该作者
gz51837844 发表于 2021-11-2 16:58
你要抓取的内容,没有特殊的@class或者@id作为区分, 自动生成的采集规则会使用子元素的位置。
不同的页面 ...

任务名是rank103 我想要抓到三排到第两百的数据,不知道为什么不行。  

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
8#
gz51837844 管理员 发表于 2021-11-2 19:31:08 | 只看该作者
giraffax 发表于 2021-11-2 18:45
任务名是rank103 我想要抓到三排到第两百的数据,不知道为什么不行。

那你就把第三排作为第1个样例
举报 使用道具
9#
giraffax 新手上路 发表于 2021-11-2 19:57:43 | 只看该作者
gz51837844 发表于 2021-11-2 19:31
那你就把第三排作为第1个样例

也不行。之前有几次是 可以的……
举报 使用道具
10#
gz51837844 管理员 发表于 2021-11-2 21:49:55 | 只看该作者
giraffax 发表于 2021-11-2 19:57
也不行。之前有几次是 可以的……

现在是把前2行也抓下来了, 抓多了? 我倒是觉得这个没啥好纠结的, 可以在excel里去处理
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为

热门用户

GMT+8, 2025-2-6 07:05