11#
Fuller 管理员 发表于 2016-10-7 10:40:23 | 只看该作者
如果不想硬等待,那么就要针对那个“加载中”图片做文章


在MS谋数台上,不要勾选工具条中部的“内容定位”,点击下一页,如果“加载中”状态比较久,赶快选择菜单 规则(老版本叫文件)-〉冻结页面,那么就冻结了,“加载中”就消失不了了。然后点击这个图片,就能点位到DOM上的IMG节点,就能生成xpath。

想办法用这个图片做为关键内容,这样就可以不用硬等待了。要给他自定义xpath,也不是那么容易,因为这个img总是在html中,要研究一下显示和不显示的区别,应该是用css控制的,把写到xpath中即可。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
12#
ray_zhurui 中级会员 发表于 2016-10-7 14:57:51 | 只看该作者
Fuller 发表于 2016-10-7 10:40
如果不想硬等待,那么就要针对那个“加载中”图片做文章

具体需要修改爬虫代码才能实现么?还是现在我在MS能抓取这个loading就ok?
举报 使用道具
13#
Fuller 管理员 发表于 2016-10-7 15:05:36 | 只看该作者
ray_zhurui 发表于 2016-10-7 14:57
具体需要修改爬虫代码才能实现么?还是现在我在MS能抓取这个loading就ok?

在MS中找到这个loading图,研究它的特点,写xpath就行了
举报 使用道具
14#
ray_zhurui 中级会员 发表于 2016-10-8 09:07:25 | 只看该作者
本帖最后由 ray_zhurui 于 2016-10-8 09:14 编辑
Fuller 发表于 2016-10-7 15:05
在MS中找到这个loading图,研究它的特点,写xpath就行了

用xpath定位到这个loading图表后又能怎么样呢?
“想办法用这个图片做为关键内容,这样就可以不用硬等待了。”怎么理解?把他设为关键内容进行抓取?好像不是每次翻页都出现哦
举报 使用道具
15#
Fuller 管理员 发表于 2016-10-8 09:30:47 | 只看该作者
ray_zhurui 发表于 2016-10-8 09:07
用xpath定位到这个loading图表后又能怎么样呢?
“想办法用这个图片做为关键内容,这样就可以不用硬等待了 ...

不出现loading的时候就是加载完成了。

有loading的时候,应该是css里面的display控制的,可以判断这个值,定义一个抓取内容,设置关键内容选项,等待display变成“不显示”。
举报 使用道具
16#
ray_zhurui 中级会员 发表于 2016-10-8 11:38:47 | 只看该作者
Fuller 发表于 2016-10-8 09:30
不出现loading的时候就是加载完成了。

有loading的时候,应该是css里面的display控制的,可以判断这个值 ...

具体有教程讲过么?
另外我已经在连续动作的目标主题名设置为2级规则的主题名了 不知道为什么2级规则集搜的时候1级规则的连续动作没生效。
举报 使用道具
17#
Fuller 管理员 发表于 2016-10-8 15:50:01 | 只看该作者
ray_zhurui 发表于 2016-10-8 11:38
具体有教程讲过么?
另外我已经在连续动作的目标主题名设置为2级规则的主题名了 不知道为什么2级规则集搜 ...

1级规则 -》2级规则,是这样的顺序关系,我不明白“2级规则集搜的时候1级规则的连续动作没生效”,2级不会返回来影响1级,你是不是说错?
举报 使用道具
18#
ray_zhurui 中级会员 发表于 2016-10-8 16:07:17 | 只看该作者
Fuller 发表于 2016-10-8 15:50
1级规则 -》2级规则,是这样的顺序关系,我不明白“2级规则集搜的时候1级规则的连续动作没生效”,2级不 ...

1级连续动作不是选了近1年嘛,但是2级动作还是在默认的页面3个月里采集内容
举报 使用道具
19#
ym 版主 发表于 2016-10-8 16:44:13 | 只看该作者
ray_zhurui 发表于 2016-10-8 16:07
1级连续动作不是选了近1年嘛,但是2级动作还是在默认的页面3个月里采集内容 ...

说明第一级规则就没有点击到“一年”,检查一下一级规则的连续动作,看看是xpath还是高级设置的问题
举报 使用道具
20#
Fuller 管理员 发表于 2016-10-8 17:12:50 | 只看该作者
ray_zhurui 发表于 2016-10-8 16:07
1级连续动作不是选了近1年嘛,但是2级动作还是在默认的页面3个月里采集内容 ...

主题名 lhbyytlog  ,能点击 “一年”,你遇到新问题了?

点击以后要等很久才能出现数据,要用会员中心的调度参数“延迟抓取时间”进行控制,不要抓早了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-4-24 22:15