做一个翻页抓取规则,在测试的时候翻了第二页就不翻了,而且抓下来的文件是空的。

自我对照教程检查了几次应该没问题,所以没办法请版主帮忙看看
举报 使用道具
| 回复

共 32 个关于本帖的回复 最后回复于 2016-4-13 16:55

沙发
yaohangsay 初级会员 发表于 2016-1-15 18:46:06 | 只看该作者
准确的说是,第一页能抓下来东西,然后翻到第二页就抓不动了,xml打开也是空的。

我想有一个可能的原因是我没有做样例复制导致爬虫在第二页抓不到东西所以就停住不动了。

但是我做了样例复制之后,爬虫在第一页就停下来了,抓下来的文件里也没有任何内容
举报 使用道具
板凳
gooseeker_info 金牌会员 发表于 2016-1-15 19:19:21 | 只看该作者
yaohangsay 发表于 2016-1-15 18:46
准确的说是,第一页能抓下来东西,然后翻到第二页就抓不动了,xml打开也是空的。

我想有一个可能的原因是 ...

执行如下步骤
1)在MS谋数台上加载抓取规则。
2)不要勾选MS工具条中间的 内容定位
3)在MS浏览器中点击下一页,翻到下一页
4)选择菜单 文件-》刷新网页结构
5)选择菜单 文件-》分析页面

看看能报什么错误。

应该是抓取规则适应性不强,到第二页就抓不了了。

很可能是网页上有@id的值是唯一的,要避免他,因为MS谋数台自动生成抓取规则的时候会选择@id。通常用上定位标志映射就能避免
举报 使用道具
地板
gooseeker_info 金牌会员 发表于 2016-1-15 19:19:56 | 只看该作者
定位标志映射的教程在这里:http://www.gooseeker.com/doc/thread-707-1-1.html
举报 使用道具
5#
gooseeker_info 金牌会员 发表于 2016-1-15 19:21:21 | 只看该作者
如果用了定位标志映射,还自动选择了不合适的@id或者@class,可以设定定位首选项进行避免,参看:http://www.gooseeker.com/doc/thread-939-1-1.html
举报 使用道具
6#
yaohangsay 初级会员 发表于 2016-1-15 19:31:16 | 只看该作者
gooseeker_info 发表于 2016-1-15 19:19
执行如下步骤
1)在MS谋数台上加载抓取规则。
2)不要勾选MS工具条中间的 内容定位

按您给的步骤执行下来,分析页面的结果是:“完成抓取规则的适用性检查”,这个是不是就是您说的抓取规则适应性不强?
举报 使用道具
7#
yaohangsay 初级会员 发表于 2016-1-15 19:55:48 | 只看该作者
gooseeker_info 发表于 2016-1-15 19:21
如果用了定位标志映射,还自动选择了不合适的@id或者@class,可以设定定位首选项进行避免,参看:http://ww ...

简直了,我做了定位标志映射之后,倒是可以突破第2页了,但是常常都是翻到第三或是第四页就自动停下来了,最多翻到过第6页

而且最奇怪的是:翻多少页完全没有规律可言,同样的规则,每次翻页的数量都不同
举报 使用道具
8#
Fuller 管理员 发表于 2016-1-15 21:12:37 | 只看该作者
yaohangsay 发表于 2016-1-15 19:31
按您给的步骤执行下来,分析页面的结果是:“完成抓取规则的适用性检查”,这个是不是就是您说的抓取规则 ...

这表示成功了
举报 使用道具
9#
Fuller 管理员 发表于 2016-1-15 21:14:36 | 只看该作者
yaohangsay 发表于 2016-1-15 19:55
简直了,我做了定位标志映射之后,倒是可以突破第2页了,但是常常都是翻到第三或是第四页就自动停下来了 ...

DS打数机菜单里面,配置-〉定时器触发 ,是不是被勾上了?勾上容易抓取过早,先不要勾

还有,超时参数是多少,最好60秒以上。

DS打数机底部的日志窗口中显示什么?可以发给截图
举报 使用道具
10#
yaohangsay 初级会员 发表于 2016-1-15 21:31:52 | 只看该作者
定时器触发这里我并没有勾选

在打数机的配置里,唯一勾选的一项就是全屏显示

在日志的里也没有任何输出,我刚才又运行了一次同样的规则,这次跑到15页了

打数机的截图在附件里

QQ截图20160115212933.png (493.66 KB, 下载次数: 746)

QQ截图20160115212933.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 17:23