制定了一个叫做“知乎美国话题Feed流抓取”的规则,包含二级的层级抓取,设置了滚屏操作(已经升级了专业版)但是想要覆盖整个知乎话题下的问题,抓取线索定义60000,只能抓10多条就自动停止了不知道为什么?
昨晚试了好多次都不行呀,在线等~~~


举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2017-11-14 23:07

umsung 高级会员 发表于 2017-11-14 17:40:10 | 显示全部楼层
本帖最后由 umsung 于 2017-11-14 17:48 编辑

运行规则时报错“没有定义下级规则”,是因为你的滚屏动作做错了。
1,你的滚屏动作的目标主题名和当前主题名不一致,爬虫找不到存在的目标主题名就不会执行连续动作,从而就会停止结束。
2,你的滚屏次数和每次滚屏数设置的都有问题,滚屏数只设置为1,就只会滚屏一次就停止了,尽量把滚屏次数设置大一些如200,把每次滚屏数设置为1
3,连续动作高级设置也有问题,设置的跨度不能大于滚屏数,否则一下就滚过去也会把次数滚完,设置为1就可以了,每次滚1个跨度。
0.jpg
2.jpg
3.jpg
举报 使用道具
Wynter瑜 新手上路 发表于 2017-11-14 17:46:27 | 显示全部楼层
umsung 发表于 2017-11-14 17:40
运行规则时报错“没有定义下级规则”,是因为你的滚屏动作做错了。
1,你的滚屏动作的目标主题名和当前主题 ...

啊好的谢谢!我现在就去更改试试
(PS:滚屏数那里的设置是我之前看http://www.gooseeker.com/doc/article-373-1.html整个教程里这样设置的,可能不适合我自己吧~)

举报 使用道具
Wynter瑜 新手上路 发表于 2017-11-14 18:28:30 | 显示全部楼层
umsung 发表于 2017-11-14 17:40
运行规则时报错“没有定义下级规则”,是因为你的滚屏动作做错了。
1,你的滚屏动作的目标主题名和当前主题 ...

刚刚在抓线索时设置20小样本试了下感觉没有问题了,但是一设置成很大的线索数(1000+)又开始只有两页就停止抓取了。
检查了刚刚的问题都解决了,难道是我规则管理里基本参数设置的有问题?



2.png
1.png
举报 使用道具
umsung 高级会员 发表于 2017-11-14 18:52:16 | 显示全部楼层
延迟抓取时间设置大一点,设置为60,超时等待时间设置为120,你的规则连续滚屏动作的设置改过来没有? 如果你用爬虫群设置了滚屏,就不用再设置连续动作滚屏了。
举报 使用道具
Wynter瑜 新手上路 发表于 2017-11-14 19:41:21 | 显示全部楼层
umsung 发表于 2017-11-14 18:52
延迟抓取时间设置大一点,设置为60,超时等待时间设置为120,你的规则连续滚屏动作的设置改过来没有? 如果 ...

用爬虫群抓取还是抓不全,一级规则抓完停止也只不到总数据量1/10,二级的集群抓取可能也是因为一级不顺利,没办法抓全(二级没有开启调度,直接用的集群)
总是会半路停止显示没有新的线索,现在延迟的时间也设置更大了,不知道是不是因为重复的问题?(知乎有的动态流有相同的问题出现,但是推荐的答案是不一样的)
我的一级规则是“知乎美国话题Feed流抓取"
二级规则是“知乎美国

举报 使用道具
Fuller 管理员 发表于 2017-11-14 22:47:00 | 显示全部楼层
Wynter瑜 发表于 2017-11-14 19:41
用爬虫群抓取还是抓不全,一级规则抓完停止也只不到总数据量1/10,二级的集群抓取可能也是因为一级不顺利 ...

我加载了一级规则看了,在你的一级规则里面,下级线索的主题名是 知乎美国2 ,并不是你说的 知乎美国,所以,你想采集 知乎美国,肯定会没有线索

另外,一级规则的整理箱上,你做样例复制映射的时候,把第二条作为第一个样例,这样就采集不到第一条数据,你是特意这样配置的吗?
举报 使用道具
Wynter瑜 新手上路 发表于 2017-11-14 23:02:45 | 显示全部楼层
Fuller 发表于 2017-11-14 22:47
我加载了一级规则看了,在你的一级规则里面,下级线索的主题名是 知乎美国2 ,并不是你说的 知乎美国,所 ...

啊知乎美国2是我晚上又新做了一个规则更改的,因为这个二级规则在集搜的时候总是显示匹配错误
那个规则一的样例复制,我以为只要锁定某一个DIV就可以了,看来还是要从第一个开始啊,这个是我的问题~

现在一级规则的问题已经解决了,就是规则二在集搜后始终显示匹配错误
(这么晚你们还在工作好辛苦啊)

举报 使用道具
Fuller 管理员 发表于 2017-11-14 23:07:26 | 显示全部楼层
Wynter瑜 发表于 2017-11-14 23:02
啊知乎美国2是我晚上又新做了一个规则更改的,因为这个二级规则在集搜的时候总是显示匹配错误
那个规则一 ...

知乎的网页是相当规范的,每个重要的html内容都有class属性,所以,应该用上定位标志映射,具体参看:http://www.gooseeker.com/doc/article-344-1.html
这样就能大大提高抓取的精度
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 07:18