关于周期性抓取的问题：抓到30多页就重复抓取最后一页

期望效果:
定期抓取新浪微博话题页的数据.
使用到如下两个主题:
1. weibo_huati_list1: 多家上市公司话题页网址
2. weibo_huati_stock_p:对一家上市公司话题页进行翻页抓取，页面数为40
crontab.xml片段如下:

<?xml version="1.0" encoding="UTF-8"?>

true
10
10800
false
2
10

weibo_huati_list1

weibo_huati_list1
60000
3
false
10
true
-1
-1
false
0
2
10
false
false
false

weibo_huati_stock_p
60000
3
false
10
40
-1
false
0
true
3

抓取结果描述
1、成功抓取主题 weibo_huati_list1的结果文件；
2、抓取日志窗口出现如下消息:Duplication ratio is over the threshold.The pipe line stops.处理器名称:ExtractSpiderClue_Simp
3. 没有预期的抓取到主题为"weibo_huati_stock_p"的结果文件.

说明:手工方式使用,能正常抓取这两个主题的结果文件.

请问是不是crontab.xml文件配置有问题?还是有其他方面需要注意的呢?

望请回复指引.

谢谢.

GooSeeker

关于周期性抓取的问题：抓到30多页就重复抓取最后一页

preview的时候有XML标记，发布的时候就没有了。汗！

暂不支持XML的显示

切换语言