期望效果:
定期抓取新浪微博话题页的数据.
使用到如下两个主题:
1. weibo_huati_list1: 多家上市公司话题页网址
2. weibo_huati_stock_p:对一家上市公司话题页进行翻页抓取,页面数为40
crontab.xml片段如下:
<?xml version="1.0" encoding="UTF-8"?>
true
10
10800
false
2
10
weibo_huati_list1
weibo_huati_list1
60000
3
false
10
true
-1
-1
false
0
2
10
false
false
false
weibo_huati_stock_p
60000
3
false
10
40
-1
false
0
true
3
抓取结果描述
1、成功抓取主题 weibo_huati_list1的结果文件;
2、抓取日志窗口出现如下消息:Duplication ratio is over the threshold.The pipe line stops.处理器名称:ExtractSpiderClue_Simp
3. 没有预期的抓取到主题为"weibo_huati_stock_p"的结果文件.
说明:手工方式使用,能正常抓取这两个主题的结果文件.
请问是不是crontab.xml文件配置有问题?还是有其他方面需要注意的呢?
望请回复指引.
谢谢.
preview的时候有XML标记,发布的时候就没有了。汗!
preview的时候有XML标记,发布的时候就没有了。汗!
暂不支持XML的显示
要手工将<和>转义才行,不过我们的管理人员能够看到具体内容,解答已经在上个贴子上作了回复