期望效果: 定期抓取数据列表线索的数据. 使用到如下两个主题: 1. DFamily_罗列影片排期与影评_Google 2. DFamily_影片排期与影评_Google crontab.xml片段如下: <?xml version="1.0" encoding="UTF-8"?> <crontab> <thread name="DFamily_罗列影片排期与影评_Google周期提取"> <parameter> <auto>true</auto> <start>10</start> <period>20</period> <waitOnload>false</waitOnload> <minIdle>2</minIdle> <maxIdle>10</maxIdle> </parameter> <step name="renewClue"> <theme>DFamily_罗列影片排期与影评_Google</theme> </step> <step name="crawl"> <theme>DFamily_罗列影片排期与影评_Google</theme> <loadTimeout>30</loadTimeout> <lazyCycle>3</lazyCycle> <updateClue>true</updateClue> <dupRatio>80</dupRatio> <depth>-1</depth> <width>-1</width> <renew>false</renew> <period>0</period> </step> <step name="crawl"> <theme>DFamily_影片排期与影评_Google</theme> <updateClue>false</updateClue> <dupRatio>80</dupRatio> <depth>-1</depth> <width>-1</width> <renew>false</renew> <period>0</period> <resumePageLoad>true</resumePageLoad> <resumeMaxCount>3</resumeMaxCount> </step> </thread> </crontab> 抓取结果描述: 1. 能成功抓取主题为"DFamily_罗列影片排期与影评_Google"的结果文件 2. 抓取日志窗口出现如下消息:Duplication ratio is over the threshold.The pipe line stops.处理器名称:ExtractSpiderClue_Simp 3. 没有预期的抓取到主题为"DFamily_影片排期与影评_Google"的结果文件. 说明:手工方式使用,能正常抓取这两个主题的结果文件. 请问是不是crontab.xml文件配置有问题?还是有其他方面需要注意的呢? 望请回复指引. 谢谢.
关闭重复率检查
在主题“DFamily_罗列影片排期与影评_Google”的crawl步,将参数dupRatio设置成100,就可以关闭重复率检查。 如果设置成80,那么,如果为主题“DFamily_影片排期与影评_Google”提取线索时,发现有80%的重复,就停止了。设置成100就不检查了。
只有周期性提取可以通过设置该参数关闭检查,手工提取时没有界面设置可以关闭该检查。
感谢回复
已经可以了,谢谢您的协助.
另外:了解下是否还有关于周期性抓取需要注意的事项.
周期性抓取的参数
周期性抓取的参数说明都在文章:http://www.gooseeker.com/cn/node/technology/files/pss。 每当有新功能加入都会修改这个文章。