我购买的旗舰版,本地编辑crontab.xml中一个线程如下
<thread name="tyc">                  <!--注释:自己给thread(DS窗口)起个名字,一个thread里只有一个parameter,可有多个step-->
     <parameter>
       <type>client</type>
       <auto>true</auto>
       <start>1</start>                    <!--注释:启动DS窗口的延迟时间,是一个数字,以秒为单位,为了有效利用CPU能力,多个DS窗口的延迟时间应该不同,防止挤在一起造成拥塞。-->
       <period>10</period>                    <!--注释:period为调度周期,单位为秒, 如果要每天都采集一遍的话,就要设为86400(24X60X60)-->
       <waitOnload>false</waitOnload>
       <minIdle>2</minIdle>
       <maxIdle>10</maxIdle>
     </parameter>
      
     <step name="crawl">                         <!--注释:采集第一个规则数据的step-->
       <theme>tyc_search_result_final_gx</theme>
       <loadTimeout>10000</loadTimeout>
       <lazyCycle>3</lazyCycle>
       <updateClue>true</updateClue>
       <dupRatio>100</dupRatio>                  <!--下级线索重复容忍度,用于控制新增数据采集,0表示遇到重复的下级线索就中断采集,100表示从头到尾采一遍 -->
       <timerTriggered>false</timerTriggered>
       <depth>-1</depth>                         <!--注释:控制翻页次数,-1表示不限制翻页 -->
       <width>1</width>                          <!--注释:控制一轮采集多少条线索网址 -->
       <scrollWindowRatio>2</scrollWindowRatio>  <!--滚屏速度,可正可负的整数,-1和1相同,表示不变速。小于 -1 表示降低速度,大于1 表示提高速度 -->
       <scrollMorePages>1</scrollMorePages>      <!--注释:控制滚屏速度,0表示不滚屏,数值越大,采集越慢,注意:抓动态网页必须滚屏 -->
       <stopOnDupCont>true</stopOnDupCont>
       <closePopup>false</closePopup>
       <allowPlugin>false</allowPlugin>
       <allowImage>true</allowImage>
       <allowJavascript>true</allowJavascript>
     </step>
   </thread>

这个任务是在2天前启动,启动后能够正常执行抓取任务,但今天我重新导入一条线索,就不能抓取,截图如下

请问怎么解决?

举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2017-6-23 10:48

沙发
shenzhenwan10 金牌会员 发表于 2017-6-23 10:48:00 | 只看该作者
可能已经抓完了
你在DS打数机上对规则tyc_search_result_final_gx统计一下线索, 看看待抓取的线索数是不是等于0, 等于0就表示没有可抓的线索
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 14:26