各位大德, 我的想法原是要让CL_daily_productList_P1在每一周期中, 从天猫商品搜索页面第一页中提取前42项商品详情的线索并传送到CL_daily_dealRecord1_p1。可是, 发现传送到CL_daily_dealRecord1_p1的线索, 并非每次都是商品搜索页面中的前42项商品详情线索, 而是排序在上一轮采集完的线索之后的42个线索。查了一下crawl里的变数说明, 但还是没法理解, 请问需要变更哪一个变数呢?以下附上我的crontab:
<?xml version="1.0" encoding="UTF-8"?>
<crontab>
<thread name="TmallCL">
<parameter>
<auto>true</auto>
<start>5</start>
<period>3600</period>
<waitOnload>false</waitOnload>
<minIdle>1</minIdle>
<maxIdle>2</maxIdle>
</parameter>
<step name="renewClue">
<theme>CL_daily_productList_P1</theme>
</step>
<step name="crawl">
<theme>CL_daily_productList_P1</theme>
<loadTimeout>15000</loadTimeout>
<lazyCycle>3</lazyCycle>
<updateClue>true</updateClue>
<dupRatio>80</dupRatio>
<timerTriggered>false</timerTriggered>
<depth>1</depth>
<width>1</width>
<renew>true</renew>
<scrollWindowRatio>-1</scrollWindowRatio>
<scrollMorePages>0</scrollMorePages>
<stopOnDupCont>true</stopOnDupCont>
<allowPlugin>false</allowPlugin>
<allowImage>false</allowImage>
<allowJavascript>true</allowJavascript>
<resumePageLoad>true</resumePageLoad>
<resumeMaxCount>5</resumeMaxCount>
</step>
<step name="crawl">
<theme>CL_daily_dealRecord1_p1</theme>
<loadTimeout>15000</loadTimeout>
<lazyCycle>3</lazyCycle>
<updateClue>false</updateClue>
<dupRatio>60</dupRatio>
<timerTriggered>true</timerTriggered>
<depth>30</depth>
<width>42</width>
<renew>true</renew>
<scrollWindowRatio>-1</scrollWindowRatio>
<scrollMorePages>5</scrollMorePages>
<stopOnDupCont>true</stopOnDupCont>
<allowPlugin>false</allowPlugin>
<allowImage>false</allowImage>
<allowJavascript>true</allowJavascript>
<resumePageLoad>true</resumePageLoad>
<resumeMaxCount>3</resumeMaxCount>
</step>
</thread>
</crontab>
|
|
|
|
|
共 1 个关于本帖的回复 最后回复于 2016-1-6 10:28