最后登录 1970-1-1
smthsiwei 发表于 2015-10-20 19:22 失败了会retry吗? 我只有一个线索,不能让它失败,失败了也要重新抓的。
Fuller 发表于 2015-10-10 22:11 1,要指定启动时间,目前只能用企业版 2,要重复全量抓取,那么在第一级,dupRatio=100, updateClue=true; ...
最后登录 2024-12-19
smthsiwei 发表于 2015-10-26 19:44 增量抓取不成功。 现在是我只需要监控一个固定的页面有没有新主题发布,设置depth=1,dupRatio=50,updat ...
smthsiwei 发表于 2015-10-26 19:41 必须用crontab,虽然每个主题只有一个网页,但好多主题呢,手动得点死。 所以我比较关心抓失败了以后是不是 ...
Fuller 发表于 2015-10-26 23:46 只有一个网页?要翻页抓取?depth=1表示连续翻页2页。应该能停下来的,用了depth以后,和dupRatio哪个先 ...
smthsiwei 发表于 2015-10-27 08:53 哦,我这没设置下级线索,下级线索的内容不太关心。应该是这个原因,一会再试试。 此外,抓取到的链接是 ...
gooseeker_info 发表于 2015-10-27 09:21 href虽然是相对地址,如果设置了下级线索,程序会自动还原成绝对地址。 你给的这个案例要测试一下才知道 ...
smthsiwei 发表于 2015-10-27 11:22 这就是我们家网站,cookieset没用的。 我的意思是把链接抓下来,保存成整理箱中间一个字段,但不希望是相 ...
发表回复 回帖并转播 回帖后跳转到最后一页
GMT+8, 2024-12-19 18:53