11#
smthsiwei 初级会员 发表于 2015-10-20 19:22:45 | 只看该作者
失败了会retry吗?
我只有一个线索,不能让它失败,失败了也要重新抓的。
举报 使用道具
12#
gooseeker_info 金牌会员 发表于 2015-10-20 21:30:38 | 只看该作者
smthsiwei 发表于 2015-10-20 19:22
失败了会retry吗?
我只有一个线索,不能让它失败,失败了也要重新抓的。

连续翻页吗?一共多少页?如果页码特别多,失败的可能性很大。有两个参数可能有效:resumePageLoad 和 他后面那个。为什么不确定有效,因为当前很多网页使用ajax翻页的,一旦断了都不知道在第几页断的。

如果断了,就重新激活失败线索,再从头抓起。

如果只有一个线索,没有必要用crontab.xml
举报 使用道具
13#
smthsiwei 初级会员 发表于 2015-10-26 19:41:58 | 只看该作者
必须用crontab,虽然每个主题只有一个网页,但好多主题呢,手动得点死。
所以我比较关心抓失败了以后是不是会自动重新抓。
举报 使用道具
14#
smthsiwei 初级会员 发表于 2015-10-26 19:44:32 | 只看该作者
Fuller 发表于 2015-10-10 22:11
1,要指定启动时间,目前只能用企业版
2,要重复全量抓取,那么在第一级,dupRatio=100, updateClue=true; ...

增量抓取不成功。
现在是我只需要监控一个固定的页面有没有新主题发布,设置depth=1,dupRatio=50,updateClue=false,但仍然是每次自动抓取都把全部的页面数据重复抓下来了?
举报 使用道具
15#
Fuller 管理员 发表于 2015-10-26 23:46:56 | 只看该作者
smthsiwei 发表于 2015-10-26 19:44
增量抓取不成功。
现在是我只需要监控一个固定的页面有没有新主题发布,设置depth=1,dupRatio=50,updat ...

只有一个网页?要翻页抓取?depth=1表示连续翻页2页。应该能停下来的,用了depth以后,和dupRatio哪个先满足条件,哪个就起作用。用dupRatio的话,那么必须要有下级线索,因为软件根据抓到的下级线索网址的重复率来判断。

如果感觉没有达到预期,可以把网址贴出来我们试试
举报 使用道具
16#
Fuller 管理员 发表于 2015-10-26 23:50:18 | 只看该作者
smthsiwei 发表于 2015-10-26 19:41
必须用crontab,虽然每个主题只有一个网页,但好多主题呢,手动得点死。
所以我比较关心抓失败了以后是不是 ...

每个主题只有一个网页,然后每个都增量抓取?

要狠精细地管理哪些线索要重新抓,必须用企业版直接控制数据库。客户端用crontab的话,只有激活全部一个命令。菜单中还有激活所有

另外,通过客户端,最多激活1万条线索,也就是1万个网页,其它增强功能即将通过新版会员中心提供
举报 使用道具
17#
smthsiwei 初级会员 发表于 2015-10-27 08:53:58 | 只看该作者
Fuller 发表于 2015-10-26 23:46
只有一个网页?要翻页抓取?depth=1表示连续翻页2页。应该能停下来的,用了depth以后,和dupRatio哪个先 ...

哦,我这没设置下级线索,下级线索的内容不太关心。应该是这个原因,一会再试试。

此外,抓取到的链接是相对地址,例如<a onclick="cookieset('lastVistor',this.href+'#'+this.title,30)" href="../../guanyu/licaifuwu/6510151.shtml"  target="_blank">服务提示</a>
这种,有办法自动把href转成绝对地址的url吗?
举报 使用道具
18#
gooseeker_info 金牌会员 发表于 2015-10-27 09:21:25 | 只看该作者
smthsiwei 发表于 2015-10-27 08:53
哦,我这没设置下级线索,下级线索的内容不太关心。应该是这个原因,一会再试试。

此外,抓取到的链接是 ...

href虽然是相对地址,如果设置了下级线索,程序会自动还原成绝对地址。

你给的这个案例要测试一下才知道,因为这里面有个cookieset()函数,如果他用这个来反爬,也是很可能的。但是通常这是用来做用户行为分析的,那样就不会有什么影响。

如果确实用这个来反爬,就要用连续点击动作来抓这样的网页,直接模拟人的点击行为,就能突破反爬
举报 使用道具
19#
smthsiwei 初级会员 发表于 2015-10-27 11:22:44 | 只看该作者
gooseeker_info 发表于 2015-10-27 09:21
href虽然是相对地址,如果设置了下级线索,程序会自动还原成绝对地址。

你给的这个案例要测试一下才知道 ...

这就是我们家网站,cookieset没用的。
我的意思是把链接抓下来,保存成整理箱中间一个字段,但不希望是相对地址,希望是绝对地址。不知道是否有相应的配置可以实现?
举报 使用道具
20#
gooseeker_info 金牌会员 发表于 2015-10-27 12:07:17 | 只看该作者
smthsiwei 发表于 2015-10-27 11:22
这就是我们家网站,cookieset没用的。
我的意思是把链接抓下来,保存成整理箱中间一个字段,但不希望是相 ...

作为内容抓取下来,不会恢复成完整网址,是保持原样的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-19 22:15