如果你需要完整且全面的数据,最好每个抓取规则都设置关键内容(一个整理箱设置至少一个关键内容),这是检验规则有效性的一种方法,能知道哪些页面采集失败了,并且能从中分析出失败的原因进而修改规则,重新激活失败线索进行补采,这样就能把你需要的数据采集全。

举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2017-4-22 10:21

沙发
Fuller 管理员 发表于 2017-4-22 10:21:29 | 只看该作者
如果有些抓取内容时有时无,即使抓不到他们也不影响其他数据,那么就不要勾选抓取内容。

但是,通常需要至少设置一个关键内容。否则,DS打数机运行的时候就没有检验依据,就不知道抓取规则是否符合当前的网页结构。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-22 23:44