如果你需要完整且全面的数据,最好每个抓取规则都设置关键内容(一个整理箱设置至少一个关键内容),这是检验规则有效性的一种方法,能知道哪些页面采集失败了,并且能从中分析出失败的原因进而修改规则,重新激活失败线索进行补采,这样就能把你需要的数据采集全。

举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2017-4-22 10:21

沙发
Fuller 管理员 发表于 2017-4-22 10:21:29 | 只看该作者
如果有些抓取内容时有时无,即使抓不到他们也不影响其他数据,那么就不要勾选抓取内容。

但是,通常需要至少设置一个关键内容。否则,DS打数机运行的时候就没有检验依据,就不知道抓取规则是否符合当前的网页结构。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 10:58