经常出现抓取失败,到最后显示UPSAI然后就停了好久,13个线索失败了10个
单搜跟集搜有什么区别
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2015-9-23 16:02

沙发
ym 版主 发表于 2015-9-23 16:02:15 | 只看该作者
首先,抓取失败的情况要查看日志的消息记录,看看是什么错误。一般失败的原因都是规则与网页不匹配导致的,可以把日志中的线索编号记下来,去MS谋数台通过“工具”->“加载规则”->"按线索号”来加载网页进行分析,输入线索编号,就能分析规则是否适用于失败网页,通常网页会有细微的差别,通过调试规则,提高其适用性。


单搜与集搜的区别可以查看教程集搜客入门——DS打数机功能按钮

“单搜”是“抓取网页”的快捷键,点击“单搜”按钮就会弹出“抓取网页”的会话窗口,设置需要抓取的线索数量并确定后,就会在管理窗口中启动抓取任务,具体的抓取情况可以点击“状态面板”的“性能”查看;注意:DS打数机只允许一个主题启动“单搜”功能,若想再启动新主题的“单搜”功能,管理窗口就会中断上一个主题的抓取任务,转而抓取新主题的网页数据,即“单搜”是覆盖执行的。

“集搜”是“单搜”的升级版,每个主题都可以启动“集搜”功能,点击主题的“集搜”按钮后,弹出“抓取网页”会话窗口,设置抓取线索数量并确定后,将会自动弹出新的简化版DS打数机窗口(集搜窗口),与原来的管理窗口同时抓取网页数据,能够高效抓取数据;
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 21:16