本帖最后由 ym 于 2015-9-25 16:07 编辑

问1:我的规则总是测试没问题,但是在打数机出来的结果就不对了,为什么

答1:MS谋数台上,内容都是加载稳定了下来后才采集,DS打数机要提高速度,没有过多等待,如果要确保一个信息一定要采集到,就要设置“关键内容”

问2:用了关键内容之后就是等一段时间,然后提示失败:等待超时

答2:失败的话说明规则与网页不匹配,对于个别网页,可以记住日志中的线索编号,加载到MS谋数台上去查找原,工具->加载规则->按线索号,加载后会提示错误,要根据网页的具体情况调整映射关系

问3:总是这两个出不来结果
QQ图片20150925154143.png

答3:商品平分这些内容,都是延迟加载的,如果网络不够,这些信息很久也显示不出来,你的截图的最后一行那些数字都是这样,为了确保抓取成功,就要多等些时间

问4:能说下错误信息的原因
QQ图片20150925155525.png

答4:整理箱顺序为2、7、9、10的抓取内容没有定位到。定位一个节点用xpath,这里表示4个抓取内容的xpath不适合,那么在工作台上,这些抓取内容对应的DOM节点就找不到,处于未映射状态。这个提示详细列出了xpath表达式,主要是用于查找原因。

问5:这种情况又要自定义XPath吗,看了一些文档,说得太复杂了

答5:其中,9和10,应该比较好查找,因为是相对路径,从J_ReviewsCount那个节点开始找,这不是自定义的xpath,自动生成的也是这样。。。
2和7就比较难看了,但是,可以猜到你没有用定位标志映射,如果用了的话,也会想9和10,就容易找一个节点。
为了让抓取规则适应性提高,尽量用上定位标志映射,既映射内容也映射定位标志,那么就会想9和10,xpath会很短,是相对的,就不容易失败。4个同时失败,很可能就是2和7导致的


问6:我大致知道了,那些是在自动下拉框出现的内容。鼠标移动到这个地方,会自动出现内容,而我要采集的内容就在这个自动弹出表里面这种情况怎么弄呀
QQ图片20150925160114.png

答6:要用开发者模式写自定义过程,这个功能虽然开放了,但是还只是内测阶段。
鼠标悬浮到那里以后,按alt键,用上下键选择文件菜单中的冻结页面,就会把它冻结住,就能定义规则了,但是DS打数机有个环节目前还没有测试好。



举报 使用道具
| 回复

共 0 个关于本帖的回复 最后回复于 2015-9-25 15:26

您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 10:23