本帖最后由 ym 于 2015-9-25 16:07 编辑
问1:我的规则总是测试没问题,但是在打数机出来的结果就不对了,为什么
答1:MS谋数台上,内容都是加载稳定了下来后才采集,DS打数机要提高速度,没有过多等待,如果要确保一个信息一定要采集到,就要设置“关键内容”
问2:用了关键内容之后就是等一段时间,然后提示失败:等待超时
答2:失败的话说明规则与网页不匹配,对于个别网页,可以记住日志中的线索编号,加载到MS谋数台上去查找原,工具->加载规则->按线索号,加载后会提示错误,要根据网页的具体情况调整映射关系
问3:总是这两个出不来结果
答3:商品平分这些内容,都是延迟加载的,如果网络不够,这些信息很久也显示不出来,你的截图的最后一行那些数字都是这样,为了确保抓取成功,就要多等些时间
问4:能说下错误信息的原因
答4:整理箱顺序为2、7、9、10的抓取内容没有定位到。定位一个节点用xpath,这里表示4个抓取内容的xpath不适合,那么在工作台上,这些抓取内容对应的DOM节点就找不到,处于未映射状态。这个提示详细列出了xpath表达式,主要是用于查找原因。
问5:这种情况又要自定义XPath吗,看了一些文档,说得太复杂了
答5:其中,9和10,应该比较好查找,因为是相对路径,从J_ReviewsCount那个节点开始找,这不是自定义的xpath,自动生成的也是这样。。。
2和7就比较难看了,但是,可以猜到你没有用定位标志映射,如果用了的话,也会想9和10,就容易找一个节点。
为了让抓取规则适应性提高,尽量用上定位标志映射,既映射内容也映射定位标志,那么就会想9和10,xpath会很短,是相对的,就不容易失败。4个同时失败,很可能就是2和7导致的
问6:我大致知道了,那些是在自动下拉框出现的内容。鼠标移动到这个地方,会自动出现内容,而我要采集的内容就在这个自动弹出表里面这种情况怎么弄呀
答6:要用开发者模式写自定义过程,这个功能虽然开放了,但是还只是内测阶段。
鼠标悬浮到那里以后,按alt键,用上下键选择文件菜单中的冻结页面,就会把它冻结住,就能定义规则了,但是DS打数机有个环节目前还没有测试好。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 0 个关于本帖的回复 最后回复于 2015-9-25 15:26