不知道是什么问题

_I2{O_52K5$X0U4N`CD~5CC.png (30.87 KB, 下载次数: 612)

_I2{O_52K5$X0U4N`CD~5CC.png
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2017-4-10 17:19

沙发
Fuller 管理员 发表于 2017-4-6 10:39:33 | 只看该作者

点击窗口的这个位置,往上拉,就能显示日志区。可以看到失败日志,也有线索号,记住线索号,到MS谋数台上加载分析。方法是: 在教程首页搜索“加载分析失败线索”,能看到很多经验介绍。
举报 使用道具
板凳
搜yi搜账号 新手上路 发表于 2017-4-6 12:51:01 | 只看该作者
本帖最后由 搜yi搜账号 于 2017-4-6 13:18 编辑

您好,我看了日志之后使用了定位线索但仍然不能成功,但是只是单抓第二层的那个页面时能够抓取成功,加上第一层就打不开网页

11.png (25.24 KB, 下载次数: 607)

11.png
举报 使用道具
地板
Fuller 管理员 发表于 2017-4-6 16:11:01 | 只看该作者
搜yi搜账号 发表于 2017-4-6 12:51
您好,我看了日志之后使用了定位线索但仍然不能成功,但是只是单抓第二层的那个页面时能够抓取成功,加上第 ...

根据你的截图,看到你的xpath特别长,这样的xpath的适应性很差,在整理箱中,要用上定位标志映射

也可以把主题名贴出来,帮你诊断一下
举报 使用道具
5#
搜yi搜账号 新手上路 发表于 2017-4-6 18:15:44 | 只看该作者
谢谢您了,我刚刚又重写了一遍不知道怎么就是正常的,原来的那个还不太正常名字是“优信本田一层”,“优信本田二层”。
举报 使用道具
6#
Fuller 管理员 发表于 2017-4-6 19:03:31 | 只看该作者
搜yi搜账号 发表于 2017-4-6 18:15
谢谢您了,我刚刚又重写了一遍不知道怎么就是正常的,原来的那个还不太正常名字是“优信本田一层”,“优信 ...



这个网页上有很好的定位标志,可以用上定位标志映射,或者设置定位偏好,使用偏好class试试,设置定位偏好没有做定位标志映射那么有把握,因为手工映射是强制性的,设置偏好只是指导性的
举报 使用道具
7#
搜yi搜账号 新手上路 发表于 2017-4-8 14:26:36 | 只看该作者
您好!我这几天又进行几次爬取之后发现第一层爬取时如果 上图的#text在+attributes之外的话就得把第一层的容包弄成@href就能用了。
举报 使用道具
8#
Fuller 管理员 发表于 2017-4-8 16:35:09 | 只看该作者
搜yi搜账号 发表于 2017-4-8 14:26
您好!我这几天又进行几次爬取之后发现第一层爬取时如果 上图的#text在+attributes之外的话就得把第一层的 ...

html中的text是个独立节点,不会位于+attributes中的,+attributes在网页上其实是没有的,只是在分析DOM的时候,为了方便,把所有html元素的属性都放在+attributes下面,而text不是元素的属性
举报 使用道具
9#
搜yi搜账号 新手上路 发表于 2017-4-10 17:19:03 | 只看该作者
原来 是这样啊,我就说我为啥找不到网页上的+attributes,谢谢大神指点
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 21:59