快捷导航
求大神支招,如题,爬取结果输出信息有的评论缺漏,大部分却能完整的把该条评论完整爬取下来,样例复制选择了绝对定位,爬取过程也没有报错,但不知道为什么会出现这种情况,如输出结果截图,这两条评论,上面一条就只爬取部分,下面一条却完整的爬取下来了,整个输出结果出现好多这种情况,求大神支招啊!!!十分感谢!!! @9TSM{TIM1FS6BE%CL@OZAL.png
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2016-6-6 09:45

Fuller 管理员 发表于 2016-6-3 21:30:18 | 显示全部楼层
只要能抓到一条,就不会报错,除非所有的关键内容字段都抓不到才报错。

有的缺少,说明网页结构有细微变化,比如,里面有红色的字。又如,有的文字旁边有图,而有些没有图。要应对这些细微变化,就得仔细对比两个样例的DOM有什么不一样,如果被抓取的内容多了或者少了一层div节点,就会出问题。

一般来说,用上定位标志映射就会大大提高适应性。你把定位标志映射用上吧。
举报 使用道具
cherrylf 初级会员 发表于 2016-6-4 14:44:28 | 显示全部楼层
嗯啊,刚刚用了定位映射,但是有相同的class,抓取内容相同,研究了您发过的一篇解决相同class抓取的帖子(http://www.gooseeker.com/doc/thread-1402-1-1.html),但还是没解决, 9]5J(ED(_{VFP8A7V{VXSHB.png 如图,想分别抓取这几个DIV兄弟节点中的文本内容,但是class是一样的,参考您发的帖子上的解决办法,定位都映射到父节点DIV,然后各个DIV子节点下P进行内容映射,输出结果还是不行,输出结果空白。
举报 使用道具
Fuller 管理员 发表于 2016-6-4 15:23:13 | 显示全部楼层
cherrylf 发表于 2016-6-4 14:44
嗯啊,刚刚用了定位映射,但是有相同的class,抓取内容相同,研究了您发过的一篇解决相同class抓取的帖子( ...

1,你现在正在抓取多实例,用了样例复制映射,假设每个样例都在那个DIV[@class='section clearfix']中,那太好了,就不要用样例复制映射了,而是作定位标志映射,用这个div映射给容器节点

2,相反,如果整理箱中的每个抓取内容分散在多个这样的div下,那就不好了,因为class相同,你会发现多个字段抓取到的内容都相同,都与第一个字段相同

我估计你是第一种情况,所以,不应该用父节点去做定位标志映射。你的问题也许是在每个DIV[@class='section clearfix']中,结构稍有不同,从而有些字段抓不全

你可以把主题名告诉我,帮你看看
举报 使用道具
cherrylf 初级会员 发表于 2016-6-4 21:14:02 | 显示全部楼层
嗯啊,好嘞,主题名是:taipingyang-one,目前是在试验阶段,想学会定位映射,开始用过绝对定位但输出有缺漏,后来您说用定位映射,不过还是遇到了class相同的问题,现在输出结果都相同,琢磨蛮久还是没有解决,主题规则建立的没那么完善,,那麻烦您帮我看看哈,灰常感谢啊!!
举报 使用道具
Fuller 管理员 发表于 2016-6-4 22:47:31 | 显示全部楼层
cherrylf 发表于 2016-6-4 21:14
嗯啊,好嘞,主题名是:taipingyang-one,目前是在试验阶段,想学会定位映射,开始用过绝对定位但输出有缺 ...

网页分成左栏和右栏,他们都是有相同的class,所以会发生抓取到相同内容的问题。可以分别为左栏和右栏的内容作定位标志映射。
定位标志映射.png

左栏是用main_table_left,代表整个左栏的那个div。右栏式table_text_clearfix,是一个class,而没有用id,因为那个id是唯一的,如果使用id,就只能抓到第一个样例。

切换id和class.png

双击整理箱中的抓取内容,可以选择class,而不用id

举报 使用道具
466246948 新手上路 发表于 2016-6-5 14:34:39 | 显示全部楼层
嗯啊,好的,太厉害了,灰常灰常的感谢(N次方)
举报 使用道具
cherrylf 初级会员 发表于 2016-6-5 14:46:52 | 显示全部楼层
嗯啊,好的,,太感谢了,太厉害了,
举报 使用道具
cherrylf 初级会员 发表于 2016-6-5 20:55:14 | 显示全部楼层
Fuller 发表于 2016-6-4 22:47
网页分成左栏和右栏,他们都是有相同的class,所以会发生抓取到相同内容的问题。可以分别为左栏和右栏的 ...

嗯啊,太厉害了,那如果遇到的不是相同class,但是用绝对位置结果输出有缺漏,然后用定位映射,输出部分结果有缺漏,能不能麻烦您再帮我看看,主题名是testQ5-qczj,麻烦了,感谢感谢感谢~
举报 使用道具
ym 版主 发表于 2016-6-6 09:45:01 | 显示全部楼层
关于定位标志,请看完这两篇文章,然后就能解决问题
http://www.gooseeker.com/doc/article-177-1.html
http://www.gooseeker.com/doc/article-232-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 数据管家和集搜客网络爬虫超出配额是怎么回
  • 用GooSeeker数据管家能采集微博内容吗?
  • 怎样使用GooSeeker数据管家启动采集任务?
  • GooSeeker数据管家软件使用指导
  • 如何使用集搜客分词平台做社会网络图分析?

热门用户

GMT+8, 2020-9-30 12:51