快捷导航
(1)我的规则名是:洼里_数据爬取1

(2)以Li为单位,作为第一个样例复制,下一个评论的Li作为第二个样例复制,这样还是会漏掉好多评论
1.png
(3)测试的时候,如下图的评论就没有爬取到
2.png


举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2019-1-11 13:58

Fuller 管理员 发表于 2019-1-9 10:45:56 | 显示全部楼层
我看到你的规则主题名是“洼里_数据爬取”,加载后发现你设置了绝对定位,这样应该就不会有漏的了,我怀疑漏的原因是有些评论内容比较短,不需要点击展开。假设使用“偏好class”,得到的规则如下图
key20190109104209.png
最后两个抓取内容都设置了关键内容,如果抓取不到,就会整条评论都不抓。看生成的规则,如果勾选了偏好class,会自动使用DOM节点的class值,如果内容短的,可能class值不一样,就抓不到了
举报 使用道具
pipi1519 初级会员 发表于 2019-1-9 11:11:43 | 显示全部楼层
Fuller 发表于 2019-1-9 10:45
我看到你的规则主题名是“洼里_数据爬取”,加载后发现你设置了绝对定位,这样应该就不会有漏的了,我怀疑 ...

您说的我没看懂该怎么修改。
(1)我做了两个规则,第一个是“洼里_数据爬取”,但是选取的那个页面的评论全是需要点击“展开评论”的,所以我就换成第二页重新做了“洼里_数据爬取1”这个规则,在第二页里,有短评论不需要点击“展开评论”,方便测试规则是否做的合适。
(2)在“洼里_数据爬取1”里,“评论”这个抓取内容的xPath是“*//*[@class='review-words Hide' or @class='review-words']”,是希望既能爬取到不用点击“展开评论”的评论,也能爬取需要点击“展开评论”的评论,测试里的结果如下图,不知道最后输出结果时,评论是否是完整的文字?
2.png
(3)“展开评论”这个抓取内容如上图所示也能抓到内容。
(4)您评论的“评论”和“展开评论”这两个抓取内容都勾选了“关键内容”是什么意思?我是需要删除“展开评论”这个抓取内容吗?,但是我删除了“展开评论”这个抓取内容后,我点测试,还是会少很多内容,请问应该怎么修改?


举报 使用道具
pipi1519 初级会员 发表于 2019-1-9 18:53:42 | 显示全部楼层
有没有人可以帮我解决这个问题啊
举报 使用道具
Fuller 管理员 发表于 2019-1-9 19:51:18 | 显示全部楼层
pipi1519 发表于 2019-1-9 18:53
有没有人可以帮我解决这个问题啊

漏了20190109194524.png

红框这个就漏了,仔细看生成的数据规则,position()=6,而这个评论的div总共才有5个,所以,就抓不到了。你这个抓取内容又设置了“关键内容”,如果不设置关键内容,可以抓到空内容,设置了关键内容,空的就会跳过去。关键内容的设置如下图
关键内容20190109194750.png

解决方法:用定位标志映射,就能避免用position()函数
定位20190109195008.png

定位标志映射的方法:
1,选中含有class或者id值的DOM节点
2,鼠标右键菜单 定位标志映射,映射给整理箱中的抓取内容
举报 使用道具
pipi1519 初级会员 发表于 2019-1-9 20:51:22 | 显示全部楼层
Fuller 发表于 2019-1-9 19:51
红框这个就漏了,仔细看生成的数据规则,position()=6,而这个评论的div总共才有5个,所以,就抓不到了 ...

非常感谢,这个问题解决了,但是还有问题,评论部分有的需要点击“展开评论”,有的则不需要,我在“展开评论”那儿设了抓取内容,XPath是这样写的
*//*[@class='review-words Hide' or @class = 'review-words']
抓取到的内容很奇怪,会少很多文字,本该是文字的部分,出现代码,如下面两各图


请问这个该怎么解决,规则名是“洼里_数据爬取1”


举报 使用道具
pipi1519 初级会员 发表于 2019-1-9 20:54:26 | 显示全部楼层
pipi1519 发表于 2019-1-9 20:51
非常感谢,这个问题解决了,但是还有问题,评论部分有的需要点击“展开评论”,有的则不需要,我在“展开 ...

1.png 2.png
图片补充在这里


举报 使用道具
Fuller 管理员 发表于 2019-1-9 21:23:31 | 显示全部楼层
pipi1519 发表于 2019-1-9 20:54
图片补充在这里

大众点评网上的文字是加了密的,要特殊处理,目前我们还没有针对这个网站的处理程序
举报 使用道具
pipi1519 初级会员 发表于 2019-1-11 10:46:18 | 显示全部楼层
Fuller 发表于 2019-1-9 21:23
大众点评网上的文字是加了密的,要特殊处理,目前我们还没有针对这个网站的处理程序 ...

请问解决大众点评文字加密,你们近期会处理吗,最近急需爬到评论
举报 使用道具
pipi1519 初级会员 发表于 2019-1-11 10:46:28 | 显示全部楼层
Fuller 发表于 2019-1-9 21:23
大众点评网上的文字是加了密的,要特殊处理,目前我们还没有针对这个网站的处理程序 ...

请问解决大众点评文字加密,你们近期会处理吗,最近急需爬到评论
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运用爬虫群,快速采集数据
  • 集搜客网络爬虫使用proxy切换IP防封锁
  • 用网络爬虫软件自动下载网页上的文件
  • 怎样用爬虫爬取亚马逊商品评论?
  • 新版集搜客网络爬虫图片下载功能

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2019-3-23 12:08