目录
- 快捷采集
- 初级教程(新版)
- 初级教程(老版)
- 数据转Excel处理
- 爬虫规则管理
- 高级教程(新版)
- 高级教程(老版)
- 用爬虫群分布式高效采集
- 爬虫关键知识拓展
- 问题集锦
- 实战演练案例
- 爬虫安装说明
- 关于集搜客
集搜客交流群
2000人群:点击加入
规则测试后输出重复的数据
规则写好之后,测试,输出的信息有重复的数据,或者说是空白的信息。
做规则时输出结果重复两遍是什么原因
,比如映射第一条评论,结果会搜出来同样的两条数据,不知道为什么。做了样例复制后,我看了下测试结果,貌似是所有评论爬了一遍之后,又重复得到了一遍,样本网址[url=http://www.programmableweb.comalign=center][attach]366[/attach] [/align][b]原因:[/b]是因为生成的数据规则是根据id=comments的节点来计算的,但是网页有两个id=comments节点,所以输出信息才会重复两遍 [align=align][b]解决:[/b]把整理箱改为三层结构,用第一个id=comments节点做定位标志映射给整理箱顶点,就能改变数据规则的路径
导出的excel里面的数据重复的
[attach]3327[/attach] 用excel打开时这样的。 [attach]3328[/attach] 网页里面看,没有问题。
使用连续动作出现大量数据重复
规则名称:实证_黑猫投诉平台 目前使用连续动作中的“滚屏”操作 但是实际操作后发现,数据非常多,且出现大量重复,需要使用excel进行重复删除,且任务结束后爬取数据数量小于网页实际数据数量 烦请各位专家大神解答,不胜感激!
导出数据问题:导出数据全是重复的是什么情况呢?
爬取数据开了专业版然后导出接近20万条数据,结果发现实际数据里都是重复的数据一直在反复爬取如图,一直是这一段数据在重复以及我另一个号里,经常导出数据这一栏是灰的是什么情况呢?(单独一个进程结束了左下会弹出对应进程的数据,但其他我关掉结束界面但忘记点导出数据之后就导出不了吗)?
数据重复抓取
&tid=6481&page=2#pid17661[/url] 按照帖子里面的解决方法进行设置之后,发现只有当有多个回复时,该评论的回复才能被抓下来,但是如果一个评论只有一个回复,那么这个回复就抓不下来,这是什么原因?
抓取数据重复
规则名:创维电视搜索第三级、创维电视搜索第四级 搜索出的数据大量重复 这个要怎么解决
数据重复抓取
在用翻页进行数据抓取的时候,一开始的数据会一直重复,在终点标志里面勾选了重复内容也没有用。这是什么原因啊?
这个任务爬出来的数据每条重复7次
站内站外纯牛奶分级1 这个任务爬出来的数据每条重复7次
瀑布流数据重复
你好,我在wish这个网站进行产品评论采集时,第一级网页是瀑布流的形式,每次滚屏采集到的XML文件内容前半部分产品链接都是重复的这是否会导致第二级采集评论时候也会重复采集?
抓取的数据中有重复的但是数据本身没有重复
主题名---》cq高中1 有838个数据 抓取完成也是838个数据但是这些数据有9个重复的 也就是说漏抓了9个数据
样例复制管理输出不成功
输出信息显示:加载抓取规则遇到的错误: 无法定位第二个样例 No.0
抓取网页数据重复
求大神指导,从网页抓数据生成xml,每一页有2份xml,最后一页1份。抓了339页,677份文件。怎么解决。
如何过滤重复数据?
如何过滤重复数据?