目录
- 快捷采集
- 初级教程(新版)
- 初级教程(老版)
- 数据转Excel处理
- 爬虫规则管理
- 高级教程(新版)
- 高级教程(老版)
- 用爬虫群分布式高效采集
- 爬虫关键知识拓展
- 问题集锦
- 实战演练案例
- 爬虫安装说明
- 关于集搜客
集搜客交流群
2000人群:点击加入
规则测试后输出重复的数据
规则写好之后,测试,输出的信息有重复的数据,或者说是空白的信息。
抓取的结果出现多个重复文件
[attach]2788[/attach] 文件大小一样的都是重复的 每个结果都出现3个
数据DIY采集的数据有重复,还自动在桌面生成文件夹
[attach]5581[/attach] [attach]5582[/attach] 采集的影评数据有重复的,还自动在桌面上生成对应的文件夹
做规则时输出结果重复两遍是什么原因
,比如映射第一条评论,结果会搜出来同样的两条数据,不知道为什么。做了样例复制后,我看了下测试结果,貌似是所有评论爬了一遍之后,又重复得到了一遍,样本网址[url=http://www.programmableweb.comalign=center][attach]366[/attach] [/align][b]原因:[/b]是因为生成的数据规则是根据id=comments的节点来计算的,但是网页有两个id=comments节点,所以输出信息才会重复两遍 [align=align][b]解决:[/b]把整理箱改为三层结构,用第一个id=comments节点做定位标志映射给整理箱顶点,就能改变数据规则的路径
导出的excel里面的数据重复的
[attach]3327[/attach] 用excel打开时这样的。 [attach]3328[/attach] 网页里面看,没有问题。
使用连续动作出现大量数据重复
规则名称:实证_黑猫投诉平台 目前使用连续动作中的“滚屏”操作 但是实际操作后发现,数据非常多,且出现大量重复,需要使用excel进行重复删除,且任务结束后爬取数据数量小于网页实际数据数量 烦请各位专家大神解答,不胜感激!
把线索激活了一遍又跑了一遍,那么再去导出数据,数据会是两次爬数据的重复的结果文件么?
在调度里我勾选了结果入库,然后把它数据抓取完成,然后没有导出,又把线索激活了一遍又跑了一遍,那么再去导出数据,数据会是两次爬数据的重复的结果文件么还是就是一次的结果文件?
导出数据问题:导出数据全是重复的是什么情况呢?
爬取数据开了专业版然后导出接近20万条数据,结果发现实际数据里都是重复的数据一直在反复爬取如图,一直是这一段数据在重复以及我另一个号里,经常导出数据这一栏是灰的是什么情况呢?(单独一个进程结束了左下会弹出对应进程的数据,但其他我关掉结束界面但忘记点导出数据之后就导出不了吗)?
数据重复抓取
&tid=6481&page=2#pid17661[/url] 按照帖子里面的解决方法进行设置之后,发现只有当有多个回复时,该评论的回复才能被抓下来,但是如果一个评论只有一个回复,那么这个回复就抓不下来,这是什么原因?
抓取数据重复
规则名:创维电视搜索第三级、创维电视搜索第四级 搜索出的数据大量重复 这个要怎么解决
数据重复抓取
在用翻页进行数据抓取的时候,一开始的数据会一直重复,在终点标志里面勾选了重复内容也没有用。这是什么原因啊?
为何第二个规则采集的数据输出到第一个规则的文件夹里
我有两个规则,一个叫“最新数据”,一个叫bestmuch,bestmuch规则采集的数据只有第一个保存到bestmuch文件夹里,剩下的全都自动保存到“最新数据”规则的文件夹里,并且文件名全都是“最新数据”。
翻页抓取,是每页都输出一个文件的吗?怎么合并到一个文件呢?
www.gooseeker.com/doc/thread-698-1-1.html]翻页采集[/url] > [/size]每页都输出一个xml,怎么合并到一个文件里 翻页抓取,是每页都输出一个文件的吗?怎么合并到一个文件呢?
excel宏文件导出数据缺失问题
用下载的excel宏文件导出的数据会有缺失,有些XML文件的数据没有被导入,这种情况怎么解决?
这个任务爬出来的数据每条重复7次
站内站外纯牛奶分级1 这个任务爬出来的数据每条重复7次