这几天在抓看准网员工点评数据的时候,抓了大约100条以后老是抓取重复数据,大家有知道怎么回事的么?
举报 使用道具
| 回复

共 16 个关于本帖的回复 最后回复于 2016-9-6 16:26

沙发
Fuller 管理员 发表于 2016-9-6 09:05:12 | 只看该作者
我估计你在做翻页抓取,有些网页即使翻页到底了,还能继续点击“下一页”,遇到这种情况,需要选择DS打数机的菜单 高级 -》 终点标志 -》 重复内容 ,遇到重复内容就中断
举报 使用道具
板凳
1378099730 初级会员 发表于 2016-9-6 09:20:15 | 只看该作者
Fuller 发表于 2016-9-6 09:05
我估计你在做翻页抓取,有些网页即使翻页到底了,还能继续点击“下一页”,遇到这种情况,需要选择DS打数机 ...

我选过了啊。还是这样的
举报 使用道具
地板
ym 版主 发表于 2016-9-6 09:44:03 | 只看该作者
本帖最后由 ym 于 2016-9-6 09:45 编辑

如果你是用DS打数机的‘单搜/集搜’来爬数据,就要设置‘高级菜单->终点标志->重复内容’;
如果你是用爬虫群采集的话,应该是在规则的调度设置的‘重复内容中断’选择‘是’。
详细说明参见http://www.gooseeker.com/doc/thread-1992-1-1.html
举报 使用道具
5#
1378099730 初级会员 发表于 2016-9-6 09:46:36 | 只看该作者
ym 发表于 2016-9-6 09:44
如果你是用DS打数机的‘单搜/集搜’来爬数据,就要设置‘高级菜单->终点标志->重复内容’;
如果你是用爬 ...

我用的是打印机中的单搜功能,在开始爬数据的时候就已经设置了终点标志。但是结果还是有问题。
举报 使用道具
6#
1378099730 初级会员 发表于 2016-9-6 09:49:32 | 只看该作者
ym 发表于 2016-9-6 09:44
如果你是用DS打数机的‘单搜/集搜’来爬数据,就要设置‘高级菜单->终点标志->重复内容’;
如果你是用爬 ...

截图

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
7#
ym 版主 发表于 2016-9-6 09:50:08 | 只看该作者

把规则名发出来看看
举报 使用道具
8#
1378099730 初级会员 发表于 2016-9-6 09:56:06 | 只看该作者
ym 发表于 2016-9-6 09:50
把规则名发出来看看

第一级
举报 使用道具
9#
1378099730 初级会员 发表于 2016-9-6 09:56:37 | 只看该作者
ym 发表于 2016-9-6 09:50
把规则名发出来看看

第二级
举报 使用道具
10#
ym 版主 发表于 2016-9-6 11:12:37 | 只看该作者
把规则名发出来,不用发链接,链接都是错误的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为

热门用户

GMT+8, 2025-3-13 02:14