本帖最后由 1378099730 于 2016-9-2 11:19 编辑

在做模拟点击时,第一季规则好像没有翻页,第二级规则爬出来的数据是同一页的,这是为什么呢?不知道规则哪里出错了http://www.gooseeker.com/secure/ ... p;pageNum=1&p=1
http://www.gooseeker.com/secure/ ... p;pageNum=1&p=1
这是规则的链接,恳请大神指教啊
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2016-9-5 09:03

沙发
Fuller 管理员 发表于 2016-9-2 11:48:39 | 只看该作者
主题名是什么?告诉我帮你检查一下
举报 使用道具
板凳
1378099730 初级会员 发表于 2016-9-3 09:03:02 | 只看该作者
Fuller 发表于 2016-9-2 11:48
主题名是什么?告诉我帮你检查一下

百度2模拟点击
举报 使用道具
地板
Fuller 管理员 发表于 2016-9-3 10:52:54 | 只看该作者
我看了规则,只有一级,有翻页抓取(点击查看更多),点击运行正常,抓取到的结果文件会越来越大,因为越点越多。参看下图

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
5#
1378099730 初级会员 发表于 2016-9-5 08:41:32 | 只看该作者
Fuller 发表于 2016-9-3 10:52
我看了规则,只有一级,有翻页抓取(点击查看更多),点击运行正常,抓取到的结果文件会越来越大,因为越点 ...

是的,就是这个问题。请问有什么解决方法吗?
举报 使用道具
6#
1378099730 初级会员 发表于 2016-9-5 08:50:41 | 只看该作者
Fuller 发表于 2016-9-3 10:52
我看了规则,只有一级,有翻页抓取(点击查看更多),点击运行正常,抓取到的结果文件会越来越大,因为越点 ...

这个百度2模拟点击时二级规则,百度2是一级规则。一级规则没有翻页抓取,可是我设置了翻页也没用。不知道问题在哪
举报 使用道具
7#
Fuller 管理员 发表于 2016-9-5 08:51:21 | 只看该作者
1378099730 发表于 2016-9-5 08:41
是的,就是这个问题。请问有什么解决方法吗?

因为实际网页就是这样的,爬虫程序只能原样存下来。存下来以后,在数据库中把重复内容过滤掉。

如果无限扩大下去,就会因为消耗掉所有内存,导致程序退出
举报 使用道具
8#
1378099730 初级会员 发表于 2016-9-5 09:03:13 | 只看该作者
Fuller 发表于 2016-9-5 08:51
因为实际网页就是这样的,爬虫程序只能原样存下来。存下来以后,在数据库中把重复内容过滤掉。

如果无限 ...

哦哦。我懂了。我只需要把最大内存的那个文件导出来就行了。我之前是打包导出来的,导致我以为是重复抓取了。谢谢你的解答
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为

热门用户

GMT+8, 2025-2-6 21:10