7 14064

模拟点击的问题

1378099730 于 2016-9-2 11:14 发表 [复制链接]
本帖最后由 1378099730 于 2016-9-2 11:19 编辑

在做模拟点击时,第一季规则好像没有翻页,第二级规则爬出来的数据是同一页的,这是为什么呢?不知道规则哪里出错了http://www.gooseeker.com/secure/ ... p;pageNum=1&p=1
http://www.gooseeker.com/secure/ ... p;pageNum=1&p=1
这是规则的链接,恳请大神指教啊
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2016-9-5 09:03

Fuller 管理员 发表于 2016-9-2 11:48:39 | 显示全部楼层
主题名是什么?告诉我帮你检查一下
举报 使用道具
1378099730 初级会员 发表于 2016-9-3 09:03:02 | 显示全部楼层
Fuller 发表于 2016-9-2 11:48
主题名是什么?告诉我帮你检查一下

百度2模拟点击
举报 使用道具
Fuller 管理员 发表于 2016-9-3 10:52:54 | 显示全部楼层
我看了规则,只有一级,有翻页抓取(点击查看更多),点击运行正常,抓取到的结果文件会越来越大,因为越点越多。参看下图

点击抓取结果.png
举报 使用道具
1378099730 初级会员 发表于 2016-9-5 08:41:32 | 显示全部楼层
Fuller 发表于 2016-9-3 10:52
我看了规则,只有一级,有翻页抓取(点击查看更多),点击运行正常,抓取到的结果文件会越来越大,因为越点 ...

是的,就是这个问题。请问有什么解决方法吗?
举报 使用道具
1378099730 初级会员 发表于 2016-9-5 08:50:41 | 显示全部楼层
Fuller 发表于 2016-9-3 10:52
我看了规则,只有一级,有翻页抓取(点击查看更多),点击运行正常,抓取到的结果文件会越来越大,因为越点 ...

这个百度2模拟点击时二级规则,百度2是一级规则。一级规则没有翻页抓取,可是我设置了翻页也没用。不知道问题在哪
举报 使用道具
Fuller 管理员 发表于 2016-9-5 08:51:21 | 显示全部楼层
1378099730 发表于 2016-9-5 08:41
是的,就是这个问题。请问有什么解决方法吗?

因为实际网页就是这样的,爬虫程序只能原样存下来。存下来以后,在数据库中把重复内容过滤掉。

如果无限扩大下去,就会因为消耗掉所有内存,导致程序退出
举报 使用道具
1378099730 初级会员 发表于 2016-9-5 09:03:13 | 显示全部楼层
Fuller 发表于 2016-9-5 08:51
因为实际网页就是这样的,爬虫程序只能原样存下来。存下来以后,在数据库中把重复内容过滤掉。

如果无限 ...

哦哦。我懂了。我只需要把最大内存的那个文件导出来就行了。我之前是打包导出来的,导致我以为是重复抓取了。谢谢你的解答
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 00:34