http://m.che168.com/china/list/#pvareaid=102211

抓取入口网址如上,抓取内容为所有的二手车信息,参考http://www.gooseeker.com/doc/article-160-1.html《应用场景描述:连续滚屏抓取瀑布流网页 》设置完规则,连续动作,打数机,只抓取到几十条数据
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2018-12-26 09:37

沙发
royliu 初级会员 发表于 2016-8-19 15:58:35 | 只看该作者
[img][/img]

无标题.png (46.77 KB, 下载次数: 724)

无标题.png
举报 使用道具
板凳
Fuller 管理员 发表于 2016-8-19 16:09:25 | 只看该作者
动作名称是可选的。

每次滚屏次数是2的话,就是每次连翻两屏
总共滚屏次数是-1的话,就是一直滚不结束

其它参数的解释看这里:http://www.gooseeker.com/doc/article-196-1.html

规则名是什么?
举报 使用道具
地板
HJLing 版主 发表于 2016-8-19 16:23:36 | 只看该作者
使用连续滚屏是需要关闭DS自带的滚屏 并且是用重复内容判断结束
你的页面加载的时候就有一部分数据 你每次滚2屏 滚了3次之后并没有到达本身页面已经加载的数据底部 所以连续采集到的3个结果文件都是一样的 就会结束
你可以调一下滚屏次数 调大一点
举报 使用道具
5#
royliu 初级会员 发表于 2016-8-19 16:34:21 | 只看该作者
HJLing 发表于 2016-8-19 16:23
使用连续滚屏是需要关闭DS自带的滚屏 并且是用重复内容判断结束
你的页面加载的时候就有一部分数据 你每次 ...

谢谢,按照你说的增加滚屏次数可以了
举报 使用道具
6#
royliu 初级会员 发表于 2016-8-19 16:36:16 | 只看该作者
Fuller 发表于 2016-8-19 16:09
动作名称是可选的。

每次滚屏次数是2的话,就是每次连翻两屏

谢谢,已经OK了
举报 使用道具
7#
CassieMouse 高级会员 发表于 2018-12-26 01:07:00 | 只看该作者
HJLing 发表于 2016-8-19 16:23
使用连续滚屏是需要关闭DS自带的滚屏 并且是用重复内容判断结束
你的页面加载的时候就有一部分数据 你每次 ...

你好,你说的这个增加滚屏次数是否也适合推特的瀑布流采集呢?我下载了您的推特采集规则,您好像没有设置连续滚屏,难道推特不需要连续滚屏?
举报 使用道具
8#
Fuller 管理员 发表于 2018-12-26 09:37:32 | 只看该作者
CassieMouse 发表于 2018-12-26 01:07
你好,你说的这个增加滚屏次数是否也适合推特的瀑布流采集呢?我下载了您的推特采集规则,您好像没有设置 ...

可能这个twitter规则不断修改过程中把连续动作改掉了,twitter瀑布流确实需要设置一个连续动作。在“连续动作”工作台上做。你按照前面截图,在你下载的规则上加一下吧。高级设置中,额外延时要加上,看你访问twitter的速度决定。滚屏次数如果是-1或者是一个很大的数,比如,超过100,就会越来越慢,最后爬虫就崩溃了,窗口就会消失了,因为网页越来越大。

如果是旗舰版,可以在滚屏那里勾上清除老数据,可以有效缓解这个问题,但是也有可能因为内存不够崩溃。

修改规则的方法参看:https://www.gooseeker.com/doc/article-124-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 18:04