GooSeeker
产品
资源
教程
视频教程
使用交流
资讯
开启辅助访问
切换风格
请
登录
后使用快捷导航
没有帐号?
立即注册
登录
|
注册
快捷导航
资讯
常见问题
使用交流
python交流
视频教程
资源发布公告
数学建模交流
论坛
›
搜客社区
›
使用交流
3
15131
如图所示,下拉到底有新内容产生的网页,如何才能抓取全部数据?
hehanbo
于 2015-10-29 08:08
发表
[复制链接]
[只看楼主]
[打印]
[上一主题]
[下一主题]
hehanbo
积分
116
精华
0
威望
52
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
本帖最后由 hehanbo 于 2015-10-29 08:24 编辑
如图所示,下拉到底有新内容产生的网页,如何才能抓取全部数据?
万幸只抓这一页。。。
我没有在教程中找到,所以请大家不吝赐教。
用打数机抓之后,发现瀑布式的网页,只要抓取速度慢于瀑布式新内容的展现速度,似乎还是可以一直抓取,所以存不存在可能性:控制抓取速度(慢一点),然后一点点把这个网页抓取完?
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
收藏
0
转播
支持
1
反对
0
举报
使用道具
|
回复
共 3 个关于本帖的回复 最后回复于 2018-4-5 09:34
gooseeker_info
积分
1743
精华
1
威望
562
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
沙发
gooseeker_info
金牌会员
发表于 2015-10-29 09:37:53
|
只看该作者
修改第二个参数 “滚屏速度”,用负数,-2,-4,-6,越来越慢。用正数 2,4,6,8,越来越快。
要用V5.3.1版本才可以。
如果往下滚动,永远没有停止,那么当前版本可能不行,但是,如果能见到网页底部,就能抓。见不到底的要V5.4.0,这周末发布。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
举报
使用道具
回复
支持
反对
流年似水
积分
283
精华
1
威望
122
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
板凳
流年似水
中级会员
发表于 2015-10-30 12:36:15
|
只看该作者
举报
使用道具
回复
Fuller
积分
23628
精华
0
威望
6522
金钱
6
最后登录 2025-1-2
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
地板
Fuller
管理员
发表于 2018-4-5 09:34:33
|
只看该作者
2018-4-4又做了一次升级,已经发展到V8.6.1了,连续滚屏已经有多个方案了
1,如果是一个长网页,滚屏能滚到底,比如,微博的页面,那么用DS打数机的连续滚屏即可。如果是手工启动的抓取,
在DS打数机的菜单上设置滚屏参数
即可。如果是爬虫群模式,
在会员中心设置这个规则的调度参数
2,如果是滚不到底的瀑布流,要用连续动作的滚屏,滚一次抓一次。具体参看
连续滚屏的教程
。
3,连续滚屏还有一种:滚轮,因为有些网页上能滚动的是某个区域,而不是整个网页,那么滚轮动作就可以把鼠标浮在那个区域,
模拟滚轮
。
如果是按住滑动的那种,那么就要联系我们进行定制
举报
使用道具
回复
支持
反对
返回列表
B
Color
Image
Link
Quote
Code
Smilies
高级模式
您需要登录后才可以回帖
登录
|
立即注册
发表回复
回帖并转播
回帖后跳转到最后一页
回复
推荐板块
使用交流
常见问题
数学建模交流
python交流
视频教程
精彩推荐
话题分析(NMF模型和LDA模型)软件的安装和
运行Apple无法验证的程序的方法
文本聚类分析软件的安装和使用方法
利用AI阅读和分析文本:扣子COZE记录用户反
在网页片段内直观标注——以B站评论采集为
热门话题
1
【集微库】微博采集工具箱使用常见问题
2
集搜客文本分词标注工具(V1版)
3
怎样使用快捷采集(以采集京东评论为例)
4
有没有办法采集机场的出租车信息?
5
获得积分的好方法:转发小程序、QQ群、微信
6
【求助】关于采集阿里巴巴国际站访客详情分
7
GooSeeker分词,情感分析和关键词抽取平台使
8
新浪微博_博主主页
9
怎样采集抖音关键词搜索后的数据
10
集搜客GooSeeker 网络爬虫版本发布公告
热门用户
Fuller
帖子:10578
访问主页>>
wangyong
帖子:1715
访问主页>>
gbkuce
帖子:0
访问主页>>
GMT+8, 2025-1-3 08:15
快速回复
快速发帖
返回顶部
返回列表
共 3 个关于本帖的回复 最后回复于 2018-4-5 09:34