GooSeeker
产品
资源
教程
视频教程
使用交流
资讯
开启辅助访问
切换风格
请
登录
后使用快捷导航
没有帐号?
立即注册
登录
|
注册
快捷导航
资讯
常见问题
使用交流
python交流
视频教程
资源发布公告
数学建模交流
论坛
›
搜客社区
›
使用交流
3
10199
集搜客网络爬虫如何合并由连续动作生成的多层级结果
马涌河畔
于 2020-7-20 09:27
发表
[复制链接]
[只看楼主]
[打印]
[上一主题]
[下一主题]
马涌河畔
积分
1867
精华
0
威望
776
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
本帖最后由 马涌河畔 于 2020-7-20 09:37 编辑
我看到论坛常见问题版块下有一篇文章:
如何在excel中合并多层级采集结果
这个帖子讲了用层级采集的多级结果文件的合并, 合并的原理是:判断上级采集的线索网址和下级采集网址是否相同。
那对于微热点,搜狗微信文章这样的, 通过连续动作来点开下级页面的, 怎样合并呢?
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
收藏
0
转播
支持
0
反对
0
举报
使用道具
|
回复
共 3 个关于本帖的回复 最后回复于 2020-7-20 10:08
内容分析应用
积分
2165
精华
0
威望
788
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
沙发
内容分析应用
金牌会员
发表于 2020-7-20 09:34:36
|
只看该作者
对于使用连续动作来点开下级页面采集数据的, 在上级的结果里没有下级网址这个字段, 那么可以用另外2个系统字段来匹配:
上级的<currentstamp>和下级的<prestamp>
举报
使用道具
回复
支持
反对
内容分析应用
积分
2165
精华
0
威望
788
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
板凳
内容分析应用
金牌会员
发表于 2020-7-20 09:56:32
|
只看该作者
对于微热点,搜狗微信文章这样的, 如果通过连续动作来点开一个新的下级页面的, 需要开通飞掠功能,这是
旗舰版
用户才有的功能
举报
使用道具
回复
支持
反对
Fuller
积分
24021
精华
0
威望
6704
金钱
6
最后登录 2025-4-21
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
地板
Fuller
管理员
发表于 2020-7-20 10:08:30
|
只看该作者
如果设置了
爬虫群采集模式
(更多资料参看:
教程板块
左栏目录爬虫群专题),既可以采用
集搜客爬虫软件
,也可以用
数据管家
。
1,集搜客爬虫软件功能更加完备,但是将不再有大的发展
2,数据管家操作简便,是未来重点发展的软件,版本升级很快,请及时下载最新版本,现在是V1.7.3,。这个版本才具有多级规则同时打包功能。
在设置爬虫群调度参数的时候,如果是连续动作或者连续翻页,只需为第一级规则勾上“数据自动入库”。注意,普通层级采集跟连续动作和连续翻页不一样,因为普通层级采集的各级任务是分开独立运行的,层级采集速度会更快,能更充分利用多台电脑的多个爬虫窗口,但是有些网页一定要一口气点击完,只能用连续动作。
举报
使用道具
回复
支持
反对
返回列表
B
Color
Image
Link
Quote
Code
Smilies
高级模式
您需要登录后才可以回帖
登录
|
立即注册
发表回复
回帖并转播
回帖后跳转到最后一页
浏览过的版块
常见问题
回复
推荐板块
使用交流
常见问题
数学建模交流
python交流
视频教程
精彩推荐
360或火绒等杀毒软件导致GooSeeker爬虫软件
话题分析(NMF模型和LDA模型)软件的安装和
运行Apple无法验证的程序的方法
文本聚类分析软件的安装和使用方法
利用AI阅读和分析文本:扣子COZE记录用户反
热门话题
1
【集微库】微博采集工具箱使用常见问题
2
怎样使用快捷采集(以采集京东评论为例)
3
集搜客文本分词标注工具(V1版)
4
有没有办法采集机场的出租车信息?
5
获得积分的好方法:转发小程序、QQ群、微信
6
【求助】关于采集阿里巴巴国际站访客详情分
7
GooSeeker分词,情感分析和关键词抽取平台使
8
新浪微博_博主主页
9
怎样采集抖音关键词搜索后的数据
10
集搜客GooSeeker 网络爬虫版本发布公告
热门用户
Fuller
帖子:10607
访问主页>>
wangyong
帖子:1730
访问主页>>
gbkuce
帖子:0
访问主页>>
GMT+8, 2025-4-22 01:51
快速回复
快速发帖
返回顶部
返回列表
共 3 个关于本帖的回复 最后回复于 2020-7-20 10:08