知乎作为一个社会化网络问答模式的平台,与以答案本身为核心的搜索问答模式不同,社会化问答模式更注重用户的个人知识背景,并在形式上摒弃了选择最优答案的传统做法,而鼓励更多用户围绕各类问题参与话题讨论。一方面这种模式产生的答案原创性更高、专业性更强,能够实现对隐性知识的深度挖掘;另一方面,在关注机制的作用下,社会化问答平台内构成了众多基于真实人际关系的、复杂交错的社会网络,对这种网络形态进行研究有利于解释信息在社会化问答平台的传播方式,掌握社群网络中观点和意见的形成规律。 此前我们分享了一篇内容分析论文案例:网络问答社区“知乎”的知识分享与传播行为研究。 这篇论文将社会网络分析应用于问答社区,辅以内容分析法,将目前国内发展势头最为迅猛的网络问答社区“知乎”作为分析对象,将成员进行知识分享时的互动关系视为社会网络关系,并利用社会网络指标将论坛成员的互动关系量化,探讨成员在知识分享活动中的互动模式,从而探究“知乎”网络问答社区的成员知识分享与传播行为。 分析知乎所需的数据,可以使用GooSeeker知乎快捷采集来收集。今天我们就具体讲解怎样使用快捷采集进行知乎关键词搜索采集。 1、安装和下载GooSeeker网络爬虫软件 GooSeeker数据管家是最新版网络爬虫软件,相对于被高校师生和研究机构广泛接受的V9版网络爬虫软件,数据管家可看作“增强版爬虫软件”,因为界面做了大幅度优化,操作更加便捷。 数据管家实际是一个特殊的浏览器,具有爬虫功能和数据分析功能的浏览器。 安装完毕,数据管家会自启动。关闭数据管家后,要再次启动,可双击桌面上的数据管家图标。 2,登录爬虫软件和集搜客官网 GooSeeker数据管家(爬虫软件)第一次运行会提示输入账号和密码,一定要正确输入,否则不会启用网络爬虫功能,只是作为一个普通浏览器。 如果一开始没有自动显示出来官网网页,手工打开集搜客官网https://www.gooseeker.com,无论是自动显示的还是手工打开官网,都会提示自动同步登录,确认的话,就省去手工在网页上登录会员中心了。 登陆爬虫,登陆会员中心(注意爬虫账号和会员中心账号一定要一致)完成后,要检查是否已经连上服务器,绿勾表示连接成功,红勾表示未连接成功。 3,登陆知乎网站 根据使用经验,采集知乎之前,需要先登录知乎网站,才能更多的浏览完整内容。 在数据管家新开一个页签,在新页签打开知乎网站 https://www.zhihu.com,一般直接用手机验证码就可以。 4,进入快捷采集 点击数据管家左侧边栏的“快”按钮,进入快捷采集。 5,选择合适的快捷工具 根据要采集的网页,选择 类别 - 网站 - 网页。 对于知乎关键词搜索结果来说,就是点击:社交 - 知乎 - 知乎_关键词搜索结果列表_内容 如下图所示,可以打开示例页面看看,确保后面操作时,添加的链接和示例页面类似。或者浏览网页下方的示例数据,进一步了解选定的快捷工具是否满足要求。 6,操作步骤 6.1 获得网址 在知乎的搜索页面上,输入要搜索的关键词,点击搜索,直接把搜索后得到的网址复制出来就可以了。比如搜索“知识图谱”,复制出来的网址就是:https://www.zhihu.com/search?type=content&q=%E7%9F%A5%E8%AF%86%E5%9B%BE%E8%B0%B1 6.2 粘贴网址,启动采集 把上一步得到的网址用Ctrl+v粘贴到快捷工具的网址输入栏,启动采集。 6.3 采集中的爬虫窗口 点击获取数据之后,数据管家自动弹出两个采集窗口(窗口右下方有绿色的状态球),一个窗口加载网页,采集数据,一个窗口打包上传数据。两个采集窗口工作时,都不能关闭。 6.4 打包下载数据 数据管家在弹出采集窗口的同时,还弹出了一个快捷采集数据管理窗口。 采集完成后,采集状态会从橙色的“采集中”,变成绿色的”已采集”。然后打包下载数据,下载下来的数据一般保存在电脑的下载文件夹。 如果,采集不成功,采集状态会变成红色的“已停止”,这时,要检查 1. 添加的链接是否和样本页面类似; 2. 需要提前登陆的网站,是否已经登陆; 再重新采集一遍,注意观察采集窗口,网页是否正常加载,如果网页正常加载,但仍然采集失败,请在论坛或者QQ群联系集搜客官方,我们会及时测试维护这些工具。 7,采集到的数据 知乎关键词搜索采集的样例数据: |