GooSeeker 产品资源教程视频教程使用交流资讯

开启辅助访问切换风格

快捷导航

集搜客GooSeeker网络爬虫 › 官方文档 ›资讯 › 查看内容

采集网页数据

2016-9-28 10:28| 发布者: ym| 查看: 146256| 评论: 27

摘要: 一、操作导航图下面用大众点评网作为案例，给大家演示如何用直观标注的方式采集网页数据，操作步骤如下：二、案例规则+操作步骤采集规则：大众点评店铺信息（可点击下载）样本网址：http://www.dianping.com/sho ...

配套软件版本：V9及更低 集搜客网络爬虫软件

新版本对应教程：V10及更高 数据管家——增强版网络爬虫 的对应教程是《定义爬虫规则采集网页数据》

注：集搜客GooSeeker爬虫从V9.0.2版本开始，爬虫术语“主题”统一改为“任务”，在爬虫浏览器里先命名任务再创建规则，然后登录集搜客官网会员中心的“任务管理”里，就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。

一、操作步骤（观看视频）

下面用京东网站作为案例，给大家演示如何使用直观标注的功能采集网页数据，操作步骤如下：

二、案例规则+操作步骤

采集规则：京东采集网页数据演示规则（可点击下载）
样本网址：https://search.jd.com/Search?keyword=%E5%86%B0%E7%AE%B1&enc=utf-8&wq=%E5%86%B0%E7%AE%B1&pvid=2879721c10d54340a16491de943d6886
采集内容：商品名称、价格、评论数、店铺名称

第一步：打开网页

1.1，打开GS爬虫浏览器，输入网址并Enter，加载出网页后再点击“定义规则”按钮，看到一个浮窗显示出来，称为工作台，在上面定义规则；

1.2，在工作台中输入主题名，再点击“查重”，提示“该名可以使用”或“该名已被占用，可编辑：是”，就可以使用这个主题名，否则请重命名。

Tips：为了能准确定位网页信息，点击“定义规则”会把整个网页定格住，不能跳转网页链接，点击“普通浏览”，才会恢复到普通的网页浏览模式。

第二步：标注需要采集的信息

2.1，标注是针对网页的文本信息来操作的，双击目标信息就会选中它，在弹出小窗中输入标签名，打勾确认或Enter。首次标注还要输入整理箱名称，即存数据的表名。这也是标签与网页信息建立映射关系的过程。

2.2，重复上一步操作来标注地址、电话信息。

第三步：存规则，抓数据

3.1，点击“测试”，检查信息完整性。不完整的话，对整理箱的标签右击删掉后，再重新标注即可。

3.2，点击“存规则”。

3.3，点击“爬数据”，弹出DS打数机开始采集数据，测试采集规则是否有效。除了通过“爬数据”按钮来启动采集任务之外，还有其他运行方式，详见《DS打数机采集数据》。

第四步：查看数据

4.1，采集成功的数据会以xml文件的形式保存在DataScraperWorks文件夹中，详情见文章《查看数据结果》

提示：这篇教程只采集了第一个商品的数据，要采集这个页面上所有的商品信息，直接进行下篇文章《采集列表数据》 中的第三步，做样例复制。

上篇文章：《集搜客网络爬虫的核心名词》下篇文章：《采集列表数据》

若有疑问可以或

集搜客爬虫软件

刚表态过的朋友 (121 人)

上一篇：API例子：用Python驱动Firefox采集网页数据下一篇：DS打数机采集数据

相关阅读

• 【第8期培训】GooSeeker入门及HTML基础培训

• 【第9期培训】xpath基础知识培训

• 【第10期培训】XML基础知识培训

• 小白入门：直观标注采数据

• DS打数机采集数据

• 查看数据结果

• xml转换为excel

• 采集列表数据

• 翻页采集列表

• 采网址做层级采集——以大众点评为例

最新评论

评论内容分析应用 2021-3-15 10:36: 15003420035: 导出来的数据在哪里找？
这篇教程里有讲怎样导出excel：https://www.gooseeker.com/doc/article-521-1.html

评论 15003420035 2021-3-15 10:33: 导出来的数据在哪里找？

评论 Fuller 2019-1-8 18:05: laungee: 能导出到数据库吗？
可以购买企业版，能导出mysql

评论 Monday 2019-1-8 14:53: laungee: 能导出到数据库吗？
可以导出excel

评论 laungee 2019-1-8 14:51: 能导出到数据库吗？

评论 Fuller 2018-8-23 19:40: grain5698: 为什么我的浏览器没用工具那一栏
如果没有登录成功，就没有工具条，先点击登录按钮，登录成功以后，工具条上会显示定义规则按钮，这个按钮可以切换到定义规则模式

评论 Fuller 2018-8-23 18:42: grain5698: 为什么我的浏览器没用工具那一栏
下载安装了Gooseeker浏览器了？

评论 grain5698 2018-8-23 17:59: 为什么我的浏览器没用工具那一栏

评论 shenzhenwan10 2018-5-27 08:53: jennie呀: 我设置了翻页，为什么爬出来的数据还是只是第一页的啊
可能翻页设置没做好，或者是页面需要开启滚屏才能显示翻页区，你看看这篇帖子http://www.gooseeker.com/doc/thread-7071-1-1.html
如果自己解决不了，可以到使用交流版块发帖，把主题名写上，技术会帮你检查

评论 jennie呀 2018-5-27 01:46: 我设置了翻页，为什么爬出来的数据还是只是第一页的啊

评论 maomao 2018-4-28 22:37: 475462678: 我想采集网页上的表格怎么弄？比如说一个页面直接一个月的时间和空气质量
表格数据的采集是最简单的，参看这个教程：http://www.gooseeker.com/doc/article-330-1.html ，做个样例复制映射，就能把表格的所有行都采集下来

评论 475462678 2018-4-28 21:13: 我想采集网页上的表格怎么弄？比如说一个页面直接一个月的时间和空气质量

评论 maomao 2018-3-10 22:50: sieger: 连网页都加载不出来，要怎么往下进行？？？？？？
大众点评网的店铺商品变化很快。这个网页打不开就另换一个吧，比如，http://www.dianping.com/shop/97258359 ，凡是 /shop/xxxx这类网址，爬虫规则都是一样的

评论 maomao 2018-3-10 22:42: sieger: 连网页都加载不出来，要怎么往下进行？？？？？？
什么网页？用Gooseeker浏览器打不开？别的浏览器能打开吗？

评论 sieger 2018-3-10 22:21: 连网页都加载不出来，要怎么往下进行？？？？？？

评论 umsung 2017-10-27 10:00: a357581609: 为啥我层级采集不出信息，采的都是单级的信息
规则有问题，对着教程仔细检查一遍

评论 a357581609 2017-10-27 09:49: 为啥我层级采集不出信息，采的都是单级的信息

评论 STT123 2017-10-14 13:02: 挺清楚的，很好

评论 shengchengx 2017-8-31 16:13: LYS1989: 按教程做不出来呀
有什么问题么？

评论 LYS1989 2017-8-31 15:53: 按教程做不出来呀

查看全部评论(27)

相关分类

下级分类

热门排行

旧版: 网站; 社区

支持: 常见问题; 视频教程; 速查手册; 指导书

关于: 公司简介; 联系方式; 友情链接

关注: 新浪微博; 官方微信

4008-770-662
仅收市话费，周一至周日9:00-18:00
24小时在线客服

GMT+8, 2026-7-15 01:48