怎样使用搜狐新闻搜索列表快捷工具抓取关键词搜索结果

2019-4-27 11:45| 发布者: Fuller| 查看: 13004| 评论: 0

摘要: 针对常用的网站采集需求，集搜客网络爬虫用一系列快捷采集工具满足这些需求，这样，用户就不用花时间学习网络爬虫的使用方法，只需按照快捷工具的要求，输入要采集的网址并设置要采集的网页数量，把爬虫群窗口启动起 ...

针对常用的网站采集需求，集搜客网络爬虫用一系列快捷采集工具满足这些需求，这样，用户就不用花时间学习网络爬虫的使用方法，只需按照快捷工具的要求，输入要采集的网址并设置要采集的网页数量，把爬虫群窗口启动起来，爬虫就能自动运行，最后把采集到的结果打包下载出来excel文件即可。

下面，以搜狐新闻搜索列表快捷采集工具为例，介绍怎样根据关键词，利用这些新闻类的快捷采集工具，把需要的新闻搜索到。

1，进入快捷采集界面

进入快捷采集界面的网址是：
https://www.gooseeker.com/res/datadiy.html?category=%E7%83%AD%E9%97%A8%E7%BD%91%E7%AB%99&web=%E6%96%B0%E6%B5%AA%E5%BE%AE%E5%8D%9A&rule=%20TA%E7%82%B9%E8%B5%9E%E8%BF%87%E7%9A%84%E5%BE%AE%E5%8D%9A%E6%95%B0%E6%8D%AE

如下图，是从集搜客首页的顶部菜单进入的

2，选择合适的快捷采集工具

集搜客发布了一系列常用的采集工具，而且会根据用户提出的需求，把更多采集工具分享给大家使用。那么用户首先要在一个快捷采集工具列表中找到自己需要的。这个查找过程是分成3级筛选的：

第一级：筛选类别，我们选择了“新闻”

第二级：筛选网站，我们从新闻类网站中选出“搜狐新闻”

第三级：筛选页面，我们从搜狐新闻网站中选出来“搜狐新闻搜索列表”，因为我们想根据关键词搜索到相关的新闻

选择了这三级以后，可以观察到快捷采集界面刷新了，出现输入地址的界面，需要用户把要采集的目标网址输入进来，告诉网络爬虫去爬这个网页

2，怎样生成目标网址

生成目标网址的方法有两种，根据关键字数量多少进行选择。

2.1，手工逐条生成目标网址

如果只需要搜索几个关键字，那么手工找到搜索网址就行了，方法如下：

2.1.1，点击样本网址

每个快捷采集工具都有样本网址，点击即可打开这个网页，在这个网页上换上自己需要的关键词。点击如线图红框中的网址

2.1.2，替换关键词

如下图，在搜索结果列表网页中，把关键词替换成“00后”，可观察到地址输入栏的网址变化了，把这个网址拷贝出来，你就得到了要爬的目标网址。请看下面两图，对比替换关键词前和替换后的网页，替换后红框中的网址就是目标网址。

2.2，批量生成目标网址

如果关键词很多，像2.1那样一条条生成太慢了。其实这些网址都有规律，关键词是包含在网址中的，只需把网址中的关键词替换掉就行。那么在Excel中做这个事情是最方便的。

如上图，红框的C列是要替换的关键词，把每个关键词占一行往下存。注意，这个案例除了关键词以外，还有前面一部分，那是表示在搜狗搜索中只搜索搜狐网站的内容。

而B列和C列都是固定的内容，为每一行拷贝相同的内容即可。

最后，在A列用公式 =CONCAT(B1,C1,D1)，把3列串接起来，而且把这个串接公式复制给所有行，那么就得到了所有关键字的目标网址。

3，添加网址启动采集

如下图，左箭头指向的输入框可以添加单条网址，右箭头指向的按钮可以添加多条网址，可以把excel中生成的网址全部拷贝过来。

中间箭头指向的是需要选择爬多少页，也就是为每个关键词爬多少页，可以选择全部，或者几页。

4，打包和下载数据

前3步完成后，会提示运行两个爬虫群窗口，这两个窗口一个用来爬数据，一个用来打包数据，都不要关掉。请注意：运行的时候不要缩小他们，要尽量大，如果你还想并行做其他事情，这些窗口上面可以覆盖别的窗口，但是不能缩小他们。

运行一段时间，这些窗口就不再显示网页内容了，而是提示说采集完成了，这个时候，就可以到会员中心的快捷采集界面上去打包和下载数据了。

请注意：爬虫采集完成以后，还需要一点时间转换成excel，如果没有转换完就去打包，会提示打包数量是0或者很少，你可以多等几分钟。

打包就是把采集到的数据压缩成zip文件供你下载，而下载就是下载这个zip文件。每采集完一个任务，只需打包一次，而下载可以下载很多次。

下图是打包页面

在快捷采集的数据管理那里，可以看到任务列表，每个任务都有打包按钮。另外，点击一个任务，可以看到采集到的结果统计和一部分作为样本的数据。

下图是下载页面：

5，哪里去找下载下来的数据

下载下来的数据放在“下载”文件夹，请到那里去找

鲜花

握手

雷人

路过

鸡蛋

收藏邀请

上一篇：用于清洗文本内容的Excel函数公式下一篇：集搜客网络爬虫软件实现自动网页截屏

怎样使用搜狐新闻搜索列表快捷工具抓取关键词搜索结果

最新评论

相关分类

下级分类

热门排行