针对常用的网站采集需求,集搜客网络爬虫用一系列快捷采集工具满足这些需求,这样,用户就不用花时间学习网络爬虫的使用方法,只需按照快捷工具的要求,输入要采集的网址并设置要采集的网页数量,把爬虫群窗口启动起来,爬虫就能自动运行,最后把采集到的结果打包下载出来excel文件即可。 下面,以搜狐新闻搜索列表快捷采集工具为例,介绍怎样根据关键词,利用这些新闻类的快捷采集工具,把需要的新闻搜索到。 1,进入快捷采集界面 如下图,是从集搜客首页的顶部菜单进入的 2,选择合适的快捷采集工具 集搜客发布了一系列常用的采集工具,而且会根据用户提出的需求,把更多采集工具分享给大家使用。那么用户首先要在一个快捷采集工具列表中找到自己需要的。这个查找过程是分成3级筛选的: 第一级:筛选类别,我们选择了“新闻” 第二级:筛选网站,我们从新闻类网站中选出“搜狐新闻” 第三级:筛选页面,我们从搜狐新闻网站中选出来“搜狐新闻搜索列表”,因为我们想根据关键词搜索到相关的新闻 选择了这三级以后,可以观察到快捷采集界面刷新了,出现输入地址的界面,需要用户把要采集的目标网址输入进来,告诉网络爬虫去爬这个网页 2,怎样生成目标网址 生成目标网址的方法有两种,根据关键字数量多少进行选择。 2.1,手工逐条生成目标网址 如果只需要搜索几个关键字,那么手工找到搜索网址就行了,方法如下: 2.1.1,点击样本网址 每个快捷采集工具都有样本网址,点击即可打开这个网页,在这个网页上换上自己需要的关键词。点击如线图红框中的网址 2.1.2,替换关键词 如下图,在搜索结果列表网页中,把关键词替换成“00后”,可观察到地址输入栏的网址变化了,把这个网址拷贝出来,你就得到了要爬的目标网址。请看下面两图,对比替换关键词前和替换后的网页,替换后红框中的网址就是目标网址。 2.2,批量生成目标网址 如果关键词很多,像2.1那样一条条生成太慢了。其实这些网址都有规律,关键词是包含在网址中的,只需把网址中的关键词替换掉就行。那么在Excel中做这个事情是最方便的。 如上图,红框的C列是要替换的关键词,把每个关键词占一行往下存。注意,这个案例除了关键词以外,还有前面一部分,那是表示在搜狗搜索中只搜索搜狐网站的内容。 而B列和C列都是固定的内容,为每一行拷贝相同的内容即可。 最后,在A列用公式 =CONCAT(B1,C1,D1),把3列串接起来,而且把这个串接公式复制给所有行,那么就得到了所有关键字的目标网址。 3,添加网址启动采集 如下图,左箭头指向的输入框可以添加单条网址,右箭头指向的按钮可以添加多条网址,可以把excel中生成的网址全部拷贝过来。 中间箭头指向的是需要选择爬多少页,也就是为每个关键词爬多少页,可以选择全部,或者几页。 4,打包和下载数据 前3步完成后,会提示运行两个爬虫群窗口,这两个窗口一个用来爬数据,一个用来打包数据,都不要关掉。请注意:运行的时候不要缩小他们,要尽量大,如果你还想并行做其他事情,这些窗口上面可以覆盖别的窗口,但是不能缩小他们。 运行一段时间,这些窗口就不再显示网页内容了,而是提示说采集完成了,这个时候,就可以到会员中心的快捷采集界面上去打包和下载数据了。 请注意:爬虫采集完成以后,还需要一点时间转换成excel,如果没有转换完就去打包,会提示打包数量是0或者很少,你可以多等几分钟。 打包就是把采集到的数据压缩成zip文件供你下载,而下载就是下载这个zip文件。每采集完一个任务,只需打包一次,而下载可以下载很多次。 下图是打包页面 在快捷采集的数据管理那里,可以看到任务列表,每个任务都有打包按钮。另外,点击一个任务,可以看到采集到的结果统计和一部分作为样本的数据。 下图是下载页面:
下载下来的数据放在“下载”文件夹,请到那里去找 |