集搜客GooSeeker网络爬虫

标题: 怎样采集人民日报图文数据库也就是人民日报的历史数据? [打印本页]

作者: 王建国    时间: 2021-3-17 11:02
标题: 怎样采集人民日报图文数据库也就是人民日报的历史数据?
怎样采集人民日报图文数据库也就是人民日报的历史数据?

作者: wangyong    时间: 2021-3-17 11:41
在集搜客快捷采集中输入链接可以直接采集到数据。
使用方法如下:
1,安装集搜客数据管家,从左侧工具条进入快捷采集,选择访问人民日报图文数据库_列表采集
输入要采集的节点关键词搜索链接,例如搜索“大数据”后的链接:http://data.people.com.cn/rmrb/s ... o=1&pageSize=50
[attach]13956[/attach]
确认提交后数据管家会自动开始采集,采集完成后,我们可以在快捷采集后台中找到该任务下载数据
下载到列表的数据,包括关键词、标题、链接、发布时间、摘要、文章关键词。
2,要继续采集到新闻详情,需要将详情链接添加到人民日报图文数据库_详情采集,添加多条网址可以选择输入多条网址按钮
[attach]13957[/attach]
添加完成后数据管家会自动开始采集,详情任务采集完成后,打包下载就可以看到新闻数据内容了
这是采集到的数据
[attach]13958[/attach]


作者: 吴吴    时间: 2022-1-6 11:44
为什么我的老是停止?是要登录人民日报的数据库才能采集嘛
作者: 小蜜蜂测试171    时间: 2022-1-6 13:15
吴吴 发表于 2022-1-6 11:44
为什么我的老是停止?是要登录人民日报的数据库才能采集嘛

采集多了的情况下需要登录账号
作者: Fuller    时间: 2022-1-6 14:51
吴吴 发表于 2022-1-6 11:44
为什么我的老是停止?是要登录人民日报的数据库才能采集嘛

需要登录的,你得有账号和密码才行。在运行爬虫任务之前,在爬虫浏览器中预先登录这个网站

作者: 吴吴    时间: 2022-1-6 17:28
Fuller 发表于 2022-1-6 14:51
需要登录的,你得有账号和密码才行。在运行爬虫任务之前,在爬虫浏览器中预先登录这个网站
...

请问这个账号怎么才能注册呀?在网上买的账号都不行

作者: Fuller    时间: 2022-1-6 17:55
吴吴 发表于 2022-1-6 17:28
请问这个账号怎么才能注册呀?在网上买的账号都不行

怎么注册,可能需要联系一下人民日报网站

作者: bakerwql    时间: 2022-6-7 12:14
吴吴 发表于 2022-1-6 17:28
请问这个账号怎么才能注册呀?在网上买的账号都不行

Hi 请问后来有买到账号吗?


作者: azure_azure    时间: 2022-11-5 12:55
你好!想麻烦问下,采集报道正文(详情)有没有不一条一条粘贴网址的办法?能否一次性采集所有正文?谢谢!
作者: gz51837844    时间: 2022-11-6 23:03
azure_azure 发表于 2022-11-5 12:55
你好!想麻烦问下,采集报道正文(详情)有没有不一条一条粘贴网址的办法?能否一次性采集所有正文?谢谢! ...

你是使用这个快捷采集吗:人民日报图文数据库_详情采集
如下图,可以一次性添加多条网址,然后开始采集:
[attach]15645[/attach]





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2