我需要从百度上输入关键词,将搜索结果采集下来。可以么
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2021-5-6 10:46

来自 8#
wangyong 版主 发表于 2021-5-6 10:46:49 | 只看该作者
集搜客数据管家快捷采集可以直接采集百度搜索结果内容1,安装集搜客数据管家,从左侧工具条进入快捷采集,选择百度网页关键词搜索结果

2,输入要采集的关键词搜索链接,例如:https://www.baidu.com/s?wd=%E8%8 ... 0&rsv_sug4=2124
同时选择要采集的页数,最后点击“获取数据”,即可启动爬虫采集窗口开始采集。
3,在快捷采集管理后台中观察到采集状态为“已采集”后,点击打包按钮下载Excel格式的数据

4,数据展示:

举报 使用道具
沙发
quyixuan 金牌会员 发表于 2016-9-28 11:42:25 | 只看该作者
可以,做规则采集就行了
举报 使用道具
板凳
TonyJiang 高级会员 发表于 2016-9-28 11:42:47 | 只看该作者
quyixuan 发表于 2016-9-28 11:42
可以,做规则采集就行了

不需要配置内容页面的模板么
举报 使用道具
地板
quyixuan 金牌会员 发表于 2016-9-28 11:43:09 | 只看该作者
TonyJiang 发表于 2016-9-28 11:42
不需要配置内容页面的模板么

规则就是采集数据的模板,去看教程掌握做规则
举报 使用道具
5#
TonyJiang 高级会员 发表于 2016-9-28 11:43:32 | 只看该作者
quyixuan 发表于 2016-9-28 11:43
规则就是采集数据的模板,去看教程掌握做规则

问题是搜索结果页面,不是来自同一个网站啊,这个怎么配置模板呢
举报 使用道具
6#
quyixuan 金牌会员 发表于 2016-9-28 11:43:58 | 只看该作者
TonyJiang 发表于 2016-9-28 11:43
问题是搜索结果页面,不是来自同一个网站啊,这个怎么配置模板呢

不用管是否来自同一个网站
只要考虑规则能否适应
如果各个网站的网页结构差别很大,只能做一个最通用的规则,就是把html的body内的内容都存下来,不分详细的字段,这就跟拷站程序一样了
举报 使用道具
7#
TonyJiang 高级会员 发表于 2016-9-28 11:44:15 | 只看该作者
quyixuan 发表于 2016-9-28 11:43
不用管是否来自同一个网站
只要考虑规则能否适应
如果各个网站的网页结构差别很大,只能做一个最通用的规 ...

明白了。谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-23 23:04