我需要从百度上输入关键词,将搜索结果采集下来。可以么
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2021-5-6 10:46

wangyong 版主 发表于 2021-5-6 10:46:49 | 显示全部楼层
集搜客数据管家快捷采集可以直接采集百度搜索结果内容1,安装集搜客数据管家,从左侧工具条进入快捷采集,选择百度网页关键词搜索结果
数据管家-百度.png
2,输入要采集的关键词搜索链接,例如:https://www.baidu.com/s?wd=%E8%8 ... 0&rsv_sug4=2124
同时选择要采集的页数,最后点击“获取数据”,即可启动爬虫采集窗口开始采集。
3,在快捷采集管理后台中观察到采集状态为“已采集”后,点击打包按钮下载Excel格式的数据
百度搜索-采集管理.png
4,数据展示:
百度搜索-Excel.png
举报 使用道具
quyixuan 金牌会员 发表于 2016-9-28 11:42:25 | 显示全部楼层
可以,做规则采集就行了
举报 使用道具
TonyJiang 高级会员 发表于 2016-9-28 11:42:47 | 显示全部楼层
quyixuan 发表于 2016-9-28 11:42
可以,做规则采集就行了

不需要配置内容页面的模板么
举报 使用道具
quyixuan 金牌会员 发表于 2016-9-28 11:43:09 | 显示全部楼层
TonyJiang 发表于 2016-9-28 11:42
不需要配置内容页面的模板么

规则就是采集数据的模板,去看教程掌握做规则
举报 使用道具
TonyJiang 高级会员 发表于 2016-9-28 11:43:32 | 显示全部楼层
quyixuan 发表于 2016-9-28 11:43
规则就是采集数据的模板,去看教程掌握做规则

问题是搜索结果页面,不是来自同一个网站啊,这个怎么配置模板呢
举报 使用道具
quyixuan 金牌会员 发表于 2016-9-28 11:43:58 | 显示全部楼层
TonyJiang 发表于 2016-9-28 11:43
问题是搜索结果页面,不是来自同一个网站啊,这个怎么配置模板呢

不用管是否来自同一个网站
只要考虑规则能否适应
如果各个网站的网页结构差别很大,只能做一个最通用的规则,就是把html的body内的内容都存下来,不分详细的字段,这就跟拷站程序一样了
举报 使用道具
TonyJiang 高级会员 发表于 2016-9-28 11:44:15 | 显示全部楼层
quyixuan 发表于 2016-9-28 11:43
不用管是否来自同一个网站
只要考虑规则能否适应
如果各个网站的网页结构差别很大,只能做一个最通用的规 ...

明白了。谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 08:29