怎么使用数据DIY采集想要采集的网站
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2017-9-1 15:38

bowieD 金牌会员 发表于 2017-9-1 15:38:56 | 显示全部楼层
本帖最后由 bowieD 于 2017-9-5 15:30 编辑

例如要采集京东商城的评论,我们可以使用数据DIY去采集,具体操作步骤如下:
1,首先在goooseeker爬虫软件中输入网址http://www.gooseeker.com/res/datadiy.html打开数据DIY;注:一定要用gooseeker打开!
2,点击选择想要采集网站的类别,如:我们要采集京东网站属于电商,就选择类别“电商”;
3,点击选择我们要采集的网站,如:要采集京东网站就选择京东;
4,点击选择采集的页面,如:我们要采集京东商城的评论,就选择“京东商品评论采集”;
5,在下方的输入框中输入要采集的网址,注:采集的网址要与样本页面具有相同网页结构,在输入框的右边可以选择采集的页数,设置完成后点击获取数据按钮;
6,点击获取数据按钮后页面跳转到会员中心-数据DIY页面,在页面的数据管理列表中就是我们要采集的数据,点击“启动采集”按钮就可以开始采集我们想要的数据了;
7,采集完成后,会员中心-数据DIY页面的数据管理列表中采集状态会变成已采集,可以通过点击“打包”按钮下载已采集的数据。数据DIY打包后下载的数据是存在电脑默认的download文件夹里,你可以点击集搜客爬虫右上角的下载图标,就可以查看到数据文件的存储路径,关闭爬虫后记录就清理了,你可以重新下载一遍。
1.jpg
3.jpg
4.jpg
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-18 13:32