快捷导航
最近想和同学搞一个知乎数据可视化项目。首先想的是展示知乎话题树。不知道知乎是否有开放相关的API?还有知乎的爬虫条款是怎么样的,会不会我爬多了封号封IP?因为经常看到很多爬取知乎数据的文章,因此来请教各位老司机。不一定要具体代码,只要介绍一些思路和注意事项就好了。当然如果能有一个完整的demo挂到github就更好了,感激不尽!
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2018-4-17 12:13

Fuller 管理员 发表于 2016-11-11 19:24:43 | 显示全部楼层
实现你这种开放式需求,API几乎不会存在,一定要使用网络爬虫,网络爬虫被封IP也是十分常见的,因为这种研究项目要求网络爬虫快速地获取需要的网页,不会预留很多时间慢慢爬的。集搜客网络爬虫都考虑到了这些问题,而且有直观标注方式,对于非技术出身的用户,十分易学易用。
要建立话题树,需要对抓取下来的内容进行分词和打标,然后整理成数状的语义结构。可以用GooSeeker分词打标软件。
举报 使用道具
maomao 高级会员 发表于 2018-4-17 12:13:59 | 显示全部楼层
现在,采集知乎网页,用Gooseeker数据DIY,更方便快捷,输入网址,即可采集,采集页数,可以设置
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 空间密度分析不只ArcGIS还有Excel
  • 用GooSeeker爬虫实现自动点击抓取淘宝sku库
  • 挖掘淘宝爆款商品名称中的关键词
  • 怎样抓取京东和淘宝sku对应的库存?
  • 快速建立手机用户评论特征词库-GooSeeker分

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2018-5-26 19:48