最近想和同学搞一个知乎数据可视化项目。首先想的是展示知乎话题树。不知道知乎是否有开放相关的API?还有知乎的爬虫条款是怎么样的,会不会我爬多了封号封IP?因为经常看到很多爬取知乎数据的文章,因此来请教各位老司机。不一定要具体代码,只要介绍一些思路和注意事项就好了。当然如果能有一个完整的demo挂到github就更好了,感激不尽!
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2019-10-28 20:03

沙发
Fuller 管理员 发表于 2016-11-11 19:24:43 | 只看该作者
实现你这种开放式需求,API几乎不会存在,一定要使用网络爬虫,网络爬虫被封IP也是十分常见的,因为这种研究项目要求网络爬虫快速地获取需要的网页,不会预留很多时间慢慢爬的。集搜客网络爬虫都考虑到了这些问题,而且有直观标注方式,对于非技术出身的用户,十分易学易用。
要建立话题树,需要对抓取下来的内容进行分词和打标,然后整理成数状的语义结构。可以用GooSeeker分词打标软件。
举报 使用道具
板凳
maomao 论坛元老 发表于 2018-4-17 12:13:59 | 只看该作者
现在,采集知乎网页,用Gooseeker数据DIY,更方便快捷,输入网址,即可采集,采集页数,可以设置
举报 使用道具
地板
DHSakura 新手上路 发表于 2019-10-28 19:27:45 | 只看该作者
知乎的话题是有向无循环图,可以考虑广度优先遍历法,从根话题开始爬。可以查知乎的V4 API。
举报 使用道具
5#
Fuller 管理员 发表于 2019-10-28 20:03:39 | 只看该作者
设置集搜客网络爬虫的“不重新激活下级线索”,那么就不会出现循环
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-24 11:23