有什么好的方案爬取知乎全部话题列表？

xandy

最近想和同学搞一个知乎数据可视化项目。首先想的是展示知乎话题树。不知道知乎是否有开放相关的API？还有知乎的爬虫条款是怎么样的，会不会我爬多了封号封IP？因为经常看到很多爬取知乎数据的文章，因此来请教各位老司机。不一定要具体代码，只要介绍一些思路和注意事项就好了。当然如果能有一个完整的demo挂到github就更好了，感激不尽！

Fuller · 发表于 2016-11-11 19:24:43

实现你这种开放式需求，API几乎不会存在，一定要使用网络爬虫，网络爬虫被封IP也是十分常见的，因为这种研究项目要求网络爬虫快速地获取需要的网页，不会预留很多时间慢慢爬的。集搜客网络爬虫都考虑到了这些问题，而且有直观标注方式，对于非技术出身的用户，十分易学易用。
要建立话题树，需要对抓取下来的内容进行分词和打标，然后整理成数状的语义结构。可以用GooSeeker分词打标软件。

maomao · 发表于 2018-4-17 12:13:59

现在，采集知乎网页，用Gooseeker数据DIY，更方便快捷，输入网址，即可采集，采集页数，可以设置

DHSakura · 发表于 2019-10-28 19:27:45

知乎的话题是有向无循环图，可以考虑广度优先遍历法，从根话题开始爬。可以查知乎的V4 API。

Fuller · 发表于 2019-10-28 20:03:39

设置集搜客网络爬虫的“不重新激活下级线索”，那么就不会出现循环

有什么好的方案爬取知乎全部话题列表？

共 4 个关于本帖的回复最后回复于 2019-10-28 20:03

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

有什么好的方案爬取知乎全部话题列表？

共 4 个关于本帖的回复 最后回复于 2019-10-28 20:03

推荐板块

精彩推荐

热门话题

热门用户

共 4 个关于本帖的回复最后回复于 2019-10-28 20:03