注意1:如果您想找基于自然语言处理和统计学习算法的互联网言论主题聚类,请参看这篇文章《基于LDA模型的新冠疫情微博用户主题聚类图谱及主题传播路径研究》。本文不讲解主题分析,而是利用网络爬虫软件将知乎网站上的知识分类结构爬下来。 注意2:一定要用爬虫群模式运行,请仔细看下面的说明。 主题名:知乎话题结构分析 二、设置调度参数 如上图,下载了本规则以后,要进入会员中心,然后点击这个规则进入调度页面设置爬虫群参数。 如上图,要特别注意红框内的调度参数,其他参数保持不变,但是这几个一定要做相应改变。前4个红框都是为了放慢采集速度,确保抓全。最后一个红框特别重要,否则会无限循环下去。 三、运行爬虫群 一定要在爬虫群模式下运行,运行方法参看《如何运行爬虫群》,该教程也讲解了怎样导出数据。 四、导出的excel结果文件 每个整理箱一个excel表,请注意,由于程序处理的需要,excel中有很多元信息,可以忽略那些列。另外,有两个表“当前话题表”和“父级话题表”都含有一个没用的字段“ 自己话题”,使用的时候应该删除 |