二、根据研究目的筛选标签词 用文本分词标注工具导入数据成功后,进入第2步筛选标签词,也就是文本分类中的特征选择和特征抽取的步骤。在这里,我们会看到按照词频降序排列的分词结果,而我们要做的是逐屏浏览,选出要研究的词语。 很多不需要的单个词由于词频很大而排在前面,大家可以根据需要过滤掉英文、数字、单个词、网址等词语。 点击词语可以查看样本数据,并且支持添加单个标签词。 点击底部的“确定”,表示确定选择哪些词语和不要哪些词语,然后自动进入下一页,也就是说,浏览并确定过的词语后面就不会再展示了,而选中的词语会记录在“筛选结果”中。 如果已有一批标签词,可以通过“增加标签词”来批量导入,省略掉第二步“筛选标签词”的过程。 |