利用AI阅读和分析文本:使用COZE建设游记文本知识库

2024-9-2 11:38| 发布者: Fuller| 查看: 1261| 评论: 0

摘要: 能不能让AI代替我们阅读文本资料?如果只要会提问题,就可以深钻下去,充分利用AI的“智力“挖掘和探索文本的语义。我们从创建Coze的bot开始实验。

1. 起因

1.1 设想

今天,我们想通过实验回答一个问题:能不能让AI代替我们阅读文本资料?如果只要会提问题,就可以深钻下去,充分利用AI的“智力“挖掘和探索文本的语义。好吧,我们从创建Coze的bot开始实验。

1.2 回顾和计划

在上一篇文章《使用AI工具Kimi生成python代码为文本分析结果画词云图》中,我们通过提问的方式,让AI工具kimi生成了一段python代码,执行以下步骤:1.读取马蜂窝游记文本excel  2.对“正文”这一列的数据进行分词 3.生成词云图

通过那次实验,我们初步体验了AI工具的强大。

今天我们继续AI的学习,尝试一下基于AI平台COZE, 使用我们的游记文本创建个人知识库。理论上个人知识库创建后,COZE应该就“学习和理解”了文本的内容或者说语义。针对我们的提问,COZE可以根据对文本的消化理解使用“自己的语言”来回答我们的问题,这个相比以前传统的搜索应该是前进了一大步。起码可以省掉一些我们自己逐字逐句阅读文本的时间。

注:实验使用的马蜂窝游记样本数据,通过GooSeeker网络爬虫的2个快捷采集工具获取:

  1.  马蜂窝游记采集_列表
  2.  马蜂窝游记采集_详情

2. 访问扣子国内版

网址:https://www.coze.cn/ 。使用手机号或者抖音登录

3. 创建一个bot

点击左上角的“创建Bot”,在弹出的对话框里输入Bot的名字和描述

4. 模式和模型我们就保持缺省值

5. 创建个人知识库

点击“知识”下的“文本”右侧的“+”号,添加一个知识库

点击右上角的“创建知识库”,选择“表格格式”,在“名称”和“描述”里填写信息

选择本地文件上传后,表格的结构和字段会显示出来。选择包含游记文本的“正文”字段,这个字段会被分析作为后续用户提问回答的内容来源:

点击“下一步”,会看到预览数据:

数据处理完成后,点击右上角的“添加到bot”:

返回到bot编排,看到知识库下面已经有了我们添加的本地表格:

6. 启动“调试”,显示来源

为了在后面的提问和回答过程中,我们能看到回答的来源,我们点击“知识库”的设置,勾选“显示来源”。如果这样创建coze bot的目的是让bot帮我们阅读和分析文本,“显示来源“是很重要的,让我们知道每个观点和结论的来源是哪条文本:

点击右边的“调试”按钮,下面我们就可以开始提问,看看本地知识库是否起作用

7. 提问和回答

下面只做一个简单的尝试,仅作为实验。实际上,提问是最重要的,会提问才能充分发挥bot的“智力”,才能为你的文本内容和语义的挖掘提供帮助。要“打破砂锅问到底”,不妨就像做一次调查那样按照设定的路线追问问题。

提问一:武汉有哪些旅游景点?

回答:湖北省博物馆是武汉的旅游景点之一,馆内有中国规模最大的古乐器陈列馆,现有馆藏文物 26 万余件(套),以青铜器、漆木器、简牍最有特色。[1]

昙华林是武汉很文艺的地方,聚集了很多文艺清新的小店,类似于上海的田子坊,北京的 798,以及南锣鼓巷,厦门的鼓浪屿,南京的夫子庙,是武汉一种文化的象征。[1]。。。。。。

我们可以看到,如果是根据本地知识库解答的,对应的数据卡片会显示出来,并且答案的每一段或者每一句后面会有来源卡片编号。在后期整理问答内容并写分析报告的时候,来源卡片就会十分有用。

提问二:黄鹤楼的门票价格是多少?

回答:文档中未提及黄鹤楼的门票价格,无法给出确切答案。

问题三:武汉大学好玩吗

回答:文档中未明确提及武汉大学是否好玩。但提到了住在武大里面宾馆很舒服,窗外就是珞珈山;2015 年有人进行武汉赏樱之旅,说明武汉大学在樱花季作为旅游景点有一定吸引力。不过整体不能确切判断武汉大学是否好玩。

问题四:武汉有哪些小吃?

回答:武汉小吃有热干面、三鲜豆皮、辣鸭脖、鲜鱼糊汤粉等。户部巷有众多小吃,被誉为“汉味小吃第一巷”,这里有各地美食,如武汉本地小吃以及湖南臭豆腐干、海南椰汁等。[1][2][3]

8. 发布

调试觉得达到了效果,要发布出去和人分享,或者自己调用,深挖问题,帮助自己理解知识库中的文本内容,可以点击页面右上角的”发布”按钮

总结

今天我们使用马蜂窝游记文本数据,在coze扣子平台上创建一个bot和本地知识库。本地知识库创建后,在向bot提问时,bot会优先从本地知识库寻找答案。通过上面的实验,我们验证了本地知识库是有效的。Bot能帮我们理解文本的语义,减轻我们逐字逐句阅读文本的负担,那么对我们使用者的要求就是:怎样更有效地提问题,让问题深钻下去,充分发掘bot的“智力“。

后面我们会尝试使用其它的采集数据做进一步的实验。

我们会继续探索在进行阅读、数据采集、数据挖掘、数据分析时怎样使用AI来提升我们的效率。


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2024-12-23 13:17