用集搜客的快捷采集工具采集了一批新闻文章,现在要对这些长文做信息提取的处理,自然语言处理那套方法不会用,请问下,集搜客有什么工具可以快速提取出非结构化文本比如新闻的核心事件吗?
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2020-3-11 10:30

沙发
ym 版主 发表于 2020-3-10 17:24:39 | 只看该作者
本帖最后由 ym 于 2020-3-10 17:35 编辑

可以用集搜客采摘浏览器的摘录功能,可以直接对线上的新闻网页做人工标注,摘录出核心事件的内容,这个工具常常用作非结构化网页信息的提取,以及数据指标的整理,可以大大提高信息提取和整理的效率。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
Ccc_雨 初级会员 发表于 2020-3-10 17:30:16 | 只看该作者
嗯嗯,我试试
举报 使用道具
地板
Ccc_雨 初级会员 发表于 2020-3-10 17:31:42 | 只看该作者
摘录完之后,在哪里可以下载到摘录结果?
举报 使用道具
5#
ym 版主 发表于 2020-3-10 17:32:55 | 只看该作者
Ccc_雨 发表于 2020-3-10 17:31
摘录完之后,在哪里可以下载到摘录结果?

点击左栏右上角的统计数按钮就会进入到摘录的管理后台,在“我的摘录”里可以下载到摘录内容的数据表

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
6#
Ccc_雨 初级会员 发表于 2020-3-10 17:34:49 | 只看该作者
每次下载到的都是全部网页的摘录,是否可以按选中的书签来下载呢?
举报 使用道具
7#
ym 版主 发表于 2020-3-10 17:37:10 | 只看该作者
Ccc_雨 发表于 2020-3-10 17:34
每次下载到的都是全部网页的摘录,是否可以按选中的书签来下载呢?

目前是下载全部的摘录,我们未来版本会对下载功能做改进优化,把按书签下载考虑进去
举报 使用道具
8#
Ccc_雨 初级会员 发表于 2020-3-10 18:06:31 | 只看该作者
摘录表里,怎么把同一个网页的摘录内容合并成一行呢?我想要转换成一个网址对应一行的摘录

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
9#
ym 版主 发表于 2020-3-10 18:26:54 | 只看该作者
Ccc_雨 发表于 2020-3-10 18:06
摘录表里,怎么把同一个网页的摘录内容合并成一行呢?我想要转换成一个网址对应一行的摘录

...

用excel函数textjoin() 和filter()函数就可以实现,在excel里命名“摘录表”、“整理表”两个工作表,摘录表是下载的摘录结果,整理表是用来转换格式的,具体操作如下:
1、“摘录表”的摘录时间,默认是降序,我们要改为升序,因为要按时间顺序来拼接摘录内容

2、把“摘录表”网址列拷贝到“整理表”的A列,并且过滤重复
3、然后在B2格子里填写下面的函数式,再点击格子右下角的+符号,就可以自动填充计算下面行的摘录内容了
=TEXTJOIN("",TRUE,FILTER(摘录表!F:F,摘录表!B:B=A2,""))


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
10#
Ccc_雨 初级会员 发表于 2020-3-10 18:29:15 | 只看该作者
嗯嗯,非常感谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-22 01:26