11#
willgowell 初级会员 发表于 2016-4-15 19:10:44 | 只看该作者
Fuller 发表于 2016-4-15 16:13
样例复制规则是要在容器节点上做的,因为整理箱允许定义树状的结构,也就是在内部可以有很多层容器节点, ...

首先感谢。
要抓取的论文有好几万篇,这种方法的话抓取到的关键词是成列的,后期不好操作啊

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
12#
Fuller 管理员 发表于 2016-4-15 21:22:51 | 只看该作者
willgowell 发表于 2016-4-15 19:10
首先感谢。
要抓取的论文有好几万篇,这种方法的话抓取到的关键词是成列的,后期不好操作啊 ...

按列放的内容,如果要合在一起,也不是特别难,可以用excel的函数做这个事情

还有另外的采集方法:假设所有A放在SPAN中,可以用SPAN做内容映射,在高级设置中设置只要“文本内容”,那么会把所有A的内容放在一起,可能词与词之间没有空格,要看原网页上是否有空格。如果没有空格,就比较麻烦了,真的要进行分词才行
举报 使用道具
13#
willgowell 初级会员 发表于 2016-4-16 10:08:46 | 只看该作者
Fuller 发表于 2016-4-15 21:22
按列放的内容,如果要合在一起,也不是特别难,可以用excel的函数做这个事情

还有另外的采集方法:假设 ...

恩恩,确实是没有空格所以抓取来成了一句话。。。。。成列抓取应该可以
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-19 22:57