抓取的文本之间由于没有符号区分连成一句区分不开
举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2016-4-16 10:08

沙发
willgowell 初级会员 发表于 2016-4-15 15:56:50 | 只看该作者
C:\Users\Administrator\Desktop\123.png

123.png (9.59 KB, 下载次数: 859)

123.png
举报 使用道具
板凳
willgowell 初级会员 发表于 2016-4-15 15:59:02 | 只看该作者
上图每个A标签下都对应一个关键词,但是没有符号区分,导致最终几个关键字汇成了一句不通顺的话
举报 使用道具
地板
Fuller 管理员 发表于 2016-4-15 15:59:38 | 只看该作者

贴图的话可以点击右边的 高级模式 ,那么贴图就不容易出现错误。

通常我们推荐在抓取结果处理过程再去分开,因为采集过程可用的字符串函数有限。比如,用substring-after(), substring-before(),可以在百度上搜索一下 xpath字符串函数 ,数量较少
举报 使用道具
5#
Fuller 管理员 发表于 2016-4-15 16:00:40 | 只看该作者
willgowell 发表于 2016-4-15 15:59
上图每个A标签下都对应一个关键词,但是没有符号区分,导致最终几个关键字汇成了一句不通顺的话 ...

你的意思是把每个A单独存放?
举报 使用道具
6#
Fuller 管理员 发表于 2016-4-15 16:01:08 | 只看该作者
每个A要单独存放的话,定义一个样例复制规则
举报 使用道具
7#
willgowell 初级会员 发表于 2016-4-15 16:01:48 | 只看该作者
Fuller 发表于 2016-4-15 15:59
贴图的话可以点击右边的 高级模式 ,那么贴图就不容易出现错误。

通常我们推荐在抓取结果处理过程再去分 ...

就是说抓取完成后再去区分吗,那样的话不就是成了分词了。。,我可能没理解您的意思
举报 使用道具
8#
willgowell 初级会员 发表于 2016-4-15 16:04:24 | 只看该作者
Fuller 发表于 2016-4-15 16:01
每个A要单独存放的话,定义一个样例复制规则

对对,可以对每个A分别放,因为要抓的是中文关键词和英文关键词然后让他们对应起来,所以分别放可能更好操作
举报 使用道具
9#
willgowell 初级会员 发表于 2016-4-15 16:08:23 | 只看该作者
Fuller 发表于 2016-4-15 16:01
每个A要单独存放的话,定义一个样例复制规则

定义样例复制不是只有容器才能定义么,而且要抓取的内容分别放在两个SPAN中,样例复制的话只能复制一个吧
举报 使用道具
10#
Fuller 管理员 发表于 2016-4-15 16:13:38 | 只看该作者
willgowell 发表于 2016-4-15 16:08
定义样例复制不是只有容器才能定义么,而且要抓取的内容分别放在两个SPAN中,样例复制的话只能复制一个吧 ...

样例复制规则是要在容器节点上做的,因为整理箱允许定义树状的结构,也就是在内部可以有很多层容器节点,所以,样例复制可以在内部容器节点做映射,不限于最顶层容器。

你说的英文和中文的对应我没有明白,不知道在网页上是怎样布局的。如果中文在一个span,英文在一个span,那么分别为中文和英文定义容器,做样例复制,他们都是整个整理箱中的子容器。

因为是分开的子容易,要把他们的关键字对应起来需要后期处理结果文件的时候做这个工作
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 05:27