|
本帖最后由 dieter_zk 于 2018-11-8 19:52 编辑
报告:
刚才同时使用了“纯文本内容”还有内容表达式“//*[@class='atc-TextParagraph']|//*[@class='atc-SubHeadline']|//*[@class='First atc-TextParagraph']”,现在所有段落和小标题都能抓下来了,而且按顺序,真是前进了一大步啊!残留一个小问题:抓下来的段与段之间,小标题与段之间都是直接联接起来了,没有空格,造成的结果如图:
比如第3个红圈,auf和Der本来是两个词,auf位于段(小标题)尾,Der位于段首,现在两个词粘在一起了,这在机器分词判断的时候会认为是一个词。第1个和第2个红圈也都段尾词与段首词直接相连,同理。怎样才能避免这种小瑕疵出现呢?
老师辛苦了!Gooseeker真赞!我因为工作的原因可能以后会经常用到的,我已经把它推荐给了朋友圈,大家先摸索一下。谢谢!
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|