Fuller 管理员 发表于 2018-11-8 14:52:23 | 显示全部楼层
dieter_zk 发表于 2018-11-8 14:42
手动修改完成后,不能“存规则”,不能点”测试“,这样的话规则就无法应用采集其他同类网页啊。。。 ...

添加其他网址不用加载规则,方法是:https://www.gooseeker.com/doc/thread-667-1-1.html

一开始没有看到还有子标题,这样就麻烦了。这样不如把整个文章的内容放一块抓取了。


举报 使用道具
dieter_zk 中级会员 发表于 2018-11-8 16:01:42 | 显示全部楼层
如果采集全文,段落和小标题确实可以同时采下来,但也会出现一些杂质文本,如图:
测试输出结果有杂质.PNG



举报 使用道具
Fuller 管理员 发表于 2018-11-8 17:03:42 | 显示全部楼层
dieter_zk 发表于 2018-11-8 16:01
如果采集全文,段落和小标题确实可以同时采下来,但也会出现一些杂质文本,如图:

你那个版本有没有这个选项?没有的话重新下载一下爬虫软件,最新版本有
纯文本20181108170256.png
举报 使用道具
dieter_zk 中级会员 发表于 2018-11-8 17:33:11 | 显示全部楼层
我的版本有这个选项,打勾之后之前的杂质去掉一些。但还有一些去不掉的,这些也是p节点的兄弟节点,如图:

测试输出结果有杂质2.PNG



举报 使用道具
dieter_zk 中级会员 发表于 2018-11-8 19:03:03 | 显示全部楼层
本帖最后由 dieter_zk 于 2018-11-8 19:52 编辑

报告:
刚才同时使用了“纯文本内容”还有内容表达式“//*[@class='atc-TextParagraph']|//*[@class='atc-SubHeadline']|//*[@class='First atc-TextParagraph']”,现在所有段落和小标题都能抓下来了,而且按顺序,真是前进了一大步啊!残留一个小问题:抓下来的段与段之间,小标题与段之间都是直接联接起来了,没有空格,造成的结果如图:
测试输出结果没有空格.PNG

比如第3个红圈,auf和Der本来是两个词,auf位于段(小标题)尾,Der位于段首,现在两个词粘在一起了,这在机器分词判断的时候会认为是一个词。第1个和第2个红圈也都段尾词与段首词直接相连,同理。怎样才能避免这种小瑕疵出现呢?

老师辛苦了!Gooseeker真赞!我因为工作的原因可能以后会经常用到的,我已经把它推荐给了朋友圈,大家先摸索一下。谢谢!


举报 使用道具
Fuller 管理员 发表于 2018-11-8 19:16:35 | 显示全部楼层
dieter_zk 发表于 2018-11-8 19:03
报告:
刚才同时使用了“纯文本内容”还有内容表达式“//*[@class='atc-TextParagraph']|//*[@class='atc-S ...

软件确实有这个问题,取文本的时候,把所有文本都接在一起存了一下。如果要加上间隔,需要出一个新版本,这两天还排不上这个任务
举报 使用道具
dieter_zk 中级会员 发表于 2018-11-8 19:54:14 | 显示全部楼层
Fuller 发表于 2018-11-8 19:16
软件确实有这个问题,取文本的时候,把所有文本都接在一起存了一下。如果要加上间隔,需要出一个新版本, ...

祝Gooseeker越来越好!祝大佬工作顺利,鸿图大展!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 15:58