列表结构不同，使用xpath定位，但测试只能采集到第一条数据

Fuller · 发表于 2018-11-8 14:52:23

dieter_zk 发表于 2018-11-8 14:42
手动修改完成后，不能“存规则”，不能点”测试“，这样的话规则就无法应用采集其他同类网页啊。。。 ...

添加其他网址不用加载规则，方法是：https://www.gooseeker.com/doc/thread-667-1-1.html

一开始没有看到还有子标题，这样就麻烦了。这样不如把整个文章的内容放一块抓取了。

dieter_zk · 发表于 2018-11-8 16:01:42

如果采集全文，段落和小标题确实可以同时采下来，但也会出现一些杂质文本，如图：

Fuller · 发表于 2018-11-8 17:03:42

dieter_zk 发表于 2018-11-8 16:01
如果采集全文，段落和小标题确实可以同时采下来，但也会出现一些杂质文本，如图：

你那个版本有没有这个选项？没有的话重新下载一下爬虫软件，最新版本有

dieter_zk · 发表于 2018-11-8 17:33:11

我的版本有这个选项，打勾之后之前的杂质去掉一些。但还有一些去不掉的，这些也是p节点的兄弟节点，如图：

dieter_zk · 发表于 2018-11-8 19:03:03

本帖最后由 dieter_zk 于 2018-11-8 19:52 编辑

报告：
刚才同时使用了“纯文本内容”还有内容表达式“//*[@class='atc-TextParagraph']|//*[@class='atc-SubHeadline']|//*[@class='First atc-TextParagraph']”，现在所有段落和小标题都能抓下来了，而且按顺序，真是前进了一大步啊！残留一个小问题：抓下来的段与段之间，小标题与段之间都是直接联接起来了，没有空格，造成的结果如图：

比如第3个红圈，auf和Der本来是两个词，auf位于段（小标题）尾，Der位于段首，现在两个词粘在一起了，这在机器分词判断的时候会认为是一个词。第1个和第2个红圈也都段尾词与段首词直接相连，同理。怎样才能避免这种小瑕疵出现呢？

老师辛苦了！Gooseeker真赞！我因为工作的原因可能以后会经常用到的，我已经把它推荐给了朋友圈，大家先摸索一下。谢谢！

Fuller · 发表于 2018-11-8 19:16:35

dieter_zk 发表于 2018-11-8 19:03
报告：
刚才同时使用了“纯文本内容”还有内容表达式“//*[@class='atc-TextParagraph']|//*[@class='atc-S ...

软件确实有这个问题，取文本的时候，把所有文本都接在一起存了一下。如果要加上间隔，需要出一个新版本，这两天还排不上这个任务

dieter_zk · 发表于 2018-11-8 19:54:14

Fuller 发表于 2018-11-8 19:16
软件确实有这个问题，取文本的时候，把所有文本都接在一起存了一下。如果要加上间隔，需要出一个新版本， ...

祝Gooseeker越来越好！祝大佬工作顺利，鸿图大展！

列表结构不同，使用xpath定位，但测试只能采集到第一条数据

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页