发个帖子记录一下自己在学习gooseeker中遇到的问题

加为好友

只记录自己遇到的问题和已经解决的。方便以后查找
1.样例复制：样例复制是最常用的，因为有抓取需求的肯定不会只抓一个页面的内容就行，那样还不如自己复制粘贴。
遇到的问题：样例复制只能复制同一个父，结构不同的就多建一个规则。
2.抓取大块文本：有些要抓取的内容是在一个大的div下面的很多txt，这些txt并不是每个页面都完全一样的，一个更好的办法是找一个最完整的，每个都做一个映射，抓到就留下，没有就留空。比较省事的则是直接找到他们的父，做一个映射，抓他们的文本，高级设置用自定义xpath要勾一下，有个缺点则是会把这个父下面一些不显示的兄弟节点也抓成文本，可能会出现一些不想要的内容。
3.今天没时间了，想到再加。

2978655079 · 发表于 2016-5-12 10:59:02

想起来，加一个。同一批网址当作一组线索添加进去的，但是结构上有差别的，可以按照教程里的做。也可以用自定义xpath的办法来解决。第一个网址上有的内容，用一个xpath，第二个网页上有而第一个上没有的，用另外一个xpath，两个xpath连接起来用，这样一个规则就可以了。

2978655079 · 发表于 2016-5-16 09:47:32

20160516更新一下，发现一个问题，不知道影响使用不，反正今天没有正常抓取到，用了自定义xpath后，什么都不做，正常抓取的规则会出现错误。

如图：

看起来像是规则中的xpath定义失败，其实我的xpaht并不是这样的。

关掉好几次火狐重启某数台后，某次加载变成这样：

这中间对于规则本身完全一字未改，因为加载报错，根本没法改到。

这个太影响积极性了，问过客服回复是因为自定义xpath太长，会出错。

先保留这个任务，看有没有什么好的解决办法

Fuller · 发表于 2016-5-16 10:04:11

2978655079 发表于 2016-5-16 09:47
20160516更新一下，发现一个问题，不知道影响使用不，反正今天没有正常抓取到，用了自定义xpath后，什么都 ...

看不到图，重新贴一下吧。

xpath长的原因是没有使用相对定位，如果在生成xpath的时候遇到合适的class和id，那么可以从含有这个标志的节点开始生成xpath，比如 //*[@class='book']/p/text() 。

如果自动生成的xpath没有用上class和id，就要尝试用定位标志映射，生成的规则就会变短

发个帖子记录一下自己在学习gooseeker中遇到的问题

共 3 个关于本帖的回复最后回复于 2016-5-16 10:04

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

发个帖子记录一下自己在学习gooseeker中遇到的问题

共 3 个关于本帖的回复 最后回复于 2016-5-16 10:04

推荐板块

精彩推荐

热门话题

热门用户

共 3 个关于本帖的回复最后回复于 2016-5-16 10:04