只记录自己遇到的问题和已经解决的。 方便以后查找
1.样例复制: 样例复制是最常用的,因为有抓取需求的肯定不会只抓一个页面的内容就行,那样还不如自己复制粘贴。
遇到的问题:样例复制只能复制同一个父,结构不同的就多建一个规则。
2.抓取大块文本:有些要抓取的内容是在一个大的div下面的很多txt,这些txt并不是每个页面都完全一样的,一个更好的办法是找一个最完整的,每个都做一个映射,抓到就留下,没有就留空。 比较省事的则是直接找到他们的父,做一个映射,抓他们的文本,高级设置用自定义xpath要勾一下,有个缺点则是会把这个父下面一些不显示的兄弟节点也抓成文本,可能会出现一些不想要的内容。
3.今天没时间了,想到再加。
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-5-16 10:04

沙发
2978655079 初级会员 发表于 2016-5-12 10:59:02 | 只看该作者
想起来,加一个。 同一批网址当作一组线索添加进去的,但是结构上有差别的,可以按照教程里的做。 也可以用自定义xpath的办法来解决。 第一个网址上有的内容,用一个xpath, 第二个网页上有而第一个上没有的,用另外一个xpath,两个xpath连接起来用,这样一个规则就可以了。
举报 使用道具
板凳
2978655079 初级会员 发表于 2016-5-16 09:47:32 | 只看该作者
20160516更新一下,发现一个问题,不知道影响使用不,反正今天没有正常抓取到, 用了自定义xpath后,什么都不做,正常抓取的规则会出现错误。

如图:


看起来像是规则中的xpath定义失败,其实我的xpaht并不是这样的。

关掉好几次火狐重启某数台后,某次加载变成这样:


这中间对于规则本身完全一字未改,因为加载报错,根本没法改到。

这个太影响积极性了,问过客服回复是 因为自定义xpath太长,会出错。

先保留这个任务,看有没有什么好的解决办法
举报 使用道具
地板
Fuller 管理员 发表于 2016-5-16 10:04:11 | 只看该作者
2978655079 发表于 2016-5-16 09:47
20160516更新一下,发现一个问题,不知道影响使用不,反正今天没有正常抓取到, 用了自定义xpath后,什么都 ...

看不到图,重新贴一下吧。

xpath长的原因是没有使用相对定位,如果在生成xpath的时候遇到合适的class和id,那么可以从含有这个标志的节点开始生成xpath,比如 //*[@class='book']/p/text() 。

如果自动生成的xpath没有用上class和id,就要尝试用定位标志映射,生成的规则就会变短
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 07:39