例如该页面http://ask.zol.com.cn/me/nba0532/按照该页面制做规则抓取他的个人信息,以及所有回答;但是其他用户http://ask.zol.com.cn/me/weixin_ed64d250/相关的专家星级,以及回答板块为空。此时之前做的规则是不是就不能抓取了?因为一直抓取失败,不知道是不是这个原因。而且有些用户的链接现在打不开了(例如hocok),是不是zol网站自身原因?
举报 使用道具
| 回复

共 18 个关于本帖的回复 最后回复于 2016-5-8 09:53

Fuller 管理员 发表于 2016-5-6 12:15:33 | 显示全部楼层
不总是有的内容,就不要勾选“关键内容”,这样,遇到空的网页,这个抓取内容就留空了。但是一个整理箱中至少要设置一个“关键内容”
举报 使用道具
Fuller 管理员 发表于 2016-5-6 12:19:24 | 显示全部楼层
我对比了这个网页,空的那个也太空了,几乎整理箱中的所有抓取内容都不能勾“关键内容”,这种情况下,干脆定义两个抓取规则,第二个转么去抓这个标志性内容“暂无内容,赶紧去答题吧!”。这两个规则的主题名要相同,规则编号不一样
举报 使用道具
llssyy 初级会员 发表于 2016-5-6 12:21:43 | 显示全部楼层
Fuller 发表于 2016-5-6 12:19
我对比了这个网页,空的那个也太空了,几乎整理箱中的所有抓取内容都不能勾“关键内容”,这种情况下,干脆 ...

我做的规则名叫 zol手机主题用户  勾选的用户主题名为关键内容
举报 使用道具
llssyy 初级会员 发表于 2016-5-6 12:26:05 | 显示全部楼层
Fuller 发表于 2016-5-6 12:19
我对比了这个网页,空的那个也太空了,几乎整理箱中的所有抓取内容都不能勾“关键内容”,这种情况下,干脆 ...

我分成两个整理箱,是想着用户信息翻页时不用重新抓取,不过一直没有成功抓取翻页信息,所以我也不知道到底这样分开达到效果了没
举报 使用道具
Fuller 管理员 发表于 2016-5-6 12:30:05 | 显示全部楼层
llssyy 发表于 2016-5-6 12:21
我做的规则名叫 zol手机主题用户  勾选的用户主题名为关键内容

我加载看了,翻页规则加载失败,要调整一下。

抓取内容做的正确,这么复杂的整理箱结构,尽量用上定位标志映射,选择合适的定位标志,可以提高定位的精准度。

这么复杂的结构,我建议为空的网页定义另一个抓取规则,主题名一样,规则编号不一样,抓取内容不一样。

如果要用两个抓取规则,要特别注意一点(这是程序bug所致):那个最全的规则要在最后“存规则”,所以,如果你又做了一个抓空网页的规则,那么需要把第一个规则加载上来再存一遍。

这个bug很快就会被修改掉
举报 使用道具
Fuller 管理员 发表于 2016-5-6 12:30:38 | 显示全部楼层
llssyy 发表于 2016-5-6 12:26
我分成两个整理箱,是想着用户信息翻页时不用重新抓取,不过一直没有成功抓取翻页信息,所以我也不知道到 ...

翻页规则不对,我加载就失败了
举报 使用道具
llssyy 初级会员 发表于 2016-5-6 12:30:54 | 显示全部楼层
Fuller 发表于 2016-5-6 12:30
我加载看了,翻页规则加载失败,要调整一下。

抓取内容做的正确,这么复杂的整理箱结构,尽量用上定位标 ...

谢谢
举报 使用道具
llssyy 初级会员 发表于 2016-5-6 13:50:51 | 显示全部楼层

翻页的内容可不可以写到同一个文件里,现在每翻页一次数据就是一个新xml文件
举报 使用道具
llssyy 初级会员 发表于 2016-5-6 13:51:24 | 显示全部楼层
Fuller 发表于 2016-5-6 12:30
翻页规则不对,我加载就失败了

翻页的内容可不可以写到同一个文件里,现在每翻页一次数据就是一个新xml文件
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 08:47