我最近在爬foxnews 16-17年的新闻内容,16年全年和17年7-10月的都已经完成,就是17年1-7月的在二级抓取的过程中总是匹配失败。
网站这两年应该是在设计上有所不同,但不论怎么更改二级规则都无法爬取。
可以提供规则名,希望能有大神相助!!!
举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2017-10-23 10:56

沙发
umsung 高级会员 发表于 2017-10-23 09:12:47 | 只看该作者
本帖最后由 umsung 于 2017-10-23 09:15 编辑

是不是17年1-7月的网页结构不一样了?可以参考这篇教程《怎样采集同一网站的不同网页结构信息 》
把规则名贴出来看看
举报 使用道具
板凳
IrisDing 新手上路 发表于 2017-10-23 09:13:17 | 只看该作者
规则名:一级抓取_1701-1707
二级抓取_1701-1707
问题:一级抓取成功,二级抓取总是匹配失败
举报 使用道具
地板
IrisDing 新手上路 发表于 2017-10-23 09:29:28 | 只看该作者
umsung 发表于 2017-10-23 09:12
是不是17年1-7月的网页结构不一样了?可以参考这篇教程《怎样采集同一网站的不同网页结构信息 》
把规则名 ...

已经重新对1-7月的网页制定了新的规则,但是不知道怎么还是不成功
举报 使用道具
5#
umsung 高级会员 发表于 2017-10-23 09:41:56 | 只看该作者
本帖最后由 umsung 于 2017-10-23 09:45 编辑

加载二级规则失败的界面发现结构和成功的页面有所不同,所以导致匹配失败。
1,可以给这些失败的页面另外做一套规则去抓取这些不同结构的页面文本数据。
2,也可以给当前的规则用自定义xpath定位去适应不同结构的页面。
举报 使用道具
6#
umsung 高级会员 发表于 2017-10-23 09:52:23 | 只看该作者
需要找一个最全的页面为样本页面去做规则,才能去适应各个结构略微不同的页面。
举报 使用道具
7#
umsung 高级会员 发表于 2017-10-23 10:01:57 | 只看该作者
如果一套规则适应不了所有的页面,那就先通过网页查看这些失败的页面到底有几种结构,再针对这几种结构各自做一套规则,在“时间”处就能看出网页结构是不是一样。我看了一下,有三种不同的网页结构,就可以针对这三种结构分别做不同的规则,以主题名相同规则编号不同来区分采集规则 。参考《怎样采集同一网站的不同网页结构信息 》
举报 使用道具
8#
IrisDing 新手上路 发表于 2017-10-23 10:15:31 | 只看该作者
umsung 发表于 2017-10-23 10:01
如果一套规则适应不了所有的页面,那就先通过网页查看这些失败的页面到底有几种结构,再针对这几种结构各自 ...

规则其他没有问题吗?
举报 使用道具
9#
umsung 高级会员 发表于 2017-10-23 10:17:46 | 只看该作者
本帖最后由 umsung 于 2017-10-23 10:19 编辑
IrisDing 发表于 2017-10-23 10:15
规则其他没有问题吗?

第二级规则是没有问题的,只是其他遇到其他结构不同的页面不适应就会报错。另外关键内容只勾一个就够了!否则遇到结构略微不同的页面也容易报错
举报 使用道具
10#
IrisDing 新手上路 发表于 2017-10-23 10:21:09 | 只看该作者
umsung 发表于 2017-10-23 10:17
第二级规则是没有问题的,只是其他遇到其他结构不同的页面不适应就会报错。另外关键内容只勾一个就够了! ...

关键内容指的是时间、标题、文本...这些吗?勾取一个就可以?还是只用勾取整理箱
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-4 09:35