网页的翻页区很奇怪,翻下一页的时候翻页区会变化,下一页不总是有,无法做记号翻页线索,怎样做样式线索?
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-9-26 16:13

沙发
Fuller 管理员 发表于 2016-9-26 11:06:08 | 只看该作者
要用样式线索,要注意三点:

1)首先要确定有独立的网址。这样检查:点击以后,观察一下浏览器的地址输入框,如果网址有变化,那么很可能有独立网址

2)在做翻页规则的时候就不用勾选“连贯抓取”,那么每一页都会产生一条线索,每一页都独立抓取。

3)为了不重复抓,在会员中心设置调度参数“激活下级线索”设置为否,就不会重复抓取
举报 使用道具
板凳
Fuller 管理员 发表于 2016-9-26 16:13:40 | 只看该作者
下面我们具体对比一下记号线索和样式线索的不同用法,样本页面是:http://www.gooseeker.com/cn/forum/33



上图是记号线索映射
1)用代表翻页区的DIV做线索定位映射,就是选中这个DIV,点鼠标右键,选择菜单 线索映射-》定位-》线索1
2)做翻页记号映射,就是选中代表“next>”文本的那个#next,点鼠标右键,选择菜单 线索映射-》记号映射
上图还可以看到,勾选了“连贯抓取”,就是一口气翻页到底

下面看看样式线索的定义方法。

样式线索的意思是:在选定网页区域中,按照网址的样式来找匹配的网址,找到的就给他建立一条线索,那么首先要创建样式记录。如下图



选择插入,就生成一条样式记录,可以创建很多。

接下来需要在样式记录中填写网址的样式,这个例子,网址是这样的:
  • /cn/forum/33?page=1
  • /cn/forum/33?page=2
  • /cn/forum/33?page=3


他们公共的样式是 /cn/forum/33?page ,也就是说代表他们的前半部分,前半部分相同,这就是公共的样式

这个样式可以手工填写,也可以用样式映射,如下图做映射


下面就是填写目标主题,另外,不能勾选“连贯抓取”

可见,样式线索是根据一个样式,把选定区域中的网址都给匹配出来。显然不能勾选“连贯抓取”。

当网页上的“下一页”无法实现翻页的时候,样式线索可以用,但是很多网址会重复抓取,比如,抓第6页时,前面的5,4,3页网址又会抓下来生成线索,所以,就像二楼说的,要在会员中心的调度参数中选择不激活下级线索,那么即使重复抓下来,假设已经抓取过,不会再次变成激活状态
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 10:03