问题:我悬浮结果的二级页面pageno全是0,抓前几页好着,后面第50也就失败
规则:我的悬浮样本1
我的悬浮样本2
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2017-4-23 20:01

沙发
ym 版主 发表于 2017-4-22 23:41:36 | 只看该作者
规则都没有问题。
因为是第一级规则在翻页,所以是在第一级规则的pageno字段记录实际的翻页数。
第二级规则是翻页后做悬浮动作采集浮窗信息,本身没有翻页,所以它的pageno始终为0.
举报 使用道具
板凳
lucky半杯 中级会员 发表于 2017-4-23 02:00:57 | 只看该作者
ym 发表于 2017-4-22 23:41
规则都没有问题。
因为是第一级规则在翻页,所以是在第一级规则的pageno字段记录实际的翻页数。
第二级规则 ...

熬夜倒现在看规则。我悬浮匹配不起来啊,二级的pageno全是0.。。。跟1级的匹配不了

举报 使用道具
地板
lucky半杯 中级会员 发表于 2017-4-23 02:51:48 | 只看该作者
ym 发表于 2017-4-22 23:41
规则都没有问题。
因为是第一级规则在翻页,所以是在第一级规则的pageno字段记录实际的翻页数。
第二级规则 ...

那我这个悬浮是不是不能匹配。。。熬了好几个通宵的规则/
举报 使用道具
5#
Fuller 管理员 发表于 2017-4-23 14:58:48 | 只看该作者
lucky半杯 发表于 2017-4-23 02:51
那我这个悬浮是不是不能匹配。。。熬了好几个通宵的规则/

能匹配,请看这个帖子:http://www.gooseeker.com/doc/thread-7214-1-1.html
举报 使用道具
6#
lucky半杯 中级会员 发表于 2017-4-23 15:21:34 | 只看该作者
Fuller 发表于 2017-4-23 14:58
能匹配,请看这个帖子:http://www.gooseeker.com/doc/thread-7214-1-1.html

前面说我规则都没有问题。我发现的悬浮第二级的结果,全是每一页页面第一个样本的。。。

举报 使用道具
7#
lucky半杯 中级会员 发表于 2017-4-23 15:47:59 | 只看该作者
Fuller 发表于 2017-4-23 14:58
能匹配,请看这个帖子:http://www.gooseeker.com/doc/thread-7214-1-1.html

我看抓取中的悬浮都出来了的。但是就是都是第一个样本的结果

举报 使用道具
8#
Fuller 管理员 发表于 2017-4-23 17:06:30 | 只看该作者
lucky半杯 发表于 2017-4-23 15:47
我看抓取中的悬浮都出来了的。但是就是都是第一个样本的结果



我对第二级规则做了调整,点击整理箱旁边的“定位”按钮,选择偏好class,那么有上面的发现,这是悬浮了5次以后采集的结果,说明每次悬浮看到的内容都会添加到网页上,而不删除前面的。这样悬浮20次后,20个信息都在。也许微调规则可以只保留最新一个
举报 使用道具
9#
Fuller 管理员 发表于 2017-4-23 17:19:00 | 只看该作者
如果你确实只想要当前显示的那个,那么要做两个定位标志映射



第一个定位标志,他的class只如果最后含有hover这个词,那么就是正在显示的那个浮窗,其他的没有这个词。用上这个定位标志,即使网页上有很多隐藏的浮窗内容,也能过滤掉
举报 使用道具
10#
lucky半杯 中级会员 发表于 2017-4-23 20:01:22 | 只看该作者
Fuller 发表于 2017-4-23 17:19
如果你确实只想要当前显示的那个,那么要做两个定位标志映射

理解了,定位导致的问题,我还发现有时候,按DOM数刷新网页很重要。感谢

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 23:40