Fuller 管理员 发表于 2020-6-25 17:05:26 | 显示全部楼层
等翻页到第二页的时候,再次出现了“更多”,还需要点击。

所以,翻页要在“巴黎2”中定义,而“巴黎2检索后”只管采集数据,既不翻页,也不点击
举报 使用道具
a237090761 初级会员 发表于 2020-6-25 17:07:34 | 显示全部楼层
Fuller 发表于 2020-6-25 17:05
等翻页到第二页的时候,再次出现了“更多”,还需要点击。

所以,翻页要在“巴黎2”中定义,而“巴黎2检索 ...

原来是这样,那我翻页设置错了级别,我重新写下
举报 使用道具
Fuller 管理员 发表于 2020-6-25 17:12:16 | 显示全部楼层
a237090761 发表于 2020-6-25 17:07
原来是这样,那我翻页设置错了级别,我重新写下

第一级规则,在定义整理箱那里,点击“定位”按钮,选择偏好class,否则也会把review id用上,那么翻页到第二页就是失败了。
id20200625171055.png
举报 使用道具
Fuller 管理员 发表于 2020-6-25 17:14:32 | 显示全部楼层
DS打数机菜单要设置一下,不然这个网页采集太慢了,会提示“参数需要优化”。

DS打数机菜单 配置-》定时器触发,勾上,就能提高速度
举报 使用道具
Fuller 管理员 发表于 2020-6-25 17:22:16 | 显示全部楼层
第二级规则,漏数据,比如,下面的第二个评论就没有采集到。我看到你的规则中基本上都用上了定位标志映射,那么就检查一下漏掉的定位标志由什么不同,定位标志所在的节点内部的结构有什么不同
漏数据20200625172020.png

举报 使用道具
a237090761 初级会员 发表于 2020-6-25 17:29:38 | 显示全部楼层
Fuller 发表于 2020-6-25 17:14
DS打数机菜单要设置一下,不然这个网页采集太慢了,会提示“参数需要优化”。

DS打数机菜单 配置-》定时器 ...

好的,我又重新写了两个规则,麻烦看下有问题吗
举报 使用道具
Fuller 管理员 发表于 2020-6-25 17:46:11 | 显示全部楼层
a237090761 发表于 2020-6-25 17:29
好的,我又重新写了两个规则,麻烦看下有问题吗

看起来运行挺好的,你自己再核对一下第二级有没有漏数据,如果有漏的要看看漏掉的网页结构有什么不同
举报 使用道具
a237090761 初级会员 发表于 2020-6-25 17:49:43 | 显示全部楼层
Fuller 发表于 2020-6-25 17:22
第二级规则,漏数据,比如,下面的第二个评论就没有采集到。我看到你的规则中基本上都用上了定位标志映射, ...

这是第二级规则里,第一条评论的位置

图2.jpg 图2.jpg

图片1.png


图片1.png这是第二条评论的绝对定位

举报 使用道具
a237090761 初级会员 发表于 2020-6-25 18:23:00 | 显示全部楼层
Fuller 发表于 2020-6-25 17:46
看起来运行挺好的,你自己再核对一下第二级有没有漏数据,如果有漏的要看看漏掉的网页结构有什么不同
...

那我抓数据的话,是要打开DS打数机运行巴黎2  还是  巴黎2检索后  呢
举报 使用道具
a237090761 初级会员 发表于 2020-6-25 18:25:03 | 显示全部楼层
Fuller 发表于 2020-6-25 17:46
看起来运行挺好的,你自己再核对一下第二级有没有漏数据,如果有漏的要看看漏掉的网页结构有什么不同
...

我测试的时候,输出信息不是按顺序抓的,是有的评论有,有的没有
3.jpg 3.jpg


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 16:08