我本来要采集总共20页的数据,也设置过了翻页采集数据列表,但是导出来的数据只有第一页和第二十页的,中间还有十几页全部没有导出来,我按照流程梳理过一遍,没发现有什么不对的地方,请高手指点一 下

举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2017-4-26 15:41

沙发
quyixuan 金牌会员 发表于 2016-12-5 10:46:56 | 只看该作者
记号值应该用“下一页”,做记号映射,而不是用“20”
举报 使用道具
板凳
Fuller 管理员 发表于 2016-12-5 22:03:33 | 只看该作者
关于记号映射的教程是《翻页采集列表的方法

什么是记号映射,什么是线索定位映射,帖子《定位映射和记号映射的区别是什么》说的比较清楚
举报 使用道具
地板
hndshlwxxcj 新手上路 发表于 2017-2-20 16:14:04 | 只看该作者
我的记号值是下一页,但是结果采集的也只有第一页和第二页,剩下的就不采集了,问题在哪,有知道的吗?
举报 使用道具
5#
quyixuan 金牌会员 发表于 2017-2-20 16:25:37 | 只看该作者
本帖最后由 quyixuan 于 2017-2-20 16:30 编辑
hndshlwxxcj 发表于 2017-2-20 16:14
我的记号值是下一页,但是结果采集的也只有第一页和第二页,剩下的就不采集了,问题在哪,有知道的吗? ...

你在浏览器翻到第二页看看“下一页”还有没有
可能是翻到第二页后结构变了

举报 使用道具
6#
Fuller 管理员 发表于 2017-2-20 17:42:16 | 只看该作者
hndshlwxxcj 发表于 2017-2-20 16:14
我的记号值是下一页,但是结果采集的也只有第一页和第二页,剩下的就不采集了,问题在哪,有知道的吗? ...

可以把主题名贴出来,帮你诊断一下
举报 使用道具
7#
ssguoshunli 初级会员 发表于 2017-4-26 11:56:15 | 只看该作者
主题名 dalian2     我这个主题采集到第二页就不翻页了 是为什么呢?我的几号映射是下一页啊  谢谢管理员

举报 使用道具
8#
Fuller 管理员 发表于 2017-4-26 12:17:10 | 只看该作者
ssguoshunli 发表于 2017-4-26 11:56
主题名 dalian2     我这个主题采集到第二页就不翻页了 是为什么呢?我的几号映射是下一页啊  谢谢管理员

...

因为翻页到第二页以后,就不存在“发帖者”这个抓取内容了,你还勾了关键内容,所以到第二页就失败了。

关键内容必须是网页上总是存在的内容。
举报 使用道具
9#
ssguoshunli 初级会员 发表于 2017-4-26 14:14:11 | 只看该作者
本帖最后由 ssguoshunli 于 2017-4-26 14:18 编辑

哦哦   谢谢!这个dalian2主题下 第一页和第二页的网页结构能用同一个规则吗?我想采集发帖者、回帖者
举报 使用道具
10#
HJLing 版主 发表于 2017-4-26 14:48:09 | 只看该作者
ssguoshunli 发表于 2017-4-26 14:14
哦哦   谢谢!这个dalian2主题下 第一页和第二页的网页结构能用同一个规则吗?我想采集发帖者、回帖者
...

可以用一个规则采第一页和后面的页码
但是规则要改一下
按照下面的结构
加上定位标志映射
注意:样例复制那个节点我用的是定位标志映射,起到样例复制作用,也可以直接用样例复制映射

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 10:44