规则名:违法违规629下午
提取下来的数据和网站上的数据顺序不一致,
比如
这个是网站的数据:

这个是提取下来的数据,


数据的顺序不一致,请问这样要怎么办?

举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2018-6-30 19:51

沙发
Fuller 管理员 发表于 2018-6-29 19:25:11 | 只看该作者
我们测试了,很可能是采集的时候,顺序变了。采集下来的内容是严格确保顺序的
举报 使用道具
板凳
wangbing111 初级会员 发表于 2018-6-30 14:29:02 | 只看该作者
Fuller 发表于 2018-6-29 19:25
我们测试了,很可能是采集的时候,顺序变了。采集下来的内容是严格确保顺序的 ...

那这个是我的规则有问题,还是什么原因?我现在要怎么改正这个问题呢
举报 使用道具
地板
Fuller 管理员 发表于 2018-6-30 15:24:11 | 只看该作者
wangbing111 发表于 2018-6-30 14:29
那这个是我的规则有问题,还是什么原因?我现在要怎么改正这个问题呢

测试了你的规则,看起来规则没有问题
举报 使用道具
5#
wangbing111 初级会员 发表于 2018-6-30 17:59:02 | 只看该作者
Fuller 发表于 2018-6-30 15:24
测试了你的规则,看起来规则没有问题

那麻烦问一下,这个问题有什么解决方法吗?



举报 使用道具
6#
Fuller 管理员 发表于 2018-6-30 19:51:20 | 只看该作者
wangbing111 发表于 2018-6-30 17:59
那麻烦问一下,这个问题有什么解决方法吗?

前面10页,我测试了,顺序没有问题。后面的很可能是网站排序有问题,这种情况没法解决,我们只能原样采集
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 01:29