显示有1700多个商品,为啥我才抓取到900多个,主题名是 京东刷子
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2017-1-12 12:00

沙发
ym 版主 发表于 2017-1-12 11:31:08 | 只看该作者
采集数据的时候,是否提示翻页失败之类的日志
举报 使用道具
板凳
jjwudiyy 新手上路 发表于 2017-1-12 11:48:26 | 只看该作者
ym 发表于 2017-1-12 11:31
采集数据的时候,是否提示翻页失败之类的日志

没有,翻页成功的
举报 使用道具
地板
jjwudiyy 新手上路 发表于 2017-1-12 11:49:46 | 只看该作者
ym 发表于 2017-1-12 11:31
采集数据的时候,是否提示翻页失败之类的日志

是不是滚动参数的问题,页面滚动到一半 他就翻页了
举报 使用道具
5#
ym 版主 发表于 2017-1-12 11:55:03 | 只看该作者
我测试过你的规则,规则没有问题,样本网址是商品列表的第二页,所以会从第二页开始,采集到最后一页,由于翻页标志“下一页”依然存在网页上,这时就会重复采集最后一页,解决方法是DS打数机里把"高级菜单-重复内容"勾上,这样重复采集3次之后就会停止翻页,最后在excel里过滤重复数据就搞定了。
我是采集到1733条商品的信息,那就说明你那边是翻页中断了,建议你清理一下浏览器cookies再抓吧。
举报 使用道具
6#
ym 版主 发表于 2017-1-12 11:58:54 | 只看该作者
jjwudiyy 发表于 2017-1-12 11:49
是不是滚动参数的问题,页面滚动到一半 他就翻页了

我测试的滚屏参数是2和2,你把滚屏参数里的滚屏次数改为20以上试试吧,这样就放慢滚屏速度,确保网页加载完全。


举报 使用道具
7#
jjwudiyy 新手上路 发表于 2017-1-12 12:00:32 | 只看该作者
ym 发表于 2017-1-12 11:58
我测试的滚屏参数是2和2,你把滚屏参数里的滚屏次数改为20以上试试吧,这样就放慢滚屏速度,确保网页加载 ...

好的谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 16:43