https://h5.youzan.com/v2/feature ... 1&spm=f48575315
这是我要抓取的页面  需要抓标题和价格的  
我按照http://www.gooseeker.com/doc/article-373-1.html这个设置就抓了一半不到的内容不知道什么原因
主题名是xiangqing1
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2018-5-4 15:51

沙发
bowieD 金牌会员 发表于 2018-5-4 11:20:22 | 只看该作者
这个网页不是无限瀑布流滚屏网页,可以直接滚到底,用gs打数机的滚屏就可以了,不需要设置连续滚屏动作。

把滚屏动作删除,打开ds打数机的滚屏,将ds打数机中的配置-》滚屏参数中的滚屏次数设置不为0就可以滚屏
举报 使用道具
板凳
yst8838 中级会员 发表于 2018-5-4 11:23:55 | 只看该作者
bowieD 发表于 2018-5-4 11:20
这个网页不是无限瀑布流滚屏网页,可以直接滚到底,用gs打数机的滚屏就可以了,不需要设置连续滚屏动作。

...

之前是没设置滚屏的   数据还是抓不全  所以才试着用滚屏  
举报 使用道具
地板
bowieD 金牌会员 发表于 2018-5-4 14:50:47 | 只看该作者
本帖最后由 bowieD 于 2018-5-4 14:53 编辑
yst8838 发表于 2018-5-4 11:23
之前是没设置滚屏的   数据还是抓不全  所以才试着用滚屏

这个网页滚屏到其中一个分类,其他分类的节点就都隐藏掉了,如果用ds打数机的滚屏去采集只能采集到最后一个分类的数据。

用滚屏动作可以采集,把每次滚屏数设置小一点,控制滚一屏的跨度不能超过一个分类,滚屏动作的跨度设置为1,不要设置为3,额外延时也不用设置那么大,设置1s就可以了
举报 使用道具
5#
yst8838 中级会员 发表于 2018-5-4 15:12:02 | 只看该作者
bowieD 发表于 2018-5-4 14:50
这个网页滚屏到其中一个分类,其他分类的节点就都隐藏掉了,如果用ds打数机的滚屏去采集只能采集到最后一 ...

好的  谢谢 我试试
举报 使用道具
6#
yst8838 中级会员 发表于 2018-5-4 15:38:45 | 只看该作者
bowieD 发表于 2018-5-4 14:50
这个网页滚屏到其中一个分类,其他分类的节点就都隐藏掉了,如果用ds打数机的滚屏去采集只能采集到最后一 ...

按你说的设置还是没办法完整的抓取完  只能抓取到107美妆和喵选自营的
举报 使用道具
7#
bowieD 金牌会员 发表于 2018-5-4 15:51:52 | 只看该作者
本帖最后由 bowieD 于 2018-5-4 15:54 编辑
yst8838 发表于 2018-5-4 15:38
按你说的设置还是没办法完整的抓取完  只能抓取到107美妆和喵选自营的

把每次滚屏数设置为3,采集的时候观察是否滚屏到底了,把采集的数据全部压缩上传到会员中心再导出,在excel中观察数据是否完整

我这边测试是可以采集完整的,只是有重复数据,在excel中去重就可以了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 12:52