本帖最后由 jadellas 于 2021-10-6 21:39 编辑

如题
DS中关闭了自动滚屏 同时在工作台设置了滚屏 每次滚屏数测试了一些
但是抓取的的数据只有没有滚屏的那几条 (一页全获取差不多40条只能获取没滚屏的15条左右)
如果每次滚屏数设置的小一些 就会连续输出多个相同的文件 抓取的的数据依旧是没有滚屏的那几条

主题名:微博签到wb
页面地址:https://weibo.com/p/1001018008637020000000000
期待解答疑问~


0IQV]@WE_KLNVKF1CFK~[CK.png
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2018-11-11 19:33

Fuller 管理员 发表于 2018-11-11 09:37:22 | 显示全部楼层
这个网页是有结尾的,不是没有底的瀑布流,所以,不用连续动作的滚屏。用连续动作的滚屏要注意:如果前三次滚屏抓到的内容都一样,如果DS打数机设置了重复内容中断,那么就会中断。

如果用自动滚屏,把滚屏次数设置大一些,比如,15

如果连续滚屏,试试把每次滚屏数量设置大一些
举报 使用道具
jadellas 初级会员 发表于 2018-11-11 11:47:12 | 显示全部楼层
Fuller 发表于 2018-11-11 09:37
这个网页是有结尾的,不是没有底的瀑布流,所以,不用连续动作的滚屏。用连续动作的滚屏要注意:如果前三次 ...

感谢你的回复 都试了一下还是不行 最后尝试了一下滚轮(主题名:微博签到w)还是每页最多采集15-16条,没法采集全

举报 使用道具
maomao 论坛元老 发表于 2018-11-11 13:12:32 | 显示全部楼层
jadellas 发表于 2018-11-11 11:47
感谢你的回复 都试了一下还是不行 最后尝试了一下滚轮(主题名:微博签到w)还是每页最多采集15-16条,没 ...

我对了一下你的抓取结果
首先,我发现你做内容标注的时候,没有选择第一个样例,你做样例复制映射的时候,选择的是第三个作为第一个样例
其次,如果是视频的,就会漏掉
举报 使用道具
maomao 论坛元老 发表于 2018-11-11 13:18:03 | 显示全部楼层
还要解决一个麻烦:上半页的内容放在一起,下半页的内容放在一个div下面,也就是说两部分并不是同等地位地放在一起,下半页缩进了一级。这个怎么解决我得想想。如果他们每个实例都有相同的class值,倒是可以用定位标志抓取多实例,而不是用样例复制映射(参看:https://www.gooseeker.com/doc/article-347-1.html ),但是里面有的实例用了不同的class值。
半页20181111131424.png
举报 使用道具
maomao 论坛元老 发表于 2018-11-11 13:23:44 | 显示全部楼层
图20181111132115.png
每个微博都有这么一个class值,虽然这个class不在包容整个微博的div上,而是在内部,也可以用来做定位标志映射,记得要先取消样例复制映射再做定位标志映射。

现在还遗留一个问题:有些微博没有图片,建议不要给那些图勾“关键内容”
举报 使用道具
jadellas 初级会员 发表于 2018-11-11 19:33:29 | 显示全部楼层
maomao 发表于 2018-11-11 13:23
每个微博都有这么一个class值,虽然这个class不在包容整个微博的div上,而是在内部,也可以用来做定位标志 ...

感谢~
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-16 13:59