本帖最后由 jadellas 于 2021-10-6 21:39 编辑

如题
DS中关闭了自动滚屏 同时在工作台设置了滚屏 每次滚屏数测试了一些
但是抓取的的数据只有没有滚屏的那几条 (一页全获取差不多40条只能获取没滚屏的15条左右)
如果每次滚屏数设置的小一些 就会连续输出多个相同的文件 抓取的的数据依旧是没有滚屏的那几条

主题名:微博签到wb
页面地址:https://weibo.com/p/1001018008637020000000000
期待解答疑问~


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2018-11-11 19:33

沙发
Fuller 管理员 发表于 2018-11-11 09:37:22 | 只看该作者
这个网页是有结尾的,不是没有底的瀑布流,所以,不用连续动作的滚屏。用连续动作的滚屏要注意:如果前三次滚屏抓到的内容都一样,如果DS打数机设置了重复内容中断,那么就会中断。

如果用自动滚屏,把滚屏次数设置大一些,比如,15

如果连续滚屏,试试把每次滚屏数量设置大一些
举报 使用道具
板凳
jadellas 初级会员 发表于 2018-11-11 11:47:12 | 只看该作者
Fuller 发表于 2018-11-11 09:37
这个网页是有结尾的,不是没有底的瀑布流,所以,不用连续动作的滚屏。用连续动作的滚屏要注意:如果前三次 ...

感谢你的回复 都试了一下还是不行 最后尝试了一下滚轮(主题名:微博签到w)还是每页最多采集15-16条,没法采集全

举报 使用道具
地板
maomao 论坛元老 发表于 2018-11-11 13:12:32 | 只看该作者
jadellas 发表于 2018-11-11 11:47
感谢你的回复 都试了一下还是不行 最后尝试了一下滚轮(主题名:微博签到w)还是每页最多采集15-16条,没 ...

我对了一下你的抓取结果
首先,我发现你做内容标注的时候,没有选择第一个样例,你做样例复制映射的时候,选择的是第三个作为第一个样例
其次,如果是视频的,就会漏掉
举报 使用道具
5#
maomao 论坛元老 发表于 2018-11-11 13:18:03 | 只看该作者
还要解决一个麻烦:上半页的内容放在一起,下半页的内容放在一个div下面,也就是说两部分并不是同等地位地放在一起,下半页缩进了一级。这个怎么解决我得想想。如果他们每个实例都有相同的class值,倒是可以用定位标志抓取多实例,而不是用样例复制映射(参看:https://www.gooseeker.com/doc/article-347-1.html ),但是里面有的实例用了不同的class值。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
6#
maomao 论坛元老 发表于 2018-11-11 13:23:44 | 只看该作者

每个微博都有这么一个class值,虽然这个class不在包容整个微博的div上,而是在内部,也可以用来做定位标志映射,记得要先取消样例复制映射再做定位标志映射。

现在还遗留一个问题:有些微博没有图片,建议不要给那些图勾“关键内容”

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
7#
jadellas 初级会员 发表于 2018-11-11 19:33:29 | 只看该作者
maomao 发表于 2018-11-11 13:23
每个微博都有这么一个class值,虽然这个class不在包容整个微博的div上,而是在内部,也可以用来做定位标志 ...

感谢~
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 为什么用微软的excel无法打开xls文件?powe
  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法

热门用户

GMT+8, 2025-7-12 19:39