急求各位大神我用的集搜客快速爬取twitter的功能,但是导出来的数据总有重复,而且也爬取的数据很少,我看日志显示“翻页限制”,想问下如果用这个快速爬取模板,应该在哪里调整翻页限制呢??




还有我自己也做了一个对应爬取的方法,但是只能爬到2-3条,好像是他2-3条在一个DIV中?
一直没办法往下爬取,其实只需要一天的,但是就是没办法实现。
求助!
谢谢各位大神!!
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2021-7-3 22:48

沙发
Fuller 管理员 发表于 2021-7-3 16:09:32 | 只看该作者
twitter网站是瀑布流的,就是说鼠标往下滚动就会有新内容显示出来,而且一直滚一直有,爬虫采集的时候不可避免采集到重复数据,因为滚一下采集一次,上一次滚动显示出来的内容在下一次滚动后还会采集到。

在使用快捷采集的时候,要设置翻页次数,对于瀑布流来说就是滚动的屏幕数。可以选择全部,也可以选择其他数字。对于没有结束的瀑布流,即使选择全部也不会一直滚下去,快捷采集限定了一个数量


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
言浅98 高级会员 发表于 2021-7-3 17:32:26 | 只看该作者


谢谢!
已经按照您说的设置页数了。100页设置过、全部也设置过,但是两次结果导出来的数据还是总共只有8条。
想问下应该怎么办呀

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
内容分析应用 金牌会员 发表于 2021-7-3 22:48:38 | 只看该作者
言浅98 发表于 2021-7-3 17:32
谢谢!
已经按照您说的设置页数了。100页设置过、全部也设置过,但是两次结果导出来的数据还是总共只有8 ...

采集的时候,观察一下页面的加载和滚屏过程,看看是什么情况
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为

热门用户

GMT+8, 2025-2-6 14:09