急求各位大神我用的集搜客快速爬取twitter的功能,但是导出来的数据总有重复,而且也爬取的数据很少,我看日志显示“翻页限制”,想问下如果用这个快速爬取模板,应该在哪里调整翻页限制呢??




还有我自己也做了一个对应爬取的方法,但是只能爬到2-3条,好像是他2-3条在一个DIV中?
一直没办法往下爬取,其实只需要一天的,但是就是没办法实现。
求助!
谢谢各位大神!!
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2021-7-3 22:48

Fuller 管理员 发表于 2021-7-3 16:09:32 | 显示全部楼层
twitter网站是瀑布流的,就是说鼠标往下滚动就会有新内容显示出来,而且一直滚一直有,爬虫采集的时候不可避免采集到重复数据,因为滚一下采集一次,上一次滚动显示出来的内容在下一次滚动后还会采集到。

在使用快捷采集的时候,要设置翻页次数,对于瀑布流来说就是滚动的屏幕数。可以选择全部,也可以选择其他数字。对于没有结束的瀑布流,即使选择全部也不会一直滚下去,快捷采集限定了一个数量

翻页0.png
举报 使用道具
言浅98 高级会员 发表于 2021-7-3 17:32:26 | 显示全部楼层
image.jpg
image.jpg
谢谢!
已经按照您说的设置页数了。100页设置过、全部也设置过,但是两次结果导出来的数据还是总共只有8条。
想问下应该怎么办呀
举报 使用道具
内容分析应用 金牌会员 发表于 2021-7-3 22:48:38 | 显示全部楼层
言浅98 发表于 2021-7-3 17:32
谢谢!
已经按照您说的设置页数了。100页设置过、全部也设置过,但是两次结果导出来的数据还是总共只有8 ...

采集的时候,观察一下页面的加载和滚屏过程,看看是什么情况
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 08:36