快捷导航
8 338

急急急爬取连页微博

2794244010 于 2024-2-7 22:23 发表 [复制链接]
爬取连页微博,爬虫页面在正常翻页(一直翻到了最后),但是为什么爬出来的数据只有第一页?
【微博爬取自定义】-【规则_1】
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2024-2-7 23:16

gz51837844 管理员 发表于 2024-2-7 22:43:04 | 显示全部楼层
你这个规则我测试了一下,总共2页:
第1页10条
第2页2条
然后就正常结束
20240207001.png
举报 使用道具
2794244010 初级会员 发表于 2024-2-7 22:55:11 | 显示全部楼层
所以是这个规则的样例网站内容太少了,影响了其他网站吗
举报 使用道具
2794244010 初级会员 发表于 2024-2-7 22:57:05 | 显示全部楼层
还有很多采集网站不止这么些页,但是采集出来的微博也都只有几十条
举报 使用道具
2794244010 初级会员 发表于 2024-2-7 22:57:40 | 显示全部楼层
gz51837844 发表于 2024-2-7 22:43
你这个规则我测试了一下,总共2页:
第1页10条
第2页2条

所以是这个规则的样例网站内容太少了,影响了其他网站吗

举报 使用道具
gz51837844 管理员 发表于 2024-2-7 22:58:16 | 显示全部楼层
2794244010 发表于 2024-2-7 22:55
所以是这个规则的样例网站内容太少了,影响了其他网站吗

你这个规则我测试没问题,规则的样例网址是:https://s.weibo.com/weibo?q=%23c ... 1-29-23&Refer=g
你在爬取时碰到其它的网址有问题吗? 有问题的网址是什么?
举报 使用道具
2794244010 初级会员 发表于 2024-2-7 23:00:51 | 显示全部楼层
gz51837844 发表于 2024-2-7 22:58
你这个规则我测试没问题,规则的样例网址是:https://s.weibo.com/weibo?q=%23chatgpt&typeall=1&suball= ...

比如这个https://s.weibo.com/weibo?q=%23chatgpt%23&typeall=1&suball=1&timescope=custom%3A2023-06-28-0%3A2023-06-30-23&Refer=g
爬出来只有8条
举报 使用道具
gz51837844 管理员 发表于 2024-2-7 23:12:31 | 显示全部楼层
2794244010 发表于 2024-2-7 23:00
比如这个https://s.weibo.com/weibo?q=%23chatgpt%23&typeall=1&suball=1&timescope=custom%3A2023-06-28 ...

这个网址我测试也正常,翻了15页,采集了110条
20240207002.png
举报 使用道具
2794244010 初级会员 发表于 2024-2-7 23:16:53 | 显示全部楼层
gz51837844 发表于 2024-2-7 23:12
这个网址我测试也正常,翻了15页,采集了110条

感谢,又试了一遍,成功了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系
  • 知乎话题文本分词后的共词矩阵怎样引入词语

热门用户

GMT+8, 2024-2-21 13:29