心诚泽霖 初级会员 发表于 2019-12-1 07:27:43 | 显示全部楼层
Fuller 发表于 2019-11-30 22:02
你使用的这个快捷采集是我们做好的规则共享给大家的。竟然有这么多失败的网址,你把一两条失败网址发出来 ...

https://s.weibo.com/weibo/%25E7% ... 1-03-20&Refer=g
https://s.weibo.com/weibo/%25E7% ... 1-04-20&Refer=g
这两个都有错的

附件是1年的网址,我一次批量放进去的

2011website.zip

12.75 KB, 下载次数: 0

举报 使用道具
Fuller 管理员 发表于 2019-12-1 09:45:53 | 显示全部楼层
心诚泽霖 发表于 2019-12-1 07:27
https://s.weibo.com/weibo/%25E7%2594%259F%25E8%2582%25B2?q=%E7%94%9F%E8%82%B2&scope=ori&suball=1&t ...

我采集测试了,发现都能成功,但是有时候显示出来只有一页,有时候有三页。这种页数不确定的问题解决不了。 为了确保采集成功,DS打数机的窗口要确保是最大的,不要把窗口最小化成屏幕底部的任务条上的图标。窗口上面可以覆盖其他窗口,不影响其他工作,但是不能最小化。微博网页在显示时,如果发现窗口不够显示内容的就不会加载内容
举报 使用道具
心诚泽霖 初级会员 发表于 2019-12-1 19:04:33 | 显示全部楼层
Fuller 发表于 2019-12-1 09:45
我采集测试了,发现都能成功,但是有时候显示出来只有一页,有时候有三页。这种页数不确定的问题解决不了 ...

好的,谢谢你的提醒
举报 使用道具
心诚泽霖 初级会员 发表于 2019-12-2 22:10:14 | 显示全部楼层
Fuller 发表于 2019-12-1 09:45
我采集测试了,发现都能成功,但是有时候显示出来只有一页,有时候有三页。这种页数不确定的问题解决不了 ...

你好,再请教你一个问题,一个小时就超过50页的微博要怎么爬取?
举报 使用道具
Fuller 管理员 发表于 2019-12-3 09:14:18 | 显示全部楼层
心诚泽霖 发表于 2019-12-2 22:10
你好,再请教你一个问题,一个小时就超过50页的微博要怎么爬取?

这种爬不到更多了,虽然可以尝试在高级搜索那里加一些搜索条件,比如,按照地区分,但是我测试过,分条件查到的内容有漏的,不过也能补充上一些
举报 使用道具
心诚泽霖 初级会员 发表于 2019-12-3 22:43:59 | 显示全部楼层
Fuller 发表于 2019-12-3 09:14
这种爬不到更多了,虽然可以尝试在高级搜索那里加一些搜索条件,比如,按照地区分,但是我测试过,分条件 ...

好的,谢谢您,用微博关键词工具搜出来的,为什么有很多“已停止”,这种是什么问题?
11.PNG
举报 使用道具
Fuller 管理员 发表于 2019-12-4 09:41:47 | 显示全部楼层
心诚泽霖 发表于 2019-12-3 22:43
好的,谢谢您,用微博关键词工具搜出来的,为什么有很多“已停止”,这种是什么问题?
...

已停止的一般是没有完全成功完成的,比如,翻页到一半,网页加载不出来了,爬虫判断得到的结论可能会是:规则不适合这个网页。这样就断了。这种就是失败状态,最后归为“已停止”
举报 使用道具
wangyong 版主 发表于 2020-12-24 15:24:38 | 显示全部楼层
微博关键词搜索热点数据的采集方法:
下载数据管家:https://www.gooseeker.com/pro/gooseeker.html,进入集搜客微博工具箱微博关键词搜索工具
数据管家-集微库.png
输入要采集的关键词和时间范围后,点击高级设置选择热门类型,这样采集到的微博就全是热门类型了
关键词输入热门类型微博.png
数据展示:
微博关键词搜索数据展示.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 05:02