可以采集规定时间内的博主主页数据吗?

举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2017-12-7 11:35

沙发
ym 版主 发表于 2017-2-16 17:15:41 | 只看该作者
1)通过博主主页上的搜索按钮,限定时间后,再抓取这个网址,例如:
  1. http://weibo.com/678189119?is_ori=1&is_forward=1&is_text=1&is_pic=1&is_video=1&is_music=1&is_article=1&key_word=&start_time=2017-02-13&end_time=2017-02-16&is_search=1&is_searchadv=1#_0
复制代码
注意:设置搜索条件抓取特别容易失败,微博网站似乎对搜索有限制。尽量不要设置搜索条件,而是全部抓取,等导出数据以后,在excel中过滤掉不需要的数据
2)点击博主主页右侧的历史时间,按年月的网址进行抓取,例如:
  1. http://weibo.com/678189119?is_all=1&stat_date=201701#feedtop
复制代码



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
小安河 初级会员 发表于 2017-2-16 17:17:43 | 只看该作者
好的,谢谢
举报 使用道具
地板
PYZ201314 新手上路 发表于 2017-5-18 20:13:32 | 只看该作者
请问为什么抓取的数据是不完整的?比如肉眼看就不止20条,但限定时间后只显示了20条
举报 使用道具
5#
maomao 论坛元老 发表于 2017-5-18 20:44:36 | 只看该作者
PYZ201314 发表于 2017-5-18 20:13
请问为什么抓取的数据是不完整的?比如肉眼看就不止20条,但限定时间后只显示了20条
...

可以逐条很多一下,看看漏在什么位置,是在中间不定位置漏?还是最后的漏掉了?

DS打数机运行的时候有没有打开滚屏?你的规则是自己定义的?还是用的微博采集工具箱?
举报 使用道具
6#
ym 版主 发表于 2017-5-19 10:51:41 | 只看该作者
PYZ201314 发表于 2017-5-18 20:13
请问为什么抓取的数据是不完整的?比如肉眼看就不止20条,但限定时间后只显示了20条
...

你说的情况,可能是微博本身的限制或者是反爬机制造成的,只能把时间段切小点,尽可能地查找出更多信息,才能采集到更多。

举报 使用道具
7#
wlbkk811 新手上路 发表于 2017-12-7 10:58:24 | 只看该作者
为什么一直显示菜集中,爬不下来
举报 使用道具
8#
数据集二期 中级会员 发表于 2017-12-7 11:35:15 | 只看该作者
wlbkk811 发表于 2017-12-7 10:58
为什么一直显示菜集中,爬不下来

使用微博工具显示采集中,说明打数机窗口还在采集,查看打数机窗口是否在运行,如果没有运行,说明添加的网址结构和样本页面的网址结构不一致,就不能使用该微博工具。另外采集过程中不要关闭打数机窗口。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-22 10:32