可以采集规定时间内的博主主页数据吗?

举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2017-12-7 11:35

ym 版主 发表于 2017-2-16 17:15:41 | 显示全部楼层
1)通过博主主页上的搜索按钮,限定时间后,再抓取这个网址,例如:
  1. http://weibo.com/678189119?is_ori=1&is_forward=1&is_text=1&is_pic=1&is_video=1&is_music=1&is_article=1&key_word=&start_time=2017-02-13&end_time=2017-02-16&is_search=1&is_searchadv=1#_0
复制代码
注意:设置搜索条件抓取特别容易失败,微博网站似乎对搜索有限制。尽量不要设置搜索条件,而是全部抓取,等导出数据以后,在excel中过滤掉不需要的数据
2)点击博主主页右侧的历史时间,按年月的网址进行抓取,例如:
  1. http://weibo.com/678189119?is_all=1&stat_date=201701#feedtop
复制代码
QQ截图20170216171105.png


举报 使用道具
小安河 初级会员 发表于 2017-2-16 17:17:43 | 显示全部楼层
好的,谢谢
举报 使用道具
PYZ201314 新手上路 发表于 2017-5-18 20:13:32 | 显示全部楼层
请问为什么抓取的数据是不完整的?比如肉眼看就不止20条,但限定时间后只显示了20条
举报 使用道具
maomao 论坛元老 发表于 2017-5-18 20:44:36 | 显示全部楼层
PYZ201314 发表于 2017-5-18 20:13
请问为什么抓取的数据是不完整的?比如肉眼看就不止20条,但限定时间后只显示了20条
...

可以逐条很多一下,看看漏在什么位置,是在中间不定位置漏?还是最后的漏掉了?

DS打数机运行的时候有没有打开滚屏?你的规则是自己定义的?还是用的微博采集工具箱?
举报 使用道具
ym 版主 发表于 2017-5-19 10:51:41 | 显示全部楼层
PYZ201314 发表于 2017-5-18 20:13
请问为什么抓取的数据是不完整的?比如肉眼看就不止20条,但限定时间后只显示了20条
...

你说的情况,可能是微博本身的限制或者是反爬机制造成的,只能把时间段切小点,尽可能地查找出更多信息,才能采集到更多。

举报 使用道具
wlbkk811 新手上路 发表于 2017-12-7 10:58:24 | 显示全部楼层
为什么一直显示菜集中,爬不下来
举报 使用道具
数据集二期 中级会员 发表于 2017-12-7 11:35:15 | 显示全部楼层
wlbkk811 发表于 2017-12-7 10:58
为什么一直显示菜集中,爬不下来

使用微博工具显示采集中,说明打数机窗口还在采集,查看打数机窗口是否在运行,如果没有运行,说明添加的网址结构和样本页面的网址结构不一致,就不能使用该微博工具。另外采集过程中不要关闭打数机窗口。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 09:37