集搜客GooSeeker网络爬虫

标题: 可以采集规定时间内的博主主页数据吗? [打印本页]

作者: 小安河    时间: 2017-2-16 17:10
标题: 可以采集规定时间内的博主主页数据吗?
可以采集规定时间内的博主主页数据吗?


作者: ym    时间: 2017-2-16 17:15
1)通过博主主页上的搜索按钮,限定时间后,再抓取这个网址,例如:
  1. http://weibo.com/678189119?is_ori=1&is_forward=1&is_text=1&is_pic=1&is_video=1&is_music=1&is_article=1&key_word=&start_time=2017-02-13&end_time=2017-02-16&is_search=1&is_searchadv=1#_0
复制代码
注意:设置搜索条件抓取特别容易失败,微博网站似乎对搜索有限制。尽量不要设置搜索条件,而是全部抓取,等导出数据以后,在excel中过滤掉不需要的数据
2)点击博主主页右侧的历史时间,按年月的网址进行抓取,例如:
  1. http://weibo.com/678189119?is_all=1&stat_date=201701#feedtop
复制代码
[attach]5172[/attach]



作者: 小安河    时间: 2017-2-16 17:17
好的,谢谢
作者: PYZ201314    时间: 2017-5-18 20:13
请问为什么抓取的数据是不完整的?比如肉眼看就不止20条,但限定时间后只显示了20条

作者: maomao    时间: 2017-5-18 20:44
PYZ201314 发表于 2017-5-18 20:13
请问为什么抓取的数据是不完整的?比如肉眼看就不止20条,但限定时间后只显示了20条
...

可以逐条很多一下,看看漏在什么位置,是在中间不定位置漏?还是最后的漏掉了?

DS打数机运行的时候有没有打开滚屏?你的规则是自己定义的?还是用的微博采集工具箱?

作者: ym    时间: 2017-5-19 10:51
PYZ201314 发表于 2017-5-18 20:13
请问为什么抓取的数据是不完整的?比如肉眼看就不止20条,但限定时间后只显示了20条
...

你说的情况,可能是微博本身的限制或者是反爬机制造成的,只能把时间段切小点,尽可能地查找出更多信息,才能采集到更多。


作者: wlbkk811    时间: 2017-12-7 10:58
为什么一直显示菜集中,爬不下来

作者: 数据集二期    时间: 2017-12-7 11:35
wlbkk811 发表于 2017-12-7 10:58
为什么一直显示菜集中,爬不下来

使用微博工具显示采集中,说明打数机窗口还在采集,查看打数机窗口是否在运行,如果没有运行,说明添加的网址结构和样本页面的网址结构不一致,就不能使用该微博工具。另外采集过程中不要关闭打数机窗口。





欢迎光临 集搜客GooSeeker网络爬虫 (http://www.gooseeker.com/doc/) Powered by Discuz! X3.2