快捷导航
可以采集规定时间内的博主主页数据吗?

举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2017-12-7 11:35

ym 版主 发表于 2017-2-16 17:15:41 | 显示全部楼层
本帖最后由 ym 于 2017-2-16 17:16 编辑

1)通过博主主页上的搜索按钮,限定时间后,再抓取这个网址,例如:
  1. http://weibo.com/678189119?is_ori=1&is_forward=1&is_text=1&is_pic=1&is_video=1&is_music=1&is_article=1&key_word=&start_time=2017-02-13&end_time=2017-02-16&is_search=1&is_searchadv=1#_0
复制代码

2)点击博主主页右侧的历史时间,按年月的网址进行抓取,例如:
  1. http://weibo.com/678189119?is_all=1&stat_date=201701#feedtop
复制代码
QQ截图20170216171105.png

举报 使用道具
小安河 初级会员 发表于 2017-2-16 17:17:43 | 显示全部楼层
好的,谢谢
举报 使用道具
PYZ201314 新手上路 发表于 2017-5-18 20:13:32 | 显示全部楼层
请问为什么抓取的数据是不完整的?比如肉眼看就不止20条,但限定时间后只显示了20条
举报 使用道具
maomao 中级会员 发表于 2017-5-18 20:44:36 | 显示全部楼层
PYZ201314 发表于 2017-5-18 20:13
请问为什么抓取的数据是不完整的?比如肉眼看就不止20条,但限定时间后只显示了20条
...

可以逐条很多一下,看看漏在什么位置,是在中间不定位置漏?还是最后的漏掉了?

DS打数机运行的时候有没有打开滚屏?你的规则是自己定义的?还是用的微博采集工具箱?
举报 使用道具
ym 版主 发表于 2017-5-19 10:51:41 | 显示全部楼层
PYZ201314 发表于 2017-5-18 20:13
请问为什么抓取的数据是不完整的?比如肉眼看就不止20条,但限定时间后只显示了20条
...

你说的情况,可能是微博本身的限制或者是反爬机制造成的,只能把时间段切小点,尽可能地查找出更多信息,才能采集到更多。

举报 使用道具
wlbkk811 新手上路 发表于 2017-12-7 10:58:24 | 显示全部楼层
为什么一直显示菜集中,爬不下来
举报 使用道具
数据集二期 初级会员 发表于 2017-12-7 11:35:15 | 显示全部楼层
wlbkk811 发表于 2017-12-7 10:58
为什么一直显示菜集中,爬不下来

使用微博工具显示采集中,说明打数机窗口还在采集,查看打数机窗口是否在运行,如果没有运行,说明添加的网址结构和样本页面的网址结构不一致,就不能使用该微博工具。另外采集过程中不要关闭打数机窗口。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 百度推广后台数据DIY
  • 采集表单中的input动态内容
  • 采用刷新动作实现手机页面采集
  • 通过划定滚轮范围实现精确点击手机页面
  • 放大或者缩小页面便于采集手机网页内容

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-12-18 22:42