941#
goeiy_ 新手上路 发表于 2019-9-20 11:16:29 | 只看该作者
Fuller 发表于 2019-9-20 11:14
你观察一下DS打数机的浏览器窗口,微博内容在变化吗?

如果只有一个关键词:假设把要采集的内容按照“1 ...

一直还在变化的,可能我中途电脑自动休眠了对它有影响哦?我感觉好几个时间段(我看到的)已经爬过了现在又再重新爬……

举报 使用道具
942#
Fuller 管理员 发表于 2019-9-20 11:23:07 | 只看该作者
goeiy_ 发表于 2019-9-20 11:16
一直还在变化的,可能我中途电脑自动休眠了对它有影响哦?我感觉好几个时间段(我看到的)已经爬过了现在 ...

休眠唤醒以后会接着爬。晚上最好不要休眠,晚上网络状况好。但是要注意一点:微博会统计下载的数量,一天下载太多,会暂时性封锁爬虫。不过微博采集工具箱已经特意把速度调慢了,应该是安全的
举报 使用道具
943#
goeiy_ 新手上路 发表于 2019-9-20 11:43:42 | 只看该作者
Fuller 发表于 2019-9-20 11:23
休眠唤醒以后会接着爬。晚上最好不要休眠,晚上网络状况好。但是要注意一点:微博会统计下载的数量,一天 ...

谢谢!
举报 使用道具
944#
17839222877 新手上路 发表于 2019-10-16 20:32:47 | 只看该作者
数据爬取成功后一键打包,然后数据下载到本地打开一直显示压缩包已损坏或压缩格式未知,是不是打包过程中出错了,但是数据已经打包,没办法再次打包了
举报 使用道具
945#
Fuller 管理员 发表于 2019-10-16 20:51:37 | 只看该作者
17839222877 发表于 2019-10-16 20:32
数据爬取成功后一键打包,然后数据下载到本地打开一直显示压缩包已损坏或压缩格式未知,是不是打包过程中出 ...

有没有给采集任务起了比较怪的名字,或者你的MS excel是不是运行正常?可以加用户QQ群676198154,把文件发给管理员,我们打开试试。
举报 使用道具
946#
Fuller 管理员 发表于 2019-10-16 20:59:22 | 只看该作者
17839222877 发表于 2019-10-16 20:32
数据爬取成功后一键打包,然后数据下载到本地打开一直显示压缩包已损坏或压缩格式未知,是不是打包过程中出 ...

你用chrome浏览器下载一下试试。集搜客浏览器的处理能力弱一些,如果任务名中含有空格,就下载不了
举报 使用道具
947#
17839222877 新手上路 发表于 2019-10-19 19:12:07 | 只看该作者
在话题微博数据进行采集的时候总是显示已采集,但是数据量非常少,讨论量几万的话题采集结果有的只有几十条,重新添加采集任务后采集的数据很多都是重复的,话题采集也不能输入上次采集到的地方的网址,这个要怎么办呢?
举报 使用道具
948#
Fuller 管理员 发表于 2019-10-20 09:34:43 | 只看该作者
17839222877 发表于 2019-10-19 19:12
在话题微博数据进行采集的时候总是显示已采集,但是数据量非常少,讨论量几万的话题采集结果有的只有几十条 ...

有些话题,或者评论,虽然看到显示一个很大的数字,但是,实际上不让翻页看那么多。翻着翻着就不显示“下一页”了,遇到这种情况,爬虫就没法往下翻页了
举报 使用道具
949#
17839222877 新手上路 发表于 2019-10-22 14:04:57 | 只看该作者
Fuller 发表于 2019-10-20 09:34
有些话题,或者评论,虽然看到显示一个很大的数字,但是,实际上不让翻页看那么多。翻着翻着就不显示“下 ...

那好吧,谢谢啦

举报 使用道具
950#
960221WXX 新手上路 发表于 2019-10-28 21:51:41 | 只看该作者
采集微博博主主页信息时,主页链接怎么不能复制进去
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-28 16:40