981#
Fuller 管理员 发表于 2020-1-2 16:12:11 | 只看该作者
Zendralyn 发表于 2020-1-2 15:53
请问用户的认证能爬取吗?就是想要知道用户是官微会员或者其他,这个会爬取吗? ...

把一批网址添加到这个采集工具:https://www.gooseeker.com/res/softdetail_8.html
采集完成后,机构的微博放在一个excel中,个人的微博放在另一个excel中,就分开了
举报 使用道具
982#
Zendralyn 初级会员 发表于 2020-1-2 16:18:34 | 只看该作者
那请问会出现反爬现象吗?因为我爬取的数量很多
举报 使用道具
983#
wangyong 版主 发表于 2020-1-2 16:32:43 | 只看该作者
Zendralyn 发表于 2020-1-2 16:18
那请问会出现反爬现象吗?因为我爬取的数量很多

微博工具箱对爬取速度做了控制,一般不会出现反爬
举报 使用道具
984#
Fuller 管理员 发表于 2020-1-2 16:39:57 | 只看该作者
Zendralyn 发表于 2020-1-2 16:18
那请问会出现反爬现象吗?因为我爬取的数量很多

为了能稳定运行,通常这样安排:
1,用一个微博账号在爬虫浏览器上登录微博。这个账号一天爬取的网页数量不要超过1万个
如果使用微博采集工具箱,我们专门做了调速,速度比较慢,一台电脑不会超过1万个/天

2,如果需要短时间内爬更多微博,那么注册多个微博账号,用多台电脑,一台登录一个微博账号。购买旗舰版可以同时运行5台电脑,还可以单独购买电脑配合,购买专业版,可以运行2台电脑,不能单独增加配额。
举报 使用道具
985#
funfunfun 中级会员 发表于 2020-1-3 10:40:01 | 只看该作者
怎样才能获取博文的定位数据呢(也就是经纬度
举报 使用道具
986#
Zendralyn 初级会员 发表于 2020-1-9 08:00:46 | 只看该作者
爬取微博话题内容,话题有效,但是在爬取最开始会出现需要登录微博账号,我是在搜狐浏览器微博登录的状态下,点击启动采集,但是总是无法爬取,请问怎么解决?
举报 使用道具
987#
Fuller 管理员 发表于 2020-1-9 08:50:54 | 只看该作者
Zendralyn 发表于 2020-1-9 08:00
爬取微博话题内容,话题有效,但是在爬取最开始会出现需要登录微博账号,我是在搜狐浏览器微博登录的状态下 ...

要在集搜客浏览器登录微博
举报 使用道具
988#
Zendralyn 初级会员 发表于 2020-1-9 14:52:45 | 只看该作者
我现在用了集搜客浏览器登录微博,还是一样的状况无法爬取。
举报 使用道具
989#
Zendralyn 初级会员 发表于 2020-1-9 15:08:30 | 只看该作者
Fuller 发表于 2020-1-9 08:50
要在集搜客浏览器登录微博

不管怎样都是未执行采集任务
举报 使用道具
990#
Fuller 管理员 发表于 2020-1-9 15:30:54 | 只看该作者
Zendralyn 发表于 2020-1-9 15:08
不管怎样都是未执行采集任务

集搜客网络爬虫软件刚开始运行的时候,要去输入账号和密码。 集搜客网站也会要求输入账号和密码。这两个账号是同一个吗?如果两个账号不同,那么就拿不到采集任务
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-21 06:09