731#
Fuller 管理员 发表于 2018-9-17 09:06:13 | 只看该作者
candyluo5 发表于 2018-9-17 00:49
你好我需要设置只采取originl的页面,去掉官方号,这没办法筛选应该怎么办

你的意思是说只采集普通博客发的内容,不要各种官方微博发的内容?

你用哪个工具?如果用博主主页采集工具,是要输入一个个博客网址的,输入的时候手工剔除掉官微就行。

如果是搜索工具,应该在导出采集结果后,进行剔除。
举报 使用道具
732#
candyluo5 中级会员 发表于 2018-9-17 14:08:30 | 只看该作者
Fuller 发表于 2018-9-17 09:06
你的意思是说只采集普通博客发的内容,不要各种官方微博发的内容?

你用哪个工具?如果用博主主页采集工 ...

用的搜索关键词工具,请问怎么搜完之后剔除,会有一列属性信息显示他是否是官方微博么
举报 使用道具
733#
Fuller 管理员 发表于 2018-9-17 18:36:11 | 只看该作者
candyluo5 发表于 2018-9-17 14:08
用的搜索关键词工具,请问怎么搜完之后剔除,会有一列属性信息显示他是否是官方微博么
...

爬虫自己判断不了,但是可以通过爬这个博主的信息,能筛选出来哪个博主是哪类账号。

关键词搜索结果中有发博的博主链接,用这个链接导入到这个微博采集快捷工具: https://www.gooseeker.com/res/da ... D%E4%BF%A1%E6%81%AF ,采集以后会得到一个列表,里面标明了是哪类账号。用这个信息再与搜索结果表进行匹配和筛选。
这两个字段都可以用来识别是不是官微




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
734#
baixiaopang 中级会员 发表于 2018-10-16 10:09:22 | 只看该作者
你好!我添加了要下载的微博主页地址,点击启动之后没有任何反应,两个界面都显示等待分配采集任务
举报 使用道具
735#
Fuller 管理员 发表于 2018-10-16 11:04:46 | 只看该作者
baixiaopang 发表于 2018-10-16 10:09
你好!我添加了要下载的微博主页地址,点击启动之后没有任何反应,两个界面都显示等待分配采集任务 ...

添加任务的时候,你登录的是会员中心,在浏览器的网页上添加任务。而执行任务的是DS打数机,他也要登录。你检查一下这两个登录的账号是否一致
举报 使用道具
736#
zz19941117 新手上路 发表于 2018-10-16 12:14:21 | 只看该作者
为什么已经显示采集完成的数据无法打包?显示没有可打包的数据?
举报 使用道具
737#
tuesday1 初级会员 发表于 2018-10-16 12:19:10 | 只看该作者
zz19941117 发表于 2018-10-16 12:14
为什么已经显示采集完成的数据无法打包?显示没有可打包的数据?

是哪个工具?在集搜客浏览器登录微博了?
举报 使用道具
738#
baixiaopang 中级会员 发表于 2018-10-17 21:39:27 | 只看该作者
Fuller 发表于 2018-10-16 11:04
添加任务的时候,你登录的是会员中心,在浏览器的网页上添加任务。而执行任务的是DS打数机,他也要登录。 ...

确认是一个账号,但是还是无法下载.一直是等待分配任务
举报 使用道具
739#
tuesday1 初级会员 发表于 2018-10-17 23:52:56 | 只看该作者
baixiaopang 发表于 2018-10-17 21:39
确认是一个账号,但是还是无法下载.一直是等待分配任务

你是不是爬虫版本太老了,下载个最新版的试试
举报 使用道具
740#
baixiaopang 中级会员 发表于 2018-10-23 18:10:21 | 只看该作者
tuesday1 发表于 2018-10-17 23:52
你是不是爬虫版本太老了,下载个最新版的试试

我下载新版本试一下。谢谢!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 为集搜客分词和情感分析扩展模块安装情感分
  • 集搜客分词软件的选词矩阵在哪里下载?
  • 为什么用微软的excel无法打开xls文件?powe
  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和

热门用户

GMT+8, 2026-1-13 09:13