11#
Fuller 管理员 发表于 2017-6-9 22:09:57 | 只看该作者
L_Y_P123 发表于 2017-6-9 20:44
所以集搜客爬到的结果全吗?微博的这种机制对所有爬虫软件都是一样的吗?
...

对所有爬虫都是一样的,爬虫只能把看到的内容爬下来
举报 使用道具
12#
L_Y_P123 中级会员 发表于 2017-6-10 09:21:54 | 只看该作者
Fuller 发表于 2017-6-9 22:09
对所有爬虫都是一样的,爬虫只能把看到的内容爬下来

那就是说,在不失败的情况下,集搜客爬虫的结果就被认为是完整的了?爬多少就是多少,是这样的吗?
举报 使用道具
13#
ym 版主 发表于 2017-6-10 10:08:47 | 只看该作者
L_Y_P123 发表于 2017-6-10 09:21
那就是说,在不失败的情况下,集搜客爬虫的结果就被认为是完整的了?爬多少就是多少,是这样的吗?
...

是的,集搜客爬虫是实时采集的,所见即所得,浏览到多少就抓多少
举报 使用道具
14#
L_Y_P123 中级会员 发表于 2017-6-10 16:45:54 | 只看该作者
本帖最后由 L_Y_P123 于 2017-6-10 16:49 编辑
ym 发表于 2017-6-10 10:08
是的,集搜客爬虫是实时采集的,所见即所得,浏览到多少就抓多少

我用高级搜索缩小了时间范围,这是8点-9点的:http://s.weibo.com/weibo/%25E9%2597%25AE%25E9%25A2%2598%25E7%2596%25AB%25E8%258B%2597&typeall=1&suball=1×cope=custom:2016-03-18-8:2016-03-18-9&Refer=g
这个搜索结果列表里面没有图片中9:23发布的那条消息。我刷新了好几次网页、换了一个浏览器打开,搜索结果列表都没有单独显示这条微博,都是以转发的形式嵌套在其他微博中。这种微博应该怎么采集?
我想到的办法是在抓取外面那条微博的时候同时把里面那条微博(这样说纯粹为了指向清楚)一起抓下来。但是这样的话我该怎么定义规则呢?我是用定位标志映射做的样例复制,但是如果我的搜索结果列表第一条并不是转发微博的话怎么使用定位标志映射做样例复制?




P4K)KJDH@_2XO86V$`]VB]K.png (72.44 KB, 下载次数: 549)

P4K)KJDH@_2XO86V$`]VB]K.png
举报 使用道具
15#
Fuller 管理员 发表于 2017-6-10 16:52:13 | 只看该作者
L_Y_P123 发表于 2017-6-10 16:45
我用高级搜索缩小了时间范围,这是8点-9点的:http://s.weibo.com/weibo/%25E9%2597%25AE%25E9%25A2%2598% ...

把含有转发关系的微博采集下来,规则比较难做,建议用现成的关键词搜索采集工具吧。
举报 使用道具
16#
L_Y_P123 中级会员 发表于 2017-6-10 17:20:42 | 只看该作者
Fuller 发表于 2017-6-10 16:52
把含有转发关系的微博采集下来,规则比较难做,建议用现成的关键词搜索采集工具吧。
...

不行啊,导师布置的任务,到时候是要过问步骤的。。。要不然再做个层级链接?不过下层规则的链接是否必须是上层规则的第一个样例?上层规则的第一个样例不是这种嵌套的微博的话,该怎么做下层规则?
举报 使用道具
17#
Fuller 管理员 发表于 2017-6-10 22:20:36 | 只看该作者
L_Y_P123 发表于 2017-6-10 17:20
不行啊,导师布置的任务,到时候是要过问步骤的。。。要不然再做个层级链接?不过下层规则的链接是否 ...

虽然说规则难做,也不是不能做,给被转发微博创建所需的抓取内容。注意,被转发微博和套在外边的那层微博的很多@class是相同的,如果被转发微博的转发数和评论数 与 外边那层微博的转发数和评论抓混了,通常会都抓成被转发微博的转发数和评论数,那么就要写自定义xpath了。不过现在微博改版了,不知道是否还有这个问题,也许变得容易了。


尽量用上定位标志映射。


另外,做规则的时候需要一个样本页面,如果是针对微博搜索结果作规则,还有个麻烦就是搜索结果列表上的第一条不一定有转发微博,那么它就不合适做样例。但是,一定需要第一条做样例,所以就尴尬了。目前我们通常是这样做的:抓取微博搜索结果列表的时候,不抓取被转发微博,而是作个下层抓取,进入到一个微博的详情页做规则抓取被转发微博
举报 使用道具
18#
L_Y_P123 中级会员 发表于 2017-6-11 11:15:57 | 只看该作者
Fuller 发表于 2017-6-10 22:20
虽然说规则难做,也不是不能做,给被转发微博创建所需的抓取内容。注意,被转发微博和套在外边的那层微博 ...

我是用定位标志映射做的样例复制,这样的话做定位标志的时候不一定必须是第一条微博了吧?

举报 使用道具
19#
Fuller 管理员 发表于 2017-6-11 12:20:36 | 只看该作者
L_Y_P123 发表于 2017-6-11 11:15
我是用定位标志映射做的样例复制,这样的话做定位标志的时候不一定必须是第一条微博了吧?

...

可以这样,只要一个列表中有一个含有转发微博的就行
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-8 17:51