您好,任务名称是波西米亚手机0320,我爬取的页面是weibo.cn,构建了两个整理箱,一个爬取原创内容,一个爬取转发内容,但是爬到第三页以后显示匹配失败,求助!!!感谢!!!
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2020-3-20 17:12

沙发
Fuller 管理员 发表于 2020-3-20 16:40:10 | 只看该作者
我加载了你的规则,我看到两个整理箱,两个都含有关键内容,那么会有一个问题:如果翻页到某一页,全部是转发的微博,那么原创微博那个整理箱就会失效;另一方面,如果某一页全部是原创微博,那么转发微博那个整理箱同样会失效。

所以,你这个规则只能采集网页上既有原创也有转发微博的页面。

其实用一个整理箱就行了,如果转发微博,那么会多了一块转发的内容,很容易在采集结果中过滤出来。

这里有微博的快捷采集,不用自己定义规则:https://www.gooseeker.com/res/da ... A%E5%BE%AE%E5%8D%9A
举报 使用道具
板凳
Fuller 管理员 发表于 2020-3-20 16:46:53 | 只看该作者
我加载你的规则,还发现一个问题,就是定位不准,如下图,做规则的时候定位是准的,但是生成规则就不准了,这是因为网页上有相同class的DOM节点,爬虫会区分不出来,这个帖子总结了好几种情况:https://www.gooseeker.com/doc/thread-707-1-1.html


举报 使用道具
地板
xnznznznz 初级会员 发表于 2020-3-20 16:50:05 | 只看该作者
可是如果我只用原创微博的整理箱,转发内容就爬不下来了呀?所以爬两次再单独爬一下转发的微博吗?
举报 使用道具
5#
xnznznznz 初级会员 发表于 2020-3-20 16:51:00 | 只看该作者
可以设置一下关键内容那让他在一页上如果有转发就爬转发,如果有原创就爬原创,如果都有就同时爬取转发的和原创的吗?
举报 使用道具
6#
xnznznznz 初级会员 发表于 2020-3-20 16:52:15 | 只看该作者
我爬的这个页面是手机版的微博,和快捷采集那的不一样吧?而且快捷采集只能采前31页。我用快捷采集试了一次,我设置的月份是2019年全年,但是爬下来的也只是11月和12月的数据
举报 使用道具
7#
Fuller 管理员 发表于 2020-3-20 16:54:52 | 只看该作者
xnznznznz 发表于 2020-3-20 16:51
可以设置一下关键内容那让他在一页上如果有转发就爬转发,如果有原创就爬原创,如果都有就同时爬取转发的和 ...

找一条含有转发内容的微博作为样例定义规则,也就是说样例要最全的那条,其中的转发内容不要勾关键内容,这样,遇到原创的,转发部分的抓取内容就会空着。

其实最麻烦的是样例必须是第一条,但是第一条不一定含有转发内容,所以,针对这种情况,我们做的快捷采集规则全部是自定义XPath的。自定义XPath的时候,有些抓取内容在当前样例中没有也可以定义规则
举报 使用道具
8#
Fuller 管理员 发表于 2020-3-20 16:58:36 | 只看该作者
xnznznznz 发表于 2020-3-20 16:52
我爬的这个页面是手机版的微博,和快捷采集那的不一样吧?而且快捷采集只能采前31页。我用快捷采集试了一次 ...

是一样的,微博对翻页数量做了限制,最多翻页50页,自己定义的规则和快捷采集都一样,突破不了这个限制。

如果要采集的内容特别多,就要根据时间段进行切分。关键词搜索那里有高级搜索,可以设置时间范围,最小是一个小时,如果50页还不够就没办法了。如果要采集博主主页,博主主页上可以选时间范围
举报 使用道具
9#
xnznznznz 初级会员 发表于 2020-3-20 17:12:25 | 只看该作者
好的谢谢,我在研究一下!!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 21:41