26 35414

自定义采集

数据爬呀爬 于 2019-12-3 20:21 发表 [复制链接]
Fuller 管理员 发表于 2019-12-4 23:05:16 | 显示全部楼层
数据爬呀爬 发表于 2019-12-4 19:17
每次样例复制之后,测试的结果都不全,而且只能采集第一页内容

遇到这种问题,要一个个对,看看到哪个内容没有抓取到,然后在DOM结构上看这个内容与其他的有什么不同

块20191204223614.png

前面的所有内容,都像第一个箭头指向的div那样,一个个排着放,但是到了红框那个以后,都放在一个div中,在这个div中又分出来一个个内容,那么,规则到这里就不适合了,因为网页内容的排放规律变了。

最简单的方式是找到一个合适的,代表一个内容块的class值作为定位标志,参考这篇文章,用定位标志采集列表数据,而不用样例复制,这样就不会受网页结构的影响。

如下图,把样例复制去掉,选择这个class值做定位标志映射,因为所有的微博内容都放在这个div之内。这样就解决问题了
定位0191204230358.png
举报 使用道具
数据爬呀爬 初级会员 发表于 2019-12-5 10:19:48 | 显示全部楼层
好的谢谢,我测试了一下,现在可以了。还有一个问题就是我想知道在这个网页上能否设置采集到博主主页的网址呢
举报 使用道具
数据爬呀爬 初级会员 发表于 2019-12-5 10:31:00 | 显示全部楼层
我发现刚刚测试之后是开始爬取信息了,但是只爬取了几页就停止了,这又是因为什么呢
举报 使用道具
数据爬呀爬 初级会员 发表于 2019-12-5 10:41:49 | 显示全部楼层
还有就是在签到的人网页中(https://weibo.com/p/100101B2094551D564AAFC469D/checkin
user_filter=filter%3Dall&from=page_place&mod=mpeople&type=title)做样例复制或者定位映射都只能获取第一页信息,该怎么解决这个问题呢
举报 使用道具
Fuller 管理员 发表于 2019-12-5 10:56:44 | 显示全部楼层
数据爬呀爬 发表于 2019-12-5 10:41
还有就是在签到的人网页中(https://weibo.com/p/100101B2094551D564AAFC469D/checkin
user_filter=filter% ...

在整理箱那个工作台上,有个“定位”按钮,点击后,选择偏好class试试。你先试一下,我也测试一下
举报 使用道具
数据爬呀爬 初级会员 发表于 2019-12-5 11:56:54 | 显示全部楼层
好的
举报 使用道具
数据爬呀爬 初级会员 发表于 2019-12-5 11:59:11 | 显示全部楼层
试过了也是不行
举报 使用道具
Fuller 管理员 发表于 2019-12-5 18:21:59 | 显示全部楼层

我看了你的规则,并没有按照我前面帖子说的用定位标志映射采集多个样例,你还是用样例复制
举报 使用道具
Fuller 管理员 发表于 2019-12-5 18:27:21 | 显示全部楼层
微博的这个网页速度好慢,要把滚屏次数设置很大,我设置成20次,翻页还可以,一开始设置了5次,到第4页就没等显示出来“下一页”就结束了
举报 使用道具
Fuller 管理员 发表于 2019-12-5 18:34:35 | 显示全部楼层
第二个网址不对,显示不出来内容
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 09:43