自定义采集

Fuller · 发表于 2019-12-4 23:05:16

数据爬呀爬发表于 2019-12-4 19:17
每次样例复制之后，测试的结果都不全，而且只能采集第一页内容

遇到这种问题，要一个个对，看看到哪个内容没有抓取到，然后在DOM结构上看这个内容与其他的有什么不同

块20191204223614.png

前面的所有内容，都像第一个箭头指向的div那样，一个个排着放，但是到了红框那个以后，都放在一个div中，在这个div中又分出来一个个内容，那么，规则到这里就不适合了，因为网页内容的排放规律变了。

最简单的方式是找到一个合适的，代表一个内容块的class值作为定位标志，参考这篇文章，用定位标志采集列表数据，而不用样例复制，这样就不会受网页结构的影响。

如下图，把样例复制去掉，选择这个class值做定位标志映射，因为所有的微博内容都放在这个div之内。这样就解决问题了
定位0191204230358.png

数据爬呀爬 · 发表于 2019-12-5 10:19:48

好的谢谢，我测试了一下，现在可以了。还有一个问题就是我想知道在这个网页上能否设置采集到博主主页的网址呢

数据爬呀爬 · 发表于 2019-12-5 10:31:00

我发现刚刚测试之后是开始爬取信息了，但是只爬取了几页就停止了，这又是因为什么呢

数据爬呀爬 · 发表于 2019-12-5 10:41:49

还有就是在签到的人网页中（https://weibo.com/p/100101B2094551D564AAFC469D/checkin
user_filter=filter%3Dall&from=page_place&mod=mpeople&type=title）做样例复制或者定位映射都只能获取第一页信息，该怎么解决这个问题呢

Fuller · 发表于 2019-12-5 10:56:44

数据爬呀爬发表于 2019-12-5 10:41
还有就是在签到的人网页中（https://weibo.com/p/100101B2094551D564AAFC469D/checkin
user_filter=filter% ...

在整理箱那个工作台上，有个“定位”按钮，点击后，选择偏好class试试。你先试一下，我也测试一下

数据爬呀爬 · 发表于 2019-12-5 11:56:54

好的

数据爬呀爬 · 发表于 2019-12-5 11:59:11

试过了也是不行

Fuller · 发表于 2019-12-5 18:21:59

数据爬呀爬发表于 2019-12-5 11:59
试过了也是不行

我看了你的规则，并没有按照我前面帖子说的用定位标志映射采集多个样例，你还是用样例复制

Fuller · 发表于 2019-12-5 18:27:21

微博的这个网页速度好慢，要把滚屏次数设置很大，我设置成20次，翻页还可以，一开始设置了5次，到第4页就没等显示出来“下一页”就结束了

Fuller · 发表于 2019-12-5 18:34:35

第二个网址不对，显示不出来内容

自定义采集

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页