|
遇到这种问题,要一个个对,看看到哪个内容没有抓取到,然后在DOM结构上看这个内容与其他的有什么不同
前面的所有内容,都像第一个箭头指向的div那样,一个个排着放,但是到了红框那个以后,都放在一个div中,在这个div中又分出来一个个内容,那么,规则到这里就不适合了,因为网页内容的排放规律变了。
最简单的方式是找到一个合适的,代表一个内容块的class值作为定位标志,参考这篇文章,用定位标志采集列表数据,而不用样例复制,这样就不会受网页结构的影响。
如下图,把样例复制去掉,选择这个class值做定位标志映射,因为所有的微博内容都放在这个div之内。这样就解决问题了
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|