很奇怪,有的知乎的评论回复的内容能采集出来,有的不能,这是为什么,是同一个模板

image.png (57.34 KB, 下载次数: 481)

image.png
举报 使用道具
| 回复

共 22 个关于本帖的回复 最后回复于 2022-4-23 09:14

沙发
Fuller 管理员 发表于 2022-4-19 15:02:25 | 只看该作者
把不能采集的网址发出来,我试试
举报 使用道具
板凳
zhangzhang12 初级会员 发表于 2022-4-19 16:56:25 | 只看该作者
Fuller 发表于 2022-4-19 15:02
把不能采集的网址发出来,我试试

https://www.zhihu.com/question/473581718/answer/2010260531这个,谢谢您


举报 使用道具
地板
zhangzhang12 初级会员 发表于 2022-4-20 15:45:22 | 只看该作者
zhangzhang12 发表于 2022-4-19 16:56
https://www.zhihu.com/question/473581718/answer/2010260531这个,谢谢您


是不是不行,我今天还没把它采集出来,但别的都可以
举报 使用道具
5#
Fuller 管理员 发表于 2022-4-20 17:47:07 | 只看该作者
zhangzhang12 发表于 2022-4-20 15:45
是不是不行,我今天还没把它采集出来,但别的都可以

你观察一下采集过程中窗口是怎样显示的。如果评论是一个弹窗显示出来的,就采集不到多少,只有第一屏。如果评论是在回答后面显示的,就能一页一页翻页采集。

正常的话,爬虫加载网页以后就开始滚屏,一直往下滚并滚到底,然后就点击展开评论。这样显示的评论就是在回答后面。

如果加载网页以后,还没有来得及滚动到最后就开始点击展开评论,那么就是弹窗方式
举报 使用道具
6#
zhangzhang12 初级会员 发表于 2022-4-20 19:25:38 | 只看该作者
Fuller 发表于 2022-4-20 17:47
你观察一下采集过程中窗口是怎样显示的。如果评论是一个弹窗显示出来的,就采集不到多少,只有第一屏。如 ...

那如果是弹窗的话,要如何改呢。在采集的过程中总会说规则错误
举报 使用道具
7#
Fuller 管理员 发表于 2022-4-21 09:10:36 | 只看该作者
zhangzhang12 发表于 2022-4-20 19:25
那如果是弹窗的话,要如何改呢。在采集的过程中总会说规则错误

出现弹出模式,也不会采集失败。照样能采集到内容,只是采集到的数量少。

采集失败说明网页内容没有加载全。你在采集知乎之前有没有在爬虫浏览器中登录知乎?采集的时候,有没有看到评论自动展开显示出来很多?
举报 使用道具
8#
zhangzhang12 初级会员 发表于 2022-4-21 09:29:36 | 只看该作者
Fuller 发表于 2022-4-21 09:10
出现弹出模式,也不会采集失败。照样能采集到内容,只是采集到的数量少。

采集失败说明网页内容没有加载 ...

好的知道了,登录没登陆没有印象,我今天再尝试一下,谢谢
举报 使用道具
9#
zhangzhang12 初级会员 发表于 2022-4-21 09:38:40 | 只看该作者
Fuller 发表于 2022-4-21 09:10
出现弹出模式,也不会采集失败。照样能采集到内容,只是采集到的数量少。

采集失败说明网页内容没有加载 ...

我在爬取的时候有登录,并且那个回复的页面也在滚动,但是滚动完了之后会告诉我规则不合适或超时时间设置太短,但是其他的并没有这个提示,有的话再爬一次就好了,但是这个网址是一直爬取不出来
举报 使用道具
10#
Fuller 管理员 发表于 2022-4-21 10:19:57 | 只看该作者
zhangzhang12 发表于 2022-4-21 09:38
我在爬取的时候有登录,并且那个回复的页面也在滚动,但是滚动完了之后会告诉我规则不合适或超时时间设置 ...

像知乎这样的网页,鼠标不往下滚动的话,内容就不会加载,所以,爬虫运行的时候,窗口要尽量大,这样滚动不了多少次就到底了。如果你的窗口已经放大到最大了,还超时,那么可以试试缩小爬虫浏览器内的文字。使用组合键 ctrl - ,同时按,有10级比例,不要过小,不然会点击不准确,估计按两下就可以了。这样,在小屏幕电脑上也能显示比较多的内容
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 22:49