集搜客GooSeeker网络爬虫

标题: 知乎话题讨论能采集全吗? [打印本页]

作者: 发誓学好内容分析    时间: 2020-12-17 17:29
标题: 知乎话题讨论能采集全吗?
我想采集知乎问题下的所有回答,要针对一个话题做一个研究,我发现这个网页是动态显示内容的,鼠标往下滚动,就会显示更多的回答,而且长的回答会收缩起来的。

是否可以用集搜客网络爬虫采集全?如果我用知乎快捷采集的话,应该选择哪个?



作者: 内容分析应用    时间: 2020-12-18 12:07
可以结合使用这几个快捷采集
先使用知乎_关键词搜索结果列表_话题,搜索关键词得到搜索结果列表, 然后把网址添加到:
知乎_独立话题动态内容采集
知乎_独立问题所有回复采集



作者: 内容分析应用    时间: 2020-12-18 12:12
[attach]13417[/attach]
集搜客官网知乎快捷采集下面, 有多个模板,直接添加网址后启动采集就可以了。
点击这里下载新版爬虫




作者: Fuller    时间: 2020-12-19 10:02
最关键的是要选对网址。知乎一进入,看到的通常是瀑布流的内容,瀑布流很难采集全,因为网页内容随着滚动鼠标会很大,最后内存都放不下了。实际上知乎上有分页的网页。入下图,选择按时间排序,就能看到有分页,而且所有内容都是全文展开的。
[attach]13431[/attach]


[attach]13432[/attach]

作者: labalbal    时间: 2024-3-19 14:32
Fuller 发表于 2020-12-19 10:02
最关键的是要选对网址。知乎一进入,看到的通常是瀑布流的内容,瀑布流很难采集全,因为网页内容随着滚动鼠 ...

你好,我想问下,我点击了时间排序,但还是没有页数,依然是往下滑,就不断出现新回答。这该怎么解决呢?

作者: gz51837844    时间: 2024-3-19 16:41
labalbal 发表于 2024-3-19 14:32
你好,我想问下,我点击了时间排序,但还是没有页数,依然是往下滑,就不断出现新回答。这该怎么解决呢? ...

知乎的瀑布流页面,要采集多需要电脑和网速比较快,另外可以多尝试几遍。
你是使用的知乎快捷采集吗?





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2