1311#
18521345326 新手上路 发表于 2021-12-24 12:02:14 | 只看该作者
您好,请问我抓取到的内容包括展开原文c,是因为最小化后台的缘故吗?
举报 使用道具
1312#
wangyong 版主 发表于 2021-12-24 13:46:04 | 只看该作者
18521345326 发表于 2021-12-24 12:02
您好,请问我抓取到的内容包括展开原文c,是因为最小化后台的缘故吗?

集搜客微博采集工具箱中通过微博关键词搜索结果采集工具微博博主主页采集工具或者其他微博工具采集微博数据时会采集下带有“展开全文”的数据

在采集结果中通过Excel将含有“展开全文”的数据筛选出来后


将其对应的“博文独立网址”添到微博博文展开全部采集中就可以将“展开全文”后的数据完整采集下来


数据展示:


举报 使用道具
1313#
mianmian314 初级会员 发表于 2022-1-8 17:41:10 | 只看该作者
您好,抓取微博评论的时候,显示抓取“失败(超时),抓取规则不合适或者超时时间设置太短”是什么原因呢?该如何解决呢?
举报 使用道具
1314#
Fuller 管理员 发表于 2022-1-8 22:45:12 | 只看该作者
mianmian314 发表于 2022-1-8 17:41
您好,抓取微博评论的时候,显示抓取“失败(超时),抓取规则不合适或者超时时间设置太短”是什么原因呢? ...

你要采集的网址是什么?发出来我看看。我估计你的网址不对
举报 使用道具
1315#
mianmian314 初级会员 发表于 2022-1-12 15:25:36 | 只看该作者
Fuller 发表于 2022-1-8 22:45
你要采集的网址是什么?发出来我看看。我估计你的网址不对

嗯嗯,解决了解决了,靴靴!
举报 使用道具
1316#
l947512109 新手上路 发表于 2022-1-15 15:42:51 | 只看该作者
为什么两千多条博文只采集到了七十多条呢?如果只选其中一个月,又会显示1条或0条数据……
举报 使用道具
1317#
Fuller 管理员 发表于 2022-1-15 16:13:34 | 只看该作者
l947512109 发表于 2022-1-15 15:42
为什么两千多条博文只采集到了七十多条呢?如果只选其中一个月,又会显示1条或0条数据…… ...

采集哪个网址?发出来看看。是关键词搜索还是博主主页?
举报 使用道具
1318#
l947512109 新手上路 发表于 2022-1-15 16:35:36 | 只看该作者
Fuller 发表于 2022-1-15 16:13
采集哪个网址?发出来看看。是关键词搜索还是博主主页?

https://weibo.com/gugongtmall?profile_ftype=1&is_all=1#_0
是采集博主主页的所有微博,但是利用采集所有历史微博和翻页模式都不行,切成某段时间也不能采集翻页模式的……只能在单页的网址下采集仅第1页

举报 使用道具
1319#
Fuller 管理员 发表于 2022-1-16 11:31:40 | 只看该作者
l947512109 发表于 2022-1-15 16:35
https://weibo.com/gugongtmall?profile_ftype=1&is_all=1#_0
是采集博主主页的所有微博,但是利用采集所 ...

我测试了,翻页很正常,微博主页的网页很长,采集的时候,如果屏幕大,所需滚屏数量就少,如果很小的笔记本电脑,就要滚很多屏,增加了失败的机会。

你用的是这个微博博主主页采集工具吗?https://www.gooseeker.com/res/softdetail_3.html
举报 使用道具
1320#
dada1017 初级会员 发表于 2022-2-21 10:52:16 | 只看该作者
本帖最后由 dada1017 于 2022-2-21 10:53 编辑

我的输入的网址应该是符合格式的,但是为什么一直现实停止采集,是失败的意思吗?
如果http://weibo.com/u/1556888272?topnav=1&wvr=6&topsug=1&is_all=1#_0这样的格式是错误的吗加了#_0在爬数据的过程中我看爬的主页也是对的,但是采集过程中凡是采集过的都显示停止采集。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-15 10:24