131#
JeromeL 初级会员 发表于 2023-2-9 13:29:37 | 只看该作者
gz51837844 发表于 2023-2-9 10:53
后台查了一下,你昨天采集的所有的TwitterAuthorTweetsData,原始入库11205条,去重后是3705条,总共的博 ...

推特推主推文数据采集(TwitterAuthorTweetsData)_20230208171421,您看看这个是不是131个博主。
举报 使用道具
132#
gz51837844 管理员 发表于 2023-2-9 16:23:37 | 只看该作者
JeromeL 发表于 2023-2-9 13:29
推特推主推文数据采集(TwitterAuthorTweetsData)_20230208171421,您看看这个是不是131个博主。
...

是的。可能上午看的时候你有些数据没有入库完成,我现在看从昨天到今天,已经采集并去重后的数据有二十几万条
举报 使用道具
133#
JeromeL 初级会员 发表于 2023-2-9 16:42:07 | 只看该作者
gz51837844 发表于 2023-2-9 16:23
是的。可能上午看的时候你有些数据没有入库完成,我现在看从昨天到今天,已经采集并去重后的数据有二十几 ...

我能拿到目前的数据吗?因为我这边有一个采集任务还开着,但是我不确定采集完成后,我能顺利打包下载。131个博主的任务打包后下载只有几百条,我也不知道问题在哪。谢谢,您看下载的数据,可不可直接在我的设备上存储,不需要去重。我自己去重就可以。有这个功能吗,把下载到的数据直接存在我本地。
举报 使用道具
134#
Lj001129 初级会员 发表于 2023-2-9 17:37:37 | 只看该作者
您好,任务名是:Strictlyviolin荀博视频抓取。我想请教一下,1.任务目的是采集前100个视频的标题文本信息,为何我设置了滚屏动作以后点击测试却只能采集到二三十个这样子?2.有无办法采集到各个视频的点赞数和时长?每次点击点赞数位置总是显示无法定位到节点?3.像这样的网站能否采集到各个视频的评论呢?十分感谢!
举报 使用道具
135#
Lj001129 初级会员 发表于 2023-2-9 17:38:00 | 只看该作者
gz51837844 发表于 2023-2-9 11:11
你这个网址https://www.douyin.com/music/692 ... 7132342125139594533, 需要修改成https://www.douyin.c ...

好的好的!谢谢您!
举报 使用道具
136#
gz51837844 管理员 发表于 2023-2-9 18:13:01 | 只看该作者
JeromeL 发表于 2023-2-9 16:42
我能拿到目前的数据吗?因为我这边有一个采集任务还开着,但是我不确定采集完成后,我能顺利打包下载。13 ...

在本地是以多个xml文件的形式存储,不是excel格式的。
举报 使用道具
137#
ida1015 初级会员 发表于 2023-2-9 19:38:41 | 只看该作者
提问:
使用【推特推主推文数据采集】,无法采集到全部推文(比如需要采集全部推文4000+,但只能得到800+);
改用【推特关键词搜索采集】,根本无法运行采集,关键词示例为from:VisitBeijingcn since:2019-10-01 until:2022-09-30
求解答,感谢!!!
举报 使用道具
138#
JeromeL 初级会员 发表于 2023-2-10 10:43:37 | 只看该作者
我输入了131个推主,推特推主推文数据采集(TwitterAuthorTweetsData)_20230208171421,数据去重后8w条,但是 只有24个推主的。请问其他推主是都去重去掉了吗?我可以打包不去重数据吗?看着采集到的数据,为什么最后打包没有了。
举报 使用道具
139#
maomao 论坛元老 发表于 2023-2-10 11:01:55 | 只看该作者
ida1015 发表于 2023-2-9 19:38
提问:
使用【推特推主推文数据采集】,无法采集到全部推文(比如需要采集全部推文4000+,但只能得到800+) ...

twitter的网页是瀑布流,很难采集完整
举报 使用道具
140#
maomao 论坛元老 发表于 2023-2-10 11:03:32 | 只看该作者
JeromeL 发表于 2023-2-10 10:43
我输入了131个推主,推特推主推文数据采集(TwitterAuthorTweetsData)_20230208171421,数据去重后8w条,但 ...

twitter是瀑布流网页,而且访问比较困难。建议分批输入链接,每批少量,爬完了,检查完数据,再输入下一批。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-22 05:37