JeromeL 初级会员 发表于 2023-2-9 13:29:37 | 显示全部楼层
gz51837844 发表于 2023-2-9 10:53
后台查了一下,你昨天采集的所有的TwitterAuthorTweetsData,原始入库11205条,去重后是3705条,总共的博 ...

推特推主推文数据采集(TwitterAuthorTweetsData)_20230208171421,您看看这个是不是131个博主。
举报 使用道具
gz51837844 管理员 发表于 2023-2-9 16:23:37 | 显示全部楼层
JeromeL 发表于 2023-2-9 13:29
推特推主推文数据采集(TwitterAuthorTweetsData)_20230208171421,您看看这个是不是131个博主。
...

是的。可能上午看的时候你有些数据没有入库完成,我现在看从昨天到今天,已经采集并去重后的数据有二十几万条
举报 使用道具
JeromeL 初级会员 发表于 2023-2-9 16:42:07 | 显示全部楼层
gz51837844 发表于 2023-2-9 16:23
是的。可能上午看的时候你有些数据没有入库完成,我现在看从昨天到今天,已经采集并去重后的数据有二十几 ...

我能拿到目前的数据吗?因为我这边有一个采集任务还开着,但是我不确定采集完成后,我能顺利打包下载。131个博主的任务打包后下载只有几百条,我也不知道问题在哪。谢谢,您看下载的数据,可不可直接在我的设备上存储,不需要去重。我自己去重就可以。有这个功能吗,把下载到的数据直接存在我本地。
举报 使用道具
Lj001129 初级会员 发表于 2023-2-9 17:37:37 | 显示全部楼层
您好,任务名是:Strictlyviolin荀博视频抓取。我想请教一下,1.任务目的是采集前100个视频的标题文本信息,为何我设置了滚屏动作以后点击测试却只能采集到二三十个这样子?2.有无办法采集到各个视频的点赞数和时长?每次点击点赞数位置总是显示无法定位到节点?3.像这样的网站能否采集到各个视频的评论呢?十分感谢!
举报 使用道具
Lj001129 初级会员 发表于 2023-2-9 17:38:00 | 显示全部楼层
gz51837844 发表于 2023-2-9 11:11
你这个网址https://www.douyin.com/music/692 ... 7132342125139594533, 需要修改成https://www.douyin.c ...

好的好的!谢谢您!
举报 使用道具
gz51837844 管理员 发表于 2023-2-9 18:13:01 | 显示全部楼层
JeromeL 发表于 2023-2-9 16:42
我能拿到目前的数据吗?因为我这边有一个采集任务还开着,但是我不确定采集完成后,我能顺利打包下载。13 ...

在本地是以多个xml文件的形式存储,不是excel格式的。
举报 使用道具
ida1015 初级会员 发表于 2023-2-9 19:38:41 | 显示全部楼层
提问:
使用【推特推主推文数据采集】,无法采集到全部推文(比如需要采集全部推文4000+,但只能得到800+);
改用【推特关键词搜索采集】,根本无法运行采集,关键词示例为from:VisitBeijingcn since:2019-10-01 until:2022-09-30
求解答,感谢!!!
举报 使用道具
JeromeL 初级会员 发表于 2023-2-10 10:43:37 | 显示全部楼层
我输入了131个推主,推特推主推文数据采集(TwitterAuthorTweetsData)_20230208171421,数据去重后8w条,但是 只有24个推主的。请问其他推主是都去重去掉了吗?我可以打包不去重数据吗?看着采集到的数据,为什么最后打包没有了。
举报 使用道具
maomao 论坛元老 发表于 2023-2-10 11:01:55 | 显示全部楼层
ida1015 发表于 2023-2-9 19:38
提问:
使用【推特推主推文数据采集】,无法采集到全部推文(比如需要采集全部推文4000+,但只能得到800+) ...

twitter的网页是瀑布流,很难采集完整
举报 使用道具
maomao 论坛元老 发表于 2023-2-10 11:03:32 | 显示全部楼层
JeromeL 发表于 2023-2-10 10:43
我输入了131个推主,推特推主推文数据采集(TwitterAuthorTweetsData)_20230208171421,数据去重后8w条,但 ...

twitter是瀑布流网页,而且访问比较困难。建议分批输入链接,每批少量,爬完了,检查完数据,再输入下一批。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-23 11:56