举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2023-2-9 16:47

沙发
wangyong 版主 发表于 2022-8-18 09:16:16 | 只看该作者
可以采集,你输入的是什么网址,是推特搜索采集的链接吗?
举报 使用道具
板凳
ida1015 初级会员 发表于 2022-10-9 01:42:36 | 只看该作者
wangyong 发表于 2022-8-18 09:16
可以采集,你输入的是什么网址,是推特搜索采集的链接吗?

您好,是无法采集的。想采集某账号发布的贴文内容,按照规则输入的是账号首页网站,但总是失败
举报 使用道具
地板
ida1015 初级会员 发表于 2022-10-9 01:43:17 | 只看该作者
然后我现在每次采集状态跟楼主一样
举报 使用道具
5#
gz51837844 管理员 发表于 2022-10-9 07:55:16 | 只看该作者
估计网站改版了,今天技术会进行升级
举报 使用道具
6#
gz51837844 管理员 发表于 2022-10-9 09:21:08 | 只看该作者
ida1015 发表于 2022-10-9 01:43
然后我现在每次采集状态跟楼主一样

技术测试是可以采集的。
你把采集失败的网址发出来我们测试下
举报 使用道具
7#
ida1015 初级会员 发表于 2022-10-9 21:53:14 | 只看该作者
gz51837844 发表于 2022-10-9 09:21
技术测试是可以采集的。
你把采集失败的网址发出来我们测试下

已私信回复,感谢!
举报 使用道具
8#
gz51837844 管理员 发表于 2022-10-10 16:38:17 | 只看该作者
ida1015 发表于 2022-10-9 21:53
已私信回复,感谢!

你发的几条网址这里测试是OK的。估计推特会根据不同的国家地区,用户等,分别展示不同结构的网页。

你可以按如下方法保存一个本地html文件发给我,我们看看能否针对你看到的页面结构增加一个采集规则来匹配:
1. 在数据管家上面打开一个采集失败的推特页面,等待几十秒等页面加载完成。注意,下图的微博页面只是作为示意
2. 在网页内容空白处鼠标右键点击,然后选择“存样本页面”

3. 到电脑的爬虫文件夹,我电脑上是下图的路径,你的电脑会有不同, 把GSSamplePage目录打包发给我




举报 使用道具
9#
ida1015 初级会员 发表于 2023-2-9 16:47:19 | 只看该作者
gz51837844 发表于 2022-10-10 16:38
你发的几条网址这里测试是OK的。估计推特会根据不同的国家地区,用户等,分别展示不同结构的网页。

你可 ...

您好!现已能够进行瀑布流采集,但出现的问题是博主推文共4000+但我这里只能采集800多条。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 08:55