本帖最后由 wangyong 于 2021-8-2 10:26 编辑


像这个,我想抓“查看更多”的网址,然后再进一步抓取更详细的主页资料,也就是分别写两个规则。
但是现在问题是有好多个微博博主的主页网址,但是第一个规则却无法试用所有的主页网址,也就是这个“查看更多”的网址无法抓下来,我想问的是这种情况怎么解决,是因为博主网页的网络结构不是全部一样的吗?
(虽然微博采集工具箱有这个工具,但是主页信息不全没有我想抓的东西,所以才自己写规则)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2021-4-26 09:51

沙发
Fuller 管理员 发表于 2017-3-4 21:05:03 | 只看该作者


想点这个“查看更多”?有两个方案

方案1:就像你现在做的,做两级规则。你现在遇到的问题是第一级网页结构好多种,对吧?其实没有好多种,定义第一级规则的时候尽量用上定位标志映射,能提高适应性。如果确实解决不了,可以在同一个主题名下定义多个规则,每个规则的“规则编号”不同,DS打数机运行的时候会自动选择。

方案2:第二级的网址可以构造,个人和机构的网址有些不同,他们都是在uid之前加了一串数字,个人和机构加的数字不一样,所以,如果你已经采集到了uid,那么直接构造就行了。

另外,也可以直接使用现成的微博采集工具——集微库

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
nn_jj_mm 初级会员 发表于 2017-3-5 10:15:13 | 只看该作者
Fuller 发表于 2017-3-4 21:05
想点这个“查看更多”?有两个方案

方案1:就像你现在做的,做两级规则。你现在遇到的问题是第一级网页 ...

已解决,感谢
举报 使用道具
地板
wangyong 版主 发表于 2021-4-26 09:51:34 | 只看该作者
下载数据管家从左侧工具条进入微博工具箱,使用微博博主详细资料采集工具新建采集任务→选择采集全部历史微博→输入要采集的微博网址建→确定提交启动采集


采集状态变成“已采集”时,点击“打包”按钮,就可以下载Excel格式的数据了
数据展示:


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-23 16:03