快捷导航
26 402

自定义采集

数据爬呀爬 于 2019-12-3 20:21 发表 [复制链接]
在自定义采集的过程中,能否设置采集微博用户的博主主页网址呢
举报 使用道具
| 回复

共 26 个关于本帖的回复 最后回复于 5 天前

Fuller 管理员 发表于 2019-12-3 21:48:45 | 显示全部楼层
想从哪类网页上采集博主主页网址?从搜索结果网页上采集博主主页网址吗?
举报 使用道具
数据爬呀爬 初级会员 发表于 7 天前 | 显示全部楼层
类似这样的网页:https://weibo.com/p/100101B2094653D464ABFE499C,可以自定义采集到博主主页网址吗
举报 使用道具
Fuller 管理员 发表于 7 天前 | 显示全部楼层
数据爬呀爬 发表于 2019-12-4 11:29
类似这样的网页:https://weibo.com/p/100101B2094653D464ABFE499C,可以自定义采集到博主主页网址吗 ...

你是想把类似这样的网址都找到?

这个不是普通的博主网址,而是用于签到的景点或者周边地点。目前我不知道有没有一个集中的入口,可以搜到所有签到点。

但是可以用这种方法去收集含有签到地点的微博,虽然有些费事,就像撒网捕鱼一样费事:https://www.gooseeker.com/doc/thread-13390-1-1.html
举报 使用道具
数据爬呀爬 初级会员 发表于 7 天前 | 显示全部楼层
对的,我想把这些信息搜集起来,只能用这个方法吗?感觉很费时间呢
举报 使用道具
数据爬呀爬 初级会员 发表于 7 天前 | 显示全部楼层
而且我试着采集了一个签到地点的信息,在定义规则之后测试的时候第一页的内容不全,只能采集到部分博文,定位也选择了绝对定位还是不行,请问这是什么原因呢
举报 使用道具
数据爬呀爬 初级会员 发表于 7 天前 | 显示全部楼层
而且在设置了翻页操作之后,还是只能抓取第一页的数据,该怎么修改呢
举报 使用道具
Fuller 管理员 发表于 7 天前 | 显示全部楼层
数据爬呀爬 发表于 2019-12-4 17:10
而且我试着采集了一个签到地点的信息,在定义规则之后测试的时候第一页的内容不全,只能采集到部分博文,定 ...

把规则名发出来,我加载分析一下。一般这种问题是不能用绝对定位的,绝对定位可能更加采集不全,要找到合适的定位,在class和id之间尝试
举报 使用道具
数据爬呀爬 初级会员 发表于 7 天前 | 显示全部楼层
江湾博文
举报 使用道具
数据爬呀爬 初级会员 发表于 7 天前 | 显示全部楼层
每次样例复制之后,测试的结果都不全,而且只能采集第一页内容
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 网络爬虫采集html片段时无法生成结果文件怎
  • 网络爬虫占满了c盘怎么清理
  • 为什么采集速卖通用户评论翻页不了
  • 多级规则执行连续动作而输入动作不在第一级
  • 特征工程入门介绍

热门用户

GMT+8, 2019-12-11 01:03