微博爬取官方微博中,下一页用的记号线索,第一次定制规则好使,再添加类似网址,下一页就定位不准了,应该怎么定位
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2018-10-30 17:15

沙发
Fuller 管理员 发表于 2018-10-30 10:37:55 | 只看该作者
你定义的规则的主题名是什么?
举报 使用道具
板凳
zhenghy 中级会员 发表于 2018-10-30 10:44:33 | 只看该作者
微博_博主1
举报 使用道具
地板
Fuller 管理员 发表于 2018-10-30 11:27:48 | 只看该作者
我看了你的规则,没有问题,另一个不适应的网页网址是什么?

另外,因为博主主页很长,DS打数机一定要打开自动滚屏,选择菜单 配置-》自动滚屏,把滚屏参数设置成>0的数字,比如,10
举报 使用道具
5#
zhenghy 中级会员 发表于 2018-10-30 13:56:18 | 只看该作者
https://weibo.com/xiaohuanmao?is ... &page=3#feedtop,比如这个网址,再次添加就不行了
举报 使用道具
6#
Fuller 管理员 发表于 2018-10-30 17:15:45 | 只看该作者
可以这样分析错误原因,
第一步:加载规则
第二步:在地址栏中输入第二个网址,等它加载出来,然后滚屏,一直滚到底,等看到翻页区后执行下面的步骤
第三步:选择菜单 规则-》刷新页面结构
第四步,选择菜单 规则-》分析页面
就能看到你定义的规则对第二个网址是不适应的。其实你只采集了一个网址,应该很容易做规则。我建议点击按钮“定位”修改成偏好class
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 12:28