http://souke.xdf.cn/MiddleSchool-8.html?attr=57&hide=0&applystate=0
想要抓取课程时间和课程地点,课程编号信息,但是抓取出来的数据课程地点的信息是课程时间,只有单独抓取地点才可以,而且搜集的数据大量重复。
大佬们帮忙看看

举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2020-3-7 17:47

沙发
wang976737631 初级会员 发表于 2020-3-7 11:41:03 | 只看该作者
规则名称:抓取课表ONE
举报 使用道具
板凳
Fuller 管理员 发表于 2020-3-7 11:52:16 | 只看该作者
我加载你的规则测试一下,我估计是这个帖子,首贴里面的最后一个链接说的问题:https://www.gooseeker.com/doc/thread-707-1-1.html
举报 使用道具
地板
wang976737631 初级会员 发表于 2020-3-7 11:56:29 | 只看该作者
Fuller 发表于 2020-3-7 11:52
我加载你的规则测试一下,我估计是这个帖子,首贴里面的最后一个链接说的问题:https://www.gooseeker.com/ ...

请问大佬要怎么解决

举报 使用道具
5#
maomao 论坛元老 发表于 2020-3-7 12:01:18 | 只看该作者
重新做一下标注吧,看到你的内容标注比较乱,比如课程名称和课程编号是标注了那一部分内容。然后,把如下的定位标志映射给时间,地点。




举报 使用道具
6#
Fuller 管理员 发表于 2020-3-7 12:05:01 | 只看该作者

看下面两个箭头,分别是时间和地点的dom节点,他们有相同的class,这样爬虫生成规则的时候,会搞混了。
有多种方法解决,我希望用他们的父节点的class给他们做定位标志映射,就是用父节点作为定位参照,就能区分开了。
鼠标选中父节点,鼠标右键菜单 定位标志映射 ,映射给这两个抓取内容
举报 使用道具
7#
wang976737631 初级会员 发表于 2020-3-7 12:33:27 | 只看该作者
Fuller 发表于 2020-3-7 12:05
看下面两个箭头,分别是时间和地点的dom节点,他们有相同的class,这样爬虫生成规则的时候,会搞混了。
有 ...

大佬,这问题解决了,我设置结束标志为重复内容,只抓了十条数据,怎么破?
举报 使用道具
8#
maomao 论坛元老 发表于 2020-3-7 12:41:10 | 只看该作者
这应该是翻页没做好,检查翻页区和翻页记号
举报 使用道具
9#
wang976737631 初级会员 发表于 2020-3-7 12:42:52 | 只看该作者
wang976737631 发表于 2020-3-7 12:33
大佬,这问题解决了,我设置结束标志为重复内容,只抓了十条数据,怎么破?
...

测试的时候第一页十条数据都抓到了,然后爬虫只有只有第一页数据


举报 使用道具
10#
Fuller 管理员 发表于 2020-3-7 17:47:22 | 只看该作者
wang976737631 发表于 2020-3-7 12:42
测试的时候第一页十条数据都抓到了,然后爬虫只有只有第一页数据

我测试了你的规则,翻页没有问题,你遇到的问题是什么现象?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 19:44