主要目标是爬取参与用户的一下信息:
用户名(text做映射)
LV等级用(用Span下attributes里面的class做内容映射)
社团(有的用户有,有的没有,直接用IMG做的内容映射)
次数(text做映射)

问题:1.LV用class做内容映射,结果只有跟第一个用户等级一样的用户等级信息才能爬取下来,其他不一样的等级信息为空白。
          2.社团信息直接为空。
说是规则有问题。但是不知道问题在哪里。
急需指点,谢谢!

爬取结果示例:
<用户>蓝桥遗梦</用户>
<LV>level level-14</LV>
<社团/>
<次数>2次</次数>
<用户>牧笛响不停<用户>
<LV/>
<社团/>
<次数></次数>
<用户>Appearance</用户>
<LV>
<社团/>
<次数>2次</次数>



举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2018-4-3 23:41

沙发
wangyong 版主 发表于 2018-3-29 11:36:22 | 只看该作者
映射给lv的@class要用span的上级节点,现在直接用level level-14的@class映射抓下来的只会是相等的数据
所以要找所有lv共有的@class做定位标准映射
举报 使用道具
板凳
wangyong 版主 发表于 2018-3-29 11:57:49 | 只看该作者
img的也按照上面的操作方式做上定位标志映射

如果还是没解决可以把规则名贴出来
举报 使用道具
地板
maia_2017 初级会员 发表于 2018-3-31 10:17:38 | 只看该作者
wangyong 发表于 2018-3-29 11:36
映射给lv的@class要用span的上级节点,现在直接用level level-14的@class映射抓下来的只会是相等的数据
所 ...

不太懂Span的上级节点是哪里。
问题还没有解决。
我的主题名是幻联赛。
规则就是抓取帖子里面的四个信息。
求解答。

这是LV对应的Span节点的信息。

爬取下来的信息还是这个样子的。

第三张图片是,社团对应的节点信息。爬取不下来。


举报 使用道具
5#
Fuller 管理员 发表于 2018-3-31 11:17:17 | 只看该作者
maia_2017 发表于 2018-3-31 10:17
不太懂Span的上级节点是哪里。
问题还没有解决。
我的主题名是幻联赛。

我测试了一下 幻联赛 这个规则,没有问题
举报 使用道具
6#
Fuller 管理员 发表于 2018-3-31 11:22:51 | 只看该作者
我加载 幻联赛12  ,这个规则加载失败,这个规则是连续动作后的某一级吗?我看到有下面的报错
  1. 加载抓取规则遇到的错误:
  2. 无法定位容器 No.0
  3. 无法定位抓取内容 No.1 (情景2);XPath是.//*[@class='nickname']/text()
  4. 无法定位抓取内容 No.2 (情景2);XPath是.//*[@class='level level-14']/@class
  5. 无法定位抓取内容 No.3 (情景2);XPath是.//*[@class='badge']
  6. 无法定位抓取内容 No.4 (情景2);XPath是.//*[@class='fr count']/text()
复制代码
其中No.2那个抓取内容,如果这样写,只能抓取14级的,不是14级的就抓取不了。应该用自定义xpath
  1. .//*[contains(@class,'level level-')]/@class
复制代码
不用相同条件,而是用包含条件,就能抓取其他级别的

这个规则我们无法进一步调试,这个网站还要登录


举报 使用道具
7#
maia_2017 初级会员 发表于 2018-4-3 20:43:50 | 只看该作者
Fuller 发表于 2018-3-31 11:22
我加载 幻联赛12  ,这个规则加载失败,这个规则是连续动作后的某一级吗?我看到有下面的报错
其中No.2那个 ...

您能告诉我,Level那里,用自定义xpath具体怎么操作吗?我是level对应Span下的class做的内容映射,不是定位。结果就是我说的那种情况。
我有帐号密码,您需要的话我可以告诉您。谢谢,急需level的数据。

举报 使用道具
8#
shenzhenwan10 金牌会员 发表于 2018-4-3 22:36:32 | 只看该作者
本帖最后由 shenzhenwan10 于 2018-4-3 22:42 编辑
maia_2017 发表于 2018-4-3 20:43
您能告诉我,Level那里,用自定义xpath具体怎么操作吗?我是level对应Span下的class做的内容映射,不是定 ...

xpath的使用方法,已经有很多帖子和文章介绍, 你可以到集搜客教程板块搜索:


举报 使用道具
9#
maomao 论坛元老 发表于 2018-4-3 23:41:10 | 只看该作者
maia_2017 发表于 2018-4-3 20:43
您能告诉我,Level那里,用自定义xpath具体怎么操作吗?我是level对应Span下的class做的内容映射,不是定 ...

举个例子


点击“测试”按钮,查看“数据规则”,把那个抓取内容的XPath找到,拷出来进行修改



勾选这个抓取内容的“高级设置”,选中自定义xpath,输入修改好的xpath,就行了

但是要注意,修改xpath的时候,xpath开头的定位起点不能修改。比如那个截图,起点是following-sibling:,那么修改后的还应该是这样,只能修改后面的内容
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 16:51