11#
lucky半杯 中级会员 发表于 2016-11-24 20:43:00 | 只看该作者
ym 发表于 2016-11-24 09:50
黑色框和下一页所在的黄色区块都是包含了翻页按钮“下一页”,所以两者都可以作为翻页区块映射给记号线索 ...

遇到了一个大问题,我弄了2天,都快疯了。
我做的二个规则都已经正常爬取。其中第一个规则很正常。
第二个爬取的数据。最后在EXCLE中部分爬取到了,但是有部分没有爬取到。不知道为啥,下面的JACK没有爬取到,但是网页上是有的。我很确定我的规则应该没问题,咋搞啊。。。求助


举报 使用道具
12#
lucky半杯 中级会员 发表于 2016-11-24 20:43:34 | 只看该作者
xandy 发表于 2016-11-23 22:40
教程没错,你理解错了,上面那个图的教程指向“下一页”是为了告诉你怎么定位到整个页码的区块A节点(1、2 ...

求指导下我下面的那个问题

举报 使用道具
13#
lucky半杯 中级会员 发表于 2016-11-24 21:03:24 | 只看该作者

找到原因了,可能是网站结构的问题,如图,有的可以点击去,如255,有的不能点进去如,35497。这样怎么弄
举报 使用道具
14#
Fuller 管理员 发表于 2016-11-24 21:38:30 | 只看该作者
他们的区别可能是像这样的两个xpath:
1)span/a/text()
2)span/text()
这样的话,用span做内容映射,抓取那个排名数字
举报 使用道具
15#
lucky半杯 中级会员 发表于 2016-11-25 15:52:23 | 只看该作者
Fuller 发表于 2016-11-24 21:38
他们的区别可能是像这样的两个xpath:
1)span/a/text()
2)span/text()

就是都是这个Authorinfo节点的,但是不同的网页结构,都在各自的TEXT下面,你说的那个Span我不会啊,求教,
举报 使用道具
16#
lucky半杯 中级会员 发表于 2016-11-29 09:48:39 | 只看该作者
xandy 发表于 2016-11-23 21:08
黑色那部分(包含整个页码区的)是给翻页线索定位的
红色区块(包含‘下一页’的)里头的text()是拿来做记 ...

能回答下我倒数第二楼的帖子吗
举报 使用道具
17#
ym 版主 发表于 2016-11-29 09:51:58 | 只看该作者
lucky半杯 发表于 2016-11-29 09:48
能回答下我倒数第二楼的帖子吗

直接用span节点做内容映射,右击span节点->选择内容映射,这样两种结构都抓到了
举报 使用道具
18#
Fuller 管理员 发表于 2016-11-29 09:55:26 | 只看该作者
lucky半杯 发表于 2016-11-25 15:52
就是都是这个Authorinfo节点的,但是不同的网页结构,都在各自的TEXT下面,你说的那个Span我不会啊,求教 ...

用那个含有@class='curAuthorInfo'的DIV做内容映射,就能抓全
举报 使用道具
19#
xandy 论坛元老 发表于 2016-11-29 09:58:17 | 只看该作者
lucky半杯 发表于 2016-11-29 09:48
能回答下我倒数第二楼的帖子吗

你发一个样本网址给我
举报 使用道具
20#
xandy 论坛元老 发表于 2016-11-29 10:00:37 | 只看该作者
lucky半杯 发表于 2016-11-29 09:48
能回答下我倒数第二楼的帖子吗

是的,正如楼上所说的。用那个含有@class='curAuthorInfo'的DIV做内容映射的话,应该可以抓到整个文本内容xxx排名:xxx
这样你就可以在excel里头进行处理一下,用一个函数将排名那个数字提取出来
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 11:48