11#
lucky半杯 中级会员 发表于 2016-11-24 20:43:00 | 只看该作者
ym 发表于 2016-11-24 09:50
黑色框和下一页所在的黄色区块都是包含了翻页按钮“下一页”,所以两者都可以作为翻页区块映射给记号线索 ...

遇到了一个大问题,我弄了2天,都快疯了。
我做的二个规则都已经正常爬取。其中第一个规则很正常。
第二个爬取的数据。最后在EXCLE中部分爬取到了,但是有部分没有爬取到。不知道为啥,下面的JACK没有爬取到,但是网页上是有的。我很确定我的规则应该没问题,咋搞啊。。。求助


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
12#
lucky半杯 中级会员 发表于 2016-11-24 20:43:34 | 只看该作者
xandy 发表于 2016-11-23 22:40
教程没错,你理解错了,上面那个图的教程指向“下一页”是为了告诉你怎么定位到整个页码的区块A节点(1、2 ...

求指导下我下面的那个问题

举报 使用道具
13#
lucky半杯 中级会员 发表于 2016-11-24 21:03:24 | 只看该作者

找到原因了,可能是网站结构的问题,如图,有的可以点击去,如255,有的不能点进去如,35497。这样怎么弄

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
14#
Fuller 管理员 发表于 2016-11-24 21:38:30 | 只看该作者
他们的区别可能是像这样的两个xpath:
1)span/a/text()
2)span/text()
这样的话,用span做内容映射,抓取那个排名数字
举报 使用道具
15#
lucky半杯 中级会员 发表于 2016-11-25 15:52:23 | 只看该作者
Fuller 发表于 2016-11-24 21:38
他们的区别可能是像这样的两个xpath:
1)span/a/text()
2)span/text()

就是都是这个Authorinfo节点的,但是不同的网页结构,都在各自的TEXT下面,你说的那个Span我不会啊,求教,

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
16#
lucky半杯 中级会员 发表于 2016-11-29 09:48:39 | 只看该作者
xandy 发表于 2016-11-23 21:08
黑色那部分(包含整个页码区的)是给翻页线索定位的
红色区块(包含‘下一页’的)里头的text()是拿来做记 ...

能回答下我倒数第二楼的帖子吗
举报 使用道具
17#
ym 版主 发表于 2016-11-29 09:51:58 | 只看该作者
lucky半杯 发表于 2016-11-29 09:48
能回答下我倒数第二楼的帖子吗

直接用span节点做内容映射,右击span节点->选择内容映射,这样两种结构都抓到了
举报 使用道具
18#
Fuller 管理员 发表于 2016-11-29 09:55:26 | 只看该作者
lucky半杯 发表于 2016-11-25 15:52
就是都是这个Authorinfo节点的,但是不同的网页结构,都在各自的TEXT下面,你说的那个Span我不会啊,求教 ...

用那个含有@class='curAuthorInfo'的DIV做内容映射,就能抓全
举报 使用道具
19#
xandy 论坛元老 发表于 2016-11-29 09:58:17 | 只看该作者
lucky半杯 发表于 2016-11-29 09:48
能回答下我倒数第二楼的帖子吗

你发一个样本网址给我
举报 使用道具
20#
xandy 论坛元老 发表于 2016-11-29 10:00:37 | 只看该作者
lucky半杯 发表于 2016-11-29 09:48
能回答下我倒数第二楼的帖子吗

是的,正如楼上所说的。用那个含有@class='curAuthorInfo'的DIV做内容映射的话,应该可以抓到整个文本内容xxx排名:xxx
这样你就可以在excel里头进行处理一下,用一个函数将排名那个数字提取出来
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-22 14:52