网页地址 http://cp.360.cn/jczq/zhh/?issue=20151101&r_a=7vqiqq

如图片所示,整个70几行的数据只采集到了50几行。采集到的数据少了一些条目。请问大家这是什么原因?

360数据

360数据

excel数据

excel数据
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2015-11-9 23:24

gz51837844 管理员 发表于 2015-11-5 22:59:11 | 显示全部楼层
这个页面结构里的样例映射是第一个TR当第一个样例,第三个TR当第二个样例
应该70多个都可以采集下来
举报 使用道具
Fuller 管理员 发表于 2015-11-5 23:49:00 | 显示全部楼层
主题名是什么?管理员可以加载上来看看具体问题在哪。

我初步估计,可能是因为网页上有些行的数据颜色有变化(比如那些有绿框的),那么就是@class值不一样。通常抓取规则会用这些@class做定位,很可能把不一样的排除出去了。

这种情况通常可以设置“绝对定位”,而不使用@class和@id这样的标志。不过这样的抓取规则的适应力不太够。还有一些其它的细调技巧
举报 使用道具
csljy1986 新手上路 发表于 2015-11-6 20:15:20 | 显示全部楼层
gz51837844 发表于 2015-11-5 22:59
这个页面结构里的样例映射是第一个TR当第一个样例,第三个TR当第二个样例
应该70多个都可以采集下来 ...

试了一下,以第一个TR 和第三个TR作为样例复制 采集的数据还少些。如图

360数据1

360数据1
举报 使用道具
csljy1986 新手上路 发表于 2015-11-6 20:44:42 | 显示全部楼层
Fuller 发表于 2015-11-5 23:49
主题名是什么?管理员可以加载上来看看具体问题在哪。

我初步估计,可能是因为网页上有些行的数据颜色有变 ...

主题名称是 足彩360  
使用绝对定位采集到的只有17条数据。总共有73条数据。
举报 使用道具
csljy1986 新手上路 发表于 2015-11-6 21:37:04 | 显示全部楼层
Fuller 发表于 2015-11-5 23:49
主题名是什么?管理员可以加载上来看看具体问题在哪。

我初步估计,可能是因为网页上有些行的数据颜色有变 ...

今天对比数据时发现,采集的数据和原始数据对不上
举报 使用道具
Fuller 管理员 发表于 2015-11-9 23:24:18 | 显示全部楼层
这个网站的内容有多种背景色和文字色彩,要想把抓取规则做的很通用,必须要用自定义xpath做很多微调。工作量不小。建议在qq群里问问谁可以提供有偿服务或者使用本站的定制服务找人做
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 苹果mac电脑安装集搜客网络爬虫软件失败的
  • 下载支持win7的集搜客网络爬虫软件
  • 遇到“无法识别的应用”告警怎么办?
  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词

热门用户

GMT+8, 2024-6-23 03:02