网页地址 http://cp.360.cn/jczq/zhh/?issue=20151101&r_a=7vqiqq

如图片所示,整个70几行的数据只采集到了50几行。采集到的数据少了一些条目。请问大家这是什么原因?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2015-11-9 23:24

沙发
gz51837844 管理员 发表于 2015-11-5 22:59:11 | 只看该作者
这个页面结构里的样例映射是第一个TR当第一个样例,第三个TR当第二个样例
应该70多个都可以采集下来
举报 使用道具
板凳
Fuller 管理员 发表于 2015-11-5 23:49:00 | 只看该作者
主题名是什么?管理员可以加载上来看看具体问题在哪。

我初步估计,可能是因为网页上有些行的数据颜色有变化(比如那些有绿框的),那么就是@class值不一样。通常抓取规则会用这些@class做定位,很可能把不一样的排除出去了。

这种情况通常可以设置“绝对定位”,而不使用@class和@id这样的标志。不过这样的抓取规则的适应力不太够。还有一些其它的细调技巧
举报 使用道具
地板
csljy1986 新手上路 发表于 2015-11-6 20:15:20 | 只看该作者
gz51837844 发表于 2015-11-5 22:59
这个页面结构里的样例映射是第一个TR当第一个样例,第三个TR当第二个样例
应该70多个都可以采集下来 ...

试了一下,以第一个TR 和第三个TR作为样例复制 采集的数据还少些。如图

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
5#
csljy1986 新手上路 发表于 2015-11-6 20:44:42 | 只看该作者
Fuller 发表于 2015-11-5 23:49
主题名是什么?管理员可以加载上来看看具体问题在哪。

我初步估计,可能是因为网页上有些行的数据颜色有变 ...

主题名称是 足彩360  
使用绝对定位采集到的只有17条数据。总共有73条数据。
举报 使用道具
6#
csljy1986 新手上路 发表于 2015-11-6 21:37:04 | 只看该作者
Fuller 发表于 2015-11-5 23:49
主题名是什么?管理员可以加载上来看看具体问题在哪。

我初步估计,可能是因为网页上有些行的数据颜色有变 ...

今天对比数据时发现,采集的数据和原始数据对不上
举报 使用道具
7#
Fuller 管理员 发表于 2015-11-9 23:24:18 | 只看该作者
这个网站的内容有多种背景色和文字色彩,要想把抓取规则做的很通用,必须要用自定义xpath做很多微调。工作量不小。建议在qq群里问问谁可以提供有偿服务或者使用本站的定制服务找人做
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-19 06:18