为什么网页标签img里没有图片的信息,但网页上有图片,图片在哪找?

举报 使用道具
| 回复

共 17 个关于本帖的回复 最后回复于 2017-10-27 21:23

沙发
Fuller 管理员 发表于 2017-10-25 22:07:50 | 只看该作者
京东网站还有大部分的电商网站的图片都是lazy加载,不滚屏不会加载,没有加载的时候,不会有src。通常第一屏的一定会加载上来,针对他们做采集规则。等DS打数机执行采集的时候,打开滚屏功能就行了
举报 使用道具
板凳
零零凌凌 初级会员 发表于 2017-10-25 22:32:48 | 只看该作者
Fuller 发表于 2017-10-25 22:07
京东网站还有大部分的电商网站的图片都是lazy加载,不滚屏不会加载,没有加载的时候,不会有src。通常第一 ...

恩恩,试了,找到src了,但是京东商品模块的结构都一样,为什么抓取的信息遗漏一半左右,DS没什么错误提示,  这是为什么?

举报 使用道具
地板
Fuller 管理员 发表于 2017-10-25 23:01:18 | 只看该作者
零零凌凌 发表于 2017-10-25 22:32
恩恩,试了,找到src了,但是京东商品模块的结构都一样,为什么抓取的信息遗漏一半左右,DS没什么错误提 ...

设置滚屏了吗?漏掉的有什么规律?分散的?还是集中在某一列或者某一行?
举报 使用道具
5#
零零凌凌 初级会员 发表于 2017-10-26 01:13:06 | 只看该作者
Fuller 发表于 2017-10-25 23:01
设置滚屏了吗?漏掉的有什么规律?分散的?还是集中在某一列或者某一行?
...

设置了滚屏了,一般是网页前面的数据抓到了后面的没抓到,或者是中间的没抓到,行或列说不准,而且有个规则采集出来的数量是正确的,但是有一半多是空值,不知道问题在哪

主题名是shouji1,但是规则我好像重新改了一点,激活线索采集了。

举报 使用道具
6#
数据集 高级会员 发表于 2017-10-26 09:12:28 | 只看该作者
零零凌凌 发表于 2017-10-26 01:13
设置了滚屏了,一般是网页前面的数据抓到了后面的没抓到,或者是中间的没抓到,行或列说不准,而且有个规 ...

规则改了吗?加载进去就报错了,用LI节点做样例复制应该就可以了。
举报 使用道具
7#
bowieD 金牌会员 发表于 2017-10-26 09:53:45 | 只看该作者
本帖最后由 bowieD 于 2017-10-26 09:54 编辑

数据遗漏问题昨天已经解决了,在做好规则之后要点击测试查看数据是否正确,是否有遗漏。
举报 使用道具
8#
零零凌凌 初级会员 发表于 2017-10-26 12:54:19 | 只看该作者
bowieD 发表于 2017-10-26 09:53
数据遗漏问题昨天已经解决了,在做好规则之后要点击测试查看数据是否正确,是否有遗漏。 ...

检测的时候是冻结页面上的所有信息都采集得到的,但是编辑完规则后启动采集抓取的信息每页都遗漏很多的呢,是加载不好的原因吗?

举报 使用道具
9#
零零凌凌 初级会员 发表于 2017-10-26 12:55:00 | 只看该作者
数据集 发表于 2017-10-26 09:12
规则改了吗?加载进去就报错了,用LI节点做样例复制应该就可以了。

有加载到了,谢谢~
举报 使用道具
10#
bowieD 金牌会员 发表于 2017-10-26 14:15:52 | 只看该作者
零零凌凌 发表于 2017-10-26 12:54
检测的时候是冻结页面上的所有信息都采集得到的,但是编辑完规则后启动采集抓取的信息每页都遗漏很多的呢 ...

你的规则没改过来吧
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 15:03