如题,微信文章中有几十张图片,但只下载成功10张。目前DS打数机设置如下:
延迟抓取60s
超时时长60s
滚屏参数 次数20次,速度1



举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2017-8-19 14:09

沙发
bowieD 金牌会员 发表于 2017-8-18 11:07:31 | 只看该作者
是只下载成功前10张吗?
举报 使用道具
板凳
Fuller 管理员 发表于 2017-8-18 11:17:44 | 只看该作者
延迟抓取太长了,等延迟结束,就差不多超时了,没有抓取的时间。如果延迟时间要那么长,那么超时也要长。我任务延迟10秒就够了。

对于微信,滚屏速度设置的不合适,要滚屏慢一些,如果太快,当前屏的图还没有加载上来,微信一看你滚动到下屏了,他就不加载了。所以,滚屏速度要设置成-2,或者-4等更小的数字。滚屏次数没有必要那么多,滚屏次数我估计10足够了
举报 使用道具
地板
eino11 中级会员 发表于 2017-8-18 13:41:34 | 只看该作者
bowieD 发表于 2017-8-18 11:07
是只下载成功前10张吗?

不是,估计是加载出来10张,不连续的
举报 使用道具
5#
eino11 中级会员 发表于 2017-8-18 13:41:45 | 只看该作者
Fuller 发表于 2017-8-18 11:17
延迟抓取太长了,等延迟结束,就差不多超时了,没有抓取的时间。如果延迟时间要那么长,那么超时也要长。我 ...

好的,谢谢,我再试试
举报 使用道具
6#
eino11 中级会员 发表于 2017-8-18 13:47:17 | 只看该作者
Fuller 发表于 2017-8-18 11:17
延迟抓取太长了,等延迟结束,就差不多超时了,没有抓取的时间。如果延迟时间要那么长,那么超时也要长。我 ...

还是只有10张……我的规则名是“微信抓图”,方便测试一下吗?
举报 使用道具
7#
Fuller 管理员 发表于 2017-8-18 14:15:21 | 只看该作者
eino11 发表于 2017-8-18 13:47
还是只有10张……我的规则名是“微信抓图”,方便测试一下吗?

是规则做的不合适。

在这样的网页上,图片的位置并不是一个接一个放的,中间到底隔了几个P节点,从第几个P节点开始,你是不知道的。所以,你用样例复制很难抓全。有两个方案可选:

1,像《采集html网页片段》那样,采集微信内容整个片段,同时勾上下载图片,那么就能把整篇文章中的图片下载下来
2,假设微信上所有文章都是由一系列P节点构成的,那么可以用样例复制,选择第一个P和第二个P做样例复制
举报 使用道具
8#
bowieD 金牌会员 发表于 2017-8-18 14:56:01 | 只看该作者
本帖最后由 bowieD 于 2017-8-18 15:01 编辑

图片之间的P节点不是相邻的,这样做样例复制是抓不到所有图片的。
这种结构的网页需要采集微信内容整个片段,才能把整篇文章中的图片下载下来。
1.选择包含所有图片的区块节点,把他映射给抓取内容,你这里的区块节点是id='js_conten的DIV节点,同时勾上下载图片;
2.在高级设置中选择网页片段抓取,点击保存。
详情请参考《采集html网页片段》

05.jpg (61.57 KB, 下载次数: 721)

05.jpg

235.jpg (128.34 KB, 下载次数: 717)

235.jpg
举报 使用道具
9#
eino11 中级会员 发表于 2017-8-19 14:09:41 | 只看该作者
bowieD 发表于 2017-8-18 14:56
图片之间的P节点不是相邻的,这样做样例复制是抓不到所有图片的。
这种结构的网页需要采集微信内容整个片段 ...

用抓取网页片段的方式解决了,谢谢答疑!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 14:16