看到帖子《淘宝里的图片怎么抓》说可以边采集商品信息,同时下载到商品图片,那是否也可以同时下载到视频呢?请教大神解答下
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2021-7-14 16:42

ym 版主 发表于 2020-3-16 18:51:28 | 显示全部楼层
本帖最后由 ym 于 2020-3-16 18:52 编辑

是的,可以一边采集页面信息,同时下载到图片、视频,下载视频的方式跟下载图片是类似的,具体操作如下:
1、要找到视频的实际网址才能下载,有些网站,比如京东,它的视频网址是异步信息,在视频播放的时候才会加载出来,这种情况要做两级规则,第一级规则设置点击视频的动作,第二级规则是采集页面信息、下载视频,而淘宝天猫的商品页面会自动播放视频,就可以只做一级规则。用集搜客爬虫访问带有视频的商品页面加载,点击视频播放后,再来做规则,这样才能定位到视频网址
QQ截图20200316183617.png
2、把视频网址所在节点做映射,这里就是@src节点,如果网址缺少域名,就在高级设置里勾上补全网址和下载视频,然后可以测试,把视频网址拷贝到浏览器里访问,如果能直接播放,就说明是正确且完整的视频网址了
QQ截图20200316184138.png
QQ截图20200316184242.png
3、在采集时会把视频下载到任务文件夹下的PageVideoDir子文件夹里,一个网页的视频又会存到以时间戳命名的子文件夹里
QQ截图20200316184204.png

举报 使用道具
女王大人 初级会员 发表于 2020-3-16 18:56:00 | 显示全部楼层
非常感谢,我试试看
举报 使用道具
Fuller 管理员 发表于 2021-7-14 16:42:19 | 显示全部楼层
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 17:24