阿里巴巴上爬取的各图片命名有规则吗?打个比方:2_2410139931_373966614.jpg
这里不是有2个破则号,三个字段有没有分别代表什么呢?




举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-12-7 15:45

沙发
xandy 论坛元老 发表于 2016-12-7 14:36:18 | 只看该作者
使用集搜客采集图片,成功后都会有一个pic_bitmap字段来记录图片的存储位置。观察列“pic_bitmap”,反斜线/前面就是存储图片的文件夹,如下图的红框部分(一个页面会生成一个对应的文件夹),反斜线/后面就是图片名字,如下图的绿框部分

举报 使用道具
板凳
xandy 论坛元老 发表于 2016-12-7 14:37:14 | 只看该作者
如果你要将下载的图片自动匹配到excel里头,可以参看这篇教程《如何把下载的大量图片自动匹配到excel中?
举报 使用道具
地板
Fuller 管理员 发表于 2016-12-7 15:45:07 | 只看该作者
命名是有规则的,你举的例子应该是随手写的,实际不是这样的
  1. 2_2410139931_373966614.jpg
复制代码

实际应该是
  1. 2410139931_373966614/2_本来的名字.jpg
复制代码


这表示放在文件夹 2410139931_373966614 中,而文件名字主要是用本来的名字,但是,每个网页上可能有重名,所以前面加了一个数字编号。

至于 2410139931_373966614  , 表示 线索编号_时间戳,这跟抓取结果XML文件名一致





举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-23 16:10