如上图所示,我想采集京东商品或者天猫商品,比如:Apple iPhone 13 (A2634) 256GB 星光色 支持移动联通电信5G 双卡双待手机, 把”规格与包装“页的详细参数采集下来,应该怎么做呢?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2022-5-12 15:55

沙发
gz51837844 管理员 发表于 2022-5-12 11:17:58 | 只看该作者
这个页面的参数比较多,并且不同类的商品,有着不同的规格参数属性。
具体采集可以考虑2种方法:
1. 如果只是想采集某些参数,比如”上市年份“,”内存“,”屏幕“。。。等, 那可以在规则里定义对应的字段名。其它没有定义的就不采集。
2. 如果是想把所有的参数都采集下来,可以做样例复制(参考教程《网络爬虫采集列表数据》),把所有的规格参数都采集下来。
举报 使用道具
板凳
Fuller 管理员 发表于 2022-5-12 15:26:35 | 只看该作者
gz51837844 发表于 2022-5-12 11:17
这个页面的参数比较多,并且不同类的商品,有着不同的规格参数属性。
具体采集可以考虑2种方法:
1. 如果只 ...

如果样例复制,那么 参数名 和 参数值 一对作为一个样例,这样导出的excel就是一行一对参数,那么一个产品就有很多行参数。用什么最方便的方法变成一列一个参数,一行一个产品?
举报 使用道具
地板
shenzhenwan10 金牌会员 发表于 2022-5-12 15:55:20 | 只看该作者
Fuller 发表于 2022-5-12 15:26
如果样例复制,那么 参数名 和 参数值 一对作为一个样例,这样导出的excel就是一行一对参数,那么一个产 ...

我们准备发布一个jupyter notebook,来把采集到的一行一对参数和值,清洗成一个商品一行,每列一个参数。

之前已发布的jupyter notebook参见这个帖子《用集搜客分词软件和Jupyter Notebook做文本分析和数据探索的案例汇总》,包括了excel功能测试,获取经纬度,分词数据的进一步加工(词频统计和个性化词云图),各种社会网络算法的实现(中心性,TF-IDF, PageRank),LDA主题分析和可视化等。


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-23 03:39