店铺主页的菜单栏有多给选项,每个店家的选项稍有不同,导致同一个选项按钮的位置不同,如何设置规则?
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2017-1-31 23:18

Fuller 管理员 发表于 2017-1-31 15:31:52 | 显示全部楼层
我们常见的那些电商平台,每个店铺的菜单对应的网址都是相同规律构造出来的,所以,可以直接按照这个规则进行构造,不用专门采集每个菜单对应的网址。你是采集哪个网站?
举报 使用道具
xiaohongseeker1 初级会员 发表于 2017-1-31 17:53:43 | 显示全部楼层
Fuller 发表于 2017-1-31 15:31
我们常见的那些电商平台,每个店铺的菜单对应的网址都是相同规律构造出来的,所以,可以直接按照这个规则进 ...

想要抓取阿里巴巴店铺的联系方式!但是店铺主页的菜单栏都不太一样,不太好弄~
举报 使用道具
Fuller 管理员 发表于 2017-1-31 21:21:51 | 显示全部楼层
xiaohongseeker1 发表于 2017-1-31 17:53
想要抓取阿里巴巴店铺的联系方式!但是店铺主页的菜单栏都不太一样,不太好弄~
...

阿里巴巴所有店铺的联系方式都是这样的格式
  1. https://xxxx.1688.com/page/contactinfo.htm
复制代码


前面的xxxx就是店铺在1688上的名字,就能根据名字构造出联系方式的网址

举报 使用道具
xiaohongseeker1 初级会员 发表于 2017-1-31 21:47:10 | 显示全部楼层
Fuller 发表于 2017-1-31 21:21
阿里巴巴所有店铺的联系方式都是这样的格式

前面的xxxx就是店铺在1688上的名字,就能根据名字构造出联系 ...

从关键字搜索页面可获得每个店铺主页的链接,那如何与店铺联系方式的网址进行拼接,使用自定义Xpath进行设置吗?
举报 使用道具
Fuller 管理员 发表于 2017-1-31 21:52:24 | 显示全部楼层
xiaohongseeker1 发表于 2017-1-31 21:47
从关键字搜索页面可获得每个店铺主页的链接,那如何与店铺联系方式的网址进行拼接,使用自定义Xpath进行 ...

把店铺主页的链接存入excel,在excel中拼接,excel有很多函数都能做这个事情
举报 使用道具
xiaohongseeker1 初级会员 发表于 2017-1-31 21:52:31 | 显示全部楼层
Fuller 发表于 2017-1-31 21:21
阿里巴巴所有店铺的联系方式都是这样的格式

前面的xxxx就是店铺在1688上的名字,就能根据名字构造出联系 ...

我现在用本办法做,对联系方式菜单出现的位置都做了一次,但是效率太低~
举报 使用道具
xiaohongseeker1 初级会员 发表于 2017-1-31 22:56:36 | 显示全部楼层
Fuller 发表于 2017-1-31 21:52
把店铺主页的链接存入excel,在excel中拼接,excel有很多函数都能做这个事情
...

不好意思,excel中已经将联系方式链接拼接好,接下来的步骤不是特别明白,是要将excel再变为xml格式才可以继续二级页面抓取吗?刚刚接触爬虫,不是特别明白。赐教,谢谢!
举报 使用道具
Fuller 管理员 发表于 2017-1-31 23:02:08 | 显示全部楼层
xiaohongseeker1 发表于 2017-1-31 22:56
不好意思,excel中已经将联系方式链接拼接好,接下来的步骤不是特别明白,是要将excel再变为xml格式才可 ...

拼接好以后,把所有网址放在excel的一列中,通过会员中心导入给抓取联系方式的规则
举报 使用道具
xiaohongseeker1 初级会员 发表于 2017-1-31 23:18:23 | 显示全部楼层
Fuller 发表于 2017-1-31 23:02
拼接好以后,把所有网址放在excel的一列中,通过会员中心导入给抓取联系方式的规则
...

好哒,还没有这么用过,明早起来继续试,非常感谢这么晚还耐心给予指导
另祝春节快乐
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 19:09