三级网站采集，而且采集位置不固定，但文本内容固定，求指导，发红包

九天

https://www.1688.com/chanpin/-.html?keywords=%B4%FA%B2%CD%B7%DB 这是网站

想抓取一级站内信息，二级站内的品牌信息及联系方式下的内容，但品牌位置不一致，联系方式位置也不一致，求各位指导，最好能讲清楚思路及有图片形式的规则制定.搞明白定送红包以表心意,谢谢，非常感谢！！！

Fuller · 发表于 2017-1-13 08:42:54

第二级进入的网页是公司主页，联系方式，供应产品，公司档案等都有独立网址，构造出来就行，不用连续动作或者爬虫路线

ym · 发表于 2017-1-13 09:37:33

或者是直接把公司主页，联系方式，供应产品，公司档案等的网址都采集下来，分别设置下级线索，做层级采集。

九天 · 发表于 2017-1-13 18:06:27

Fuller 发表于 2017-1-13 08:42
第二级进入的网页是公司主页，联系方式，供应产品，公司档案等都有独立网址，构造出来就行，不用连续动作或 ...

我是在主页里输入的关键词搜索出我需要采集的网站，需要搜索的各级网站，页数等信息都不具有连贯性好像不能构造网址我是不是哪些地方没学好期待再指导谢谢非常感谢！！！

九天 · 发表于 2017-1-13 18:11:45

ym 发表于 2017-1-13 09:37
或者是直接把公司主页，联系方式，供应产品，公司档案等的网址都采集下来，分别设置下级线索，做层级采集。 ...

我主要想采集联系方式下的内容，一级链接点击进入的是供应产品页面，在此页面里需要点击联系方式才能显示我需要采集的内容，还有一个关键问题是，联系方式在网页里的位置不固定，
主要的情况下我咱们做规则？求指教！求指教！万分感谢！！！

Fuller · 发表于 2017-1-13 22:06:05

九天发表于 2017-1-13 18:11
我主要想采集联系方式下的内容，一级链接点击进入的是供应产品页面，在此页面里需要点击联系方式才能显示 ...

你在第三张图标出来的1，2，3，4，5，6，他们都有独立的网址，而且，每个店铺的这些网址都有相同的结构，所以，很容易构造出来。即使你不知道怎样构造，那么也可以像ym说的那样，把这个6个网址当成层级采集，层级采集运行速度更快。

联系方式页面可以用自定义xpath来应对各不相同的问题

Fuller · 发表于 2017-1-13 22:10:36

比如，这个网站：https://qikaishengbo.1688.com ，在url中，他的店铺名字就是qikaishengbo，那么
1）供应产品页是：https://qikaishengbo.1688.com/page/offerlist.htm ，其他店铺的只要把店铺名字替换掉，得到的就是另一个店铺的供应产品页
2）公司档案页是：https://qikaishengbo.1688.com/page/creditdetail.htm，同理做替换
3）其他网页也是这样替换

九天 · 发表于 2017-1-13 22:49:48

Fuller 发表于 2017-1-13 22:06
你在第三张图标出来的1，2，3，4，5，6，他们都有独立的网址，而且，每个店铺的这些网址都有相同的结构， ...

太感谢了道理我明白了我自己再深入学习下应该能学会我是一脚在外一脚在内，半入门的小白

三级网站采集，而且采集位置不固定，但文本内容固定，求指导，发红包

本帖子中包含更多资源

共 7 个关于本帖的回复最后回复于 2017-1-13 22:49

浏览过的版块

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

三级网站采集，而且采集位置不固定，但文本内容固定，求指导，发红包

本帖子中包含更多资源

共 7 个关于本帖的回复 最后回复于 2017-1-13 22:49

浏览过的版块

推荐板块

精彩推荐

热门话题

热门用户

共 7 个关于本帖的回复最后回复于 2017-1-13 22:49