本帖最后由 江南 于 2016-12-6 10:50 编辑

如何通过淘宝店铺首页抓产品URL?
结构是:
<div>
     <DL>
           <a>产品1</a>
     </DL>
     <DL>
          <a>产品2</a>
     </DL>
     <DL>
          <a>产品3</a>
     </DL>
</div>
<div>
     <DL>
          <a>产品4</a>
     </DL>
     <DL>
          <a>产品5</a>
     </DL>
     <DL>
          <a>产品6</a>
     </DL>
</div>
附页面地址:
https://shop37047384.taobao.com/search.htm?spm=a1z10.1-c.0.0.8vz46P&search=y


举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-12-6 13:38

沙发
HJLing 版主 发表于 2016-12-6 10:55:34 | 只看该作者
用嵌套整理箱 首先给li做定位标志映射 先框住一个范围 (可以提高规则适应度)
再给div做定位标志映射(起到样例复制的作用 不直接做样例复制会因为最后一个div不是商品 如果做样例复制会有多余的东西 可以自己尝试)
再对dl做样例复制 最后再映射要采集的内容


举报 使用道具
板凳
江南 初级会员 发表于 2016-12-6 11:26:43 | 只看该作者
HJLing 发表于 2016-12-6 10:55
用嵌套整理箱 首先给li做定位标志映射 先框住一个范围 (可以提高规则适应度)
再给div做定位标志映射(起 ...

谢谢,采集成功了。非常感谢。
整理箱的链接,可以做为下级线索么?
举报 使用道具
地板
HJLing 版主 发表于 2016-12-6 11:29:26 | 只看该作者
江南 发表于 2016-12-6 11:26
谢谢,采集成功了。非常感谢。
整理箱的链接,可以做为下级线索么?

什么叫整理箱的链接?你是说那个“链接”采到的网址可不可以当下级线索吗 可以 勾上下级线索就可以了

举报 使用道具
5#
江南 初级会员 发表于 2016-12-6 13:38:49 | 只看该作者
HJLing 发表于 2016-12-6 11:29
什么叫整理箱的链接?你是说那个“链接”采到的网址可不可以当下级线索吗 可以 勾上下级线索就可以了

...

是的。谢谢!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-4 18:16