3 15418

如何构造下级线索

落翎 于 2015-11-25 16:31 发表 [复制链接]
通过抓取到的herf是https://detail.ju.taobao.com/hom ... tem_id=522216492622这样子的,但是这个是聚划算定制的页面,没有我想要抓取的库存信息,我需要在这个页面在建一个规则才能进入到我真正需要爬取内容的页面https://detail.tmall.com/item.ht ... ku_properties=-1:-1,其实id号是不变的,所以怎么做到提取的herf转为https://detail.tmall.com/item.htm?id=522216492622,并作为下级线索,这个虽然可以在excel上实现,但是需要的时间比较多,而我需要爬取的时间比较苛刻,所以时间会来不及,该怎么转换网址
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2015-11-26 15:59

Fuller 管理员 发表于 2015-11-25 17:32:45 | 显示全部楼层
免费版用户因为不能直接操作线索数据库,目前只能用excel转换好,再添加到线索库中。

企业版可以用程序实现线索的转换和生成
举报 使用道具
落翎 中级会员 发表于 2015-11-26 14:02:09 | 显示全部楼层
Fuller 发表于 2015-11-25 17:32
免费版用户因为不能直接操作线索数据库,目前只能用excel转换好,再添加到线索库中。

企业版可以用程序实 ...

不能运用类似于xpath的东西构造吗
举报 使用道具
Fuller 管理员 发表于 2015-11-26 15:59:03 | 显示全部楼层
落翎 发表于 2015-11-26 14:02
不能运用类似于xpath的东西构造吗

需要使用正则表达式类的处理,在excel中进行处理最方便,处理好以后一批导入进去
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 15:55