网址只有后边的一半,

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-10-26 12:06

沙发
scraper 论坛元老 发表于 2016-10-25 16:06:59 | 只看该作者
作为下级线索是不影响的 程序会自动补全前面的域名
举报 使用道具
板凳
雇佣兵 新手上路 发表于 2016-10-25 16:09:57 | 只看该作者
scraper 发表于 2016-10-25 16:06
作为下级线索是不影响的 程序会自动补全前面的域名

好的,谢谢
举报 使用道具
地板
雇佣兵 新手上路 发表于 2016-10-26 10:45:13 | 只看该作者
scraper 发表于 2016-10-25 16:06
作为下级线索是不影响的 程序会自动补全前面的域名

我今天又遇到下级线索的问题,下级线索只给了个ID,自己补全网址http://sz.chexiu.com/style/153919,但真正的网址是http://sz.chexiu.com/car/153919.html。这个怎么弄?
举报 使用道具
5#
xandy 论坛元老 发表于 2016-10-26 12:06:00 | 只看该作者
雇佣兵 发表于 2016-10-26 10:45
我今天又遇到下级线索的问题,下级线索只给了个ID,自己补全网址http://sz.chexiu.com/style/153919,但 ...

你可以在excel对这些抓到的网址进行批量处理,将style替换成car,再用合并公示补全网址后面的.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-12 06:00