采集的内容和网页内容不同怎么办?
例如原网址是这个:
https://detail.1688.com/offer/527173741316.html?spm=b26110380.sw1688.mof001.52.LVkzmq&tracelog=p4p

爬虫爬到链接访问后变成这样:
https://dj.1688.com/ci_bb?a=2000671507&e=sZm3tJ8i-7-QWUEkBm9Cm1LNOjNmb6NyUi7fH7USgJdVFqGUifkH0DJ.1fCQuiCmMPxJzcK2HCHOeUpm6Y.tv9KzKymIGgM4lbUP.4Ep9j5qbQFcj3aUK3CBjdjzeMemG-iU4zmZKJ-yjYXpLyymSEATBbBXackC.ozbDfh-8bwlKFMwBtw3if.nrl5Kcjk.MS53QRob2q42DrTtfItdGfuC4KUGQ.wCbRyk8MhxTkdBphtmjcAxNr9pI8FvPA8woGEL1mhC-eg8mur7F87N1XDbjr9ycYhHmRvJIQU.Jo5rs9Yp62zb216IIzIZ.Xe-W1C7fzGmUi99rKOlt-CHg8YHpqxHRNBaQ-ByUM0EnRFgY098CL6aoGfTewGtjwIBZK7IL.EuAANXYP9UFPYJlpW1D.-BKfY-SLzgWmecFMxiaI5xqTirrM4DgNrY.qQupBNNAlxRLaF6B2vISaYfCTY-7ZXT01fFN6g.xeS2xpjVM566HrVLUEEU.9wNxGtxmsKoBO71-H8ZU-GLytI7pNrLYzgm5Ks19P7p4z6ygGQpcdUqonc19w__&v=4&ap=1&rp=1


请问各位大大,管理们,这个要怎么办?
求告知。感激不尽

举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2017-12-6 09:16

沙发
a1060355600 初级会员 发表于 2017-12-6 01:30:09 | 只看该作者
本帖最后由 a1060355600 于 2017-12-6 01:33 编辑

这个是爬取之前的地址https://detail.1688.com/offer/527173741316.html?spm=b26110380.sw1688.mof001.52.LVkzmq&tracelog=p4p
举报 使用道具
板凳
a1060355600 初级会员 发表于 2017-12-6 01:31:02 | 只看该作者
本帖最后由 a1060355600 于 2017-12-6 01:34 编辑

这个是爬去后的链接。无法访问到商品!直接跳转主页,只是为什么呀?https://dj.1688.com/ci_bb?a=2000671507&e=sZm3tJ8i-7-QWUEkBm9Cm1LNOjNmb6NyUi7fH7USgJdVFqGUifkH0DJ.1fCQuiCmMPxJzcK2HCHOeUpm6Y.tv9KzKymIGgM4lbUP.4Ep9j5qbQFcj3aUK3CBjdjzeMemG-iU4zmZKJ-yjYXpLyymSEATBbBXackC.ozbDfh-8bwlKFMwBtw3if.nrl5Kcjk.MS53QRob2q42DrTtfItdGfuC4KUGQ.wCbRyk8MhxTkdBphtmjcAxNr9pI8FvPA8woGEL1mhC-eg8mur7F87N1XDbjr9ycYhHmRvJIQU.Jo5rs9Yp62zb216IIzIZ.Xe-W1C7fzGmUi99rKOlt-CHg8YHpqxHRNBaQ-ByUM0EnRFgY098CL6aoGfTewGtjwIBZK7IL.EuAANXYP9UFPYJlpW1D.-BKfY-SLzgWmecFMxiaI5xqTirrM4DgNrY.qQupBNNAlxRLaF6B2vISaYfCTY-7ZXT01fFN6g.xeS2xpjVM566HrVLUEEU.9wNxGtxmsKoBO71-H8ZU-GLytI7pNrLYzgm5Ks19P7p4z6ygGQpcdUqonc19w__&v=4&ap=1&rp=1
举报 使用道具
地板
umsung 高级会员 发表于 2017-12-6 09:16:05 | 只看该作者
a1060355600 发表于 2017-12-6 01:31
这个是爬去后的链接。无法访问到商品!直接跳转主页,只是为什么呀?https://dj.1688.com/ci_bb?a=20006715 ...

这些网址应该是有时效性的,采集下来过一会就会失效,要尽快使用,可以用层级采集直接把爬取到的网址作为下级线索给下一级规则,再进行内容采集
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 10:41