|
你这个属于层级采集,就是从一个列表获取多个网址, 然后去采集详情页, 可以看这2个教程:
网络爬虫采集列表数据
爬网址做层级采集——以京东商品爬虫为例
同时你这个列表页不能直接获取详情页的网址, 需要采集下来后, 在excel里拼接得到网址
观察下面的详情网址:
https://zwfw.pingliang.gov.cn/art/2020/3/11/art_412338_37298.html
网址中可变的几个部分:2020, 3, 11, 412338, 37298
都可以从列表中采集到, 然后拼接得出完整的网址
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
共 5 个关于本帖的回复 最后回复于 2021-4-26 15:13