|
第二级规则应该跟第一级类似,还是要做样例复制映射,比如,已经点击到第5个评论了,你的本意只想采集第5个评论的展开内容就行了,但是,爬虫它不清楚哪个内容是第5个,虽然点击的时候他是知道的,但是抓取的时候只能把所有的样例复制下来。
那么产生了一个问题,点击了20次,就会有20个第二级的结果文件,只有最后一个结果文件是最全的,因为那时候所有的都点击完了。所以,你处理结果数据的时候就有点麻烦,要么只把每一页的第20个结果文件导入到数据库,要么都导入以后,根据是否含有“(展开)”,把含有的都删除
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
共 12 个关于本帖的回复 最后回复于 2021-6-20 18:33