最后登录 1970-1-1
最后登录 2024-4-27
Fuller 发表于 2019-5-10 11:38 我采集一遍试试
gpy258 发表于 2019-5-10 11:39 好的,麻烦了
id20190510120107.png (216.69 KB, 下载次数: 841)
下载附件
2019-5-10 12:01 上传
重复20190510122807.png (188.47 KB, 下载次数: 863)
2019-5-10 12:28 上传
Fuller 发表于 2019-5-10 12:02 你用唯一性id做定位标志映射,只能采集到一条数据。 你实际用的采集规则不是这个吧?
Fuller 发表于 2019-5-10 12:29 这个网站确实重复很多,重复内容分别出现在不同页码上。跟规则无关,是这个网站本身有重复内容 ...
122839zg9orlnjplj5wpp5.png (194.93 KB, 下载次数: 891)
2019-5-10 13:00 上传
czj19961023 发表于 2019-5-10 12:00 1.你的规则采书名做的定位标志是错的,可以不用做,只做内容映射就好了 2.id可以用书名下的@id做内容映射采 ...
gpy258 发表于 2019-5-10 13:02 第二,第三,第四重复的内容都是在相邻的两页内容上。而在原网址上确实不是这样的。 ...
发表回复 回帖并转播 回帖后跳转到最后一页
GMT+8, 2024-4-27 01:23
共 16 个关于本帖的回复 最后回复于 2019-5-11 17:08