11#
ym 版主 发表于 2016-9-6 11:25:01 | 只看该作者
本帖最后由 ym 于 2016-9-6 11:27 编辑

你抓的第一级网页是瀑布流类型的网页,是点击‘加载更多’就增加显示新内容,并且该网页随着点击‘加载更多’会变得越来越长。
这类网页勾选重复内容是无法停止的,因为重复内容的判断条件是相同的网页重复出现三次才会停止,而瀑布流网页每次点击都会增加新内容,网页内容是不相同的。
瀑布流网页,每点击加载更多,就会新增一个xml,xml的数据量是累积的,最后抓到的那个xml就是数据量最大的文件,所以,你可以只要最后一个xml文件,前面生成的xml都是重复的
举报 使用道具
12#
1378099730 初级会员 发表于 2016-9-6 13:22:23 | 只看该作者
本帖最后由 1378099730 于 2016-9-6 13:24 编辑
ym 发表于 2016-9-6 11:25
你抓的第一级网页是瀑布流类型的网页,是点击‘加载更多’就增加显示新内容,并且该网页随着点击‘加载更多 ...

我的确选择是最后生成的那一个XML文件,但是前面100条信息都是正常无重复的。100条之后的内容就是我抓取的第一页信息开始重复出现了。
举报 使用道具
13#
ym 版主 发表于 2016-9-6 14:11:23 | 只看该作者
1378099730 发表于 2016-9-6 13:22
我的确选择是最后生成的那一个XML文件,但是前面100条信息都是正常无重复的。100条之后的内容就是我抓取的 ...

那就在excel里过滤一下重复数据吧
举报 使用道具
14#
1378099730 初级会员 发表于 2016-9-6 14:14:17 | 只看该作者
ym 发表于 2016-9-6 14:11
那就在excel里过滤一下重复数据吧

可是如果这样的话我数据爬取的不完整啊,哎哎
举报 使用道具
15#
ym 版主 发表于 2016-9-6 14:17:37 | 只看该作者
自己观察一下爬虫的采集情况,看看是否点击到最底部,我估计是DS窗口采集到中间就没有加载更多新内容了,估计是规则的问题或者是DS打数机参数的问题,自己多调试一下吧
举报 使用道具
16#
1378099730 初级会员 发表于 2016-9-6 14:18:46 | 只看该作者
ym 发表于 2016-9-6 14:17
自己观察一下爬虫的采集情况,看看是否点击到最底部,我估计是DS窗口采集到中间就没有加载更多新内容了,估 ...

好的。谢谢你啦
举报 使用道具
17#
1378099730 初级会员 发表于 2016-9-6 16:26:20 | 只看该作者
ym 发表于 2016-9-6 14:17
自己观察一下爬虫的采集情况,看看是否点击到最底部,我估计是DS窗口采集到中间就没有加载更多新内容了,估 ...

我找到问题了。是我采取的网页问题,10页之后它自身就一直重复第一页的信息
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为

热门用户

GMT+8, 2025-3-13 02:57