点一下才出现一点的那种
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2018-3-11 11:26

maomao 论坛元老 发表于 2018-3-10 17:15:39 | 显示全部楼层
瀑布流采集方式:
1,如果是滚屏,那么看这个:http://www.gooseeker.com/doc/article-373-1.html
2,如果是点击,那么看这个:http://www.gooseeker.com/doc/article-334-1.html
举报 使用道具
dizzylisa 新手上路 发表于 2018-3-11 10:07:42 | 显示全部楼层
maomao 发表于 2018-3-10 17:15
瀑布流采集方式:
1,如果是滚屏,那么看这个:http://www.gooseeker.com/doc/article-373-1.html
2,如果 ...

谢谢! 我按点击的做了,打数机页面的屏也在滚动,但是爬下来的数据,每份xml文件都一模一样,请问这应该怎么做啊?
举报 使用道具
Fuller 管理员 发表于 2018-3-11 10:10:46 | 显示全部楼层
dizzylisa 发表于 2018-3-11 10:07
谢谢! 我按点击的做了,打数机页面的屏也在滚动,但是爬下来的数据,每份xml文件都一模一样,请问这应该 ...

主题名是什么?我帮你诊断一下
举报 使用道具
dizzylisa 新手上路 发表于 2018-3-11 10:12:05 | 显示全部楼层
Fuller 发表于 2018-3-11 10:10
主题名是什么?我帮你诊断一下

theage
举报 使用道具
Fuller 管理员 发表于 2018-3-11 10:20:49 | 显示全部楼层

QQ截图20180311101755.png

因为中间的广告,把网页分成了两个SECTION,你用样例复制映射的话,只能在一个section内,所以,不管网页显示多少,只采集到广告上面的内容。

这个网页有个最大的特点,就是每条新闻对应的div都有相同的@class值,不用样例复制映射,而是用定位标志映射采集多个实例是最合适的,只要选择第一个样例的div,用右键菜单做定位标志映射,具体参看:http://www.gooseeker.com/doc/article-347-1.html
举报 使用道具
dizzylisa 新手上路 发表于 2018-3-11 10:31:50 | 显示全部楼层
Fuller 发表于 2018-3-11 10:20
因为中间的广告,把网页分成了两个SECTION,你用样例复制映射的话,只能在一个section内,所以,不管网 ...

好的!原来是这样啊!我知道啦!谢谢!!!!

举报 使用道具
dizzylisa 新手上路 发表于 2018-3-11 10:40:37 | 显示全部楼层
Fuller 发表于 2018-3-11 10:20
因为中间的广告,把网页分成了两个SECTION,你用样例复制映射的话,只能在一个section内,所以,不管网 ...

还有一个问题,就是我想爬到很久之前的数据,但它爬到18年2月就显示完成,这个是需要设置滚屏参数还是哪里没对?
举报 使用道具
dizzylisa 新手上路 发表于 2018-3-11 11:02:24 | 显示全部楼层
dizzylisa 发表于 2018-3-11 10:40
还有一个问题,就是我想爬到很久之前的数据,但它爬到18年2月就显示完成,这个是需要设置滚屏参数还是哪 ...

嗯 是滚屏参数的设置

举报 使用道具
Fuller 管理员 发表于 2018-3-11 11:26:26 | 显示全部楼层
关键还要看这个网站允许不允许看以往的内容
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 22:23