10 27790

翻页抓取老是不翻页

shiyanbin123 于 2016-11-4 13:57 发表 [复制链接]
抓一个网站,翻页标志是图片的,一直不能进行翻页。规则名称是 RD数据,麻烦各位大神帮忙看看
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2016-11-7 14:06

xandy 论坛元老 发表于 2016-11-4 14:41:19 | 显示全部楼层
本帖最后由 xandy 于 2016-11-4 14:43 编辑

你的这个规则,可以做翻页也可以不做翻页。
1、不做翻页
如下图,总共48页,其实每一页都是独立的网址,也就是说从第一页到第48页都可以构造出网址来。
  1. https://www.rndsystems.com/search?keywords=protein&category=Proteins%20and%20Enzymes&numResults=100
复制代码

上面的网址加上&page=1、2、3.....48就可以构造出48个页面的网址出来了
16-11-04 翻页.jpg
然后将网址以线索的形式批量添加给该采集规则就行了。《如何管理规则的线索

2、做翻页
定位到翻页的节点,将@class映射给记号线索,不勾文本记号
16-11-04 翻页2.jpg

更多翻页的问题请参看:《翻页问题锦集
举报 使用道具
ym 版主 发表于 2016-11-4 14:48:10 | 显示全部楼层
本帖最后由 ym 于 2016-11-4 14:49 编辑

采集这个网站要连接vpn,才可以正常访问和采集
我加载不上你的规则,只是打开了样本网址分析一下,看到每一页是有独立网址的,而每一页又超级长的,所以,我建议你把规则里的翻页线索删掉,把每一页的网址构造出来,然后导入到规则里,这样就可以一页页打开采集。
页码网址:https://www.rndsystems.com/search?keywords=protein&category=Proteins and Enzymes&numResults=100&page=2
网址最后面的数字就是页码的数字,把网址贴到excel里,鼠标选中单元格右下角出现+符号再往下拖动,页码的数字会递增,这样就构造了每页的网址,这里的第一页最后面没有页码数,那就从第二页开始构造网址。注意:要检查一下网址是否有效。
举报 使用道具
shiyanbin123 初级会员 发表于 2016-11-5 07:19:47 | 显示全部楼层
ym 发表于 2016-11-4 14:48
采集这个网站要连接vpn,才可以正常访问和采集
我加载不上你的规则,只是打开了样本网址分析一下,看到每一 ...

只能通过构造网址这种形式吗?那如果没有独立网址该如何抓取?
举报 使用道具
Fuller 管理员 发表于 2016-11-5 08:39:18 | 显示全部楼层
一般都用连贯抓取,一口气翻页到底。

你的主题名是什么?可以贴出来我帮你诊断一下
举报 使用道具
shiyanbin123 初级会员 发表于 2016-11-6 11:05:12 | 显示全部楼层
Fuller 发表于 2016-11-5 08:39
一般都用连贯抓取,一口气翻页到底。

你的主题名是什么?可以贴出来我帮你诊断一下 ...

你好,我的主题名称是一级线索 "RD数据",二级线索是 "RD商品内容"
举报 使用道具
Fuller 管理员 发表于 2016-11-6 18:32:49 | 显示全部楼层
shiyanbin123 发表于 2016-11-6 11:05
你好,我的主题名称是一级线索 "RD数据",二级线索是 "RD商品内容"

点击点位置.png

我只做了稍稍一个修改,你选用了外层DIV的@class,我选用了内层DIV的@class作为记号,这个区别就大了。如果网页上对点击事件的处理是在A节点上,你点击的节点是A的父节点,所以,A根本就收不到点击事件。所以,基本原则是:点击位置尽量落到最内层的节点上
举报 使用道具
shiyanbin123 初级会员 发表于 2016-11-6 20:10:00 | 显示全部楼层
Fuller 发表于 2016-11-6 18:32
我只做了稍稍一个修改,你选用了外层DIV的@class,我选用了内层DIV的@class作为记号,这个区别就大了。 ...

我记得这俩都试过,不行啊。你刚刚测试没问题吗?

举报 使用道具
wangyong 版主 发表于 2016-11-6 21:36:49 | 显示全部楼层
shiyanbin123 发表于 2016-11-6 20:10
我记得这俩都试过,不行啊。你刚刚测试没问题吗?

确认用@class=searchImage_forward,做记号节点可以翻页

举报 使用道具
Fuller 管理员 发表于 2016-11-6 21:45:28 | 显示全部楼层
shiyanbin123 发表于 2016-11-6 20:10
我记得这俩都试过,不行啊。你刚刚测试没问题吗?

是的,成功抓取的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 15:23