快捷导航
请教各位大神,如图所示,目的是分别点击图1其中的每一条Sample Name并爬取其中图2的数据应该如何操作

图1

图1
                                          

图2

图2

                                         
图1的其中一个链接点击之后为图2.有没有方法可以实现按顺序自动点击图1中的所有链接然后翻页知道到达最后一页,并且爬取其中的每一条数据如图2所示。



举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2019-1-10 03:52

Fuller 管理员 发表于 2019-1-9 10:35:36 | 显示全部楼层
这是哪个网站?
1,先检查在图1中能否抓取到图2的网址,如果图2都有独立网址,那就好办了,用层级采集
2,如果图2没有独立网址,那就有些麻烦了,要在图1上用连续点击动作,那么又要判断一下
2.1,在图1上点击以后,是新出现一个窗口显示图2呢?还是图2的内容替换了图1?
2.2,如果用新窗口显示图2,那么就要用飞掠模式,在定义图1的连续动作的时候,要勾上飞掠模式,但是需要旗舰版才能执行飞掠
2.3,如果图2的内容替换了图1的内容,就有些麻烦,要检查图2的内容做了翻页以后,是否有办法返回图1
2.3.1,如果没有一个按钮可以返回图1,就得用回退动作,也是旗舰版的功能
2.3.2,如果有个按钮可以点击后返回图1,那么就在图2的规则中点击这个按钮
2.3.3,无论哪种情况,都得用一个“连续重做”,这是连续点击的高级设置,目前这个版本还没有发布

总之,如果是2.3这种情况,就要很麻烦,可以把网址发出来,我们看看能否容易实现
举报 使用道具
lifuhao0211 新手上路 发表于 2019-1-9 14:00:33 | 显示全部楼层
Fuller 发表于 2019-1-9 10:35
这是哪个网站?
1,先检查在图1中能否抓取到图2的网址,如果图2都有独立网址,那就好办了,用层级采集
2, ...

谢谢大神,网址是https://cancer.sanger.ac.uk/cosmic/browse/tissue?wgs=off&sn=breast&ss=&hn=&sh=&in=t&src=tissue&all_data=
是一个肿瘤数据的网站,点击Whole genome screens 然后点go就可以得到对应界面
举报 使用道具
Fuller 管理员 发表于 2019-1-9 16:00:10 | 显示全部楼层
lifuhao0211 发表于 2019-1-9 14:00
谢谢大神,网址是https://cancer.sanger.ac.uk/cosmic/browse/tissue?wgs=off&sn=breast&ss=&hn=&sh=&in= ...

回退就失效了,但是,好在有独立网址,可以层级采集
层级20190109155719.png
这样规划
1,第一级:主要是做动作,点击那些按钮,知道出现sample 列表
2,第二级:采集sample列表,并翻页采集,采集到的网址作为第三级
3,第三级:进入到每个sample,采集详情

分别运行1和3
举报 使用道具
lifuhao0211 新手上路 发表于 2019-1-10 03:52:02 | 显示全部楼层
Fuller 发表于 2019-1-9 16:00
回退就失效了,但是,好在有独立网址,可以层级采集

这样规划

谢谢大神,我研究一下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运用爬虫群,快速采集数据
  • 集搜客网络爬虫使用proxy切换IP防封锁
  • 用网络爬虫软件自动下载网页上的文件
  • 怎样用爬虫爬取亚马逊商品评论?
  • 新版集搜客网络爬虫图片下载功能

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2019-3-23 13:13