网址:https://www.aicoin.net.cn/chart/D1D42B89
1.网站为数据行情网站,我想要采集网站的所有内容页的数据的其中几个几种数值(内容页规则已经测试没问题)

2.没有常规翻页选项,只有二级类目(包含N个二级类目),每个二级类目下有有若干的内容页,并且二级类目和内容页是要点击出现弹窗方式才能获取的


3.反正就是获取所有二级类目下的的所有内容页数据


新手小白,请爱心人士帮助解答下,十分感谢


1.jpg
2.jpg
3.jpg
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-7-23 17:58

汽车论坛 中级会员 发表于 2018-7-23 10:42:40 | 显示全部楼层
每个二级页面都有是独立网址的,可以用层级采集,参考《层级采集
举报 使用道具
八维数据 新手上路 发表于 2018-7-23 16:53:40 | 显示全部楼层
你这种 应该 需要抓包 采集 没办法网页上采集
举报 使用道具
Fuller 管理员 发表于 2018-7-23 17:58:38 | 显示全部楼层
做这个网页的规则的关键是用连续动作把弹框弹出来,然后点击左栏的列表,显示出每一类的目录,而目录中的每个项都有独立网址,用层级采集把网址采集下来,就能进入每个页面采集内容。
列表20180723174809.png

上图可以看到,每项都有独立网址。所以,剩下的工作主要是怎样做动作。规则分成多级

第一级:规则A,负责做动作,弹出浮窗并选择条目。动作需要两步
1,第一步:点击左上角的“OKEx-DNT-USDT”,用来弹出浮窗的。这一步要进入高级设置,不能勾选“必做”,也就是说这一步就是一开始做一次,后面的循环就不再点击了
2,第二步:点击浮窗中左栏中的条目,这些条目都是一个UL中的LI条目,所以,用点击动作,而不是用选择动作
每一步在高级设置中增加动作延迟,尤其是第一步,我发现点击以后要等待一会才会出现浮窗

第二级:规则B,是规则A的目标主题,用于采集条目的网址,为规则C生成线索
规则A的两步做完了,进入到一个目标主题B,做一个规则B,用样例复制把整个列表中的网址采集下来,并且设置成层级采集,目标主题就是C

第三级:规则C,就是采集每个详情页中的数字
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-16 14:25