这个网页上的数据,风力发电数据,每4-5秒就会更新一下。想连续抓取,获取每台风机的实时出力数据,存在Excel表格中。http://www.sotaventogalicia.com/en/real-time-data/instantaneous-wind-turbines

这两天学了一下gooseeker,自己写了一下规则。做了一个下面的规则,抓取一个风机的数据。因为是动态更新的,所以直接选取会提示无法定位。就采用了规则->冻结页面->刷新网页结构这种方法。测试的时候可以抓取成功,但是用DS打数机就失败了。后面按照一篇文章写的抓取动态页面需要勾选配置->定时器触发,也还是无法抓取。




自己也搜索了很多相关问题,但好像没有和我这种网页相近的情况,请大神解救啊!
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2018-1-30 10:00

沙发
atribute 新手上路 发表于 2018-1-26 22:22:59 | 只看该作者
本帖最后由 atribute 于 2018-1-26 22:25 编辑

用Chrome开发者工具可以看到数据更新用的是websockets,也能看到实时的数据更新,但是没法保存啊。网页编程小白,看到了数据也不会保存下来,求大神帮助啊。

4.jpg (226.17 KB, 下载次数: 981)

4.jpg
举报 使用道具
板凳
Fuller 管理员 发表于 2018-1-27 08:22:13 | 只看该作者
atribute 发表于 2018-1-26 22:22
用Chrome开发者工具可以看到数据更新用的是websockets,也能看到实时的数据更新,但是没法保存啊。网页编程 ...

不用这么复杂去探测,只需让DS打数机放慢抓取速度。注意:定时器触发是加快速度的,防止长时间等待。

DS打数机有一套自适应等待机制。
1,至少为一个抓取内容设置关键内容,否则他不知道等待谁
2,在DS打数机上设置滚屏,菜单 配置-》滚屏参数,把滚屏次数设置成2或者更大,不要太大,这是额外滚屏次数,不是实际次数
3,如果还抓漏,可以设置 延迟抓取

DS打数机会不断监视网页内容和http通信的变化,一旦稳定下来就启动抓取,如果不设置关键内容,就不监视。有时候网站太慢,好久都不变化,所以要根据需要设置延迟抓取。滚屏是主要的放慢速度的手段
举报 使用道具
地板
atribute 新手上路 发表于 2018-1-28 21:06:20 | 只看该作者
Fuller 发表于 2018-1-27 08:22
不用这么复杂去探测,只需让DS打数机放慢抓取速度。注意:定时器触发是加快速度的,防止长时间等待。

DS ...

谢谢您!试了您的办法,还是不行,分析了一下原因:采用冻结页面后,可以直接选取到数值,然后进行内容映射。但在使用打数机抓取是,会显示规则错误,用规则分析后提示无法定位容器。所以就对比了一下冻结页面前后的网页结构,发现两个网页结构是不一样的。如下面的两个图。




就试着直接在未冻结的网页直接进行内容映射,在测试的时候把整个DIV都内容映射到一个值,测试的时候可以正确抓取相关内容。但用打数机的时候就只能抓到静态字,动态的获取不了。后来就直接看了一下数据规则:
<xsl:templatematch="//*[@id='highcharts-8a5kkqf-0']/div[position()=1]/div/span/div[position()=1]/span[position()=1]/text()[count(./.)>0]"mode="风机出力">
<item>
<WT1功率>
<xsl:value-of select="."/>
</WT1功率>
</item>
</xsl:template>
</xsl:stylesheet>
发现XPath采用的定位id其实一直在变化,就把上一层的不变的id赋给抓取的内容了。然后尽然可以抓取了。。冻结页面后的结构和实际网页结构不一样居然也可以成功。。。然后又参照这篇帖子http://www.gooseeker.com/doc/thread-1589-1-1.html  学会了连续抓取。忽然之间就从快要放弃,突变到成功。。。感谢版主,感谢大家。



5.jpg (162.38 KB, 下载次数: 984)

5.jpg

6.jpg (173.34 KB, 下载次数: 996)

6.jpg
举报 使用道具
5#
数据集二期 中级会员 发表于 2018-1-29 10:43:46 | 只看该作者
1,给整理箱加上定位映射;
2,自定xpath://*[@class='taboa']/*//span[contains(.//text(),' kW')]/preceding-sibling::span。

举报 使用道具
6#
atribute 新手上路 发表于 2018-1-30 10:00:27 | 只看该作者
数据集二期 发表于 2018-1-29 10:43
1,给整理箱加上定位映射;
2,自定xpath://*[@class='taboa']/*//span[contains(.//text(),' kW')]/prece ...

谢谢啦!已经加了定位映射,查看了一下,XPath不会出现定位的id随着网页刷新变化,最后就可以抓取了。XPath还是要多学习才能准确抓取。

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 12:22