北极星

搜索历史清空

  • 水处理
您的位置:电力输配电电网建设评论正文

【研究】未来大数据平台将承载智能电网众多各类型应用

2015-08-11 13:26来源:供用电杂志关键词:大数据智能电网在线监测收藏点赞

投稿

我要投稿

2.3数据处理技术

智能电网大数据的应用类型多,需要根据不同的业务需求采用不同的数据处理技术。根据大数据的数据特征和计算需求,大数据处理技术分流处理、批处理、内存计算、图计算等。

2.3.1 流处理

流处理的处理模式将数据视为流,源源不断的数据组成了数据流,当新的数据到来时就立刻处理并返回所需的结果。数据流本身具有持续达到、速度快且规模巨大等特点,因此通常不会对所有的数据进行永久化存储,而且数据环境处在不断的变化之中,系统很难准确掌握整个数据的全貌。目前广泛应用的流处理系统有Twitter Storm和Yahoo S4。

Storm是分布式实时计算系统,主要用于流数据处理,可以简单、高效、可靠地处理大量的数据流。它能够处理源源不断流进来的信息,处理之后将结果写入到某个存储中去。Storm的优点是全内存计算,因为内存寻址速度是硬盘的百万倍以上,所以Storm的速度较快。Storm弥补了Hadoop批处理所不能满足的实时要求,经常用于实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。

2.3.2 批处理

Google公司在2004年提出的Map-Reduce是最具代表性的批处理模式。Map-Reduce是一个使用简易的软件框架,用于大规模数据集的并行运算,主要用来进行大规模离线数据分析。基于它实现的应用程序能够运行在由数千个商用机器组成的大型集群上,并以一种可靠容错的并行处理大规模数据集。Map-Reduce的核心思想是将问题分而治之,并把计算推到数据所在的服务器,有效地避免数据传输过程中产生的大量通信开销。

Map-Reduce的优点主要有2个方面:①不仅能用于处理大规模数据,而且能将很多繁琐的细节隐藏起来,如自动并行化、负荷均衡和灾备管理等,这将极大简化开发工作;②伸缩性非常好,集群能够方便的扩展。而Map-Reduce的不足是其不适应实时应用的需求,只能进行大规模离线数据分析。

2.3.3 内存计算

随着内存价格的不断下降,服务器配置的内存容量不断增大,用内存计算来完成大规模数据处理成为可能。与Hadoop Map-Reduce批处理相比,内存计算能够提供高性能的大数据分析处理能力。内存计算是一种体系结构上的解决方法,它可以和各种不同的计算模式相结合,包括批处理、流处理、图计算等。比如Spark是分布式内存计算的一个典型并行计算框架,Spark基于Map-Reduce算法实现的分布式计算,拥有Hadoop Map-Reduce所具有的优点;但不同于Map-Reduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark具有更好的性能,适用于数据挖掘与机器学习等需要迭代的Map-Reduce的算法。

智能电网大数据应用根据业务特点和对处理响应的时间来选择数据处理的方式,针对电网安全在线分析、电网运行监控等业务,数据实时性要求高、需要作出迅速响应,可以采用流处理内存计算;而对于用户用电行为分析等业务,实时性和响应时间要求低,可以采用批处理方式。综合以上分析,数据处理方式对比见表2。

原标题:孟祥君:智能电网大数据平台及其关键技术研究
投稿与新闻线索:陈女士 微信/手机:13693626116 邮箱:chenchen#bjxmail.com(请将#改成@)

特别声明:北极星转载其他网站内容,出于传递更多信息而非盈利之目的,同时并不代表赞成其观点或证实其描述,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。

凡来源注明北极星*网的内容为北极星原创,转载需获授权。

大数据查看更多>智能电网查看更多>在线监测查看更多>