摘要:文章介绍了该数据仓库的设计模型、结构以及实施原则,并对其应用前景做了展望。
0引言
随着电网规模的不断扩大和电力市场竞争机制的引入,ems和dms各自积累了海量的数据,如何更好地利用和管理这些日益庞大的同构和异构数据库,并挖掘出数据之间的潜在联系,帮助企业更好地分析和决策,已成为地区供电企业日益紧迫的需求。数据仓库技术可以把企业内、外部数据进行有效的集成,主要应用于分析型处理,基于此,本文提出了建立地区电力调度数据仓库的思想和应用模型。
1数据仓库技术
1.1数据仓库技术概要数据仓库以改进后的数据库技术作为存储数据和管理资源的基本手段,以统计分析技术作为分析数据和提取信息的有效方法,通过人工智能、神经网络、知识推理等数据挖掘方法来发现数据背后隐藏的规律,实现从“数据——信息——知识的过程,从而为企业管理阶层提供各种层次的支持”。
1.2数据仓库在电力调度的应用特点①面向主题:调度部门的ems和dms是以优化事务处理的方式来构造数据结构的,对于某个主题的数据常常分布在不同的数据库中,这意味着访问某个主题的数据实际上需要访问分布在不同数据库中的数据集合。②数据集成。③数据的稳定性。④随时间变化。
2地区调度数据仓库模型
建立地区调度数据仓库的基本思想就是在现有ems和dms基础上,把ems和dms中的海量数据进行抽取和转化后存人数据仓库,并针对不同的主题在数据仓库中建立数据集市,然后利用oltp和数据挖掘软件对不同主题的数据进行分析处理,从而帮助调度人员做出决策。
2.1源数据层源数据层主要是指地区电力调度现在所拥有的数据库系统,即ems和dms。另外,由于电力调度在分析和决策时需要用外部数据,如气象资料,省域网的部分资料数据等,因此,需要使用的外部数据也包括在源数据层内。
2.2数据提取、转换/装载层地区电力调度系统数据库中的数据量非常巨大,并不是所有数据都是分析决策所必须的,因此,只需用专用软件提取分析决策所必须的ems、dms数据和外部数据。另外针对原数据库系统中数据不一致的情况,必须对不一致的数据进行清洗和转换,使载人数据仓库中的数据和数据格式能够保持一致,供分析决策使用。
2.3数据仓库层
2.3.1数据仓库存储数据仓库中存储了数据和元数据,其中数据的存储方式主要有虚拟存储方式、关系表存储方式和多维结构存储方式。由于虚拟存储方式效率差,而关系数据库的使用比较普遍,故采用关系表存储方式。使用oracle作为数据仓库设施,将数据存储在oracle的表结构中,并按星型结构来组织这些关系表。现具体介绍数据仓库中的数据、元数据、数据的组织结构和对数据的处理。
数据。地区电力调度数据仓库中的数据指的是从ems、dms或外部数据库中提取,并经过清洗和转化的数据。由于数据仓库主要用于olap分析和数据挖掘,因此需在原始数据的基础上增加冗余信息,进行预运算,建立多维数据库,以迅速转换数据。
元数据。元数据是描述数据的数据,它描述了数据仓库中的数据和环境,遍及数据仓库的所有方面。它包括两种,一种是操作型环境向数据仓库环境转换而建立的元数据,包括所有源数据项的名称、属性及其在提取仓库中的变化;第二种元数据是数据仓库中用来与最终用户的多维商业模型和前端工具之间建立映射的,这种数据称为决策支持系统(dds)元数据。在数据仓库中建立专用的元数据库来存放和管理元数据。
电网数据组织结构。由于ems和dms中数据量非常庞大,因此有必要对数据进行综合。在数据仓库中,数据被分成4种级别,分别是高度综合级、轻度综合级、当前细节级和早期细节级。数据总是首先进入当前细节级,然后根据应用的需求,通过预运算将数据聚合成轻度综合级和高度综合级。若系统中的一些细节数据随着时间的推移已经老化,很少会被使用,可以将这些数据导出备份到设备上。
数据的处理。数据仓库中一般存放5至10年的数据,若将全部数据放在一张表内,由于数据量太大,会降低数据访问效率,因此必须对数据表进行合理的分割。可按时间对表进行分割,在表中增加时间字段,去除与分析主题无关的纯操作型数据。
在数据仓库中,有些数据更新的较为频繁,如实时数据,而有些数据更新的时间较长,如设备信息等。因此,有必要按数据更新的频率对表进行划分,将不同变化频度的字段放在不同的表中,各表之间使用相同的“标识号”进行关联,以节省存储空间。
来源:互联网