决策树分类算法在发电设备状态检修中的应用研究

北极星电力网技术频道作者:佚名 2007/12/27 18:59:26

关键词: 状态检修检修发电

决策树分类算法在发电设备状态检修中的应用研究李凡生，陈庆吉（东北电力学院管理系，吉林省吉林市132012）
摘要：针对当前火力发电厂实施设备状态检修面临的问题，提出了用数据挖掘中的决策树分类算法对反映设备状态的各类指标数据进行分析，挖掘设备状态的分类规则。对如何构造设备状态训练样本集提出了可行办法，详细描述了运用SQL语言实现决策树分类算法（ID3）的具体步骤。通过实例计算验证了该算法的正确性和有效性。
关键词：状态检修；决策树分类算法；SQL语言；训练样本；发电设备
1引言
状态检修是根据设备的状态信息安排和实施检修的一种预知维修方式，其基础是状态监测。对监测结果的有效管理和科学利用，是状态检修得以实现的保证^[1]。设备的状态是设备台帐、运行、缺陷、检修、试验、故障诊断等信息的综合反映。单纯依靠现有技术手段难以满足发电设备状态监测的需要。如何在现有的监测技术的基础上，充分利用数据库、数据挖掘等信息技术，从火电厂的实时监测系统（SIS）和管理信息系统（MIS）中提取有用信息，诊断设备的运行状态，识别故障的早期征兆，为设备的状态检修提供辅助决策信息，是当前火力发电厂实施设备状态检修面临的实际问题。
目前，多数火力发电厂都已建立了集散控制系统（DCS）、数据采集和监视系统（SCADA）等生产实时信息系统以及管理信息系统（MIS），并且可以将生产实时信息传入MIS。通过计算机网络和大型数据库技术，可及时记录、加工、传输和储存大量反映设备状态的实时信息以及设备台帐、设备检修、设备缺陷、设备试验、可靠性统计、故障诊断等方面的管理信息。通过建立能综合反映设备实时信息和管理信息的数据库或数据仓库，并在此基础上采用数据挖掘技术，找出设备运行状态或故障的早期征兆与设备主题数据库或数据仓库中存储的设备综合信息之间的内在联系和未知的、隐含的规律，用以指导设备的状态识别和故障诊断，是采用信息管理技术实现设备状态检修的一条可行途径。
2决策树分类算法（ID3）及其应用
数据挖掘是从数据库或数据仓库中的大量数据中发现潜在的、新颖的、有价值的知识的过程。按现有的知识类型，可将数据挖掘技术分为：关联规则、分类、预测、聚类、离群分析和时序分析等^[2]。其中，基于信息论的决策树分类算法应用较为广泛。该方法属于从特例推导到一般规则的归纳学习方法。它是由J．R．Quinlan于1979年在概念学习系统（ConceptLearningSystem，CLS）算法的基础上提出的。其基本原理是用决策树表示分类的规则。决策树由信息增益（用信息的不确定性的减少作为度量）最大的字段（属性）作为根节点，各个取值为分枝，各个分枝所划分的数据元组为子集，采用递归方法重复建树过程，扩展决策树，最后得到相同类别的子集，再以该类别作为叶节点，从而得到一棵完整的决策树。可以用这种方法对未知实例进行分类。
设S为具有s个数据样本的集合。假定类标号属性具有m个不同的值，定义m个不同类G_i(i=1,2,…,m)，设s_i为类c_i中的样本数，则对一给定的样本分类所需的期望信息（信息熵）可由式(1)计算^[3]。
式中P_i为任意样本属于c_i的概率，并用s_i/s估计。
信息熵反映了信息输出前的平均不确定性。
设属性A具有v个不同值{a₁,a₂,…,a_v}，可以用属性A的取值将S划分为v个子集，即{s₁,s₂,…,s_v}，其中s_j包含S中在属性A具有值a_j的一些样本。如果A选作测试属性（即最好的分裂属性），则这些子集对应于由包含集合S的节点生长出来的分枝。设s_ij为子集s_j中类c_i的样本数，则根据由A划分成子集的熵或期望信息（条件熵）可由式(2)算出^[3]。
于子集（即A值为a_j）中的样本总数除以集合S中的样本数。
熵值越小，子集划分的纯度越高。条件熵反映了信息输出后的平均不确定性。对于给定的子集，其信息熵为
由于ID3算法使用训练实例集含有的启发信息来选择检测属性，因而生成的决策树的节点较少，计算过程中毋须使用领域知识，学习效率较高，分类较快，但该方法对噪声比较敏感，当训练实例集中存在噪声和孤立点时，许多分枝反映的是训练样本中的异常，需要采用剪枝技术加以处理，而且ID3算法的信息增益度量倾向于取值较多的属性，不十分合理。C4.5为ID3算法的后续版本，对此做了改进，用训练样本估计每个规则的准确率，并在树的可伸缩性和与数据仓库技术的集成方面加强了决策树的分类功能。尽管如此，ID3算法由于其理论清晰，学习能力强，适于处理大规模例子的学习问题，因而是数据挖掘和知识获取的有力工具^[4]。
ID3算法的本质是从一已知的训练样本集合中“挖掘”出用决策树表示的分类规则，并应用于测定未知样本的分类。在设备状态检修中应用ID3算法的前提是构造设备状态分类训练样本集。该样本集中的数据可以从生产实时系统、设备缺陷及故障诊断系统、设备检修管理系统等获得。将从这些系统中获得的数据加以综合（即数据清理和转换）就可以组成以设备状态为主题的数据仓库。
3构造设备状态训练样本集
从以设备状态为主题的数据仓库中可以提取记录，组成设备状态训练样本集。但将该样本集应用ID3算法进行设备状态分类之前，必须进行以下一些工作：
（1）为简化生成的决策树，提高分类的准确性，应由相关专业领域的技术人员运用专业知识和设备检修经验，通过人机对话选择重要设备及其相关性能指标。
（2）由于设备的状态分类信息隐含于性能指标的具体数据，因而如何确定训练样本集中每个样本的状态类别是生成训练样本集的关键。可采用的判断状态类别的辅助方法有：
1）由专业技术人员根据训练样本集中每一样本的性能指标数据，运用专业知识和经验，直接做出分类判断；
2）当设备缺陷或故障发生时，自动记录设备进行状态分类，并将此分类与该设备缺陷或故障时的性能指标联系在一起；
3）根据各种在线、离线监测数据或故障诊断分析结果，对设备状态作出分类判断。
4用SQL语言实现ID3算法
在设备状态数据仓库中构造好设备状态样本集后，可以运用SQL语言实现ID3算法。具体步骤如下：
（1）用SQL语言建立中间及最后输出结果表，如表1和表2所示。表中字段名为含义字段的汉语拼音缩写。（2）用动态SQL语言建立计算过程基础的样本集视图，并随着树的分枝重复利用动态SQL语言建立样本子集视图。
（3）针对决策树生成过程中某一样本集/子集视图，用式(1)计算每一样本分类的期望信息（即信息熵）。
（4）用式(5)计算每个属性不同取值所划分的子集的期望信息（即条件熵）。
[1][2]下一页

来源：中国电力资料网

嗨，快来啊！光看电力文章太乏味，82万电力人喊你一起来探讨，点此进入最火电力论坛!
北极星电力网为广大电力人士打造的期刊分享平台正式上线啦！文章发表，杂志订阅全部免费啦！

投稿热线:010-52898473

>>更多热门电气招聘公告

《决策树分类算法在发电设备状态检修中的应用研究》的相关文章

《决策树分类算法在发电设备状态检修中的应用研究》的相关新闻

热门文章
最新文章

决策树分类算法在发电设备状态检修中的应用研究

>>更多 热门电气招聘公告

《决策树分类算法在发电设备状态检修中的应用研究》的相关文章

《决策树分类算法在发电设备状态检修中的应用研究》的相关新闻

>>更多热门电气招聘公告