城镇燃气管道腐蚀失效逻辑回归预测模型的构建与应用
2024-12-04 14:40:57 作者:王明达, 张榜, 吴志生, 李云飞, 蔡文龙 来源:腐蚀与防护 分享至:

        随着我国城镇化建设步伐的加快,作为城市生命线之一的燃气管道发展迅速。与此同时,城镇燃气管道长时间运行带来的燃气安全问题不可忽视,近年来城镇燃气爆炸事故时有发生,造成了恶劣的社会影响。经调研得知,燃气管道失效是造成城镇燃气事故的首要原因,因此分析城镇燃气管道失效的原因,预测其失效的概率,对预防城镇燃气事故有着十分重要的意义。 

在管道失效方面,国内外学者进行了大量的研究工作。管道失效受多种因素共同影响,且不同的因素对管道失效的影响程度也有所不同[1-4]。2015年李琴等[5]利用遗传算法和BP神经网络,实现了对腐蚀管道失效压力的预测。2016年,骆正山等[6]分析了管道腐蚀速率的相关因素,提出了一种基于主成分分析和支持向量机(PCA-SVM)算法的管道速率预测模型。同年,CHOI等[7]提出了一种基于有限元分析方法的海底管道失效压力评估计算方法。2019年FU等[8]通过埋地钢管不同失效模式之间的相关性来确定钢管的失效概率。2020年ZHANG等[9]通过收集管道特征数据和管道失效数据,结合贝叶斯网络提出了一种基于管道特征腐蚀和外部干扰引起的管道失效预测模型。以上研究大都是针对长输管道进行的,在城镇燃气管道失效方面鲜有研究,长输管道和城镇燃气管道在其所处环境、管道压力、管材等方面又有着巨大差异,所以对城镇燃气管道的失效研究显得十分重要。 

近年来,基于机器学习的失效预测被广泛应用,并在实践中证明了其可行性。但是传统的机器学习技术在预测模型构建时存在以下不足:一是采集的失效数据呈多点分布,传统的数据处理汇总方式费时费力;二是要求开发人员能够熟练掌握TensorFlow等第三方代码库,对编程能力要求较高;三是机器学习模型的训练过程需要消耗大量的计算资源,若开发环境中硬件资源受限,则将无法进行大规模的模型构建;四是在本地构建完成的模型,缺乏便捷的方式将其快速部署,实用性不强。 

总体来看,现有成果缺乏对城镇燃气管道的失效预测,同时传统的失效预测模式又受计算环境和计算场景的制约。云环境、云计算技术的快速发展给城镇燃气管道的失效预测供了新的方向。作者结合云环境,分析了城镇燃气管道风险并辨别影响城镇燃气管道失效的主要原因,建立了基于逻辑回归算法的城镇燃气管道失效预测模型。 

造成城镇燃气管道失效的原因复杂多样,事故的发生往往是多种因素耦合的结果。对燃气管道失效原因的分析有利于避免同类事故的再次发生,将事故发生的链条切断[10]。同时对城镇燃气管道失效原因进行有效分析,明确燃气管道失效的各级致因因素,是建立管道失效预测模型的第一步。 

人机环管模型与城镇燃气管道的安全有着密切的联系,不仅贯穿了城镇燃气管道生产、运行以及后期维护的整个过程,也是直接影响安全生产的重要因素,只有深入研究其特点和规律,采取对应的安全管理措施和技术方法,阻断事故发生的链条,才能尽可能地减少事故的发生。田云祥等[11]对2011~2017年所发生的燃气事故进行统计分析后得出,86%的事故是由于人的各种不安全行为导致的。人的不安全行为会增加操作失误,设备的不安全状态会增加设备故障或失效,环境的不安全因素会增加外力干扰,企业的管理缺陷会增加燃气公司安全管理失效。当各种失效因素达到事故发生的阈值时,事故便会发生。综上,根据事故发展的过程,在确定事故一级致因因素时,可以选取人机环管模型作为燃气管道失效的一级致因因素指标,将致因因素分为四个方面:人(人的不安全行为)、机(设备的不安全状态)、环(环境因素)、管(企业管理缺陷)[12]。结合燃气事故的领域特点,对每个方面进行具体解释。 

人的不安全行为主要由于操作人员的安全技能不足和燃气用户的安全意识淡薄。操作人员在进行维抢修作业时,因自身安全技能和专业知识不足,不能及时处理问题或违章施工,从而导致管道失效;燃气用户在日常使用燃气时,因安全意识淡薄而带来的违规使用,导致事故发生。 

设备的不安全状态主要指燃气管道存在的故障缺陷,即燃气管道的自身缺陷和后期使用过程中由于腐蚀等因素导致的缺陷。 

环境因素指自然界中的各种不稳定因素如洪水、地震、腐蚀等,这些不稳定因素易对燃气设施造成不同程度的影响。 

企业管理缺陷主要包括企业管理标准及规章制度不合理、安全管理混乱、安全巡检人员责任心不强等。 

以上四个方面的致因因素相互作用,共同影响着城镇燃气管道的安全运行。鱼骨图具有直观形象的特点,被广泛应用到各类问题的影响因素分析中[13]。引起城镇燃气管道失效的因素较多,所以在事故一级致因因素的基础上,通过整理和分析大量城镇燃气事故案例[14],构建出城镇燃气管道失效的鱼骨模型,如图1所示,从而分析得出燃气管道失效的二级致因因素,确定燃气管道失效的致因体系,为后文失效致因的重要度分析提供理论支持。 

图  1  城镇燃气管道失效鱼骨图模型
Figure  1.  Fishbone model of urban gas pipeline failure

为了提高燃气管道失效预测模型的准确率,需要对多种失效原因进行梳理分析,找出其中最主要的原因[15]。利用K均值聚类算法完成词向量的聚类,从而实现燃气管道失效主因分析。K均值聚类过程如下:首先,选取K个特征对象作为每个簇的初始聚类中心点;然后,计算其余对象与各个簇中心点的距离,并将其分配到距离最近的簇;对于一个给定的包含nd维数据点的数据集X及类别K,选取欧式距离作为相似度指标,聚类目标是使得各聚类平方和最小,即最小化,见式(1)。 

(1)

将前文中对城镇燃气管道失效原因的分析作为事故原因分类的原始标签,从而实现管道失效原因的自动分类。然后,通过聚类法分析燃气管道失效主因,聚类数设置为5,迭代数设置为50,输出的聚类结果散点图如图2所示。 

图  2  城镇燃气管道失效原因聚类散点图
Figure  2.  Scatter plot of urban gas pipeline failure

散点图中的5个聚类簇分别为:簇1(管道腐蚀),簇2(燃气用户违规使用),簇3(险情处置能力不足),簇4(违规施工),簇5(用户燃气设施故障老化)。根据聚类分析可知,城镇燃气管道失效原因主要集中在簇1(管道腐蚀),即燃气管道失效事故发生的主要原因为管道腐蚀。所以,作者通过挖掘燃气管道腐蚀的各类特征之间的关联规则,预测城镇燃气管道失效,从而达到预防燃气管道失效事故的目的。图3为研究路线图。 

图  3  研究路线图
Figure  3.  Research roadmap

为了保障燃气管道失效预测模型的准确性和合理性,作者收集了影响燃气管道完整性的核心数据,并对收集的数据进行全面分析,获取燃气管道的参数信息。数据主要包括燃气管道失效数据和管道设计指标。 

(1)燃气管道失效数据 

根据2019~2021年的燃气事故报告,收集每起事故发生的管道桩号、时间、事故原因等信息。 

(2)管道设计指标 

调研收集各大燃气公司内部数据,查阅有关国家标准如GB/T 9711-2011《石油天然气工业管线输送系统用钢管》, GB 50028-2006《城镇燃气设计规范》等,确定与燃气管道设计指标有关的数据。数据包括管道基础数据、检测监测数据、防腐蚀检测数据、运维数据等。 

对收集的数据进行整合,并将其分为管道基本属性数据、管道检测数据和管道运维数据三大类,形成包括桩号、管道压力、缺陷长度在内的13个腐蚀影响因素,建立如图4所示的城镇燃气管道腐蚀因素指标体系。 

图  4  城镇燃气管道腐蚀因素指标体系
Figure  4.  Corrosion factor index system for urban gas pipeline

燃气管道腐蚀影响因素的部分数据如表1所示。通过数据分析发现,燃气管道失效主要由燃气管道腐蚀泄漏导致,而管道腐蚀受管道投入年份(服役时间)、埋深、压力等因素影响。为了在众多因素中确定影响城镇燃气管道腐蚀的关键因素,作者利用广义灰色关联分析法获取关联度较高的腐蚀因素作为后续预测模型的影响因素集。 

表  1  燃气管道腐蚀影响因素(部分)
Table  1.  Influencing factors of gas pipeline corrosion (partial)
管道桩号 钢管类型 投入年份 焊缝类型 管道压力 埋深/m 土壤腐蚀性 土壤类型 壁厚/mm 管道材料 缺陷长度/mm 阴极保护方式 所属公司
001 直管 2014 螺旋焊缝 高压A 1.4 砂质土 10.3 L415N 62 牺牲阳极 K燃气
002 直管 2016 螺旋焊缝 次高压B 1.2 砂质土 7.14 L415M 42 牺牲阳极 H燃气
003 直管 2011 螺旋焊缝 高压B 0.6 壤土 7.14 L415M 33 外加电流 C燃气
004 直管 2016 螺旋焊缝 中压B 0.9 黏质土 7.14 L415N 58 牺牲阳极 Z燃气
005 直管 2013 螺旋焊缝 高压B 1.3 砂质土 8.74 L415M 67 K燃气
006 直管 2015 螺旋焊缝 次高压B 1.6 壤土 8.74 L415M 25 牺牲阳极 Z燃气

广义灰色关联分析法主要利用系统中各个因素之间发展趋势的相似性,通过定量分析的方法来确定各因素之间关联度[16],主要包含相对关联度、绝对关联度和综合关联度。设置参照序列为X0k)=X0(1),X0(2),…,X0m),m为样本量。影响因素序列为Xik),由于上述腐蚀因素指标体系内有13个腐蚀影响因素,所以i=1,2,…,13,并对参照序列和影响因素序列进行归一化处理。 

(1)绝对关联度计算 

根据归一化处理后的数据,参照式(2)~(4)进行绝对关联度a0i的计算。 

(2)

(3)

(4)

(2)相对关联度计算 

设相对关联度为r0i则其计算公式见式(5)。 

(5)

(3)综合关联度计算 

在广义灰色关联分析中,综合关联度是将绝对关联度和相对关联度进行权重计算后得出的,它可以比较全面地反映系统中不同指标的变化程度和重要程度,其计算公式见式(6)~(9)。 

(6)

(7)

(8)

(9)

式中:ρ0i表示综合关联度;θi表示分辨系数,为了平衡绝对关联度和综合关联度结果的不同倾向,运用离差最大化为分辨系数赋值;DA,i表示绝对关联度的总离差;DR,i表示相对关联度的总离差。 

为了研究表1中各个因素对城镇燃气管道的腐蚀影响的重要程度,将数据归一化后代入公式(2)~(9),计算出城镇燃气管道腐蚀影响因素的综合关联度,结果如表2所示,腐蚀影响因素依次用C1、C2、……、C13代替。 

表  2  腐蚀影响因素关联度计算结果
Table  2.  Calculation results of corrosion influencing factor correlation
腐蚀因素 C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13
a0i 0.501 0.512 0.594 0.523 0.637 0.642 0.592 0.513 0.581 0.893 0.519 0.597 0.502
r0i 0.559 0.532 0.632 0.601 0.569 0.639 0.617 0.502 0.627 0.648 0.529 0.637 0.520
θi 0.361 0.377 0.553 0.473 0.586 0.569 0.519 0.457 0.596 0.764 0.464 0.551 0.394
ρ0i 0.538 0.524 0.611 0.564 0.609 0.641 0.604 0.507 0.600 0.835 0.524 0.615 0.512

表2可知,城镇燃气管道腐蚀影响因素对管道腐蚀影响的关联度从大到小排序为C10、C6、C12、C3、C5、C7、C9、C4、C1、C2、C11、C13、C8。选择其中关联度超过60%的影响因素[17]作为影响城镇燃气管道腐蚀的关键因素,即管道材料、埋深、阴极保护方式、投入年份、管道压力、土壤腐蚀性、壁厚,同时将这7个影响因素作为后续预测模型的因素集。 

云环境是指能够从动态虚拟化的资源池中向用户或者各种应用系统按需提供计算能力、存储能力或者虚拟机服务等的互联网或者大数据环境。城镇燃气管道失效预测与云环境结合,可以使失效预测具有资源共享的能力,并处于高度协同的环境中。在云环境中,所有信息公开透明,时时共享。操作人员可以充分了解管道的各项信息指标以及维检修的数据,并根据所掌握的数据利用云平台提供的各种机器学习算法组件进行实时的计算预测。同时,借助云服务器和虚拟平台调用数据,可使数据处理不再受物理硬件、场景、地域的限制,使移动预测成为常态。 

作者所使用的机器学习PAI平台是阿里云打造的一款人工智能云计算平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,PAI平台集成了大量稳定的机器学习算法组件。其可视化的建模方式,为开发者提供了低门槛、高性能的云原生AI工程化能力。 

在城镇燃气管道失效预测中,管道失效发生与否可以被看作一个二值变量,而逻辑回归算法的因变量实质上是一个二值分类因变量,所以作者通过建立逻辑回归模型对城镇燃气管道的失效风险进行预测。逻辑回归算法是机器学习中比较常用的一种用于分类的监督学习算法[18]。利用逻辑回归算法可以预测在不同的影响因素下,某种情况发生的概率。构建逻辑回归模型的核心是结合已经获得的样本数据,在有限时间内进行训练,获得回归系数,在确保良好的学习效果的基础上,使得逻辑回归模型具备较好的预测能力。考虑到燃气管道失效影响因素是非连续变量,作者使用逻辑回归中的逻辑回归二分类模型[19]搭建燃气管道失效预测模型。 

假设在燃气管道失效影响因素的作用下,管道失效的概率为p,其取值范围为0~1,则管道不失效的概率为1-p,p/(1-p)为燃气管道失效的逻辑回归值。取自然对数,其中,自变量X1,X2,…,Xk为影响管道失效的因素,如管道压力、埋深、土壤腐蚀性等因素,因变量为p,则逻辑回归函数可以表示为 

(10)

式中:β0为常量,β1,β2,…,βk为回归系数。 

根据公式(2)可得 

(11)

利用公式(3)可以定量预测燃气管道失效的概率,从而达到预防燃气管道失效的目的。 

管道失效预测模型的构建流程如图5所示。利用PAI平台进行模型的构建,具体操作步骤如下: 

图  5  建模流程
Figure  5.  Modelling process

第一步,进行数据读取,将搜集的数据上传到云环境中。PAI平台的数据储存在阿里云的DataWorks管理控制台中,在DataWorks中完成相应的表结构设计后,如图6所示,将数据导入控制台,完成存储。存储在DataWorks中的数据可以在PAI平台中直接利用读数据表组件进行跨项目读取,从而完成数据读取。 

图  6  数据表结构
Figure  6.  Data table structure

第二步,进行数据预处理,主要包括数据清洗、缺失值填充以及类型变换等操作。因为每个样本的状态只考虑失效或未失效,所以燃气管道失效模型的预测也可以归属于分类问题。本研究中输入数据包括8个特征列和1个目标列,在数据预处理的过程中,需要根据每个字段的含义将字符类型转换为数值类型。 

(1)二值类数据:以管道材料字段为例,其取值为L415N和L415M,可以用0表示L415N,用1表示L415M。 

(2)多值类数据:以土壤腐蚀性字段为例,有弱、中、强三个等级(划分依据),由弱到强可以依次映射为0~2的数值。 

数据处理的结构化查询语言(SQL)脚本如图7所示。 

图  7  数据处理中的SQL脚本
Figure  7.  SQL scripting in data processing

第三步,进行特征工程。特征工程指的是通过一系列方法将模型训练所需要的数据进行相应的处理,使得数据能在模型训练过程中发挥更好作用的过程[20]。由于逻辑回归模型的输入数据必须为double类型,所以在本研究中首先通过类型转换组件将输入特征转换为double类型,然后使用过滤式特征选择组件,利用信息熵和基尼系数来判断每个特征对于结果的影响。同时,为了消除量纲对模型结果的影响,需要进行无量纲化[21],使不同规格的数据转换到统一规格,使用归一化组件将原始特征数值的范围映射到0~1。 

第四步,利用云算法进行模型的训练和预测。使用拆分组件将数据集按照一定的比例拆分成训练集和测试集,利用机器学习中的逻辑二分类组件训练燃气管道失效预测模型,设置模型训练的最大迭代次数为400次,模型训练成功后将其保存到PMML中,PMML利用XML描述和存储数据挖掘模型,在模型中可以看到逻辑回归方程中的相关变量如回归系数、自由度等。将模型和测试集共同输入预测组件,进行失效结果预测。将燃气管道失效的逻辑值定义为1,不失效的逻辑值定义为0,把概率p=0.5作为管道是否失效的临界值,若p>0.5则被认为失效,p<0.5则被认为不失效。 

第六步,进行模型评估,本研究中使用混淆矩阵和二分类评估组件对模型进行共同评估。 

通过对2019~2021年燃气管道失效事故数据、各大燃气公司平台内部数据以及有关国家标准进行指标分解,拆分出燃气管道失效影响因素,将得到13 102条样本数据组成试验数据集,随机抽取70%数据作为模型的训练集,30%数据作为模型的测试集,将数据导入阿里云PAI平台,利用逻辑回归二分类算法进行预测模型构建,云环境中整个可视化建模的工作流如图8所示。 

图  8  可视化建模工作流
Figure  8.  Visual Modelling Workflow

用混淆矩阵[22]和受试者操作特征(ROC)曲线评估模型的预测准确率。混淆矩阵可用来描述城镇燃气管道失效的真实结果和预测结果之间的关联,是评估预测模型性能的一种常用方法,同时引入精准率、召回率和F1值作为评价指标,对模型的预测效果进行评估。对于一个分类问题,其结果一般有4种情况,如表3所示。 

表  3  分类结果
Table  3.  Classification results
分类 实际为正 实际为负
分类为正 真正TP 假正FP
分类为负 假负FN 真负TN

则准确率A的计算公式为 

(12)

式中:nTP表示预测数据中结果为真正TP的数据份数;nTN表示预测数据中结果为真负TN的数据份数;nFN表示预测数据中结果为假负FN的数据份数;nFP表示预测数据中结果为假正FP的数据份数。 

精准率P的计算公式为 

(13)

召回率R的计算公式为 

(14)

F1值综合表述了精准率和召回率的输出结果,其值越高则说明模型的输出效果越好,其计算公式为 

(15)

为了更加直观地判断模型的预测效果,引入特异度和灵敏度来绘制ROC曲线。ROC曲线的横轴表示假正率(RFP),纵轴表示真正率(RTP),ROC曲线下的阴影面积就代表AUC值,通常用AUC值来表示模型的好坏,值越大则说明模型效果越好,表4展示了模型好坏与AUC值之间的关系。 

表  4  AUC评价指标
Table  4.  AUC evaluation indicators
AUC值 模型性能
1 完美分类器
0.5~1 分类效果优于随机猜测
0.5 分类效果等于随机猜测
0~0.5 分类效果劣于随机猜测

本研究以阿里云PAI平台为实现平台,利用可视化建模模块,通过对数据进行有关处理操作并对模型参数进行相应调整,实现了城镇燃气管道失效预测模型的构建,最终通过混淆矩阵和ROC曲线对模型的预测结果进行评价,其结果如图9所示。 

图  9  混淆矩阵和ROC曲线
Figure  9.  Confusion matrix (a) and ROC curve (b)

图9(a)混淆矩阵可知,在63份管道未失效数据中,有56份预测正确,7份预测为管道失效;在52份管道失效数据中,有46份预测正确,6份预测为管道未失效。采用以上公式计算模型的准确率、精准率、召回率和F1值,结果见表5。由表5中的数据可知,基于逻辑回归的管道失效预测模型在预测管道失效与否的时候表现较好,其F1值分别为0.90和0.88,准确率为0.89,预测模型总体上达到了较高水准。 

表  5  管道失效预测的准确率
Table  5.  Accuracy of pipeline failure prediction
预测结果 nTP nFP A P R F1
未失效 56 6 0.89 0.90 0.89 0.90
失效 46 7 0.87 0.88 0.88

ROC曲线可以直观地展示出模型的预测效果。根据图9(b)可知,基于逻辑回归的管道失效预测模型的AUC值为0.86,说明该模型的效果优于随机猜测,与使用混淆矩阵进行评估的结果一致。 

比较了两种计算模式即云环境中和线下的计算速率。线下计算是在PC机使用Python语言,依托深度学习的TensorFlow框架搭建逻辑回归预测模型,使用与云环境中相同的数据进行模型计算。PC机的配置为:CPU6核,2.81 GHz;内存16 G。表6为云环境中和线下两种模式对比。 

表  6  两种计算模式对比
Table  6.  Comparison of two calculation models
对照内容 云环境中计算 线下计算
耗时/s 90.15 334.26
模型准确率/% 0.89 0.76
模型发布方式 支持一键发布 需要代码支持
工作内容 准备数据 准备数据、编写代码、模型评估

综合两种计算模式的对比结果,云环境中的模型构建相比线下模型构建有着耗时短、准确率高、操作简单等优点,构建模型时无需很强的代码基础便可完成机器学习模型的构建和计算。 

2021年6月13日,湖北省十堰市发生重大燃气爆炸事故,事故造成26人死亡,138人受伤,直接经济损失约5 395.41万元。经调查得知,引发事故的直接原因是天然气中压钢管严重腐蚀导致破裂,泄漏的天然气遇商户排油烟管道排出的火星发生爆炸,是一起由于管道失效引发的燃气爆炸事故。提取出该次事故燃气管道的失效影响因素如表7所示。 

表  7  湖北十堰燃气管道失效影响因素
Table  7.  Failure influencing factors of gas pipeline in Shiyan Hubei province
投入年份 管道压力 埋深/m 土壤腐蚀性 壁厚/mm 管道材料 阴极保护方式
2005 中压B 1.5 7.14 L415N 牺牲阳极

将该事故中管道失效影响因素经数据化处理后导入预测模型,在PMML中得到逻辑回归方程中的回归系数如表8所示。结果表明,基于逻辑回归算法的燃气管道失效预测模型对此次案例的预测结果为“1”,即失效,这和实际情况保持一致,从而验证了该预测模型的有效性和实用性。 

表  8  回归系数
Table  8.  Regression coefficient
系数 影响因素 回归系数值
β1 年份 0.198
β2 管道压力 -0.347
β3 埋深 -4.013
β4 土壤腐蚀性 4.223
β5 壁厚 2.153
β6 管道材料 2.299
β7 阴极保护方式 3.437
β0 常量 4.558

通过在云环境中构建城镇燃气管道失效预测模型,计算城镇燃气管道的失效概率,实现了对城镇燃气管道腐蚀失效的精准预测,同时打破了传统失效预测模式在计算环境和计算场景上的束缚,取得了以下结论: 

(1)使用广义灰色关联分析法确定了7种影响城镇燃气管道腐蚀的关键因素,并将这7种关键因素作为逻辑回归预测模型的影响因素集; 

(2)云环境中构建的预测模型在计算时间上要明显优于传统的线下模型,进一步提高了城镇燃气管道失效预测的计算速率; 

(3)云环境中构建的逻辑回归预测模型,减少了传统模型构建过程中开发困难、部署不及时等不足,同时通过实例验证了模型的有效性和实用性,可为城镇燃气管道的安全管理提供参考依据。

免责声明:本网站所转载的文字、图片与视频资料版权归原创作者所有,如果涉及侵权,请第一时间联系本网删除。

    标签:
相关文章
无相关信息