隨著信息獲取技術的不斷進步,描述系統狀態的信息量越來越大,導致特征空間維數不斷增加,從而引發維數災難等問題。在傳統的特征約簡方法中,主分量分析、獨立成分分析以及矢量量化等方法要求信號平穩、滿足高斯條件,限制了應用范圍。
作為一種新興的多元數據處理方法,非負矩陣分解(non-negative matrix factorization,NMF)可在高維空間中獲得原始數據的局部特征,其純加性的表達方式符合“局部構成整體”的認知規律,成為信號處理、模式識別等領域的熱門工具。張培林等[1]采用NMF技術對發動機故障信號進行特征參數提取,獲得了更高的分類精度。李兵等[2]采用二維NMF技術來提取時頻分布矩陣特征參數,得到了較好的診斷效果。除了特征提取外,NMF在復雜工業過程和機電設備的監測診斷中也有應用[3-4]。
根據NMF的問題模型,可將其求解歸結為一個優化問題,即通過目標函數來刻畫它的逼近程度。實際應用中,一般采用交替迭代方法獲得局部最優解。常用的乘性迭代算法、梯度下降算法和交替最小二乘算法是基于不同思路提出的,而對于設備診斷的特征提取,需要選擇出合適的分解模型。
研究表明,NMF進行數據約簡的目的是估計出原數據中的結構,而其分解的基向量與K均值聚類中的“類”有相通之處,即具有軟聚類特性。因此,本文從分類性能和迭代效率角度出發,基于NMF的聚類特性,將交替非負最小二乘算法用于故障診斷,并通過基矩陣的聚類性優化出約束參數與嵌入維數,最后,通過測試數據和特征選擇實例應用驗證了其有效性。
NMF是一種非負性約束下的矩陣分解方法,具體可描述如下:給定一個非負矩陣V∈Rm×n(m為樣本數,n為特征個數),將矩陣V分解成非負的基矩陣W∈Rm×r和系數矩陣H∈Rr×n(通常情況下,要求rn)的乘積,使得V=WH成立。
非負矩陣分解可以通過優化迭代來解決,即通過目標函數來刻畫逼近程度,并在非負約束條件下進行迭代求解。距離目標函數中,基于歐氏距離目標函數的優化問題應用較廣泛[5],其表達式如下:
(1)
式中,
在目標函數(式(1))中,當W和H同時為變量時,求解最小化問題是非凸的,因此采用交替迭代更新W和H以獲得局部解。常用的迭代算法有乘性迭代(multiplicative iterative,MI)、Lin’s投影梯度(Lin’s projected gradient,LPG)及交替最小二乘法(alternating least squares,ALS)。其中,MI算法是針對歐氏距離目標函數的優化問題提出的;LPG算法用投影梯度法進行更新迭代,采用Armijo規則來搜索每次迭代步長;ALS算法根據庫恩塔克一階最優性條件,采用直接估計“駐點”的固定點方法獲得局部解[6]。在這三種典型迭代算法中,ALS算法形式更簡單,理論上分解結果優于MI算法,在處理高維數據時的效率高于LPG算法,缺點是對噪聲敏感,但可以通過增加約束條件來提高優化效果。標準ALS算法的更新規則為
(2)
式中,[·]+表示非負矩陣。
NMF數據約簡的目的就是估計出原始數據的本質結構,即獲得基矩陣W。事實上,基矩陣W也可理解為模式識別理論中的“模式”,基向量空間就形成了K均值聚類中的“類”[7]。因此,NMF就是要挖掘出原始特征中的本質結構,發現其中的“類”,將相似的局部特征聚集為一類,然后用提取出的“類”代表原始特征集。
NMF分解過程中沒有正交性約束的要求,即具有軟聚類性,有助于克服一些硬聚類所遇到的問題。同時,NMF不受樣本數據的限制,無需預先確定聚類數,有效提高了其應用能力。
為了獲得更穩定、優質的分解結果,需要對W和H施加其他約束條件,可同時對W和H或只對其中一個施加約束。從故障診斷的角度來說,希望基矩陣W的聚類效果盡可能好,相關性盡可能小,也希望權矩陣H具有一定的稀疏度。因此,對基矩陣W施加相關性約束,對權矩陣H施加稀疏性約束,最優化問題轉化為[8]
(3)
式中,αW為相關系數,αW≥0;JW(W)為W的跡,JW(W)=tr(WBWT);矩陣B為k階全1矩陣; αH為稀疏化系數;JH(H)為H的跡,JH(H)=tr(HBHT)。
約束條件下,改進型ALS的迭代更新準則為
W←[VHT(HHT+αWB)-1]+
(4)
H←[(WTW)-1(WTV-αHB)]+
(5)
診斷應用中,約束條件可根據情況進行選擇,可同時施加兩個約束,也可只施加其一。約束參數的選取可通過基矩陣W的聚類效果進行確定。
迭代更新方式對W、H的初始值很敏感,常用的初始化方法[9-11]中,隨機初始化法、隨機Acol初始化法以及模糊C均值初始化法的初始值不唯一,分解結果不穩定,而基于奇異值分解的初始化方法可以獲得唯一的初始值,使得分解結果穩定,具有可復現性。
實際應用中,往往很難獲得先驗知識,因此無法預先確定嵌入維數r。r過大或過小,都會直接影響分解結果中基矩陣結構表達的準確性。因此,在處理高維特征空間時,在經驗值
選取4個常用的UCI數據集(電離層數據集、垃圾郵件分類數據集、鋼板缺陷數據集以及肺癌數據集)對迭代算法的分解結果進行比較分析,詳情見表1。
表1 測試數據集的描述
Tab.1 Description of test datasets
數據集樣本數特征數數據類型類別數嵌入維數電離層數據集35134連續值25垃圾郵件分類數據集460157連續值24鋼板缺陷數據集194127連續值74肺癌數據集3256離散值33
為了驗證標準ALS的效果,將其與MI和LPG算法進行對比,其中,嵌入維數r的選取見表1。由于隨機初始化的多次處理有可能包含最優解,因此,3種算法均采用隨機初值,統計10次的迭代結果。圖1所示為不同迭代算法在4個數據集上應用的分類正確率。
由圖1可知,MI算法的分類正確率總體上落后于其他2種算法,僅僅是針對肺癌數據集的分類率優于LPG算法;MI算法不穩定且易收斂至局部點,如圖1a中第10次和圖1c中第3次實驗結果,分類正確率都處于最低點。LPG算法在三者中的穩定性最好,波動較小。標準ALS算法可以獲得比MI算法和LPG算法更優的解,如圖1a中第2次和圖1d中的所有結果,但波動性比較大,主要是對噪聲比較敏感。此外,即使是同一種迭代方法,每次實驗結果都有較大的差距,說明隨機初始值對NMF影響較大。標準ALS算法在分類性能方面表現良好,而通過施加約束條件還有提高分解效果的可能。另外,從數據集的分解效果來看,垃圾郵件分類數據的3種分解效果基本相同,這與垃圾郵件分類較明確有關。
采用電離層和垃圾郵件分類數據集對初始化方法進行測試,目標函數為歐氏距離,迭代規則為標準ALS,嵌入維數r分別為5和4,評判標準不變。不同的初始化方法得到的基矩陣W的分類結果如圖2所示。
(a)電離層數據集的分類正確率
(b)垃圾郵件分類數據集的分類正確率
(c)鋼板缺陷數據集的分類正確率
(d)肺癌數據集的分類正確率
對于電離層和垃圾郵件分類兩種數據集來說,最優和最差的分解結果皆由隨機法和隨機Acol法獲得,這兩種方法的波動性也最大;模糊C均值法與奇異值分解法雖然最終的分類率不如上述兩種方法,但其波動性很小,且與最優值差距不大。這四種方法當中,奇異值分解法的結果最穩定,平均分類率也較高,且具有可重復性,是最為理想的初始化方法。
(a)電離層數據集
(b)垃圾郵件分類數據集
圖3 相關性約束對電離層數據集的影響
Fig.3 Effects of the Ionosphere dataset with the correlation constraints
相關性約束可以減少基矩陣W中的冗余結構,有利于控制基向量的冗余性。圖3所示為相關性約束對電離層數據集的影響結果,其中,初始化方法和評判標準不變。顯然,施加約束下的分類正確率略有提高。當分類結果較差(圖3中第10次實驗)時,施加相關性約束后的效果較為明顯。當分類結果已較為理想(圖3中第7次實驗)時,約束效果反而變差,究其原因,主要是當已較為準確地提取出數據的本質結構時,施加約束反而無法迭代出更好的結果,為此,在后續應用中不施加相關性約束條件。
特征約簡的重點是獲取稀疏的權矩陣,即希望用極少維度的向量表征數據的突出特征。因此,對鋼板缺陷數據集進行稀疏性約束,其實驗結果如圖4所示。由圖4可知,在10次隨機初始優化搜索中,在施加稀疏性約束的情況下,NMF分解得到基矩陣的聚類效果基本都得到了改善,即分類正確率得到了提高。這表明了稀疏約束對提高特征約簡效果的有效性。
圖4 稀疏性約束對鋼板缺陷數據集的影響
Fig.4 Effects of the Steel plates faults dataset with the sparsity constraints
圖5 不同稀疏度參數對電離層數據集的影響
Fig.5 Effects of the Ionosphere dataset with the different sparsitys
稀疏度約束能夠提高分解質量,但稀疏度系數的不同對分類效果也有一定的影響。圖5所示為電離層數據集在不同稀疏度系數下的分類正確率變化情況,其中,嵌入維數r=5,稀疏度系數在0~0.5內變化,KNN分類器的鄰域為5。曲線變化情況表明,當αH=0.4時,分解得到的基矩陣W的聚類效果最好,對應著較大的分類正確率。參數選擇不佳,則導致約束下的分類效果變差,因此在應用中需要根據分類情況來優選稀疏度系數。
采用由伊斯曼化學公司創建的田納西-伊斯曼過程(Tennessee-Eastman process,TEP)進行實例分析。TEP過程包含了1種正常狀態IDV(0)和21種故障狀態(IDV(1)~IDV(21)),涉及22個過程測量變量(XMEAS(1)~XMEAS(22))、19個成分測量值(XMEAS(23)~XMEAS(41))和12個控制變量(XMV(1)~XMV(12))。22個過程測量變量包括進料、反應器壓力以及汽提器的流量等信息;19個成分測量值為反應過程中各種氣體成分測量值,都包含高斯噪聲;12個控制變量描述了進料量、分離器罐液流量以及冷卻水流量等信息。其中,攪拌速度變量恒定不變,在應用中不包含該項,即一共52個觀測變量。
從TEP中選擇IDV(2)、IDV(3)、IDV(4)、IDV(5)四類故障數據(每類故障480個樣本)的52個特征進行特征子集的選擇。因此,待分解數據為1920×52的高維矩陣V。
特征選擇的目的是從原始52維特征中選出對故障分類敏感的特征。因此,首先在原始特征中,通過特征間的相關系數剔除掉矩陣V中相關性較高的冗余特征,將矩陣特征維數從52維降到16維,則待分解矩陣X為1 920×16維矩陣。其次,評估不同參數下分解矩陣X得到的基矩陣W的分類性能,將其中分類性能好的基矩陣作為特征選擇的基礎。在評估中,低維嵌入維數r在3~5內變化,稀疏度約束αH以0.05的步長在0~0.5內變化,通過分解基矩陣的聚類情況確定出優化的維數和稀疏度。
圖6所示為不同參數下基矩陣的分類率曲線,其中,KNN分類器的近鄰數為5。由圖6可知,在r=5,αH=0.5時分解得到的基矩陣W的分類性能最好。根據各基向量在分類性能上的互補性和組合性,剔除掉基矩陣W中的第2和第4冗余基向量,保留第1、3、5基向量,使得彼此間具有結構上的互補性,組合在一起則具有良好的分類性,其投影空間中的樣本分布如圖7所示。
圖6 不同參數下基矩陣的分類正確率
Fig.6 Accuracy curve of basis matrix with different parameters
根據優化參數確定的權矩陣H分布能夠進行特征選擇,即在最優的基矩陣W對應的系數矩陣H中找出對應行幅值最大的元素,該元素所在的列即為有效特征。
在優化參數確定的系數矩陣H中,找出對應行幅值最大的元素,該元素所在的列依次為特征16、15和2,對應原始集合特征子集為{52,51,10}。其中,特征52、51和10分別為控制變量XMV(11)、XMV(10)和過程測量變量XMEAS(10)。該子集的KNN分類率達到89.74%。
(a)第1基向量空間中的樣本分布
(b)第3基向量空間中的樣本分布
(c)第5基向量空間中的樣本分布
圖7 三個基向量空間中的樣本分布
Fig.7 Distribution of three projection vectors
圖8 子集{52,51,10}的三維樣本分布
Fig.8 Distribution of the feature subset{52,51,10}
圖8所示為{52,51,10}所張成的三維空間投影,由樣本分布可知,除IDV(3)故障樣本(“*”)和IDV(5)故障樣本(“□”)之間有一定的重合外,其他故障樣本間都區分得較為明顯,顯然是一個較理想的特征子集。
若不考慮稀疏度的約束條件,在r=5的情況下,稀疏度和相關系數均取零,選出的特征依次為12、14和15,對應原始集合中的分類特征子集為{41,51,52},該子集的KNN分類率只能達到81.87%。由此可見,不考慮約束條件的話,識別效果會有一定程度的下降。
基于主成分分析的特征選擇結果為{10,28,47},樣本分布的正確率僅為65.62%,顯然提取的特征子集更不理想。
結合NMF的聚類性能,在NMF的迭代求解優化問題基礎上,結合相關性約束和稀疏性約束,提出了一種面向NMF聚類性的迭代優化算法,通過基矩陣空間中的分類性能夠選擇出具有最優聚類性的嵌入維數及相關參數。通過測試數據驗證了最小二乘迭代算法的有效性以及約束條件的效果,通過復雜機電系統的應用實例驗證了特征選擇的有效性。
參考文獻:
[1] 張培林,王懷光,張磊,等.非負矩陣分解在發動機故障特征提取中的應用[J].振動工程學報,2013,26(6):944-950.
ZHANG Peilin,WANG Huaiguang,ZHANG Lei,et al. Feature Extraction for Engine Fault Diagnosis by Utilizing Adaptive Multi-scale Morphological Gradient and Non-negative Matrix Factorization[J]. Journal of Vibration Engineering,2013,26(6):944-950.
[2] 李兵,米雙山,劉鵬遠,等.二維非負矩陣分解在齒輪故障診斷中的應用[J].振動測試與診斷,2012,32(5):836-840.
LI Bing,MI Shuangshan,LIU Pengyuan,et al. Application of Two-dimensional Non-negative Factorization for Gear Fault Diagnosis[J]. Journal of Viaration, Measurement & Diagnosis,2012,32(5):836-840.
[3] 陳霖,鄒金慧.基于NMF-SVM的復雜化工過程故障診斷[J].計算機與應用化學,2014,31(8):1015-1018.
CHEN Lin,ZOU Jinhui.Fault Diagnosis of Complex Chemical Process Based on NMF-SVM [J].Computers and Applied Chemistry,2014,31(8):1015-1018.
[4] 唐曦凌,梁霖,高慧中,等.結合連續小波變換和多約束非負矩陣分解的故障特征提取方法[J].振動與沖擊,2013,32(19):7-11.
TANG Xiling,LIANG Lin,GAO Huizhong,et al.Fault Feature Extraction Method Combining Continuous Wavelet Transformation with Multi-consitraint Nonnegative Matrix Factorization[J]. Journal of Vibration and Shock,2013,32(19):7-11.
[5] WANG Yuxiong,ZHANG Yujin.Nonnegative Matrix Factorization: a Comprehensive Review[J]. IEEE Transactions on Knowledge and Data Engineering,2013,25(6):1336-1353.
[6] BERRY M W,BROWNE M,LANGVILLE A N,et al. Algorithms and Applications for Approximate Nonnegative Matrix Factorization[J]. Computational Statistics & Data Analysis,2007,52(1):155-173.
[7] LI T,DING C.The Relationships among Various Nonnegative Matrix Factorization Methods for Clustering[C]//Sixth International Conference on Data Mining. Hong Kong,2006:362-371.
[8] CICHOCKI A,ZDUNEK R,PHAN A H,et al. Nonnegative Matrix and Tensor Factorizations: Applications to Exploratory Multi-way Data Analysis and Blind Source Separation [M]. Hoboken:Wiley,2009:203-213.
[9] YU Shaohui,ZHANG Yujun,LIU Wenqing,et al. A Novel Initialization Method for Nonnegative Matrix Factorization and Its Application in Component Recognition with Three-dimensional Fluorescence Spectra[J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy,2012,86:315-319.
[10] XUE Yun,TONG C S,CHEN Ying,et al. Clustering-based Initialization for Non-negative Matrix Factorization[J]. Applied Mathematics and Computation,2008,205 (2):525-536.
[11] JANECEK A,TAN Y. Using Population Based Algorithms for Initializing Nonnegative Matrix Factorization[J]. Lecture Notes in Computer Science, 2011,6729:307-316.
(編輯 張 洋)