特征值和特征向量可能是線性代數(shù)中最重要的概念之一。從機器學(xué)習(xí)、量子計算、物理到許多數(shù)學(xué)和工程的問題,都可以通過找到一個矩陣的特征值和特征向量來解決。
根據(jù)定義(標量λ、向量v是特征值、特征向量A):
視覺上,Av與特征向量v位于同一直線上。
這里有些例子。
然而,Ax通常不會等于λx。只有一些特殊的向量滿足條件。
許多問題可以用線性變換建模,其中解決方案來自特征值和特征向量。讓我們先用一個抽象的例子來詳細說明這個問題。在許多系統(tǒng)中,我們可以在向量中表達屬性,其變化率線性地取決于當(dāng)前屬性(例如,人口增長率線性地取決于當(dāng)前人口和GDP)。一般等式是
我們來猜一下滿足上面方程的u(t)。因為一個指數(shù)函數(shù)的導(dǎo)數(shù)等于它本身,我們從一個t的指數(shù)函數(shù)開始然后乘以一個向量x,輸出就是一個向量。
根據(jù)上面的計算,u(t)的解是
接下來,我們將找到它的完全解。一階導(dǎo)數(shù)方程是一個線性函數(shù)。
對于線性函數(shù),完全解是特定解的線性組合。如果u和v是解,則C?u + C?v也是解。從我們之前的特征值λ= 4,-2和-2的例子中,完全解將是
在t = 0時,我們可以測量初始狀態(tài)u(0),比如說[u??,u??,u??]?,并求解常數(shù)C?,C?,C?。
讓我們用諧振子來說明這個想法。我們選擇這個例子是因為諧波振蕩器及其近親(量子諧振子)在研究粒子物理學(xué),量子力學(xué)或物理學(xué)方面幾乎無處不在。我們從著名的F=ma方程開始用特征值和特征向量來解二階導(dǎo)數(shù)。由于我們確實可以自由選擇質(zhì)量單位,物理學(xué)家通常設(shè)m = 1來簡化討論,即
我們把諧振子問題重新寫成矩陣的形式。
阻尼諧振子
這與我們上一個例子的形式相同,因此,我們可以使用A的特征值和特征向量來形成完全解。
這不是一個證明特征值能力的孤立例子。著名的定態(tài)(time-independent)薛定諤方程用特征值和特征向量表示。所有觀察到的屬性都是通過量子力學(xué)中的特征值建模的。還有很多其他的例子,包括機器學(xué)習(xí)。
從根本上說,許多系統(tǒng)都可以建模為
讓我們再研究時間序列模型。
首先,我們假設(shè)初始狀態(tài)u 0是A的特征向量。因此,未來狀態(tài)可以計算為
簡而言之,我們可以通過用標量的冪代替矩陣(A?)的冪來簡化計算。 接下來,考慮A具有n個線性獨立的特征向量,它們構(gòu)成R?的basis 。 我們可以將R?的任何向量分解為該basis,并通過再次計算特征值的冪來簡化計算。
讓我們簡化討論,假設(shè)整個互聯(lián)網(wǎng)只包含三個網(wǎng)頁。矩陣A的元素A??是當(dāng)用戶在頁面j上時用戶去頁面i的概率。
如果我們總結(jié)給定特定頁面的下一頁的所有可能性,它等于1。因此,A的所有列總和為1.0,這種矩陣稱為隨機矩陣(轉(zhuǎn)移矩陣或馬爾可夫矩陣)。
馬爾可夫矩陣具有一些重要的性質(zhì)。Ax或A?x的結(jié)果總是其列相加的和為1。此結(jié)果表示每次點擊后分別位于第1,2和3頁的可能性。所以很明顯它的和應(yīng)該是1。
任何馬爾可夫矩陣A的特征值都是1,其他特征值(正或負)的絕對值都小于1。這種行為非常重要。在我們的例子中,
對于馬爾可夫矩陣,我們可以選擇λ= 1的特征向量,使元素總和達到1.0。 元素總和為1的向量v也可以使用A的特征向量進行分解,其中c 1等于1。
由于u 1,u 2,...和un是特征向量,所以A?可以用λ?代替。除了特征值λ= 1之外,馬爾可夫矩陣的特征值(λ?)的冪將減小,因為這些特征值的絕對值小于1。 因此,無論初始狀態(tài)如何,系統(tǒng)都達到接近特征向量u 1的穩(wěn)態(tài)。 A?和穩(wěn)態(tài)都可以從特征向量u 1導(dǎo)出,如下所示。
在我們的例子中,我們到達第1、2和3頁的概率分別是0.41、0.34和0.44。這個概念有許多潛在的應(yīng)用。許多問題可以用馬爾可夫過程和馬爾可夫/轉(zhuǎn)移矩陣來建模。
馬爾可夫過程和轉(zhuǎn)移矩陣
以谷歌聯(lián)合創(chuàng)始人拉里佩奇命名的PageRanking算法也有類似的概念。它是第一個谷歌搜索排名算法,即使它現(xiàn)在經(jīng)過大量修改,增加了排名算法,以改善用戶體驗并避免人們操縱系統(tǒng)。 核心概念可視化如下。PageRanking通過跟蹤到其他頁面的Web鏈接,輸出您在隨機游走后可能點擊頁面的概率分布。該概率充當(dāng)網(wǎng)頁的排名。當(dāng)很多頁面鏈接到您的網(wǎng)頁時,谷歌會將它排序更高,因為鏈接到網(wǎng)頁的頁面數(shù)量是其受歡迎程度的指標。 這意味著在隨機游走中點擊頁面的機會。
從概念上講,我們計算一個頁面排名,它等于鏈接到這個頁面的其他頁面排名的總和,除以經(jīng)過某種歸一化后的出站頁面總數(shù)。
我們迭代地執(zhí)行計算,直到它達到穩(wěn)態(tài)。在數(shù)學(xué)上,PageRank嘗試在以下等式中求解PageRank R.
這與我們之前討論的例子有很大的相似之處,如果我們忽略阻尼因子d。引入這個因子是因為隨機游走不會永遠持續(xù)。
對于Google,他們不直接計算特征向量。在我們前面的例子中,A的冪收斂得很快,A3的列已經(jīng)收斂到本征向量u 1 。
PageRank論文證明,有3.22億個頁面鏈接,該解決方案在52次迭代中收斂到一個可容忍的極限。
馬爾可夫矩陣使我們得到下面的方程,其中穩(wěn)態(tài)依賴于一個主成分。
在機器學(xué)習(xí)中,信息與原始數(shù)據(jù)糾纏在一起。 在數(shù)學(xué)上,特征值和特征向量提供了識別它們的方法。 特征向量識別成分,特征值量化其重要性。 下面的等式將A中的信息分解為成分。 我們可以基于特征值的平方根對它們進行優(yōu)先級排序,并忽略具有小α值的項。 這樣可以降低噪聲并幫助我們在A中提取核心信息。
希望你現(xiàn)在可以看到Ax =λx的美感。 特征值和特征向量可以通過求解(A-λI)v = 0來計算。對于Ax =λx,對于v = 0以外的解,矩陣(A-λI)是不可逆的。 即它是單數(shù)的。 即它的行列式是零。 det(A - λI)= 0稱為特征多項式。 特征值是該多項式的根。
例
特征值是:
應(yīng)用Av =λv:
讓我們通過一個更復(fù)雜的例子詳細說明這一步驟,
要找到特征值λ,
16的可能因數(shù)是1 2 4 8 16。
讓我們計算特征值λ= 4的特征向量,通過減少行。
我們有三個變量,有2個方程。我們將x 3任意設(shè)置為1并計算其他兩個變量。因此,對于λ= 4,特征向量是:
我們重復(fù)計算λ= -2并得到
通過3個變量和1個方程,我們的解決方案中有2個自由度。讓我們在與其他(多個)時間設(shè)定為1?自由之一的一個度為0而設(shè)定為X 2 = 1時,X 3 = 0,和X 2 = 0,X 3 = 1分開,所計算出的特征向量是:
有3個變量和1個方程,解有2個自由度。讓我們一次把一個自由度設(shè)為1,另一個自由度設(shè)為0。 即設(shè)置x 2 = 1,x 3 = 0,x 2 = 0,x 3 = 1,計算出的特征向量為:
請注意,特征值和特征向量的解集不是唯一的。我們可以重新縮放特征向量。我們還可以為上面的x 2,x 3設(shè)置不同的值。因此,選擇我們的特征向量以滿足某些條件是可能的,也是可取的。例如,對于對稱矩陣,總是可以選擇具有單位長度并且彼此正交的特征向量。
在我們的例子中,我們有一個重復(fù)的特征值“-2”。它生成兩個不同的特征向量。然而,情況并非總是如此 - 有些情況下重復(fù)的特征值不具有多個特征向量。
假設(shè)矩陣A具有兩個特征值和特征向量。
我們可以將它們連接在一起并以矩陣形式重寫方程式。
我們可以將它推廣到任意數(shù)量的特征向量:
其中V連接所有特征向量,Λ(λ的大寫字母)是包含特征值的對角矩陣。
矩陣A一個是可對角化的(如果我們可以把它轉(zhuǎn)換成一個對角矩陣),
即
如果n×n矩陣具有n個線性獨立的特征向量,則它是可對角化的。如果矩陣是對稱的,則它是可對角化的。如果矩陣沒有重復(fù)的特征值,它總是生成足夠的特征向量來對向量進行對角化。如果沒有,則無法保證。
如果A是一個具有N個線性獨立特征向量的矩形矩陣(v 1,v 2,...&vn和相應(yīng)的特征值λ1,λ2,...和λn),我們可以重新排列
成
例如,
因為很難看到超過3個維度的任何東西。 此處的示例保留2維。 假設(shè)v 1和v 2是2×2矩陣A的線性無關(guān)特征向量。任何向量都可以在v 1和v 2方向上分解為components 。 當(dāng)我們將A與特征向量相乘時,結(jié)果在特征向量的同一條線上。 如果特征值為正,則它將向量按特征值在相同方向上縮放。 否則,它會向相反方向縮放向量。
因此,對于下面紅色單位圓上的所有點,都將轉(zhuǎn)換為橢圓上的點。但是對于非特征向量,它不會在原向量的同一條直線上。當(dāng)我們繼續(xù)將結(jié)果與A相乘時,結(jié)果會更接近特征向量。
在這種可視化中有一件非常重要的事情。變換后的單位向量(Ax)的最大范數(shù)(長度)小于或等于最大特征值。另一方面,范數(shù)大于或等于最小特征值,即
事實上,這可以很容易地在下面看到。
目標或成本函數(shù)通常以x?Ax的二次形式表示。假設(shè)m×n矩陣A保持n個主體的屬性。AA?保持這些屬性之間的關(guān)系,這個矩陣S是對稱的。
特征值和特征向量可以幫助我們改變不同方向的特征。具有最大值的特征向量向我們顯示這些屬性之間的相關(guān)性。這些概念可以在SVD和PCA看到。