的續篇.
(1)
計算速度和數據規模的大幅度提高,也引導出更多算法上的改進.
在網絡構架上,一些算法更多地借鑒人腦認知的成功經驗: 多提高效率, 少做無用功. 多閉目養神,少亂說亂動. 多關注主要矛盾, 少關心細枝末節.
2003年紐約大學神經科學中心的 Peter Lennie 在論文中指出,人腦的神經元,一般最多 1-4%的比例, 可以同時處于激活狀態. 比例更高時, 大腦則無法提供相應的能量需求.
神經網絡的模型中,通過所謂激勵函數 (activation function), 根據上一層神經元輸入值來計算輸出值.
最典型的傳統激勵函數,sigmoid function, 輸出值在 0 和 1 之間, 也就意味著神經元平均下來, 每時每刻都在使用一半的力量.
這種高強度能量需求,對于普通生物體而言,是無法持續的.
一個有意思的比方是鱷魚.真實生活中的鱷魚, 和動物世界的紀錄片中縱身一躍, 兇猛捕食的形象大相徑庭.
鱷魚90%的時間是一動不動的, (一個近距離觀察者常會把它誤認為是石雕.) 剩下5%的時間用于求偶交配, 5%的時間用于覓食.
鱷魚的低能耗綠色生活方式,使它成為兩棲動物界的壽星.雖然野生鱷魚的平均壽命缺乏嚴格科學的統計,但是被捕獲后人工飼養的鱷魚中,有不少個體,記錄在案的壽命超過了七十歲.
(2)
2011 年, 加拿大的蒙特利爾大學學者 Xavier Glorot 和 Yoshua Bengio 發表論文, 'Deep Sparse Rectifier Neural Networks'. (深而稀疏的修正神經網絡).
論文的算法中使用一種稱為'修正線性單元' (REctified Linear Unit, 又稱 RELU) 的激勵函數. 用數學公式表達: rectifier (x) = max (0, x ).
對于 RELU 而言, 如果輸入為負值, 輸出為零. 否則輸入和輸出相等.
換而言之,對于特定的輸入, 統計上有一半神經元是沒有反應,保持沉默的.
使用 RELU 的含有三個隱層的神經網絡模型,被用來測試于四個不同的經典的圖像識別問題. 和使用別的激勵函數的模型相比, RELU 不僅識別錯誤率普遍更低,而且其有效性,對于神經網絡是否進行'預先訓練'過并不敏感.
RELU 的優勢還有下面三點:
傳統的激勵函數,計算時要用指數或者三角函數,計算量要比簡單的RELU 至少高兩個數量級.
RELU 的導數是常數, 非零即一, 不存在傳統激勵函數在反向傳播計算中的'梯度消失問題'.
由于統計上,約一半的神經元在計算過程中輸出為零,使用 RELU 的模型計算效率更高,而且自然而然的形成了所謂 '稀疏表征' (sparse representation), 用少量的神經元可以高效, 靈活,穩健地表達抽象復雜的概念.
(未完待續)
===================================
點擊下面鏈接可看到本公眾號的說明和歷史文章的鏈接
在投資和事業發展的路上如何集思廣益,舉重若輕?歡迎加入王川的投資俱樂部,這是一個凝聚來自世界四大洲各行各業精英的高端社區,年費三千四百美元。有意入會者請和王川(微信號: 9935070) 直接聯系。我和其他會員,會和你深度交流更多投資和商業的經驗教訓。
作者簡介:王川,投資人,中科大少年班校友,現