站在今天,我們可能更需要談Alphago Zero的勝利帶給我們的啟示。 2017年10月, 這個僅僅通過3天的自我學習,通過單一神經網絡,更少的機器硬件(4TPU vs 48TPU)而擊敗了Alpha Go老版的家伙,代表著我們邁入了超級智能的時代。
為什么打敗柯潔會是這樣一個標志性事件,或者說為什么是圍棋?當然Alpha Go從來都不僅僅關乎圍棋游戲本身,然而掌握圍棋有著重大的意義,因為圍棋非常復雜,圍棋中各種變數的數量甚至超過了宇宙原子的數量。
Alpha Go開發的目的僅僅是為了擊敗人類棋手嗎?當然不是,是希望通過圍棋來訓練它的算法,從而能夠應用到解決我們日常生活許多相似的問題中來。例如,DeepMind已經利用了AlphaGo背后的技術,幫助谷歌大幅削減其數據中心的能耗。“阿爾法狗”之父哈薩比斯還希望能夠通過人工智能在蛋白質折疊或設計新材料等問題上取得進展,推動人們理解生命和影響人類社會。
啟示一:Alpha Go 的勝利并不意味著技術奇點已經到來,雖然它在不斷逼近。它是否能夠代表智能計算發展方向也還有爭議,但Alpha Go的勝利象征著計算機技術已經進入人工智能新IT時代,其特征是大數據、大計算、大決策三位一體。 Alpha Go的勝利代表了在某些垂直領域計算機已經超越了人類的智能,但是達到科幻小說或電影中的通用人工智能還有很長的路要走
啟示二:Alphago Zero的勝利代表著出我們在向建造真正智能化的機器方面邁出了一大步,因為即使在沒有大量訓練數據的情況下,機器也需要找出解決困難問題的方法。
啟示三:“監督學習是昨天,強化學習是今天, 遷移學習是明天”--借用下港大楊強教授的預判 ,因為在小數據和個性化的趨勢下,遷移學習正在展現出極大的商業應用價值。如下圖所示
吳恩達認為下一步將是遷移學習的商業應用大爆發。目前這一波的人工智能技在日常生活中的商業應用,主要是由監督學習來引領和推動,而這優勢建立在深度學習的進步、計算力的提升和有標記的大型數據集基礎之上,但監督學習的算法在新情況上的泛化能力和訓練模型所有要的海量數據往往難以獲取。 遷移學習可以解決小數據和個性化的問題。而在小數據上學習的模型,能夠舉一反三觸類旁通的智能才是真正的智能 。
啟示四:大數據的金礦? 監督學習是大數據的勝利,而在強化學習領域,是算法和邏輯的勝利。大數據與算法和邏輯的對決,后者技高一籌。 在人工智能進階的途中,手握數據的金礦可能會變得不名一文嗎?
啟示五:Zero勝利后面的哲學深意:我們得益于經驗,同時又被這些經驗所桎梏。 在監督學習下,依靠人類專家的指導,反而可能會導致人類對計算機能力的限制,而強化學習不再受到人類知識的限制,依靠毫無人類偏見和預設的模型反而更加強大。 在機器對人類智慧的挑戰中,啟發我們重新審視我們的默認智慧,或者提供了重新審視默認智慧的其他路徑,而這些路徑之前尚未被人類所知。機器可以發明新的更加高效的解決問題的方法。 比如在輸給了AlphaGo之后,柯潔通過向機器學習尋找靈感。之后他取得了已22連勝的成績打敗了人類對手的驚人戰績。智能的提升是雙向的。