此文獻給所有對人工智能(AI)感興趣但是仍然未對其有深入了解的傳統的數據科學家們。這篇文章對與今天大眾媒體口中的人工智能相結合的數據科學技術進行了概述。
我們曾經寫過一些關于組成人工智能(AI)的多種數據科學技術。我依然聽到很多人把AI當做單一的個體來請教關于它的問題。其實AI并不是一個個體,而是眾多數據科學技術的集合。而在現階段的發展中這些技術還未被很好地整合起來,更不能說被易于使用。盡管如此在每一個數據科學領域,我們已經在大眾媒體的關注下獲得了很大進步。
這篇文章并非是一個對數據科學的深入研究,而更像是一個對數據科學現在的情況作一個通俗的走馬觀花式的概述。如果你是一個的傳統意義上的數據科學家,或者你已經讀過一些文章但是暫時未能將數據科學的重點信息了解清楚,那么這可能是一篇能幫助你將現有知識整合起來甚至能幫助你發掘自己興趣點的文章。
AI只是其數據科學組成部分的一個集合
組成AI的數據科學組成部分分為以下幾類。其中可能會有些重疊,但是這些將會是你在媒體上看到的詳細類別。
以上便是所有不同的類別(深度學習其實包括了一些其它分類)。它們之間的聯系并不緊密,多數是被初創公司和技術界的重要公司同時應用在一些新奇的項目上。它們在被成功地應用時能夠產生1+1>2的效果,例如在Watson和Echo/Alexa網站上的應用,或者是開始被用在無人駕駛汽車技術中。盡管如此,這些技術的整合仍會是一個很大的挑戰。
AI需要完成什么任務?
你能夠馬上開始看到今天很多在商業上對AI的應用只要求其中的幾種能力。但是我們期望中更復雜的應用將會需要所有這些功能。
將人類的能力轉化為數據科學
在這里我們講述的內容會開始變得凌亂和難以理解。
上面說的的每一個功能都不必要與它們對應的數據科學技術一一對應。
但是如果想要真正理解AI在今天的發展,理解數據科學技術如何與這些功能要求相匹配是很重要的。它們之間的匹配關系如下圖所示。
深度學習的情況
你可能注意到“深度學習”并沒有在圖中出現。那是因為它是上圖中遞歸神經網絡和卷積神經網絡兩者的集合。人工神經網絡(ANNs)作為最高級的集合登記,在80年代開始被使用,并且一直是標準數據科學機器學習工具包中的一部分,被用于解決標準分類和回歸問題。
最近我們更大量地運用平行處理、云處理和GPU(圖形處理器)來取代傳統英特爾芯片,使我們能夠對不同版本的有著幾甚至過百個隱藏層的ANN進行實驗。這些隱藏層就是我們所說的“深度”,從而形成“深度學習”。添加隱藏層意味著增加運算復雜性,這也是我們為什么不得不等硬件發展速度趕上我們野心的膨脹速度。現在至少有27種不同類型的ANN,但最重要的是卷積神經網絡(CNN)和遞歸神經網絡(RNN),如果沒有它們,圖像和自然語言處理將是不可能的。
對數據科學的簡單討論
要對任何這些基礎數據科學技術進行定義需要很多篇幅。 我們將在這里提供最簡短的描述和一些包含更完整的信息的鏈接。
對抗性CNN通過將圖像像素值轉換為復數數值向量來執行圖像識別的任務。 如果你將它們 逆向運行,即從任意數值向量開始運行,它們就會創建出圖像,用這個方法創造偽造的畫 作,試圖欺騙那一個學習如何檢測偽造品的CNN。 他們互相對抗,直到生成式CNN(偽 造者)偽造的圖像真實到連那一個CNN都不能將它們與真實畫作進行分辨。這時偽造者 CNN和分辨者CNN打成平手。
被用作分辨將偽造畫作與真實畫作的CNN在檢測偽造品方面已經被進行了卓越的訓練。在 此之后我們不必再對成千上萬的法國印象派畫作大師提出分辨偽造畫作這種不切實際的要 求了。總的來說,這就是人工智能網絡從他們的環境中學習的例子。
QAM需要大量關于要研究主題的數據,這些數據由人工加載,并且隨后必須用人工訓練和 維護知識庫。 然而,一旦建立,他們已被證明在多個領域具備專業能力,包括癌癥檢測 (與CNNs結合)、醫學診斷、發現材料和化學品的獨特組合、甚至指導的高中學生如何編 程。 簡而言之,對于任何一個 巨型的需要專業編譯的知識體,QAM都可以像大腦一樣對其 進行編譯(或至少形成AI的關聯記憶)。
第三代人工智能將基于Spiking神經網絡(也稱為神經形態計算)進行發展,因為它試圖更密切地模仿大腦實際工作的方式。 第三代變化的核心圍繞著腦神經元不經常彼此通信,而是在信號的尖峰這個事實。 我們的挑戰是找出一個合適的方法將消息編碼進這個電脈沖串中。
目前我們還在中期研究階段,我只知道它的兩個被應用于商業應用程序的實例。 很多投資和腦力正在涌入這一發展。 它還將需要一種全新類型的芯片,這將意味著另一個硬件革命。
當Spiking神經網絡到達時,我們期待:
它們可以從一個來源學習,并應用到另一個來源。 它們可以概括他們的環境。
它們可以記住已經做過的事情。 一旦學習的任務可以被調用并應用于其他數據。
它們更節能,打開了一條小型化的道路。
它們從自己的環境中學習,沒有監督,只有很少的例子或觀察對象。 這使它們快速學習。
跟上AI的發展
為了跟上AI的發展,我們需要跟隨以上介紹的技術和兩個趨勢。
一是AI的商業化,因為它目前(第二代)以一種飛快的速度被運用到幾乎一切東西上。AI在未來很可能與電氣化在20世紀20年代的美國一樣普遍。
二是Spiking神經網絡的進步,它們將使這一切都更令人驚嘆。