自G家的BERT橫空出世,以1億多參數的預訓練+微調范式模型刷爆NLP的各個任務以來,有錢有數據的各個大廠開啟了預訓練大模型的參數規模競賽。今年GPT3[1]把參數拉到1700多億,并且開放的接口中顯示出令人驚嘆的任務遷移能力、少數據下fine tune的效果等;國內NLP一哥百度也和鵬程實驗室發布2600億參數規模的知識增強模型[2];G家的Swith Transformer[3]更是直接推向了萬億規模。除了有錢的大公司外,國內的人工智能實驗室也不甘落后,由北京市政府直接牽頭建立的智源研究院,推出的悟道2.0[4]參數也拉到了1.75萬億參數。NLP Researcher很多大佬都在刷大模型,CLUE/Super Clue等榜單也幾乎成了武林兵器排行榜,兵家必爭之地。
Transformer源于NLP領域,當年G家的一篇All you need is attention和而后的BERT模型幾乎摧枯拉朽的把NLP領域的各種RNN取代了。CV領域由于視覺的層次化特點等依然還是CNN的天下,今年開始有諸多Transformer挑戰CNN效果的工作,ICCV 2021的BEST PAPER SWIN Transformer[5]在目標檢測和分割任務上取得新SOTA將Transformer占領CV的號角吹到最響。而語音領域Transformer已經有非常多的工作了,Transformer-Transducer、Speech Transformer、Transformer-TTS等。大一統的天下似乎近在咫尺
隨著大一統的Transformer結構在語音,語言和視覺上的大放異彩,同時結合大模型的預訓練和大數據的加持,多模態模型今年看到不少突破,以Open AI的DALL-E模型[6]讓人印象最深刻,輸入自然語言能夠生成語義相關的圖,'綠色的牛油果形狀的扶手椅'驚艷業界。從產業來看,隨著tiktok在全球流量超越Google和Facebook變成絕對頂流,抖音和快手在國內月活創新高,多模態的短視頻內容已經成為機器內容輸出的主流。而在人機交互的輸入上,多模態的融合倒還并沒有看到特別亮眼的突破。
通常在政府治理中前期會給一個方向和行業比較多的創新,盡量不去過多限制,當技術和行業逐步發展起來后,也同時會暴露出很多的社會問題,于是乎通常這個時候就需要在政府層面制定適當的規則和限制。以AI的應用為例,2021年是全球政府繼續加碼規范AI算法應用,國內以個保法落地為重要事件,在AI應用的個人數據隱私上做出很多規范,影響到包括各種人臉、語音、行為等隱私數據的應用。移動互聯網生態上以ios新系統對app的數據獲取有更強的管控,支持用戶自定義關閉各種數據追蹤,也是第一次公眾發現各種應用都在做各類數據的采集,和LBS無關的應用也在不斷的獲取你的POI信息。對用戶而言,隱私安全和保護有一個長足的進步,對于AI技術和行業應用而言,未來如何做到原始數據不上云也能夠持續的優化效果變成重要的挑戰。包括如何做端云一體化的AI Inference、聯邦學習等。
2021年是AI應用在各類學科,包括化學、生物、物理、醫學、數學等各個學科上爆發的關鍵年。尤其是2021年是新冠爆發后的第二年,沒有想到的是病毒肆虐了兩年依然未看到有止住的趨勢,生物和醫學方向有更多的人關注和投入研究。AI結合的應用也層出不窮,以Deep Mind的在nature上發表的AlphaFold[7]為重要的標志性工作,AI在蛋白質結構預測領域的效果突破幾乎讓AI和生物領域達到了一個高潮,國內也開始涌現出諸多AI結合生物制藥等領域的公司和創業公司,包括我廠的百圖生科等。回想當年高中時的那句'21世紀是生命科學的世紀',頗有感慨,期待2022年在更多領域看到AI的應用和突破。
人工智能有三大主義流派:符號主義、連接主義和經驗主義,其中連接主義的代表深度學習給AI帶來跨越式的發展,深度學習結合知識的增強,今年也有很多的進展和突破,各種預訓練模型中引入領域的知識等是連接主義和符號主義融合的典型代表。經驗主義的代表是增強學習,alphago一度把增強學習推向通往通用強人工智能的關鍵之路,深度增強學習一定程度上也是連接主義和經驗主義的融合代表。在各種棋牌、游戲等上打敗人類后,增強學習還缺少在更廣的應用領域實現突破,2021年增強學習領域也依然主要在修煉內功[8],并未看到在技術和應用上有breakthrough的工作。個人的視角來看,增強學習的冷啟動,長序列決策中數據的稀疏,訓練的收斂等問題都一定程度上阻礙了增強學習突破下一個臨界點。期待2022年能看到這個領域的突破,畢竟和環境交互并持續學習是人類等生物智能體的關鍵智能體現之一。