通用預訓練底座大力出奇跡

數據和模型參數規模競賽

自G家的BERT橫空出世，以1億多參數的預訓練+微調范式模型刷爆NLP的各個任務以來，有錢有數據的各個大廠開啟了預訓練大模型的參數規模競賽。今年GPT3[1]把參數拉到1700多億，并且開放的接口中顯示出令人驚嘆的任務遷移能力、少數據下fine tune的效果等；國內NLP一哥百度也和鵬程實驗室發布2600億參數規模的知識增強模型[2]；G家的Swith Transformer[3]更是直接推向了萬億規模。除了有錢的大公司外，國內的人工智能實驗室也不甘落后，由北京市政府直接牽頭建立的智源研究院，推出的悟道2.0[4]參數也拉到了1.75萬億參數。NLP Researcher很多大佬都在刷大模型，CLUE/Super Clue等榜單也幾乎成了武林兵器排行榜，兵家必爭之地。

為什么

大力能出奇跡：大數據加上大參數的模型加上各種知識增強、訓練方法的優化等的確能夠逐步的拉高效果上限
AI應用工業化的希望：大模型的多任務遷移能力，在少量數據簡單微調即可取得較好的效果等這些性質都給各個大廠帶來一個非常重要的信號是，這種方式有可能帶來AI工業化應用：即這個大模型猶如內燃機/蒸汽機一樣，可以在不同的場景下都可以用起來，應用者不需要多深的AI經驗（不用了解內燃機的原理），用我的工具微調下就好（加點汽油），邊界收益極高。
不是誰都能自己造個內燃機出來，行業也不需要那么多的內燃機：從2出發，大的通用底座需要大量的數據、大量的機器以及不少訓練方法等上面的技術問題，因此這個事也只能是有錢有數據的大廠做。并且畢竟行業也不需要那么多的大底座，如果有一個效果最好的，價格也合適的大底座，那么其他的底座就可能完全沒有價值（自己廠內使用除外），因此競爭愈演愈烈

大模型很好但是

百億往上的模型主要還是在屠榜：縱然各個榜單的效果不斷的被大模型刷新，然而從產業視角看，產業內沒有一個大規模的AI系統中直接用百億甚至10億以上參數的大模型來serve，主要的問題是inference的延時和機器消耗的性價比問題：1）就算不考慮性價比問題，很多infernce的延時也無法滿足線上的需求 2）性價比低，機器太貴
大模型蒸餾下的小模型效果下滑還是比較嚴重：業內還是很希望把屠榜的能力在線上應用起來，現在應用的方式主流的仍然還是蒸餾的方式，不過不少任務上蒸餾的效果下滑還是比較嚴重的，尤其是生成的任務。以開放域對話中的生成模型為例，32層的transformer蒸餾成12層的PPL大概要損失3-4個點左右；當然不少領域理解類的任務損失沒有那么大。
少量數據微調并不是在所有場景都效果足夠好：很多相對簡單的場景是能夠取得不錯的效果，或者是能夠取得可應用的效果。但是對于相對復雜和沉淀比較多自己數據的場景，通常還是要用自己場景的數據繼續預訓練，而且有必要的時候還是需要增加適合自己場景的預訓練任務

Transformer is all you need

Transformer源于NLP領域，當年G家的一篇All you need is attention和而后的BERT模型幾乎摧枯拉朽的把NLP領域的各種RNN取代了。CV領域由于視覺的層次化特點等依然還是CNN的天下，今年開始有諸多Transformer挑戰CNN效果的工作，ICCV 2021的BEST PAPER SWIN Transformer[5]在目標檢測和分割任務上取得新SOTA將Transformer占領CV的號角吹到最響。而語音領域Transformer已經有非常多的工作了，Transformer-Transducer、Speech Transformer、Transformer-TTS等。大一統的天下似乎近在咫尺

多模態智能曙光初現

隨著大一統的Transformer結構在語音，語言和視覺上的大放異彩，同時結合大模型的預訓練和大數據的加持，多模態模型今年看到不少突破，以Open AI的DALL-E模型[6]讓人印象最深刻，輸入自然語言能夠生成語義相關的圖，'綠色的牛油果形狀的扶手椅'驚艷業界。從產業來看，隨著tiktok在全球流量超越Google和Facebook變成絕對頂流，抖音和快手在國內月活創新高，多模態的短視頻內容已經成為機器內容輸出的主流。而在人機交互的輸入上，多模態的融合倒還并沒有看到特別亮眼的突破。

是時候給AI帶上適當的鐐銬

通常在政府治理中前期會給一個方向和行業比較多的創新，盡量不去過多限制，當技術和行業逐步發展起來后，也同時會暴露出很多的社會問題，于是乎通常這個時候就需要在政府層面制定適當的規則和限制。以AI的應用為例，2021年是全球政府繼續加碼規范AI算法應用，國內以個保法落地為重要事件，在AI應用的個人數據隱私上做出很多規范，影響到包括各種人臉、語音、行為等隱私數據的應用。移動互聯網生態上以ios新系統對app的數據獲取有更強的管控，支持用戶自定義關閉各種數據追蹤，也是第一次公眾發現各種應用都在做各類數據的采集，和LBS無關的應用也在不斷的獲取你的POI信息。對用戶而言，隱私安全和保護有一個長足的進步，對于AI技術和行業應用而言，未來如何做到原始數據不上云也能夠持續的優化效果變成重要的挑戰。包括如何做端云一體化的AI Inference、聯邦學習等。

AI+科學展現出十足的潛力

2021年是AI應用在各類學科，包括化學、生物、物理、醫學、數學等各個學科上爆發的關鍵年。尤其是2021年是新冠爆發后的第二年，沒有想到的是病毒肆虐了兩年依然未看到有止住的趨勢，生物和醫學方向有更多的人關注和投入研究。AI結合的應用也層出不窮，以Deep Mind的在nature上發表的AlphaFold[7]為重要的標志性工作，AI在蛋白質結構預測領域的效果突破幾乎讓AI和生物領域達到了一個高潮，國內也開始涌現出諸多AI結合生物制藥等領域的公司和創業公司，包括我廠的百圖生科等。回想當年高中時的那句'21世紀是生命科學的世紀'，頗有感慨，期待2022年在更多領域看到AI的應用和突破。

增強學習還在修練內功

人工智能有三大主義流派：符號主義、連接主義和經驗主義，其中連接主義的代表深度學習給AI帶來跨越式的發展，深度學習結合知識的增強，今年也有很多的進展和突破，各種預訓練模型中引入領域的知識等是連接主義和符號主義融合的典型代表。經驗主義的代表是增強學習，alphago一度把增強學習推向通往通用強人工智能的關鍵之路，深度增強學習一定程度上也是連接主義和經驗主義的融合代表。在各種棋牌、游戲等上打敗人類后，增強學習還缺少在更廣的應用領域實現突破，2021年增強學習領域也依然主要在修煉內功[8]，并未看到在技術和應用上有breakthrough的工作。個人的視角來看，增強學習的冷啟動，長序列決策中數據的稀疏，訓練的收斂等問題都一定程度上阻礙了增強學習突破下一個臨界點。期待2022年能看到這個領域的突破，畢竟和環境交互并持續學習是人類等生物智能體的關鍵智能體現之一。

References

'2021 Top AI Stories' andrew ng: https://read.deeplearning.ai/the-batch/issue-123/
GPT-3：Language Models are Few-Shot Learners；https://arxiv.org/abs/2005.14165
ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation,https://arxiv.org/abs/2107.02137
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity，https://arxiv.org/abs/2101.03961
悟道2.0：https://wudaoai.cn/
SWIN Transformer：Hierarchical Vision Transformer using Shifted Windows
DALL-E：https://openai.com/blog/dall-e/
Highly accurate protein structure prediction with AlphaFold. https://www.nature.com/articles/s41586-021-03819-2
ICLR-2021強化學習的最新研究與應用：https://zhuanlan.zhihu.com/p/412666507

本站僅提供存儲服務，所有內容均由用戶發布，如發現有害或侵權內容，請點擊舉報。

精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕