李杉維金編譯自 Google Blog

量子位出品 | 公眾號 QbitAI

谷歌AI Senior Fellow、谷歌大腦負責人Jeff Dean，按照慣例，今天開始發布2017年度的谷歌大腦年度總結。

在這份已經發布的總結中，Jeff Dean回顧了谷歌大腦團隊過去一年的核心研究，以及在多個AI領域的研究進展。

Jeff Dean還把相關研究的論文等一并附上，堪稱良心之作，值得收藏。

以下是最新發布的總結全文：

作為谷歌整體人工智能計劃的一部分，谷歌大腦團隊致力于通過研究和系統工程，提升人工智能的技術水平。我們去年分享了2016年的工作總結。從那以后，我們在提升機器智能這個長期研究項目上繼續取得進展，并與谷歌和Alphabet的多個團隊合作，使用我們的研究成果來改善人們的生活。

我們將為2017年撰寫兩篇總結文章，這是第一篇，包括我們的一些基礎研究工作，以及關于開源軟件、數據集和機器學習的新硬件的更新。第二篇文章的重點是探討我們針對機器學習能產生巨大影響的領域展開的深入研究，如醫療、機器人和一些基礎科學領域，以及我們在創造性、公平和包容等方面所作的工作，并讓你更加深入地了解我們。

核心研究

我們團隊的一個研究重點是促進我們的理解力和提高我們解決機器學習領域新問題的能力。以下是我們去年研究的幾大主題。

AutoML

自動化機器學習的目標是開發各種技術，讓計算機自動解決新的機器學習問題，而不需要人類機器學習專家逐一干預。如果我們有朝一日真的能有真正的智能系統，這就是我們所需的基本能力。

我們開發了利用強化學習和進化算法設計神經網絡體系結構的新方法。

AutoML在去年5月的2017 Google I/O開發者大會上首次正式發布。這個新方法意在讓讓神經網絡去設計神經網絡，谷歌希望能借AutoML來促進深度學習開發者規模的擴張，讓設計神經網絡的人，從供不應求的PhD，變成成千上萬的普通工程師。

在AutoML中，一個主控的神經網絡可以提出一個“子”模型架構，并用特定的任務來訓練這個子模型，評估它的性能，然后，主控收到反饋，并根據反饋來改進下一個提出的子模型。

這個過程，簡單來說就是：生成新架構-測試-提供反饋供主控網絡學習。在重復上千次后，主控網絡學會了哪些架構能夠在已知驗證集上得到更高的準確率。

將此項工作擴展到ImageNet最新分類和檢測結果中，并展示了如何自動學習新的優化算法和有效的激活函數。我們正積極與我們的云人工智能團隊合作，將這項技術提供給谷歌客戶使用，并繼續在多方面推動該研究。

去年11月，谷歌對AutoML進行了升級。此前AutoML能設計出與人類設計的神經網絡同等水平的小型神經網絡，但始終被限制在CIFAR-10和Penn Treebank等小型數據集上。

為了讓這種方法應用到ImageNet中，研究人員對AutoML做了兩點調整，方便更容易地處理大型數據集。

相關論文：

Neural Optimizer Search with Reinforcement Learning
https://arxiv.org/abs/1709.07417
Searching for Activation Functions
https://arxiv.org/abs/1709.07417

語音理解和生成

另一個主題是開發新技術，提高我們的計算系統在理解和生成人類語音方面的能力，包括我們與谷歌語音團隊合作為一個端到端語音識別方法開發了一系列改進措施，把谷歌語音識別系統的相對詞錯誤率降低了16%。這項工作有一個好處，那就是需要融合很多獨立的研究線索。

相關論文：

State-of-the-art Speech Recognition With Sequence-to-Sequence Models
https://arxiv.org/abs/1712.01769
Minimum Word Error Rate Training for Attention-based Sequence-to-Sequence Models
https://arxiv.org/abs/1712.01818
Multi-Dialect Speech Recognition With A Single Sequence-To-Sequence Model
https://arxiv.org/abs/1712.01541
Multilingual Speech Recognition With A Single End-To-End Model
https://arxiv.org/abs/1711.01694
Improving the Performance of Online Neural Transducer Modele
https://arxiv.org/abs/1712.01807
Monotonic Chunkwise Attention
https://arxiv.org/abs/1712.05382
Learning Hard Alignments with Variational Inference
https://arxiv.org/abs/1705.05524
No Need for a Lexicon? Evaluating the Value of the Pronunciation Lexica in End-to-End Models
https://arxiv.org/abs/1712.01864
An analysis of incorporating an external language model into a sequence-to-sequence model
https://arxiv.org/abs/1712.01996

△Listen-Attend-Spell端到端語音識別模型的部件

我們還和谷歌機器感知團隊合作，開發了一種進行文字到語音生成的新方法：Tacotron 2。這種新方法極大地改進了所生成語音的效果，模型達到的平均意見分（MOS）達到4.53，而你在有聲書里聽到的那些專業人類播音員，MOS也只有4.58，以前，計算機合成語音的最佳成績是4.34。

Tacotron 2合成音頻試聽：

https://google.github.io/tacotron/publications/tacotron2/index.html

△Tacotron 2模型架構

新的機器學習算法和方法

我們繼續開發新穎的機器學習算法和方法，包括對capsules的研究（在執行視覺任務時，明確地尋找激活功能協議，以此作為一種評估不同噪聲假設的方法）。

相關報道：Hinton的Capsule論文終于公開

相關論文：

Dynamic Routing between Capsules
https://research.google.com/pubs/pub46351.html

sparsely-gated mixtures of experts （這能實現仍然具有計算效率的大型模型）。

在這個研究中，新的神經網絡層只需要很小的計算能力提升，便能高效地提升模型的能力。

相關論文：

Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer
https://arxiv.org/abs/1701.06538

hypernetworks（使用一個模型的權重來生成另一個模型的權重）。

相關論文：

HYPERNETWORKS
https://openreview.net/pdf?id=rkpACe1lx

新型多模模型（使用相同模型執行音頻、視覺和文本輸入等多任務學習）。

相關報道：一個神經網絡學習一切！

相關論文：

One Model To Learn Them All
https://arxiv.org/abs/1706.05137

基于注意力的機制（代替卷積和循環模型）。

相關論文：

Attention is All You Need
https://arxiv.org/pdf/1706.03762.pdf

符號和非符號學習優化方法。

相關論文：

Neural Optimizer Search with Reinforcement Learning
http://proceedings.mlr.press/v70/bello17a/bello17a.pdf
Learned Optimizers that Scale and Generalize
https://arxiv.org/abs/1703.04813

一項通過離散變量反向傳播的技術。

相關論文：

Categorical Reparameterization with Gumbel-Softmax
https://arxiv.org/abs/1611.01144

以及對強化學習算法的一些改進。

相關論文：

Bridging the Gap Between Value and Policy Based Reinforcement Learning
https://arxiv.org/pdf/1702.08892.pdf

計算機系統的機器學習

在計算機系統中用機器學習取代傳統的啟發式應用也是我們非常感興趣的方向。我們已經展示了如何使用強化學習在把計算機圖像映射到一組計算設備上的時候制定位置決策，效果比人類專家還好。

相關論文：

Bridging the Gap Between Value and Policy Based Reinforcement Learning
https://arxiv.org/pdf/1702.08892.pdf

我們與谷歌研究院的其他同事共同在“The Case for Learned Index Structures”中展示，神經網絡不僅比傳統的數據結構（B-樹、哈希表和Bloom過濾器）更快，而且也小得多。我們認為，我們只是掌握了在核心計算系統中使用機器學習的皮毛。

相關報道：如何構建未來的機器學習芯片

相關論文：

The Case for Learned Index Structures
https://arxiv.org/abs/1712.01208

隱私和安全

機器學習及其與安全與隱私的交互仍是我們研究的重點。在ICLR 2017的一篇得獎論文中，我們展示了機器學習技術可以用于提供不同的隱私保障方式。

相關論文：

Semi-supervised Knowledge Transfer for Deep Learning from Private Training Data
https://arxiv.org/abs/1610.05755

我們還繼續調查了對抗樣例的特性，包括在現實世界中展示對抗樣例，以及如何在訓練過程中規模化使用對抗樣例，使模型更適用于對抗樣例。

相關論文：

Adversarial examples in the physical world
https://research.google.com/pubs/pub45818.html
Adversarial Machine Learning at Scale
https://arxiv.org/abs/1611.01236

理解機器學習系統

雖然通過機器學習技術得到了漂亮的結果，但更重要的是理解機器學習在什么時候能發揮作用，什么時候無效。

在另一篇ICLR 2017最佳論文中，我們展示了，當前機器學習理論框架無法解釋深度學習方法取得的出色結果。

相關論文：

Understanding deep learning requires rethinking generalization
https://openreview.net/forum?id=Sy8gdB9xx&noteId=Sy8gdB9xx

我們還展示了，通過優化方法發現的最小值“平坦度”并不像最初想象中與良好的泛化方法密切相關。為了更好地理解深度框架中訓練如何推進，我們發布了一系列分析隨機矩陣的論文，因為這是大多數訓練方法的出發點。

相關論文：

Nonlinear random matrix theory for deep learning
https://research.google.com/pubs/pub46342.html

理解深度學習的另一個重要途徑是更好地衡量性能。我們在最近一項研究中比較了多種GAN方法，展示了良好的實驗設計和統計嚴格性的重要性。許多GAN方法很熱門，被用于增強生成模型，但實際上并沒有帶來性能優化。我們希望這項研究能給其他研究員帶來范例，幫助他們展開健壯性更好的實驗性研究。

我們正在開發能對機器學習系統進行更好表達的方法。去年3月，通過與OpenAI、DeepMind和YC Research等公司和機構合作，我們推出了新的開放科學在線雜志Distill，致力于支持人類對機器學習的理解。這份在線雜志的文章提供了清晰的機器學習概念，以及出色的交互式可視化工具。在推出第一年中，Distill發布了多篇有啟發性的文章，旨在幫助人們了解機器學習的各種內部原理。我們期待2018年能帶來更多內容。

△特征可視化

https://distill.pub/2017/feature-visualization/

△如何有效地使用t-SNE

用于機器學習研究的開放數據集

MNIST、CIFAR-10、ImageNet、SVHN和WMD等開放數據集快速推動了機器學習的研究進展。我們團隊和谷歌研究院一起，在過去一年里一直積極探索開放有趣的新數據集，用于開源機器學習領域的研究。我們提供了規模更大的有標簽數據集，其中包括：

YouTube-8M：大于700萬個YouTube視頻，被標注為4716個不同類別
https://research.google.com/youtube8m/
YouTube-Bounding Boxes：來自21萬個YouTube視頻的500萬個邊界框
https://research.google.com/youtube-bb/
Speech Commands Dataset：數千名講話者說出的簡短命令
https://research.googleblog.com/2017/08/launching-speech-commands-dataset.html
AudioSet：200萬個10秒鐘YouTube短視頻，用527個不同聲音事件去標記
https://research.google.com/audioset/
Atomic Visual Actions（AVA）：5.7萬個視頻片段中的21萬個動作標簽
https://research.google.com/ava/
Open Images：900萬張獲得知識共享許可的圖片，被標記為6000個類別
https://github.com/openimages/dataset
Open Images with Bounding Boxes：600個類別的120萬邊界框

△YouTube-Bounding Boxes數據集示例

TensorFlow和開源軟件

△TensorFlow全球用戶分布

http://jrvis.com/red-dwarf/?user=tensorflow&repo=tensorflow

在團隊歷史上，我們開發了一些工具，幫助我們在谷歌的多種產品中開展機器學習研究，部署機器學習系統。

2015年11月，我們開源了第二代機器學習框架TensorFlow，希望讓機器學習界從我們的投入中受益。2月份，我們發布了TensorFlow 1.0。11月份，我們又發布了1.4版本，加入了以下重要內容：用于交互式非典型編程的Eager Execution、針對TensorFlow程序優化的編譯器XLA，以及用于移動和嵌入式設備的輕量級解決方案TensorFlow Lite。

預編譯的TensorFlow二進制文件已在180多個國家被下載了1000多萬次，GitHub上的源代碼已有超過1200名貢獻者。

2月份，我們舉辦了首屆TensorFlow開發者峰會，超過450人來到山景城現場參會，全球有6500多人觀看了在線直播，包括35個國家的超過85場本地觀看活動。所有演講記錄了下來，主題包括新特性，使用TensorFlow的新技術，以及對低級TensorFlow抽象的詳細描述。

TensorFlow開發者峰會2017演講視頻：

https://www.youtube.com/playlist?list=PLOU2XLYxmsIKGc_NBoIhTn2Qhraji53cv

我們將于2018年3月30日在舊金山灣區舉行另一場TensorFlow開發者峰會。現在你可以注冊，保存日期，追蹤最新消息。

TensorFlow開發者峰會2017注冊地址：

https://services.google.com/fb/forms/tfds-2018-save-the-date/

△一個用TensorFlow玩石頭剪刀布的實驗

我們很高興看見，2017年TensorFlow得到了廣泛應用，包括黃瓜分揀的自動化，在航拍照片中尋找海牛，對土豆進行分揀確保兒童食品安全，協助翻譯新西蘭鳥類保護區的鳥叫聲，以及對坦桑尼亞最受歡迎根莖作物的病害進行識別。

11月，TensorFlow作為開源項目慶祝了兩周歲生日。我們很高興看到TensorFlow開發者和用戶社區的興起和繁榮。TensorFlow目前是GitHub上排名第一的機器學習平臺，也是GitHub上的最火的五大代碼庫之一，被許多大大小小的企業和組織使用。

此外，GitHub上已有2.45萬個與TensorFlow有關的不同代碼庫。目前的許多研究論文關于開源代碼的TensorFlow實現，并提供了研究成果，幫助整個社區更容易地理解確切的研究方法，模仿或拓展相關工作。

Google Research其他團隊的相關開源工作也令TensorFlow受益，其中包括TF-GAN。這是個輕量級庫，用于TensorFlow、TensorFlow Lattice（一組用于晶格模型的估計工具），以及TensorFlow對象檢測API中的生成對抗模型。隨著模型數量的不斷增長，TensorFlow模型庫也在繼續壯大。

TF-GAN
https://research.googleblog.com/2017/12/tfgan-lightweight-library-for.html

除TensorFlow之外，我們還發布了deeplearn.js，提供了一種在瀏覽器中配置深度學習API的開源、硬件加速的方法（無需下載或安裝任何東西）。deeplearn.js的主頁提供了許多很好的范例，包括Teachable Machine（一種計算機視覺模型，可以用自己的攝像頭去訓練）和Performance RNN（實現了基于實時神經網絡的鋼琴作曲和表演）。2018年，我們將在此基礎上進一步推進，協助將TensorFlow模型直接部署至deeplearn.js環境。

相關鏈接：

Teachable Machine
https://teachablemachine.withgoogle.com/
Performance RNN
https://deeplearnjs.org/demos/performance_rnn

TPU

大約5年前，我們意識到，深度學習將極大地改變我們對硬件的需求。深度學習計算將帶來計算密集型任務，同時具備兩個特點：

一方面，它們主要由繁重的線性代數運算（矩陣乘法、向量運算等）組成；另一方面，它們對精度降低寬容度很高。

我們意識到，可以基于這兩大特點來構建專用硬件，從而更高效地運行神經網絡計算。因此，我們向谷歌的平臺團隊提供了設計輸入，而他們設計并開發了第一代的“張量處理單元（TPU）”。這是一種單芯片ASIC，用于加速深度學習推理（與訓練不同，推理用于已經過訓練的神經網絡）。

第一代TPU在數據中心的部署已有3年時間，谷歌搜索、谷歌翻譯、谷歌照片，以及AlphaGo中的深度學習模型就使用了這種芯片，同時也給許多其他研究項目和產品提供了計算能力。去年6月，我們在ISCA 2017上發表了一篇論文，表明第一代TPU要比同時代GPU或CPU快15到30倍，而性能功耗比則提升了30倍到80倍。

△用ImageNet訓練ResNet-50的實驗表明，隨著TPU數量的增長，神經網絡訓練加速

推理很重要，但訓練的加速是個更重要的問題，同時也更困難。如果研究人員可以更快地嘗試新想法，那么我們就可以取得更多突破。

我們的第二代TPU于去年5月在谷歌I/O大會上發布，提供了完整的系統（包括訂制的ASIC芯片、電路板和連接方式），可以同時加速訓練和推理。我們展示了單個設備的配置，以及包含多個機架的深度學習超級計算機配置，即TPU艙。我們宣布將通過谷歌云計算平臺提供第二代設備，即云TPU。我們還啟動了TensorFlow研究云（TFRC）項目，向愿意將工作成果分享給全世界的頂級機器學習研究員提供包含1000個云TPU的計算集群。

12月，我們又展示了一項成果：用TPU艙去訓練ResNet-50 ImageNet模型，并在22分鐘內取得了高水平的精確度。而傳統工作站達到這樣的效果需要幾天甚至更長時間。我們認為，縮短研究周期將大大提高谷歌機器學習團隊，以及所有使用云TPU的組織的效率。

如果你對云TPU、TPU艙和TensorFlow研究云感興趣，那么可以在 g.co/tpusignup 注冊，了解更多信息。我們很高興，2018年能讓更多工程師和研究員用上TPU。

原文：

https://research.googleblog.com/2018/01/the-google-brain-team-looking-back-on.html

這是Jeff Dean總結Google Brain 2017成就的上篇，他還會再寫個下篇，談一談他們對機器學習應用于醫療、機器人、各種科學研究、創造等領域的研究，也會談到Google Brain在公平性和包容性方面所做的工作。

See you later~

— 完 —

誠摯招聘

本站僅提供存儲服務，所有內容均由用戶發布，如發現有害或侵權內容，請點擊舉報。

精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

核心研究

用于機器學習研究的開放數據集

TensorFlow和開源軟件

TPU