我們每一個人都曾想過,什么時候我們人類能用“意念”控制事物為我所用,腦子里想啥,就有機器理解別識別我的命令去執行。我們的想象猶如神筆馬良一樣神奇,有一天AI機器真的能讀懂我們思想?
事實如此。科學家利用人工智能開發了一種系統,可以將大腦活動轉化為文本,這項突破給聾啞人帶來了福音,給互聯網帶來了革新,又一次互聯網革命即將到來。目前,它已經可以在有人大聲說話時的神經模式上起作用,但研究人員也正在研究可以用于無法講話或打字的聾啞患者。相信未來是美好的,我們離大腦“意念”被識別已經不會太久。
意念機器人
目前,我們互聯網公司掌握高準確率的語音識別技術,最高可達到99%的正確識別率。語音識別技術,也被稱為自動語音識別(Automatic Speech Recognition,ASR)技術,就是讓機器通過一定技術的識別和理解過程把語音信號轉變為相應的文本或命令的AI智能技術,也就是讓帶音頻的機器聽懂人類的語音并輸出我們需要的結果。
大數據人工智能
語音識別主要有兩部分技術實現:
一、訓練(Training):預先分析出語音特征參數,制作語音模型并存放在語音參數庫中,整理出共性。
二、識別(Recognition):把未識別的語音經過與訓練時相同的語音分析,得到語音標準參數,將它與參數庫中的模型一一比較并加入常用詞語庫,然后采用自動匹配的方法找出最接近這個語音特征的模型得出語音識別效果。
其實語音識別要從1952年的研究開始算起,當時AT& T Bell實驗室實現了識別一個單一發音人發音的十個英文數字的語音識別雛形,方法主要是度量每個數字的元音音段的共振峰。70年代、80年代開始用神經網絡技術引入語音識別。直到2000年以后,人機語音交互成為研究的焦點,技術開始提升到即興口語的識別和理解,自然口語對話,以及多語種的語音同聲翻譯。很多國家級會議就需要用到同聲翻譯系統,不然很多主持來自不同國家,語言也不懂,在座的人怎么能聽懂。
加利福尼亞大學舊金山分校參與這項研究的約瑟夫·馬金和他的同事招募了四名參與者,他們在參與者的大腦中植入了電極陣列本來用于監測癲癇發作。馬金等人要求參與者多次朗讀50個固定句子,包括“蒂娜·特納是流行歌手”和“那些小偷偷走了30件珠寶”等常用語句,在他們講話時科學家也在跟蹤朗讀者的神經活動。然后將所有這些數據輸入到機器學習算法中,這是一種人工智能程序,可以將每個口述句子的大腦活動數據轉換為一串數字。
語言識別過程
該算法剛開始只生成一些無意義的句子。但是,通過將每個單詞序列與實際朗讀的句子進行比較,結果逐漸得到改善。接下來,研究人員對該系統進行了測試,僅從語音過程中的大腦活動生成書面文本。剛開始每次識別轉換過程都不盡人意,有著不同的準確率。后來,科學家改進了識別模型,每個參與者平均一句話僅需要人工去糾正3%,也就是達到了識別準確率97%。
這項研究令所有人興奮了一宿,因為該系統為每個參與者使用了不到40分鐘的訓練數據和少量的句子,而不是通常需要數百萬小時就可以達到高準確率。這項語言識別模型達到了迄今為止尚未達到的最高識別水平。
AI智能
小編有話說。
可以說該項研究的成功證明著人類未來對AI人工智能的技術又跨了一大步,語言是人類最基本的溝通方式,也是最頻繁的大腦活動。該項應用有非常偉大的意義,應用也非常廣。可以審問罪犯判斷是否說謊,可以幫助聾啞人“說話”,幫助每天寫稿的媒體人隨時隨地記錄靈感,還能提高一切與互聯網有關的活動效率。更多殺手級應用,大家可以一起交流,說不定我們的討論未來會誕生出N多獨角獸。
來源于粵創投,作者三哥,若有不妥,請聯系!