三星在此時加入智能音箱市場,正趕上競爭異常激烈之時。
據市場研究機構Strategy Analytics預測,智能音箱正大受歡迎,預計到2020年,全球銷量可達1500萬部。
其實,智能音箱發展的時間并不算太長。2014年,亞馬遜在官網中低調推出了Amazon Echo智能音箱,甚至都沒有為其舉辦一場發布會。但隨后卻呈現出“低開高走”的局面,Amazon Echo逐漸進入消費級市場,受到了用戶的青睞。2016年,亞馬遜Amazon Echo銷售量超出1000萬臺。
同年,Google正式發布了Google Home,標志著其正式入局智能音箱市場。之后,谷歌與亞馬遜一道,成為了智能音箱市場中排在前兩名的公司。根據VoiceLabs發布的美國語音智能音箱市場的研究報告來看,亞馬遜占據了美國市場70.6%的份額,谷歌則占據了23.8%的份額,而其他品牌總共才占據了5.6%的份額。
不過,之后又有巨頭入局。今年5月,微軟在Build2017大會上宣布與哈曼卡頓聯手推出內置其人工智能助理“小娜”的智能音箱Invoke。
而在WWDC 2017上,蘋果也正式發布了搭載Siri語音助手的智能音箱HomePod。
由此可見,智能音箱已然成為眾多科技巨頭的又一個“新戰場”。那么,這一市場的魅力究竟何在呢?
首先來想象兩個場景。
1.炎熱的夏天,忙碌了一天之后,拖著疲憊的身子下班回家,打開門,打開玄關的燈,奔向松軟的沙發,此刻你只想好好休息或者看個電視,結果怎么也找不到電視和空調遙控器了。
這時,如果有智能音箱,你就可以發出一連串指令:“Echo,空調開到23度”、“Echo,打開電視”、“Echo,幫我泡杯咖啡”、“Echo,把窗簾也拉上”……
2.寒冷的冬天,洗漱完畢,上床打開燈看了會兒書,再看會兒手機,被窩里也暖了。剛想躺下睡覺,發現客廳或衛生間的燈沒有關……
“Google Home,關掉客廳和衛生間的燈”。
這些場景都會時常出現在我們的日常生活中,而智能音箱所提供的語音交互無疑是種最好的方式。
十年前,iPhone以手指觸控替代了按鍵觸控,這一變化具有劃時代的意義,因為觸控比鍵控更接近于人類本能。如今,智能音箱以語音交互替代觸控同樣具有重大意義,因為動嘴比動手更接近于人類本能。因此,下一代的革命性產品必然要將人類從“動手”中解放出來,智能音箱恰好能承擔這一責任。
當下,語音交互的環境正向成熟的方向邁進,語音識別技術有了巨大的提升,而且仍在不斷提升中。網絡基礎建設愈發完善,速度也有了很大的提升,極大程度上縮短了響應時間。畢竟正常的對話需要實時反饋,而這種變化讓語音交互更加便利,有利于以這一技術為主的智能音箱進一步滲透至消費級市場。
現代人的信息化程度越來越高,這是基于近年來逐漸健全的網絡基礎服務的培養,如電商、O2O、流媒體、智能家居等。此外,AI及搜索技術的發展也功不可沒。雖然與國外相比,中國網民在這一點上仍稍顯欠缺,但也取得了顯著的進步。
在高度信息化的時代,語音交互方式要比點擊、滑動更為自然和直觀,因為人類文明最初就是在語言和交流中誕生的。語音交互技術的普及,能夠解放人類的手和眼,讓人們做到“一心二用”甚至是“一心多用”。在提升生活質量的同時也節省了時間,符合現代人快速的生活節奏。
在國內,智能音箱雖然還未普及,但也有不少公司開始涉足這一領域。如華為推出的小天鵝藍牙音箱、小米智能音箱、京東智能旗下的叮咚智能音箱以及阿里即將發布的“天貓精靈”等。不過就整體市場來看,中國的智能音箱產品還是更多地側重于音樂播放甚至兒童早教方面,雖然也能起到控制智能家居設備的作用,但遠未能達到Echo的整合程度。
就當前的發展形勢而言,作為智能家居的入口和語音交互技術的實體產品,智能音箱未來前景極其廣闊。然而,目前的智能音箱在技術和市場等方面仍受到諸多限制。
有觀點說,音箱會成為物聯網時代的“超級產品”。其實,這個理論過于絕對化了。
不可否認,通過語音交互實現對智能家居的控制會成為未來物聯網發展的趨勢,但音箱只會作為入口而不會成為中心。盡管智能音箱優點頗多,但其限制條件亦不在少數。
首先,智能音箱放置地點通常較為固定,移動屬性不高。這意味著需要語音交互時,發出指令的人必須要與音箱保持很近的距離,目前的技術水平最多能在無遮擋的情況下做到5米之內。
想象一下,在這種技術限制下,我們在廚房做飯,在臥室睡覺或在浴室洗澡,而音箱放在客廳。我們想要下達指令的時候,正常的語音交互就幾乎變為了不可能。想要解決這個問題,要么每隔一段距離就放置麥克風陣列,要么就提高嗓門大喊,可這樣一來不是不經濟就是體驗太差,語音交互也就沒有太大的意義。
此外,目前許多語音識別技術在進行交互之時,需要用戶一字一頓的說話才可以。這種限制需要用戶付出更多的時間和情緒成本,是非常反人類的。筆者在智能手機上就遇到過這種問題,就算一字一頓的說普通話,語音助手也不能完全正確識別,導致語音轉文字后還要逐個手動修正。既破壞心情又浪費時間,反而不如直接打字來的痛快。
由此看來,智能音箱確實還存在著諸多問題。有人說,智能家居的殺手級交互應該是手勢。其實不然,因為目前消費級市場中優秀的智能音箱已然證明了一個事實,即語音是安撫無陌生人家庭場景的最佳方式。不過,盡管智能音箱市場火爆,但要成為“超級產品”,可能性確實不大。
那么,真正的下一代語音識別技術又該是怎樣呢?
真正意義上的語音識別,應該不只是語音識別,而是一個“超級大腦”。不僅能識別普通話和方言,還可以作為AI系統。通過深度學習和云計算等先進技術,識別特定用戶的特質嗓音和說話習慣,甚至是因為生病等原因而變聲的語音也能精確識別。也就是說,只要是你身邊的親朋好友能聽懂的話,智能語音系統也同樣能聽懂。
此外,真正的語音系統應該能夠做到減噪。受使用場景的限制,目前語音控制和語音輸入在一個人的環境下還算好用,但在公共場合中使用就難免會受到噪音干擾以及泄漏隱私,這在一定程度上限制了語音習慣的養成。針對這種情況,未來語音識別可能在極致減噪的同時能夠準確識別微小的聲音,甚至能夠識別近乎無聲的“唇語”,從而讓語音識別慢慢滲透到生活中的各種場景,最終成為主流。
就市場層面而言,要將這些設想變為現實,可能會有幾個發展方向。
一是智慧語音輸入法。企業能針對每個用戶定制獨一無二的語音數據庫。這個數據庫中沉淀了特定用戶的特質嗓音和說話習慣。同時能夠結合人工智能,猜測出用戶還未講出的話。
二是跨平臺語音操作系統。這屬于用戶的個人語音數據庫,平時在云端存儲和運轉,能夠通過個人賬戶自動上傳或下載,在任何智能家居和車載設備上都能下載使用,不會再出現人去適應機器的情況。
三是互聯網時代的超級入口。一個搜索需求可以成就谷歌和百度,那么可以推斷,未來的語音操控和語音輸入可能會成就更大的互聯網巨頭,也會成為全球用戶連接互聯網世界和物聯網世界的最大入口。
四是大數據時代的超級服務商。作為超級入口的語音交互,不僅能夠積累用戶的語音習慣,還能積累用戶的生活習慣和即時情況。這種個人的小數據累積起來,就會上升成為社會的整體大數據,這種連接或許將真正構建一個“萬物互聯”的大數據平臺,并構成未來世界所有聯結關系的支柱。
總的來說,雖然智能音箱市場目前正處于蓬勃發展態勢,但只是作為語音交互的入口而很難成為“超級產品”。而真正意義上的語音交互,還需要很長一段時間才能實現。