u1s1是什么意思?干飯人又是個(gè)啥?
當(dāng)在北戴河阿那亞的劇場(chǎng)里被突然問(wèn)到類(lèi)似稀奇古怪的問(wèn)題,一時(shí)發(fā)懵的我只想當(dāng)場(chǎng)掏出手機(jī),給對(duì)方來(lái)個(gè)“百度一下”。
說(shuō)起來(lái),搜索這項(xiàng)“舊技術(shù)”最近的討論聲浪還真有點(diǎn)大。
君不見(jiàn)那邊新搜索工具廣告天天見(jiàn),這廂聽(tīng)著海風(fēng)看話(huà)劇的百度萬(wàn)象大會(huì)現(xiàn)場(chǎng),老牌搜索引擎也打出了“百度一下 生活更好”的新Flag。
其實(shí),正如百度集團(tuán)執(zhí)行副總裁沈抖現(xiàn)場(chǎng)所說(shuō),大家對(duì)搜索太過(guò)熟悉,以至于感受不到其中技術(shù)的變革,搜索的技術(shù)存在感那是真“感知不強(qiáng)”。
但實(shí)際上,“AI技術(shù)為搜索提供了持續(xù)進(jìn)化的動(dòng)力”。
要知道,從古早的文本檢索到今天的人工智能,網(wǎng)絡(luò)世界的網(wǎng)頁(yè)數(shù)量已經(jīng)從千萬(wàn)級(jí)別,增長(zhǎng)到了千億級(jí)別,其中囊括的內(nèi)容可能比世界上所有圖書(shū)館加起來(lái)還要豐富。
在今天,想要高效連接今天的互聯(lián)網(wǎng)用戶(hù)和海量信息,搜索引擎其實(shí)真的沒(méi)那么簡(jiǎn)單。
那么,究竟是怎樣的技術(shù)在驅(qū)動(dòng)搜索引擎更智能地讀懂你的需求,連接豐富而又準(zhǔn)確的信息?
技術(shù)本身在海量信息增長(zhǎng)面前,又經(jīng)歷了怎樣的進(jìn)化?
今天,不如就借著這陣勢(shì),我們來(lái)好好說(shuō)道說(shuō)道。
現(xiàn)在,在使用搜索引擎時(shí),你可能不只會(huì)用幾個(gè)關(guān)鍵詞,還會(huì)直接輸入你想問(wèn)的問(wèn)題。
但其實(shí)早期的搜索引擎采用的是文本檢索的方式,只能做到用戶(hù)查詢(xún)關(guān)鍵詞和網(wǎng)頁(yè)文本內(nèi)容的匹配。
可想而知,雖然這樣的方式也能把不同網(wǎng)頁(yè)的關(guān)聯(lián)度進(jìn)行排序,但總體的搜索質(zhì)量是比較差的。
而實(shí)際上,網(wǎng)頁(yè)之間有著豐富的鏈接關(guān)系,就像高引論文往往本身質(zhì)量更高,高質(zhì)量的網(wǎng)頁(yè)通常也會(huì)被更多的網(wǎng)頁(yè)鏈接。
為了進(jìn)一步挖掘和利用這種鏈接信息,1996年,李彥宏開(kāi)發(fā)了Rankdex,即超鏈分析算法。這是世界上首個(gè)使用超鏈接來(lái)衡量網(wǎng)站質(zhì)量的搜索引擎。
也就是說(shuō),搜索引擎在收到一個(gè)用戶(hù)查詢(xún)之后,不僅僅會(huì)去匹配網(wǎng)頁(yè)的內(nèi)容,還會(huì)看看其他網(wǎng)頁(yè)對(duì)這個(gè)頁(yè)面的“評(píng)價(jià)”。
在此之后,谷歌也提出并使用了類(lèi)似的PageRank技術(shù),并大獲成功。
超鏈分析算法,可以說(shuō)是當(dāng)今每個(gè)主要搜索引擎排名算法的基礎(chǔ)。值得一提的是,在谷歌創(chuàng)始人拉里·佩奇的第一項(xiàng)網(wǎng)頁(yè)排名專(zhuān)利申請(qǐng)中,也引用了Rankdex。
如果說(shuō)早期的搜索技術(shù)門(mén)檻不算高,從超鏈分析這個(gè)階段開(kāi)始,一些今天大家伙普遍依賴(lài)的搜索引擎,就開(kāi)始一騎絕塵,拉開(kāi)差距了,比如谷歌,比如百度。
并且這些做搜索引擎起家的公司,如今也都成為了人工智能領(lǐng)域的先行者。
而事實(shí)上,甚至在人工智能未成顯學(xué)之時(shí),為了讓搜索結(jié)果更快、更精準(zhǔn)、更個(gè)性化,搜索領(lǐng)域的巨頭們就已經(jīng)著手將機(jī)器學(xué)習(xí)的方法引入到搜索引擎中。
谷歌就在2016年上線(xiàn)了基于反向傳播技術(shù)的RankBrain算法。該算法可以基于語(yǔ)義分析和詞庫(kù)聯(lián)想,幫助用戶(hù)更快地搜索冷門(mén)的搜索結(jié)果。
而如今在NLP領(lǐng)域大火的BERT,也已被部署到谷歌搜索當(dāng)中。有了預(yù)訓(xùn)練語(yǔ)言模型的加持,即使你輸入的是一大段文字,搜索引擎也能夠get到你想查什么。
根據(jù)谷歌的數(shù)據(jù),BERT的引入為至少10%的搜索結(jié)果帶來(lái)了改善。
國(guó)內(nèi),百度同樣是最早投入人工智能技術(shù)研發(fā)的科技公司,在2010年就成立了單獨(dú)的NLP部門(mén)。
以搜索引擎技術(shù)為核心,在過(guò)去十余年中,百度演化出了語(yǔ)音、圖像、知識(shí)圖譜、自然語(yǔ)言處理等人工智能技術(shù)。這些長(zhǎng)期的技術(shù)積累,甚至在今天進(jìn)一步拓展到了自動(dòng)駕駛、AI芯片等領(lǐng)域。
這也是為什么,在今天,搜索引擎不僅僅能按照你輸入的文字進(jìn)行搜索,甚至直接給一張圖、一段音樂(lè),AI也能理解你想要獲取怎樣的信息。
正如沈抖所說(shuō),打開(kāi)百度App,你說(shuō)出想問(wèn)的問(wèn)題,可能旁邊的人還沒(méi)聽(tīng)清,百度搜索已經(jīng)能夠提供精準(zhǔn)的答案。而當(dāng)你在阿那亞的任何一個(gè)角落,看到不認(rèn)識(shí)花草苗蟲(chóng),打開(kāi)相機(jī)使用視覺(jué)搜索,也能快速得到答案。
所以,進(jìn)化到智能搜索時(shí)代,讓搜索引擎高效連接你和信息的核心技術(shù),具體又有哪些?
正好,在百度萬(wàn)象大會(huì)上,沈抖也介紹了百度AI是如何推動(dòng)搜索持續(xù)進(jìn)化的。我們一項(xiàng)一項(xiàng)來(lái)看個(gè)仔細(xì)。
2013年,百度搜索就上線(xiàn)了基于百億級(jí)用戶(hù)行為數(shù)據(jù)的SimNet語(yǔ)義匹配模型,使得搜索結(jié)果的相關(guān)性得到明顯提升。
簡(jiǎn)單來(lái)說(shuō),SimNet利用詞向量技術(shù)解決了關(guān)鍵詞匹配失敗的問(wèn)題,可以有效得到同義詞、近義詞之間的相似度,并且具有較強(qiáng)的泛化能力。
在實(shí)際應(yīng)用場(chǎng)景下,海量的用戶(hù)點(diǎn)擊行為數(shù)據(jù)會(huì)被轉(zhuǎn)化為大規(guī)模弱標(biāo)記數(shù)據(jù),再搭配并行訓(xùn)練算法,SimNet首次實(shí)現(xiàn)了可完全取代基于字面匹配的策略,而且可以直接建模非相似度類(lèi)的匹配問(wèn)題。
其核心網(wǎng)絡(luò)結(jié)構(gòu)形式,包括BOW、CNN、RNN、MMDNN等。
而基于這樣的深度語(yǔ)義模型,百度搜索已經(jīng)將一次全庫(kù)語(yǔ)義檢索的時(shí)間優(yōu)化到了10ms。
前文也說(shuō)到,有AI加持的搜索引擎,不僅僅能讀懂文字,還能聽(tīng)懂語(yǔ)音、看懂圖片。
其實(shí),機(jī)器認(rèn)知世界的方式,也不僅僅局限在自然語(yǔ)言,還包括對(duì)語(yǔ)音、視覺(jué)等多模態(tài)信息的綜合應(yīng)用。
為此,百度重點(diǎn)研發(fā)了知識(shí)增強(qiáng)的跨模態(tài)深度語(yǔ)義理解技術(shù)。
一方面,打造擁有超過(guò)50億實(shí)體和5500億事實(shí)的多元異構(gòu)知識(shí)圖譜。通過(guò)將知識(shí)作為背景信息,增強(qiáng)了模型的語(yǔ)義推理能力。
另一方面,通過(guò)知識(shí)關(guān)聯(lián)跨模態(tài)信息,運(yùn)用語(yǔ)言描述不同模態(tài)信息的語(yǔ)義,進(jìn)而讓機(jī)器實(shí)現(xiàn)圖像和語(yǔ)言、語(yǔ)音和語(yǔ)言的一體化理解。
基于這項(xiàng)閱讀理解技術(shù),百度還在EMNLP-MRQA 2019閱讀理解國(guó)際測(cè)評(píng)中,以超出第二名近2個(gè)百分點(diǎn)的優(yōu)勢(shì)獲得冠軍。
2015年,百度就提出了多模搜索的理念,探索從文本搜索向語(yǔ)音、視覺(jué)、視頻等多模態(tài)搜索的演進(jìn)。
而這或許也是智能化搜索在用戶(hù)層面最直觀的體現(xiàn)——在百度App中,你可以體驗(yàn)語(yǔ)音搜索、拍照搜索、實(shí)時(shí)翻譯、植物識(shí)別、視頻搜索等豐富的搜索方式。
除了前面提到的跨模態(tài)語(yǔ)義理解,在語(yǔ)音搜索上,百度搜索還集成了語(yǔ)音識(shí)別、語(yǔ)音合成等多項(xiàng)AI技術(shù),讓搜索引擎能“聽(tīng)”會(huì)“說(shuō)”,不僅能夠聽(tīng)清、聽(tīng)懂,還能深入理解語(yǔ)義,給出繪“聲”繪色的最佳搜索答案,讓搜索引擎與用戶(hù)之間的交互方式變得更加自然、流暢、便捷。
在視覺(jué)搜索上,百度搜索綜合了圖像識(shí)別、人臉識(shí)別、OCR、物體檢測(cè)、實(shí)體匹配等多項(xiàng)視覺(jué)技術(shù),并依托于搜索系統(tǒng)對(duì)全網(wǎng)圖像、視頻內(nèi)容的索引以及用戶(hù)行為,得以細(xì)粒度的識(shí)別用戶(hù)實(shí)時(shí)錄制的視頻流、拍照及上傳圖片中的實(shí)體和文字,進(jìn)而圍繞實(shí)體在用戶(hù)視覺(jué)場(chǎng)景下的需求,鏈接并組織相關(guān)內(nèi)容及服務(wù)提供給用戶(hù),實(shí)現(xiàn)諸如拍題搜索、商品搜索、實(shí)時(shí)翻譯、植物識(shí)別等智能視覺(jué)搜索能力。
是的,不僅僅是圖文,作為當(dāng)前最紅火的通用信息載體,視頻現(xiàn)在也可以直接用來(lái)搜索,并且結(jié)合百度超大規(guī)模的知識(shí)圖譜,能實(shí)現(xiàn)精準(zhǔn)的搜索、定位。
本次萬(wàn)象大會(huì)上,百度短視頻生態(tài)平臺(tái)總經(jīng)理宋健還最新發(fā)布了好看視頻知識(shí)圖譜產(chǎn)品功能,并提出“幀視頻”的概念。
“幀視頻”能延伸知識(shí)信息的密度,讓短視頻的知識(shí)含量濃縮到“幀”的顆粒度,推動(dòng)短視頻成為更好的知識(shí)獲取的載體。
說(shuō)了這么多,有沒(méi)有覺(jué)得日常的搜索背后,涉及到的信息量屬實(shí)龐大?
在今天,信息的獲取方式看似便捷,但海量資訊涌來(lái)的同時(shí),也帶來(lái)了越來(lái)越多的無(wú)效信息。
這也是為什么我們會(huì)希望搜索的結(jié)果更加精準(zhǔn)。
而在此之外,我們還更希望搜索更能讀懂人的意圖,更節(jié)省時(shí)間、更高效地解決問(wèn)題。
基于這樣的用戶(hù)需求,如百度,一方面在持續(xù)增強(qiáng)搜索本身的屬性,形成知識(shí)服務(wù)產(chǎn)品體系,提高首條搜索滿(mǎn)意度。
而另一方面,因?yàn)樗阉魈烊慌c各種服務(wù)場(chǎng)景具有連接性,百度也在圍繞“搜索+服務(wù)”做加法,以進(jìn)一步降低用戶(hù)的決策成本,提升服務(wù)能力。
所以,這也就解釋了為什么百度App品牌升級(jí)為“百度一下 生活更好“。
在這樣的背景之下,智能時(shí)代的搜索不再是簡(jiǎn)單的信息檢索,而是人們與信息、服務(wù)等各種解決方案之間的高效連接方式。
此外,智能搜索和智能推薦融合,還會(huì)進(jìn)一步擴(kuò)大化這種效率的提升。
沈抖對(duì)此解釋說(shuō):
互聯(lián)網(wǎng)基礎(chǔ)設(shè)施日益完善,整個(gè)社會(huì)信息度在提升,用戶(hù)希望更快速地完成閉環(huán)需求。
百度正是基于這一需求的變化,提出了“人格化”和“服務(wù)化”戰(zhàn)略。
所謂“人格化”,是放大每一個(gè)創(chuàng)作者的才能,并把生態(tài)里的創(chuàng)作者和用戶(hù)直接相連,更快速地滿(mǎn)足用戶(hù)需求。
百度副總裁、百度App總經(jīng)理平曉黎就舉了這樣的例子:在知識(shí)分享領(lǐng)域,以往通過(guò)搜索,人們只能找到相關(guān)的靜態(tài)頁(yè)面;而搜索進(jìn)化后,百度還可以直接將搜索結(jié)果連接到能提供該結(jié)果的人,如專(zhuān)家、自媒體、知識(shí)博主等,進(jìn)一步消除信息差。
而“服務(wù)化”,則是讓用戶(hù)“所見(jiàn)即所得”。
圍繞這樣的核心戰(zhàn)略,基于搜索,百度把短視頻和重點(diǎn)垂類(lèi)放在了關(guān)鍵位置上,百度健康、百度電商業(yè)務(wù)也在萬(wàn)象大會(huì)上首次公開(kāi)亮相。
歸根結(jié)底,從搜索到服務(wù)的落地,有很多的場(chǎng)景可以選擇,而這些場(chǎng)景的服務(wù)實(shí)現(xiàn),又恰恰需要搜索不斷進(jìn)化,從搜索到智能搜索。而想要做到這一點(diǎn),背后對(duì)技術(shù)能力的要求著實(shí)不低。
事實(shí)上,也有不少業(yè)內(nèi)人士認(rèn)為,搜索自誕生之初,就擁有類(lèi)似于人工智能的屬性:你在搜索框中提問(wèn)題,機(jī)器來(lái)找出答案提供服務(wù)。
而作為人工智能技術(shù)的第一塊試驗(yàn)田,不論是搜索還是機(jī)器都在不斷進(jìn)化,搜索現(xiàn)在也確實(shí)成為了人工智能技術(shù)的集大成者。
其越來(lái)越“機(jī)智”的進(jìn)化背后,驅(qū)動(dòng)力正是來(lái)自百度這樣的企業(yè)、研究機(jī)構(gòu)長(zhǎng)期積累的AI能力,讓搜索從原來(lái)的搜索分發(fā),到提供服務(wù),提供人格化的內(nèi)容和交互體驗(yàn)。
下一個(gè)十年,搜索技術(shù)還會(huì)有怎樣的超進(jìn)化?
你還有怎樣的期待,不妨在評(píng)論區(qū)一起聊一聊~
參考鏈接:
[1]https://en.wikipedia.org/wiki/Robin_Li
[2]https://lusongsong.com/info/post/406.html?__SAKURA=11996c0e2fcf9a9a499373a06e725a6ea1618368577_198393
[3]https://zhuanlan.zhihu.com/p/80491738
[4]https://blog.google/products/search/search-language-understanding-bert
— 完 —
量子位 QbitAI · 頭條號(hào)簽約
關(guān)注我們,第一時(shí)間獲知前沿科技動(dòng)態(tài)