精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
國產(chǎn)大模型黑馬誕生,千億級拿下雙榜第一!知識正確性能力突出,大幅降低LLM幻覺問題


  新智元報(bào)道  

編輯:Aeneas 好困
【新智元導(dǎo)讀】夸克,也下場大模型了。甫一問世,夸克大模型就迅速登頂權(quán)威測評雙榜第一,幻覺率大幅降低,可以預(yù)見,風(fēng)靡年輕人的夸克APP,要掀起新的颶風(fēng)了。

最近的各大手機(jī)廠商和互聯(lián)網(wǎng)公司,都在卯足了勁兒地發(fā)布大模型。
而其中的一匹黑馬,顯得格外引人注目——
千億級在C-Eval和CMMLU兩大權(quán)威評測中拿下雙榜第一,百億級在法律、醫(yī)療、問答等領(lǐng)域的性能評測中名列榜首。
如此擅長人文社科,再結(jié)合夸克以往的業(yè)務(wù),阿里巴巴智能信息事業(yè)群為夸克大模型安排的這條路線,逐漸明晰了起來。
沒錯(cuò),答案就是——做通識問答和專業(yè)搜索!
在年輕人中人氣極高的夸克APP,是一個(gè)集合搜、用、存的智能信息產(chǎn)品。而有了夸克大模型后,這項(xiàng)過程,就都可以進(jìn)行智能化升級。
要知道,如今的夸克APP,25歲以下的年輕用戶,占比已經(jīng)超過了一半。在夸克大模型的加持下,夸克APP必然在年輕用戶中,再掀一股颶風(fēng)。
效果有多好?請看——

搜索、健康、教育、辦公,輕松hold住

夸克大模型,是一個(gè)面向搜索、生產(chǎn)力工具和資產(chǎn)管理助手的應(yīng)用型大模型,應(yīng)用場景有通用搜索、醫(yī)療健康、教育學(xué)習(xí)、職場辦公等等。

搜索

現(xiàn)在的千億參數(shù)模型,已經(jīng)可以在部分夸克端的內(nèi)測場景里提供服務(wù)。
比如,讓它介紹《狂飆》的演員,答案不僅有演員表,還能介紹誰在劇里演了什么。
這道歷史題「光武盛世、開元盛世、貞觀之治、文景之治,是哪個(gè)朝代」,尤其體現(xiàn)了夸克大模型的能力。
如果問普通搜索引擎,這種一連串的問題,是搜不出來的。
而反事實(shí)的問題,就更有難度,因?yàn)椴粌H能測出模型學(xué)過的知識,還需要模型進(jìn)行推理。
如果問它,秦始皇喜歡騎什么牌子的摩托車?
它就會推理出,秦始皇是秦朝的,摩托車是哪年發(fā)明的,所以秦始皇沒有機(jī)會騎摩托車,更沒有喜歡的品牌。
下面這個(gè)多輪對話下中英混合的case 「in和on有什么區(qū)別」,已經(jīng)到了可以自學(xué)英語的程度。
在多輪對話中,我們可以不斷對它提出需求。
可以看到,夸克大模型的回答,比一般的搜索結(jié)果在內(nèi)容的全面性和專業(yè)性上,都要好得多。

健康

健康,是夸克團(tuán)隊(duì)要重點(diǎn)建設(shè)的方面。
搜索引擎的核心群體,就是健康群體,因?yàn)檫@個(gè)群體并沒有其他軟件或APP提供很好的信息服務(wù)。
在健康上,夸克團(tuán)隊(duì)做了許多行業(yè)數(shù)據(jù)建設(shè)和知識建設(shè),建成了完整的健康知識圖譜。
另外,他們還建設(shè)了大量的醫(yī)典百科、醫(yī)典問答這類面向C端的數(shù)據(jù),并且整理了大量指南、標(biāo)準(zhǔn)、書籍。
在「如何預(yù)防流感」這個(gè)問題中,夸克大模型回答了不同的方法,包括個(gè)人衛(wèi)生、疫苗等等。同時(shí)會體現(xiàn)學(xué)到的知識點(diǎn)援引出處。
可見,團(tuán)隊(duì)在行業(yè)里建立的知識權(quán)威性,大模型確實(shí)學(xué)到了。
而且,最理想的情況,模型不會只是回答健康的科普問題,還要具備比較好的推理能力。
「咳嗽三天,是怎么回事?」
如果在搜索引擎里問這個(gè)問題,是無法獲得豐富、完備的信息的,因?yàn)榭人詫?yīng)的疾病非常多。
而在夸克大模型在給出一個(gè)回答之后,還會有推理和反問。
界面中會出現(xiàn)一張卡,詢問用戶是否有其他情況。提交后,大模型會根據(jù)當(dāng)前癥狀給出一個(gè)更精準(zhǔn)的疾病范圍。
這個(gè)過程的核心,就是醫(yī)學(xué)相關(guān)的知識推理,和醫(yī)學(xué)知識的具體信息。
并且,團(tuán)隊(duì)還在準(zhǔn)備多模大模型,上傳生化檢驗(yàn)單后,就可以給用戶提供更準(zhǔn)確的信息。

教育

在教育類產(chǎn)品上,不止要看能不能答,更要看為什么能答。
比如這個(gè)應(yīng)用題,一個(gè)圓桶周長25米,深40厘米,這桶水有多少千克呢?
夸克大模型回答時(shí),不僅會列出解題的過程,還會輸出解題會用到哪些公式,涉及哪些關(guān)鍵知識點(diǎn),比如各單位的換算關(guān)系。
然后先求圓的面積,然后算出體積,再得到最后的結(jié)果。

辦公

此外,夸克大模型還可以化身為職場打工神器。
舉例來說,一個(gè)關(guān)于銷售演講技巧的PPT有8頁,逐頁看的話,很花時(shí)間。但只要把文檔上傳上去,夸克大模型就可以列舉出關(guān)鍵點(diǎn),讓效率大大提升。
而在大家常用的文案寫作上,夸克也做了幾個(gè)小工具。比如,打卡網(wǎng)紅露營地的時(shí)候想發(fā)個(gè)朋友圈,這時(shí)就可以讓AI寫得有詩意一點(diǎn)。

國產(chǎn)大模型,學(xué)霸喜+1

可以說,全棧自研的千億級參數(shù)的夸克大模型,是國內(nèi)LLM班級里妥妥的學(xué)霸了。
C-Eval是由清華大學(xué)、上海交通大學(xué)和愛丁堡大學(xué)合作構(gòu)建的綜合性考試評測集,覆蓋52個(gè)學(xué)科,是目前權(quán)威的中文AI大模型評測榜單之一。
CMMLU是由MBZUAI、上海交通大學(xué)、微軟亞洲研究院共同推出,包含67個(gè)主題,專門用于評估語言模型在中文語境下的知識和推理能力。
兩個(gè)榜單的權(quán)威性毋庸置疑。
評測過程中,夸克大模型經(jīng)過了上萬道專業(yè)考題的檢驗(yàn),覆蓋幾十個(gè)學(xué)科和不同學(xué)段。無論是常識問題還是社會科學(xué)知識,夸克大模型都展現(xiàn)出了處理復(fù)雜、多層次問題的能力。
基于精調(diào)后的訓(xùn)練數(shù)據(jù),夸克大模型能夠更好地理解問題的上下文、邏輯結(jié)構(gòu)和語義關(guān)系,從而更全面、深入地分析和解決問題。
在5471道真題考試中,夸克大模型不僅成功超越了GPT-3.5,甚至部分成績還優(yōu)于GPT-4——

45個(gè)科目中,11科優(yōu)秀(準(zhǔn)確率≥80%),25科及格(準(zhǔn)確率≥60%)
總結(jié)來說,夸克大模型整體的水平與GPT-3.5相當(dāng),但能更好地理解中文知識體系并進(jìn)行文本寫作。
在多語言翻譯、寫代碼、安全合規(guī)、內(nèi)容創(chuàng)作等領(lǐng)域,處在國內(nèi)行業(yè)頭部水平。
多模態(tài)方面,夸克大模型支持相冊搜索、AI相機(jī)場景下的文搜圖、圖生圖、圖生文等。
從上面的演示可以看出,這些知識和創(chuàng)作對應(yīng)的能力,和夸克的產(chǎn)品之間,恰恰就有著極強(qiáng)的對應(yīng)關(guān)系。

破除大模型幻覺,夸克是專業(yè)的

大模型要做產(chǎn)品,幻覺就是一道必然要解決的難題。
在蔣冠軍看來,要解決大模型應(yīng)用的問題,就要先解決知識正確性的問題。
憑借著搜索技術(shù)能力的積累,團(tuán)隊(duì)在解決幻覺這個(gè)困擾絕大多數(shù)模型的老大難問題時(shí),有著相當(dāng)大的優(yōu)勢。
能解決幻覺難題,首先就是因?yàn)榭淇嗽谒阉髦R體系的整體積累。
在健康場景下,錯(cuò)誤率甚至能降到5%以下。能達(dá)到如此高的可用性,也是因?yàn)楹芏嗨阉鹘Y(jié)果都是醫(yī)生三審三校的結(jié)果。
在模型的預(yù)訓(xùn)練中,因?yàn)閿?shù)據(jù)規(guī)模越大,引入的錯(cuò)誤知識也會越多。這是個(gè)悖論。因此,團(tuán)隊(duì)花費(fèi)了大量時(shí)間和精力,做了數(shù)據(jù)準(zhǔn)確性校驗(yàn)和對齊。

為什么能成學(xué)霸?

除了專門針對大模型的技術(shù)創(chuàng)新之外,夸克經(jīng)過多年發(fā)展所積累的4個(gè)優(yōu)勢,也是培養(yǎng)出這位「新學(xué)霸」的原動力。
1. 數(shù)據(jù)全面
首先,夸克積累了40多個(gè)行業(yè),幾乎涵蓋了整個(gè)中文領(lǐng)域的知識。
2. 多語言知識
其次,在英語等其他語種上,夸克也憑借著在通用搜索領(lǐng)域的深耕,積累了豐富的知識和數(shù)據(jù)。
對于大模型來說,知識的理解、對齊和校驗(yàn),是至關(guān)重要的。而夸克憑借著通用搜索的經(jīng)驗(yàn),已經(jīng)在內(nèi)容的理解方面,建立起了一個(gè)非常完整的體系。
3. 數(shù)據(jù)豐富
第三,夸克擁有很高的數(shù)據(jù)豐富程度。
搜索引擎本身就是海量的網(wǎng)頁數(shù)據(jù),在夸克的數(shù)據(jù)庫里,這個(gè)數(shù)字是千億級。
這也意味著,需要有一個(gè)強(qiáng)大的工程系統(tǒng)來處理如此大規(guī)模的網(wǎng)頁數(shù)據(jù),從而完成去重、分析等工作。這種能力和大模型的需求非常匹配——大模型要大算力,傳統(tǒng)搜索引擎本身就具備大算力。
此外,對于搜索引擎來說,如何去判斷搜索結(jié)果的好壞,以及如何在大量的站點(diǎn)中進(jìn)行篩選,都需要團(tuán)隊(duì)有一個(gè)高質(zhì)量的評估和評價(jià)體系。而這個(gè)體系,對于大模型來說也同樣適用。
類似的,在大模型和人類對齊方面,傳統(tǒng)搜索積累的經(jīng)驗(yàn),也能夠更好地幫助團(tuán)隊(duì)。
4. 人才儲備
其實(shí),通用搜索涵蓋的范圍非常廣,包括網(wǎng)頁搜索、圖片搜索、視頻搜索、文檔搜索等等。而支持這些搜索功能的技術(shù)體系和人員,就是大模型所需的多模技術(shù)能力和人才體系。
在這方面,夸克有著深厚積淀。

夸克技術(shù)負(fù)責(zé)人蔣冠軍
此外,夸克的產(chǎn)運(yùn)團(tuán)隊(duì)在智能技術(shù)的產(chǎn)品創(chuàng)新上,也有著豐富的經(jīng)驗(yàn)。這是因?yàn)椋淇说哪繕?biāo)是成為一個(gè)工作和學(xué)習(xí)的個(gè)人助手,因此所有的智能化產(chǎn)品,都是以技術(shù)為核心驅(qū)動的。
至于業(yè)務(wù)層面,夸克在健康、教育等關(guān)鍵的行業(yè)里,不僅有著較好的數(shù)據(jù)積累,同時(shí)團(tuán)隊(duì)成員里還有醫(yī)生和老師的從業(yè)經(jīng)驗(yàn)。這些人才帶來的一手經(jīng)驗(yàn),對于構(gòu)建大模型所需的高質(zhì)量SFT樣本和專業(yè)知識來說,至關(guān)重要。
5. 知識增強(qiáng)
最后,夸克還利用了搜索和知識圖譜文檔的積累,對自家的大模型進(jìn)行了知識增強(qiáng),從而極大地緩解了常見的幻覺問題。

搜索,大模型應(yīng)用的最佳平臺

ChatGPT掀起大模型熱以來,業(yè)內(nèi)一直在不斷探索,大模型的落地場景究竟在哪里?
業(yè)內(nèi)有觀點(diǎn)認(rèn)為,以搜索為代表的信息服務(wù)場景,是大模型開發(fā)及應(yīng)用的最佳平臺。
在今年5月的I/O大會上,谷歌將生成式AI和自己傳統(tǒng)搜索服務(wù)結(jié)合起來,發(fā)布了全新Search Generative Experience(SGE)。
簡單來說,谷歌會利用AI為搜索的內(nèi)容提供說明,回答用戶提出的問題,幫用戶做旅行規(guī)劃等等。
期間,用戶不再需要貨比三家般的在多個(gè)鏈接之間來回跳轉(zhuǎn),也不用花心力去判斷哪個(gè)鏈接背后的信息是真的,因?yàn)樗锌捎玫膬?nèi)容都被集中到了AI收集到的回復(fù)之中。
在最近的更新中,谷歌又添加了讓SGE在AI生成的回復(fù)內(nèi)容中附加圖片和視頻的功能,幫助用戶更加直觀的了解自己搜索的知識和信息。
不僅如此,SGE的AI響應(yīng)中還會標(biāo)注發(fā)布時(shí)間的鏈接,來支持由AI生成的回復(fù)內(nèi)容。如果用戶對于相關(guān)的信息感興趣,點(diǎn)擊鏈接就能更加全面地了解具體的內(nèi)容。
而夸克大模型在夸克APP的落地,則是以扎實(shí)的技術(shù),跑通了中國的「大模型+搜索」之路。

夸克的自研之路

之所以夸克能夠自研大模型,其核心是發(fā)揮了在搜索引擎和數(shù)據(jù)上的優(yōu)勢。
蔣冠軍表示,要從千億級的網(wǎng)頁里,篩選出數(shù)億的高質(zhì)量網(wǎng)頁,這個(gè)過程非常復(fù)雜。不是做搜索引擎的廠商,要完成這項(xiàng)任務(wù),成本和代價(jià)非常高。
首先,獲取海量的中文數(shù)據(jù)和知識本身,難度就非常大。
其次,網(wǎng)頁里的垃圾數(shù)據(jù)非常多。這時(shí)候,就需要把行業(yè)數(shù)據(jù)和知識圖譜的積累,輸入進(jìn)大模型作為補(bǔ)充。
第三個(gè)核心挑戰(zhàn),就是人類知識對齊和SFT精標(biāo)數(shù)據(jù)對齊。真正有用的SFT樣本數(shù)據(jù)很稀缺,這需要各行各業(yè)有經(jīng)驗(yàn)的人去做。
對此,夸克分了兩個(gè)階段進(jìn)行嘗試。第一版不行,就馬上重組了新的專業(yè)團(tuán)隊(duì),其中不只有資深的從業(yè)人員,還有來自各行各業(yè)的外包人員。然后才一步一步地走到了今天。
以后,夸克大模型會優(yōu)先落地通識問答、專業(yè)搜索等場景,充分滿足年輕人自我提升和充電的需求。
在可見的未來,會有更智能的下一代產(chǎn)品,讓AI助理無處不在。
「AI時(shí)代已經(jīng)來臨,大模型應(yīng)用的全新體驗(yàn)臨界點(diǎn)近在咫尺。」
隨著自研大模型的全面升級,全新的夸克,必然會給我們帶來全新的驚喜。



本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
ChatGTP全景圖 | 背景 技術(shù)篇
中金 | AI Answer:大模型助力B端落地先行范式
中國有機(jī)會做出自己的 ChatGPT 嗎?
比爾·蓋茨都為之傾倒的AI Agent,究竟是什么
澳鵬宣布面向生成式AI戰(zhàn)略升級
關(guān)于ChatGPT的五個(gè)最重要問題
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 双牌县| 深水埗区| 绿春县| 古蔺县| 景谷| 临桂县| 宣城市| 阜康市| 泸水县| 宝鸡市| 三门县| 汾西县| 平罗县| 肇源县| 工布江达县| 平南县| 曲靖市| 玛曲县| 平顶山市| 阿图什市| 鄱阳县| 临西县| 项城市| 昭苏县| 绩溪县| 泽普县| 海南省| 高台县| 寿宁县| 筠连县| 克山县| 南皮县| 西青区| 余姚市| 铜陵市| 中方县| 稻城县| 尼勒克县| 泰宁县| 商南县| 若羌县|