精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
全能不如專精!微軟發(fā)布Z-code 屠榜文本摘要,參數(shù)量?jī)H為PaLM的1/600

MLNLP(機(jī)器學(xué)習(xí)算法與自然語(yǔ)言處理)社區(qū)是國(guó)內(nèi)外知名自然語(yǔ)言處理社區(qū),受眾覆蓋國(guó)內(nèi)外NLP碩博生、高校老師以及企業(yè)研究人員。
社區(qū)的愿景是促進(jìn)國(guó)內(nèi)外自然語(yǔ)言處理,機(jī)器學(xué)習(xí)學(xué)術(shù)界、產(chǎn)業(yè)界和廣大愛好者之間的交流和進(jìn)步,特別是初學(xué)者同學(xué)們的進(jìn)步。
轉(zhuǎn)載自 | 新智元

Google發(fā)布5400億參數(shù)量的PaLM模型后,NLP預(yù)訓(xùn)練似乎走上了海納百川的路線,即以大量的NLP任務(wù)進(jìn)行訓(xùn)練,以達(dá)到全知全能,進(jìn)而實(shí)現(xiàn)解決few-shot任務(wù)的能力。

性能是提高了,但對(duì)平民玩家來(lái)說(shuō)太不友好了;而且要是用不到多任務(wù)的功能,海量參數(shù)實(shí)際上都是閑置的,性價(jià)比超低。

最近,微軟的黃學(xué)東帶隊(duì),和第一作者賀鵬程等人共同發(fā)表了一項(xiàng)重大的研究成果——全新預(yù)訓(xùn)練模型Z-Code++。之后,團(tuán)隊(duì)很快也會(huì)推出以此為基礎(chǔ)的人工智能認(rèn)知服務(wù)抽象式文本摘要API。

Z-Code++僅針對(duì)抽象式文本摘要任務(wù)進(jìn)行優(yōu)化,在5種語(yǔ)言的13個(gè)文本摘要任務(wù)中,有9個(gè)達(dá)到新sota性能,成功超越一眾大模型,參數(shù)量?jī)H為PaLM的600分之一,GPT-3的200分之一,性價(jià)比爆棚!

論文地址:https://arxiv.org/abs/2208.09770

在Zeor-shot和Few-shot的任務(wù)設(shè)置中,Z-code模型的性能仍然領(lǐng)先其他競(jìng)爭(zhēng)模型。

Z-Code++采用兩階段預(yù)訓(xùn)練提升模型在低資源摘要任務(wù)上的性能:首先使用大規(guī)模文本語(yǔ)料庫(kù)進(jìn)行預(yù)訓(xùn)練,提升模型的語(yǔ)言理解能力;然后再摘要語(yǔ)料庫(kù)上針對(duì)文本生成任務(wù)繼續(xù)預(yù)訓(xùn)練。

在模型設(shè)計(jì)上,Z-code++將編碼器中的自注意力層換成了disentangled注意力層,每個(gè)詞的表征包含兩個(gè)向量用來(lái)編碼內(nèi)容和位置。模型還使用fusion-in-encoder方法以層次化的方式提升處理長(zhǎng)序列的效率。

文章的第一作者賀鵬程在微軟認(rèn)知服務(wù)團(tuán)隊(duì)中進(jìn)行自然語(yǔ)言處理研發(fā)工作,專注于頂級(jí)深度學(xué)習(xí)算法和系統(tǒng)的研究,包括大規(guī)模訓(xùn)練的語(yǔ)言模型、對(duì)抗性訓(xùn)練,問(wèn)答和其他相關(guān)的NLP問(wèn)題。

黃學(xué)東博士是IEEE/ACM Fellow,微軟首位華人「全球技術(shù)院士」、微軟云計(jì)算人工智能首席技術(shù)官。他先后獲得湖南大學(xué)學(xué)士學(xué)位,清華大學(xué)碩士學(xué)位和英國(guó)愛丁堡大學(xué)博士學(xué)位。

1

『從通用回歸專用』



今年初,微軟開發(fā)了一類全新的AI模型Z-Code,通過(guò)遷移學(xué)習(xí)利用跨多種語(yǔ)言的共享語(yǔ)言元素,將知識(shí)從一項(xiàng)任務(wù)應(yīng)用到另一項(xiàng)相關(guān)任務(wù),旨在提高機(jī)器翻譯和其他語(yǔ)言理解任務(wù)的質(zhì)量,并將這些功能擴(kuò)展到其他小眾的語(yǔ)言上。

Z-Code的基本思想很直觀:與傳統(tǒng)的神經(jīng)機(jī)器翻譯方法不同,Z-Code不僅使用多語(yǔ)言的數(shù)據(jù)在機(jī)器翻譯任務(wù)上進(jìn)行訓(xùn)練,同時(shí)使用單語(yǔ)言數(shù)據(jù)作為補(bǔ)充,在掩碼語(yǔ)言模型(MLM)任務(wù)上訓(xùn)練。使用多任務(wù)學(xué)習(xí),同時(shí)優(yōu)化多個(gè)目標(biāo)函數(shù)。模型結(jié)構(gòu)使用標(biāo)準(zhǔn)Transformer的編碼器和解碼器。

Z-Code的翻譯效果非常好,也被應(yīng)用到微軟的各項(xiàng)產(chǎn)品中,以提高機(jī)器翻譯的質(zhì)量。

鑒于Z-Code不俗的表現(xiàn),開發(fā)團(tuán)隊(duì)又進(jìn)一步將Z-Code升級(jí)拓展為Z-Code++,使其可以完成文本摘要任務(wù),并在GENIE benchmark上取得了第一名的好成績(jī)。

文本摘要(text summarization)是自然語(yǔ)言處理領(lǐng)域的經(jīng)典任務(wù),輸入一段長(zhǎng)文本,輸出的結(jié)果是一段簡(jiǎn)潔且流暢的摘要,字?jǐn)?shù)更少,但需要保留源文檔中的關(guān)鍵內(nèi)容。

當(dāng)下的摘要模型可以分為兩類,抽取式摘要模型直接從源文本中抽取出重要的內(nèi)容組成摘要;抽象式摘要模型則是重新組織語(yǔ)言,復(fù)述一遍內(nèi)容以生成摘要。

相比之下,抽象式摘要更靈活,在提升文本摘要質(zhì)量上更有潛力,所以相關(guān)研究也更多。但抽象式摘要模型的開發(fā)也更難,模型需要處理諸如語(yǔ)義表征、推理和低資源文本生成等問(wèn)題。

近期的抽象式文本摘要模型都是基于大規(guī)模的預(yù)訓(xùn)練語(yǔ)言模型(PLMs),如PEGASUS、GPT、T5進(jìn)行開發(fā)的,雖然這些模型可以生成非常流暢的文本,但生成的摘要往往包含與原文中不一致的事實(shí),這種現(xiàn)象也被稱為hallucination問(wèn)題。

此外,由于源文件中的文本量可能非常大,考慮到當(dāng)前硬件的內(nèi)存限制和交互式信息檢索的在線文檔摘要等應(yīng)用的延遲限制,訓(xùn)練一個(gè)端到端的抽象式文摘模型的代價(jià)是很大的。

所以常用的訓(xùn)練模式都是兩階段方法,即先用一個(gè)抽取式摘要器粗略地選擇文檔句子的子集,然后由一個(gè)抽象式摘要器在抽取的基礎(chǔ)上生成摘要,但這種方法仍然不是最優(yōu)解,因?yàn)樵诔槿〉倪^(guò)程中可能會(huì)遺漏重要信息。

Z-code++也是采用兩階段訓(xùn)練方法,分別為language model pre-training和grounded pretraining階段,主要靈感來(lái)源為GODEL模型,其主要用于為文本生成任務(wù)預(yù)訓(xùn)練模型。

在第一階段, Z-code++的預(yù)訓(xùn)練由兩個(gè)語(yǔ)言模型任務(wù)組成:replaced token detection(RTD)和corrupted span prediction (CSP).

RTD任務(wù)使用一個(gè)經(jīng)過(guò)MLM訓(xùn)練的生成器來(lái)生成一個(gè)不明確的標(biāo)記,以取代原始輸入X中的標(biāo)記,然后用判別器來(lái)確定該標(biāo)記是來(lái)自X還是由生成器生成的。

CSP任務(wù)廣泛用于優(yōu)化編碼器-解碼器預(yù)訓(xùn)練語(yǔ)言模型,如T5等。給定輸入字符串X,首先通過(guò)隨機(jī)選擇X中的一個(gè)起始位置和一個(gè)平均長(zhǎng)度為3的span來(lái)選擇一個(gè)連續(xù)span。重復(fù)這個(gè)過(guò)程,直到被替換的標(biāo)記達(dá)到X中所有標(biāo)記的15%。最后將corrupted的輸入送入編碼器,訓(xùn)練編碼器-解碼器模型以從上下文中恢復(fù)選中的span。

如果將corrupted span限制為一個(gè)完整的句子,則CSP等同于GSG任務(wù),模擬了抽取式摘要的過(guò)程,已經(jīng)被證明對(duì)于訓(xùn)練抽象式摘要模型來(lái)說(shuō)很有效。

研究人員發(fā)現(xiàn)CSP作為gap sentences generation(GSG)的一種更通用的形式,在許多自然語(yǔ)言的理解和生成任務(wù)中,包括文本摘要,效果更好。

在第二階段的grounded預(yù)訓(xùn)練中,Z-Code++不斷地在一系列文本摘要數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,數(shù)據(jù)集由(文檔,摘要)對(duì)組成,以更好地支持下游摘要任務(wù)的低資源微調(diào)。

研究人員還為每個(gè)訓(xùn)練對(duì)添加一個(gè)摘要任務(wù)的自然語(yǔ)言指令。

另一個(gè)優(yōu)化技巧是在DeBERTa中使用的disentangled attention(DA),擴(kuò)展了基礎(chǔ)的自注意力機(jī)制。DA用兩個(gè)獨(dú)立的向量表示每個(gè)輸入詞,分別表示內(nèi)容和位置,詞之間的注意力權(quán)重是通過(guò)對(duì)其內(nèi)容和相對(duì)位置的分解矩陣來(lái)計(jì)算的。

DeBERTa的實(shí)驗(yàn)表明,DA比SA更有效地編碼了Transformer模型中的位置依賴,Z-Code++在建模中采用了DA,實(shí)驗(yàn)結(jié)果也表明DA可以訓(xùn)練出一個(gè)更有效的抽象式摘要器。

最后是Z-coder對(duì)長(zhǎng)序列輸入的編碼??紤]到自注意和DA的二次方內(nèi)存和計(jì)算復(fù)雜度,對(duì)長(zhǎng)序列進(jìn)行編碼是相當(dāng)費(fèi)時(shí)費(fèi)力的。

雖然有各種稀疏的注意力機(jī)制被提出來(lái)以緩解這個(gè)問(wèn)題,但由于注意力精度的降低,稀疏注意力機(jī)制往往會(huì)損害短序列的性能。

受fusion-in-decoder和hierarchical transformer的啟發(fā),研究人員提出了fusion-in-encoder(FiE),通過(guò)一種簡(jiǎn)單而有效的機(jī)制來(lái)編碼長(zhǎng)序列,同時(shí)在短序列上保留高注意力精度。

FiE的工作原理是將Z-Code++的L個(gè)編碼器層分離成m個(gè)局部層和n個(gè)全局層。在每個(gè)局部層中,輸入序列的隱藏狀態(tài)被分割成大小為如256或512個(gè)小塊,自注意(或DA)只應(yīng)用于這些小塊的局部。在局部層之后,這些小塊的隱藏狀態(tài)被級(jí)聯(lián)起來(lái),形成長(zhǎng)序列的表示。全局層與編碼器中的原始自注意力(或DA)層相同,以融合小塊的局部狀態(tài)。

FiE將編碼器的復(fù)雜度從O(LN^2)降低到O(mNl+nN^2),而且實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)Z-coder++在長(zhǎng)文本摘要任務(wù)上比為專門為摘要任務(wù)設(shè)計(jì)的LongT5中的機(jī)制實(shí)現(xiàn)了持平或更好的性能。

在實(shí)驗(yàn)部分,研究人員將Z-Code++和PEGASUS在7個(gè)具有代表性的標(biāo)準(zhǔn)公共英語(yǔ)摘要數(shù)據(jù)集上的性能進(jìn)行比較,這些數(shù)據(jù)集的文檔長(zhǎng)度適中,包括AESLC、SAMSum、XSUM、WikiHow、NewsRoom、CNN/DailyMail(CNNDM),以及Reddit TIFU

可以看到Z-Code++在7個(gè)任務(wù)中的6個(gè)任務(wù)中,在ROUGE-2的F評(píng)分比PEGASUS取得了很大的改進(jìn)。

在長(zhǎng)文本實(shí)驗(yàn)中,將Z-Code++與PEGASUS和LongT5進(jìn)行比較后可以看到,Z-coder++依然是SOTA,并將平均最高分提升了0.35,而參數(shù)量還不到LongT5-3B的三分之一。

在XSum排行榜進(jìn)行人工評(píng)價(jià)后,Z-coder++仍然從整體上來(lái)看是最高分,達(dá)到0.51

在多語(yǔ)言文摘評(píng)價(jià)上,研究人員在GEM基準(zhǔn)上進(jìn)行測(cè)試后,可以發(fā)現(xiàn)Z-coder++用了更少的訓(xùn)練數(shù)據(jù),更少的參數(shù)量就達(dá)到了更好的性能。Zcode和Zcode++為微軟認(rèn)知服務(wù)機(jī)器翻譯和文本摘要API提供了強(qiáng)大的技術(shù)基礎(chǔ)。

參考資料:

https://arxiv.org/abs/2208.09770

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
干貨 | NIPS 2017:用于序列生成的推敲網(wǎng)絡(luò)
Prompt解鎖語(yǔ)音語(yǔ)言模型生成能力,SpeechGen實(shí)現(xiàn)語(yǔ)音翻譯、修補(bǔ)多項(xiàng)任務(wù)
語(yǔ)音直接翻語(yǔ)音!谷歌語(yǔ)音翻譯新突破,不再需要中間文本
新聞太長(zhǎng)不想看?深度解析MetaMind文本摘要新研究
ACL 2019 | ERNIE:利用信息化實(shí)體增強(qiáng)語(yǔ)言表示
保姆級(jí)教程,用PyTorch和BERT進(jìn)行文本分類
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 洛川县| 安康市| 洞口县| 保靖县| 牟定县| 濮阳市| 大洼县| 克拉玛依市| 美姑县| 芜湖市| 安国市| 酒泉市| 孝昌县| 关岭| 水富县| 沛县| 岗巴县| 龙泉市| 乃东县| 黑山县| 全州县| 长治县| 宣汉县| 博客| 瑞昌市| 台江县| 嘉义市| 吉安县| 洱源县| 灵台县| 盖州市| 德清县| 四会市| 西安市| 邮箱| 金门县| 西贡区| 微山县| 东宁县| 绵竹市| 波密县|