精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
「自然語言處理」如何快速理解?有這篇文章就夠了!

原文來源:codeburst.io

作者:Pramod Chandrayan

「雷克世界」編譯:嗯~阿童木呀、我是卡布達(dá)


現(xiàn)如今,在更多情況下,我們是以比特和字節(jié)為生,而不是依靠交換情感。我們使用一種稱之為計(jì)算機(jī)的超級智能機(jī)器在互聯(lián)網(wǎng)上進(jìn)行交易和溝通。因此,我們覺得有必要讓機(jī)器明白我們在說話時(shí)是如何對其進(jìn)行理解的,并且試圖用人工智能,一種稱之為NLP——自然語言處理技術(shù)為它們提供語言。作為一種研究結(jié)果,聊天機(jī)器人正在成為一種可靠的聊天工具,使用這種非人為依賴的智能工具與人類進(jìn)行交流。

 

我強(qiáng)烈的感受到:


直到我們的機(jī)器學(xué)會了解行為和情緒,數(shù)據(jù)科學(xué)家和工程師的工作才完成了一半。與深度學(xué)習(xí)(ML學(xué)科領(lǐng)域)融合的NLP將對這種計(jì)算機(jī)語言的使用起到關(guān)鍵作用。


什么是NLP


這是一種人工智能方法,給定機(jī)器一些人類語言從而使得它們能夠與人類進(jìn)行溝通交流。它涉及使用NLP技術(shù)對書面語言進(jìn)行智能分析,以獲取對一組文本數(shù)據(jù)的見解,如:


1.情緒分析


2.信息提取和檢索


3.智能搜索等


它是人工智能和計(jì)算語言學(xué)的交匯點(diǎn),能夠處理機(jī)器和人類自然語言之間的交互,即計(jì)算機(jī)需要對其進(jìn)行分析、理解、改變或生成自然語言。NLP幫助計(jì)算機(jī)機(jī)器以各種形式使用自然人類語言進(jìn)行交流,包括但不限于語音、印刷、寫作和簽名。


NLP機(jī)器學(xué)習(xí)和深度學(xué)習(xí):它們是如何連接的



NLP與機(jī)器學(xué)習(xí)和深度學(xué)習(xí)密切相關(guān),所有這些都是人工智能領(lǐng)域的分支,如下圖所示:它是一個(gè)致力于使機(jī)器智能化的計(jì)算機(jī)科學(xué)領(lǐng)域。深度學(xué)習(xí)是一種流行的機(jī)器學(xué)習(xí)技術(shù)之一,如回歸,K-means等。


機(jī)器學(xué)習(xí)的類型很多,像無監(jiān)督機(jī)器學(xué)習(xí)這樣的經(jīng)常用于NLP技術(shù)中,如LDA(潛在狄利克雷分布,一種主題模型算法)。


為了能夠執(zhí)行任何一個(gè)NLP,我們需要深入理解人類使如何處理語言的情感和分析方面。還有各種各樣像社交媒體這樣的語言數(shù)據(jù)源,人們直接或間接地分享他們感受到的內(nèi)容,而這必須通過使用NLP的機(jī)器進(jìn)行智能分析。NLP機(jī)器需要建立一個(gè)人類推理系統(tǒng),借助ML技術(shù),它們可以自動執(zhí)行NLP過程并對其進(jìn)行擴(kuò)展。


簡而言之,“深度學(xué)習(xí)與自然語言處理”是相互聯(lián)系、相互依存的,以構(gòu)建一個(gè)能夠像人類一樣思考、說話和行動的智能計(jì)算機(jī)。


Meltwater Group的NLP專家John Rehling在《自然語言處理是如何幫助揭示社交媒體情緒》一文中說,


“通過分析語言的含義,NLP系統(tǒng)扮演著非常重要的角色,如糾正語法,將語音轉(zhuǎn)換為文本,以及在多語言之間自動翻譯?!?/span>


NLP如何工作


理解NLP的工作原理是非常重要的,因?yàn)檫@樣的話,我們就可以將NLP作為一個(gè)整體來理解。NLP一般有兩個(gè)主要組成部分:


1.NLU:自然語言理解


2.NLG:自然語言生成


讓我們深入理解NLU


自然語言理解:它涉及的是一種方法論,試圖了解如何對饋送給計(jì)算機(jī)的自然語言賦予一定的相關(guān)意義。


在開始時(shí),計(jì)算機(jī)獲得自然語言的輸入(自然語言可以是任何語言,它們通過使用和重復(fù)在人類中自然進(jìn)化,而不是有意識的計(jì)劃或預(yù)謀,自然語言可以采用不同的形式,例如語音或簽名)。


計(jì)算機(jī)之后將它們轉(zhuǎn)換成人工語言,如語音識別和/或語音轉(zhuǎn)換文本。在這里我們把數(shù)據(jù)轉(zhuǎn)換成一個(gè)文本形式, NLU過程來理解其中的含義。


HMM:隱馬爾可夫模型(NLU示例)


來源:wikipedia


它是一種統(tǒng)計(jì)語音識別模型,它可以在預(yù)先構(gòu)建的數(shù)學(xué)技術(shù)的幫助下,將你的語音轉(zhuǎn)換成文本,并試圖推斷出你所說的語言。


它試圖理解你所說的,通過將語音數(shù)據(jù)分解成一小段特定的時(shí)間段,大多數(shù)情況下時(shí)間是20-20 ms。這些數(shù)據(jù)集將進(jìn)一步與預(yù)饋語音進(jìn)行比較,從而進(jìn)一步解讀你在每個(gè)語音單位中所說的內(nèi)容。這里的目的是找到音素(一個(gè)最小的語音單位)。然后,機(jī)器對一系列這樣的音素進(jìn)行觀察,并統(tǒng)計(jì)了最可能說出的單詞和句子。


不僅如此,NLU會深刻理解每個(gè)單詞,試圖理解它是一個(gè)名詞還是動詞,什么是時(shí)態(tài)(過去或未來)等。這個(gè)過程被定義為POS:詞性標(biāo)注部分(Part Of Speech Tagging)。NLP具有內(nèi)置的詞典和一套與語法預(yù)編碼相關(guān)的協(xié)議,這些協(xié)議被預(yù)編碼到它們的系統(tǒng)中,并在處理自然語言數(shù)據(jù)集時(shí)使用它,從而在NLP系統(tǒng)處理人類語音時(shí),編譯所說的內(nèi)容。


NLP系統(tǒng)也有一個(gè)詞典(詞匯表)和一套編碼到系統(tǒng)中的語法規(guī)則?,F(xiàn)代NLP算法使用統(tǒng)計(jì)機(jī)器,學(xué)習(xí)將這些規(guī)則應(yīng)用于自然語言,并推斷所說話語背后最可能的含義。在考慮諸如具有多個(gè)含義的詞語(多義詞)或具有相似含義的詞語(同義詞)時(shí),存在一些挑戰(zhàn),但軟件開發(fā)者在他們的NLU系統(tǒng)中建立了自己的規(guī)則,可以通過適當(dāng)?shù)挠?xùn)練和學(xué)習(xí)來處理這類問題。


自然語言生成:


與第一階段(NLU做了大量的努力以理解人類的話語)相比,NLG可以很容易的進(jìn)行翻譯工作,即將計(jì)算機(jī)的人工語言翻譯為有意義的文本,并可以通過文字轉(zhuǎn)語音(tex-to-speech)技術(shù)將其轉(zhuǎn)化為可聽語音。文本轉(zhuǎn)語音((tex-to-speech))技術(shù)通過韻律模型(prosody model)來分析文本,從而確定語言的斷句、長短和音調(diào)。然后,利用語音數(shù)據(jù)庫,將記錄的所有音素匯集在一起,形成一個(gè)連貫的語音串。


簡而言之,NLP采用NLU和NLG來處理人類自然語言,尤其是處理語音識別領(lǐng)域的人類自然語言,并試圖將傳遞字符串或可聽語言作為輸出,來理解、編譯并推斷所說的內(nèi)容。


NLP在現(xiàn)代語境中的應(yīng)用:


在這個(gè)處于數(shù)字革命的電腦時(shí)代中,大部分任務(wù)需要由人類利用鏈接物聯(lián)網(wǎng)的機(jī)器來完成。NLP在為媒體、出版、廣告、醫(yī)療、銀行和保險(xiǎn)等行業(yè)領(lǐng)域建立強(qiáng)大的軟件工具方面,發(fā)揮了重要作用,從而幫助他們高效快捷地運(yùn)作。


NLP的一些現(xiàn)代用法:


1.聊天機(jī)器人


這是一個(gè)被稱為機(jī)器人的成熟軟件,它可以處理任何場景的人物對話。api.ai、微軟語音理解智能服務(wù)(LUIS)等一些熱門的NLP和機(jī)器學(xué)習(xí)平臺,可用于研發(fā)你的商業(yè)聊天機(jī)器人。



2.垃圾郵件過濾


來源:yhat

 

你們中的大多數(shù)人一定對垃圾郵件并不陌生。Google使用基于NLP的技術(shù)來保障你的收件箱清潔、無垃圾郵件。貝葉斯垃圾郵件過濾(Bayesian spam filtering)是一種備受矚目的技術(shù),它是一種統(tǒng)計(jì)技術(shù),基于此,電子郵件中詞語的審核通過率根據(jù)其在垃圾和非垃圾郵件語料庫中的典型事例來確定。


3.機(jī)器翻譯

 

NLP被越來越多的應(yīng)用于機(jī)器翻譯程序當(dāng)中,這使得一種語言被自動翻譯成另一種語言,谷歌是一個(gè)將你的文本翻譯為所需語言的先驅(qū)者。


機(jī)器翻譯技術(shù)所面臨的挑戰(zhàn)不在于翻譯單詞,而在于保留句子的含義,這是一個(gè)復(fù)雜的技術(shù)問題,也是NLP的核心。


4.命名實(shí)體提?。∟amed entity extraction)


它用于從給定的項(xiàng)目集合中分離出具有相似性質(zhì)和屬性的項(xiàng)目。例如名字、姓氏、年齡、地理位置、地址、電話號碼、電子郵件地址和公司名稱等等。命名實(shí)體提?。ㄒ喾Q命名實(shí)體識別)使挖掘數(shù)據(jù)變得更加容易。


5.自動匯總


自然語言處理可用于從大段文本中提取可讀摘要。例如,我們可以自動總結(jié)出一份長篇學(xué)術(shù)文章的簡短摘要。

 

接下來我們將深入介紹一些NLP的技術(shù)細(xì)節(jié)。

 

當(dāng)自然界與人工相逢的時(shí)候,機(jī)器就像是一個(gè)真正具有生命力的人類一樣進(jìn)入了生活中。

 

NLP技術(shù)術(shù)語

 

NLP術(shù)語

 

·語音體系——關(guān)于系統(tǒng)性地組織語音的研究。

 

·形態(tài)學(xué)——這是一個(gè)從基本意義單位中進(jìn)行單詞構(gòu)建的研究。

 

·語素——語言中意義的基本單位。

 

·語法——它是指單詞經(jīng)過組合排列構(gòu)成句子,它還涉及在句子和短語中確定單詞結(jié)構(gòu)的作用。

 

·語義——它涉及的是單詞的含義,以及該如何將單詞組合成有意義的短語和句子。

 

·語用學(xué)——它涉及的是在不同情況下使用和理解句子以及對句子的解釋是如何受到影響的。

 

·話語——它指的是前面的句子如何影響對于下一句的解釋的。

 

·常識性知識——它涉及的是對于世界的一般性認(rèn)識。

 

自然語言處理庫(對于開發(fā)者而言)

 

NLP庫:

 

有許多通用的第三方開源庫,開發(fā)人員可以使用它們來構(gòu)建基于NLP的Projects Viz .。

 

·自然語言工具包(NLTK)

 

·Apache OpenNLP

 

·斯坦福大學(xué)NLP套件

 

·Gate NLP庫

 

自然語言工具包(NLTK)是最通用的自然語言處理(NLP)庫。它是用Python編寫的,背后有一個(gè)很大的社區(qū)。

 

NLP實(shí)施所涉及的步驟:

 

來源:mediterra-soft

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
NLP VS NLU:彼此替代還是互相融合?
自然語言處理 NLP 發(fā)展簡史
讓機(jī)器理解人類語言
自然語言處理領(lǐng)域的代表性公司
深入理解RNN
人工智能的核心技術(shù)
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 祁阳县| 宁都县| 九江县| 潍坊市| 清河县| 南昌市| 台中市| 湘西| 文登市| 喀喇| 宁津县| 深水埗区| 天镇县| 德兴市| 长顺县| 定州市| 沙田区| 兴化市| 揭西县| 平定县| 西和县| 宣武区| 扎赉特旗| 昌邑市| 将乐县| 临颍县| 咸丰县| 柳州市| 罗定市| 嘉荫县| 许昌市| 招远市| 通州区| 安龙县| 天全县| 三台县| 景洪市| 荣昌县| 吴川市| 万年县| 新营市|