全文共2433字,預計學習時長5分鐘
圖片來源:pexels.com/@pixabay
隨著人工智能的發展與技術的日益復雜化,人們希望現存的概念能做出調整或是適應這些變化。同樣,在電腦輔助的自然語言處理領域,自然語言處理(NLP)這一概念是否要為自然語言理解(NLU)讓步?這兩個概念的關系是否更加微妙和復雜,而不僅僅只是一種技術的線性發展?
本文將分辨自然語言處理和自然語言理解這兩種概念,并闡述二者在人工智能相關技術領域的地位。
重要的是,盡管這兩個概念有時會交替使用,自然語言處理和自然語言理解雖有共通之處,卻不相同。首先,它們都涉及自然語言與人工語言的聯系問題,都試圖處理非結構化數據(例如語言),而不是要處理結構化數據(如統計數據、行為等)。然而,NLP和NLU均與其他數據挖掘技巧截然不同。
自然語言處理(NLP)
NLP是一個有數十年歷史的成熟研究領域,結合了計算機科學、人工智能等學科,與數據挖掘的聯系也日益緊密。NLP的最終目標是閱讀、解碼和理解,讓機器領會人類語言的意義,以及把人類的某些任務交給機器代為處理。常見的NLP實例有:線上聊天機器人,文本概括器,自動生成的關鍵詞標簽,以及分析現有文本情感的工具。
NLP的任務
NLP廣義上指語音識別、自然語言識別、以及自然語言生成等一系列工具。但以往NLP最為常見的任務為以下幾點:
· 標記化
· 語法分析
· 信息提取
· 相似性分析
· 語音識別
· 自然語言和語音生成及其他
在現實生活中,NLP用于一切人們能想到的、與語言相關的工作,如文本概括、情感分析、話題提取、命名實體識別、詞性標注、關系抽取、詞干提取、文本挖掘、機器翻譯、問題自動回復、本體擴展、以及語言模型建構等。
NLP的技巧
NLP的兩大支柱是句法分析和語義分析。
總而言之:NLP依靠機器學習,通過語義和句法分析獲取人類語言的語義。
自然語言理解(NLU)
NLP的發展可以追溯到1950年代,那時的電腦程序員開始嘗試輸入簡單語言;而NLU則興起于1960年代;人們創造NLU,意在讓電腦理解更為復雜的輸入語言。NLU是隸屬NLP的子話題,它對于自然語言的探索目的更具體,且主要關注機器的閱讀理解能力:訓練機器的自然語言理解能力,意在讓機器理解一段文本的真正含義。
NLU的任務
與NLP相似,NLU使用算法,讓人類言語簡化為一個結構化的本體。人工智能的算法繼而對語言進行分析,識別出目的、時間、地點和情感。盡管如此,通過考察NLU的任務,我們會驚訝地發現,NLP在這一基本概念之上又延伸出了許多其他任務:
NLU是眾多步驟中的第一步,后者包括:文本分類、新信息收集、單個文本整理歸檔,以及在更大的規模上進行內容分析。NLU的實例包括:根據對文本的淺顯理解,發布短命令等小型任務,以及根據一套基本的句法和適量詞匯,重新規劃郵件路徑,將其發送給正確的收件人等大型指令。更為復雜精細的工作,就是讓機器完全理解新聞類文本,或詩歌和小說中的有意義的細微差別。
總而言之:最好把NLU看作實現NLP的第一步:在機器處理語言之前,它必須去理解這門語言。
NLP與NLU之間的關聯
從任務和工作來看,NLU是自然語言處理中不可或缺的一部分,它負責形成對特定文本意義的擬人化理解。而NLP與NLU之間最大的不同就是,NLU超越了對單個詞語的理解,因為它試圖通過處理讀音錯誤、字母或詞語順序調換等人為錯誤來理解意義。
諾姆·喬姆斯基于1957年在《句法結構》一書中提出的理論,推動了NLP發展:“對某一語言L進行語言學分析的根本目的是:劃分其中的語法序列,也就是構成語言L的句子,與其中的非語法序列,即不屬于語言L的句子,從而研究該語法序列的結構。”
的確,句法分析在多種工作中適用。憑借句法分析,NLP能夠對若干詞語應用語法規律,并從中推導出意義,評定一門語言是否符合語法規則。具體技巧如下:
· 詞形還原:將一個詞的變化形式/屈折形式(inflected form)劃歸為一個簡單形式,以便分析。
· 詞干提取:將一個詞的變化形式簡化為它的詞根的形式。
· 語素切分:將詞語劃分為不同語素。
· 詞語切分:將一個連續的文本劃分為不同語群。
· 語法分析:從語法上分析一個句子。
· 詞性標注:確定每一個詞的詞性。
· 句子成分劃分:在一個連續的句子中標注分界。
句法分析技巧
但是,語法正確不一定代表句子有效。想一想,“無色的綠色想法正迅猛地沉醉”這個句子沒有意義,卻符合語法。另外,在現實生活中,有意義的句子經常包含一些小錯誤,它們因此可能屬于語法錯誤的句子。人際交往容許現成文本和言語出錯,因為人們可以憑借優異的模式識別,從語境中提取更多信息,來彌補這些不足。這表明,以句法為主的分析方法不夠周全;也說明,人們對多層面的語義研究需要多加關注。
語義分析是NLU的核心。所謂語義分析,就是應用計算機算法,理解詞語的意義和解釋。目前這種分析方法尚未成型。
以下是部分語義分析技巧:
· 命名實體識別:確定文本中能被劃分并納入預設的分組的部分。
· 詞義消歧:根據語境確定一個詞的含義。
· 自然語言生成:使用數據庫推導語義意圖,并將其轉化為人類語言。
盡管如此,機器為了理解自然語言,不僅需要考慮語義的字面意思,還要理解語義指示的意圖,或是去明白文本想實現的目的。這個層面的語義分析,叫做語用分析,它僅僅是入門NLU/NLP技巧的開端。目前,語用分析多少可以視為情感分析的一部分:例如文本中的消極/積極/中立態度評定。
未來……
商界和學界人士不斷為開發NLP和NLU技術投資,以實現創造能與人類互動、像人類一樣交流的聊天機器人這一目標,這種聊天機器人最終還要通過圖靈測試。他們設想的最終產品,應該不耗費精力、不受管控、有能力直接與人類進行得體且成功的交流。
為實現此目標,人們從三個層面展開研究:
· 句法——文本語法的理解
· 語義——文本字面意義的理解
· 語用——文本目的的理解
不幸的是,由于訓練機器需要大量詞匯,自然語言的理解和處理沒有那么容易,需要融合多學科的技術:語言、語言學、認知科學、數據科學、計算機科學等其他學科都在此之列。只有綜合各種可能視角,我們才能解開人類語言之謎。
留言 點贊 關注
我們一起分享AI學習與發展的干貨
歡迎關注全平臺AI垂類自媒體 “讀芯術”