自然語言處理(NLP)領域正蓬勃發展。NLP是計算機科學的一個分支,專注于人與機器之間的語言交互。由于過去十年來機器學習的進步,我們在語音識別和機器翻譯方面取得了長足的進展。現在,語言生成器已足夠優秀,可以撰寫連貫的新聞文章,而Siri和Alexa等虛擬助手正成為我們日常生活的一部分。
大多數人將NLP的起源追溯至計算機概念首次問世的時期——1950年,艾倫·圖靈(Alan Turing)寫道,他設想有一種智能機器可以通過在屏幕上顯示文字與人類進行流暢的交互。因此,機器生成的語言通常被理解為一種數碼現象,且是人工智能(AI)研究的主要目標。
實際上,設計可分析、處理和生成語言的形式規則和機器的嘗試最早可追溯到數百年前。
故事始于中世紀的西班牙。1200年代后期,巴塞羅那一位名叫亞伯拉罕·阿布拉菲亞(Abraham Abulafia)的猶太神秘主義者坐在小屋中的一張桌子旁,拿起鵝毛筆,蘸上墨水,然后開始將希伯來字母組合成奇怪的、看似隨機的字符串。 Aleph與Bet,Bet與Gimmel,Gimmel與Aleph和Bet,等等。
阿布拉菲亞稱之為“字母組合的科學”。他在研究古代卡巴拉教派的文本《Sefer Yetsirah》時,精心制定了一套秘密規則。這本典籍記載著上帝如何利用神圣公式結合希伯來字母來創造“一切物質和所有概念”。
通過研究Sefer Yetsirah,阿布拉菲亞獲得了一種洞見,即可以用形式規則來操縱語言符號,以創建新的,有趣的,有洞察力的句子。為此,他花了幾個月的時間來生成希伯來字母的22個字母的數千種組合,最終出現了一系列他認為代表先知預言的文字。
對阿布拉菲亞而言,根據神圣規則產生的語言,有助于提升他對神圣和未知事物的洞察力,或者如他所說,可以使他“掌握人類傳統或隱秘的存在”。
但是其他猶太學者認為,這基本屬于褻瀆傳統的危險行為?!端镜隆酚涊d了拉比的故事。拉比根據Sefer Yetsirah提出的公式通過語言的神奇魔法,創造了被稱為魔像的人造生物。在這些故事中,拉比使用神圣的公式使希伯來語的字母具備了上帝的造物時的威能,賦予黏土和巖石以生命。
在神話中,拉比讓黏土仆人為他勞作,或充當戰士。但是,故事中的結局往往十分糟糕。在一個特別著名的寓言中,16世紀布拉格的猶太教士猶大·洛·本·貝薩勒(Judah Loew ben Bezalel)想要利用神圣公式制造保護者,結果有了生命的魔像向他伸出了魔爪。
“字母組合的科學”是自然語言處理的基本形式。對于卡巴拉教派來說,這是一把雙刃劍:一種獲取新形式的知識和智慧的方式,一種內在的危險實踐,可能帶來意想不到的后果。
這種緊張狀態貫穿了整個語言處理的悠久歷史,在對數字時代最前沿的NLP技術的思考中仍有所反映。
這就是關于自然語言處理簡史系列的第一部分。第二部分將帶我們走進啟蒙運動,當時戈特弗里德·威廉·萊布尼茨Gottfried Wilhelm Leibniz夢想著可以計算思想的機器。