1月11日,教育部“奮進(jìn)之筆”行動、國家語委重大基礎(chǔ)資源建設(shè)項目“通用漢字全息數(shù)據(jù)庫建設(shè)”的標(biāo)志性成果“漢字全息資源應(yīng)用系統(tǒng)”發(fā)布會在北京師范大學(xué)舉行。
項目由北京師范大學(xué)中國文字整理與規(guī)范研究中心、漢字研究與現(xiàn)代應(yīng)用實驗室負(fù)責(zé)實施。教育部語言文字信息管理司副司長劉宏、北京師范大學(xué)副校長郝芳華出席發(fā)布會。北京師范大學(xué)教授、博導(dǎo)、著名訓(xùn)詁學(xué)家王寧,該項目主持人、北京師范大學(xué)文學(xué)院教授王立軍與著名文化學(xué)者、北京師范大學(xué)教授康震共同啟動系統(tǒng)上線儀式。
王寧教授代表設(shè)計和制作團(tuán)隊介紹了“漢字全息資源應(yīng)用系統(tǒng)”的三個理念。
首先是屬性的分解。她說,項目以推進(jìn)語言文字信息化建設(shè)為主要目的,運用現(xiàn)代中文信息處理技術(shù)來構(gòu)建一個多角度關(guān)系的漢字實用數(shù)據(jù)庫。從上世紀(jì)90年代開始,王寧就和團(tuán)隊一起總結(jié)漢字的屬性,不僅有傳統(tǒng)的形、音、義三方面屬性,還增加了碼和用。由于漢字的簡化,簡繁體之間存在“一對多”的情況,“用”就成為漢字不可不關(guān)注的屬性;漢字進(jìn)入計算機(jī)后以“內(nèi)碼”的形式存儲,又以“交換碼”調(diào)用,所以“碼”也成為人機(jī)對話不可或缺的屬性。確立5大屬性后,王寧和團(tuán)隊做了大量的屬性細(xì)化研究,將籠統(tǒng)的漢字個體資源庫,改造為漢字的屬性庫,解決了關(guān)聯(lián)的多角度問題。
其次是層次的確立。在《通用規(guī)范漢字表》的研制中,王寧和團(tuán)隊采用了兩個大型語料庫,證實了周有光先生提出的“漢字效用遞減率”,也就是說,漢字字頻逐步降低,對漢語語料的覆蓋率越小,應(yīng)用的效用也就越小。之后,這個原理被用在《古籍印刷通用字字形規(guī)范》項目中,以確定古籍印刷通用字的字?jǐn)?shù)和字集。漢字的UNICO編碼盡管已經(jīng)擴(kuò)充到8萬多字,但其中有實用價值的字不超過36000個。所以,在這個項目中,團(tuán)隊將漢字分為常用、通用、適用、罕用和無用5個層次,把無限的關(guān)聯(lián)變成可以操作的有限關(guān)聯(lián)。
第三是中介的尋求。項目要求既有現(xiàn)代漢字,也要關(guān)聯(lián)古文字和多種字體。漢字是表意文字,形制相同又共時的漢字各自成為系統(tǒng),無法完全對應(yīng)。比如,甲骨文記錄的是卜筮語言、金文和戰(zhàn)國文字多為應(yīng)用器皿的銘文,并非自然語言的現(xiàn)實,而現(xiàn)代漢字是現(xiàn)代漢語的書寫載體,與古文字的對應(yīng)更是難以全然實現(xiàn)。為此,團(tuán)隊繼承了傳統(tǒng)語言學(xué)的研究成果,以《說文解字》的9353小篆和10516字樣為中介,不論何種聯(lián)系,凡是不能直接實現(xiàn)的,都以《說文解字》小篆為中介來關(guān)聯(lián)。
“漢字全息資源應(yīng)用系統(tǒng)”結(jié)構(gòu)分為深層結(jié)構(gòu)和表層結(jié)構(gòu)兩級模式,并建立有機(jī)系聯(lián)。在深層結(jié)構(gòu)層面充分考慮《說文》、古文字、繁體字、簡化字、傳承字之間的復(fù)雜關(guān)聯(lián)關(guān)系;在表層結(jié)構(gòu)以常用字集、通用規(guī)范字集、古籍印刷通用字集等不同級別的字集作為呈現(xiàn)模塊,解決了不同發(fā)展階段漢字之間的對接問題。
“國家語委給了傳統(tǒng)語言學(xué)文字學(xué)的研究隊伍一個隊傳統(tǒng)創(chuàng)造性轉(zhuǎn)化的嘗試機(jī)會,學(xué)校也給了我們一個交叉學(xué)科的研究和應(yīng)用平臺?!蓖鯇幷f。
開展通用漢字全息數(shù)據(jù)庫建設(shè),不但服務(wù)了文化強(qiáng)國建設(shè),更好地展示漢字的發(fā)展及其文化內(nèi)涵,促進(jìn)漢字文化發(fā)揚(yáng)光大;也服務(wù)了教育現(xiàn)代化,提高漢字教育質(zhì)量,促進(jìn)民族地區(qū)國家通用語言文字教育;服務(wù)了語言文字事業(yè)發(fā)展,促進(jìn)語言文字的規(guī)范化、標(biāo)準(zhǔn)化和信息化。
上線后,系統(tǒng)已經(jīng)可以正常使用,并提供單字檢索、綜合檢索、專書檢索、歷代字形和幫助等五大功能,在主頁直接可以進(jìn)行單字檢索。
系統(tǒng)建設(shè)采用了先進(jìn)的數(shù)據(jù)庫技術(shù)、信息挖掘技術(shù)、圖形處理技術(shù)、可視化技術(shù)等手段,從應(yīng)用角度出發(fā)構(gòu)建科學(xué)、系統(tǒng)、高效、實用的漢字全息資源應(yīng)用平臺,以滿足不同領(lǐng)域漢字應(yīng)用的多元化需求。既可作為基礎(chǔ)教育及漢語國際教育領(lǐng)域的教學(xué)平臺,也可作為文字學(xué)及相關(guān)專業(yè)領(lǐng)域?qū)<覍W(xué)者的科研平臺,還可作為國內(nèi)外文化愛好者的學(xué)習(xí)平臺。
(經(jīng)濟(jì)日報 記者:陳瑩瑩 見習(xí)編輯:覃皓珺)