《現(xiàn)代漢語語法信息詞典》的開發(fā)與應(yīng)用
【摘要】現(xiàn)代漢語語法信息詞典是為計(jì)算機(jī)實(shí)現(xiàn)漢語句子的自動(dòng)分析與自動(dòng)生成開發(fā)的一部機(jī)器詞典,它以數(shù)據(jù)庫文件形式收錄了5萬多條現(xiàn)代漢語的詞語,不僅給出了每個(gè)詞語所屬的詞類,而且詳細(xì)描述了它們的各種語法屬性。本文介紹這部語法詞典的開發(fā)歷程、內(nèi)容概要和設(shè)計(jì)思想,并且舉例說明在自然語言處理系統(tǒng)中如何應(yīng)用這部語法詞典。關(guān)鍵詞:現(xiàn)代漢語、語法信息詞典、機(jī)器詞典、自然語言處理The Development of Contemporary Chinese GrammaticalKnowledge Base and its ApplicationsZHU Xuefeng YU Shiwen WANG HuiInstitute of Computational Linguistics, Peking UniversityBeijing 100871, P.R.CPhone :2501892 AbstractThe Contemporary Chinese Grammatical Knowledge Base is a machine dictionary,which is developed for automatic analysis and generation of Chinese sentences. There are about 50,000 Chinese words and idioms in the knowledge base represented by database files. The knowledge base not only gives part of speech for each word or idiom, but also describes their various grammatical attributes. The paper introduces the design, the development and the outline of the knowledge base and shows its applications in natural language processing systems with examples.Keywods: contemporary Chinese, grammatical knowledge base, machine dictionary, natural language processing 1. 現(xiàn)代漢語語法信息詞典的開發(fā)歷程 十年前,中文輸入技術(shù)的主流還是漢字編碼,以詞為單位進(jìn)行輸入也只是漢字輸入的陪襯。北大計(jì)算語言學(xué)研究所在1986年提出了一個(gè)語法規(guī)則制導(dǎo)的以語句為單位的中文輸入方案,并在一年多的時(shí)間內(nèi)實(shí)現(xiàn)了。參考文獻(xiàn)[1]深入淺出地介紹了這個(gè)方案的原理與實(shí)現(xiàn)技術(shù)。這個(gè)方法中就包含了一部電子詞典,除了詞條及每個(gè)詞的檢索特征(拼音、起筆、末筆等)外,還包括詞類及細(xì)分的子類。這部詞典成為現(xiàn)代漢語語法信息詞典的基礎(chǔ)。 作為中國七五攻關(guān)項(xiàng)目“自然語言理解與人機(jī)接口”中的一個(gè)子專題,俞士汶于1987年提出了開發(fā)“現(xiàn)代漢語詞語語法信息庫”的計(jì)劃[2] ,把研究重點(diǎn)放在詞語語法屬性的描述上。恰逢此時(shí),中國著名語言學(xué)家朱德熙先生承擔(dān)了全國社會(huì)科學(xué)規(guī)劃領(lǐng)導(dǎo)小組下達(dá)的“現(xiàn)代漢語詞類研究”的攻關(guān)項(xiàng)目。從此,北大計(jì)算語言學(xué)研究所與中文系的研究者們?cè)谥斓挛跸壬穆暑I(lǐng)下開始了聯(lián)合攻關(guān),并結(jié)成了穩(wěn)定的合作關(guān)系。1990年,“現(xiàn)代漢語詞語語法信息庫”取得了階段性成果,通過技術(shù)鑒定。 在討論八五攻關(guān)項(xiàng)目時(shí),以中國工程院院士、中國中文信息學(xué)會(huì)理事長陳力為教授為代表的中國一批自然語言處理技術(shù)專家敏銳地覺察到,為了中文信息處理技術(shù)的發(fā)展,特別是語言信息處理技術(shù)的發(fā)展,有必要建立通用的應(yīng)用開發(fā)平臺(tái)[3][4]。這個(gè)大型語言工程將現(xiàn)代漢語語法信息詞典(以下有時(shí)簡稱為“語法詞典”)列為它的一個(gè)子專題。從1991年起北大計(jì)算語言學(xué)研究所承擔(dān)了這個(gè)子專題的研制任務(wù)。本項(xiàng)研究繼承了“現(xiàn)代漢語詞語語法信息庫”的成果,又經(jīng)過5年的努力,現(xiàn)在本項(xiàng)研究已完成如下任務(wù):(1)制訂了現(xiàn)代漢語語法信息詞典的規(guī)格說明書與開發(fā)方略[5];(2)建立了面向信息處理的現(xiàn)代漢語詞語分類體系并完成了關(guān)于這個(gè)分類體系的研究報(bào)告[6];(3)明確了詞語的收錄范圍與選詞原則[7];(4)探討了某些詞類的子類劃分[8];(5)語法詞典本身的開發(fā),這當(dāng)然是最繁重、最艱巨的任務(wù)。到目前為止,語法詞典收錄的詞語總數(shù)為5萬多條,并且將這5萬多詞都?xì)w了類,按照規(guī)格說明書填入了語法屬性信息,其中百分之七十經(jīng)過了仔細(xì)的、多遍的、不同角度的校對(duì)。 按照應(yīng)用開發(fā)平臺(tái)工程總體組的布署,北大已將語法詞典的部分內(nèi)容提交給其他子專題開發(fā)組使用。最近,負(fù)責(zé)句法規(guī)則的研究者告知,語法詞典對(duì)句法分析提供的語法知識(shí)是有價(jià)值的,也是相當(dāng)充分的。對(duì)于開發(fā)者來說,這當(dāng)然是莫大的安慰與鼓勵(lì)。另外,北大計(jì)算語言學(xué)研究所與中國科學(xué)院計(jì)算所聯(lián)合開發(fā)“漢英機(jī)器翻譯模型系統(tǒng)”,與北京通字公司聯(lián)合開發(fā)“面向通用圖像碼的自然語言生成系統(tǒng)”,與自然科學(xué)基金項(xiàng)目配合,開發(fā)漢語語料庫多級(jí)標(biāo)注系統(tǒng)[9],這些應(yīng)用系統(tǒng)利用了語法詞典的信息。語法詞典為這些應(yīng)用系統(tǒng)取得階段性成果也作出了貢獻(xiàn)。 總之,現(xiàn)代漢語語法信息詞典的開發(fā)已取得階段性成果,并且在若干自然語言處理應(yīng)用系統(tǒng)開發(fā)中得到了利用。2. 現(xiàn)代漢語語法信息詞典的內(nèi)容概要2.1 詞語的分類詞語的分類既是任何一個(gè)自然語言處理系統(tǒng)的基礎(chǔ)也是語法信息詞典開發(fā)的基礎(chǔ)。因?yàn)檎Z法詞典既要描述每類詞都有的共同的語法屬性,又要分別描述各類詞特有的語法屬性,只有這樣,語法信息才會(huì)充分、完備,而又不致過于冗余。語法詞典的詞類體系是在朱德熙先生的語法理論指導(dǎo)下,依據(jù)詞的語法功能建立的,現(xiàn)代漢語詞語可劃分為以下18個(gè)基本詞類:名 詞(n) 如:書、水、教授、國家、心胸、北京時(shí)間詞(t) 如:明天、元旦、唐朝、現(xiàn)在、春天處所詞(s) 如:空中、低處、郊外、隔壁方位詞(f) 如:上、下、前、后、東、西、南、北、里面、外頭、中間數(shù)詞(m) 如:一、第一、千、零、許多、分之量 詞(q) 如:個(gè)、群、公斤、杯、片、種、些區(qū)別詞(b) 如:男、女、公共、微型、初級(jí)代 詞(r) 如:你、我們、這、那么、哪兒、誰 動(dòng) 詞(v) 如:走、休息、同意、能夠、出去、是、調(diào)查形容詞(a) 如:好、紅、大、溫柔、美麗、突然狀態(tài)詞(z) 如:雪白、金黃、淚汪汪、滿滿當(dāng)當(dāng)、灰不溜秋副詞(d) 如:不、很、都、剛剛、難道、忽然介 詞(p) 如:把、被、對(duì)于、關(guān)于、以、按照連 詞(c) 如:和、與、或、雖然、但是、否則助 詞(u) 如:了、著、過、的、所、似的語氣詞(y) 如:嗎、呢、吧、嘛、啦、唄擬聲詞(o) 如:嗚、啪、叮呤當(dāng)啷、嘩啦嘆 詞(e) 如:唉、喔、哎喲、嗯、啊括號(hào)中的英文字母是各個(gè)詞類的代碼。這18個(gè)基本詞類是被多數(shù)語言學(xué)家認(rèn)可的。其中名詞、時(shí)間詞、處所詞、方位詞、數(shù)詞、量詞可以歸并為體詞(其主要語法功能是作主語、賓語),動(dòng)詞、形容詞、狀態(tài)詞可以歸并為謂詞(其主要語法功能是作謂語),代詞有一部分屬于體詞(如:你、我、這兒、哪里等),又有一部分屬于謂詞(如:這樣、那么、怎么樣等)。體詞、謂詞、區(qū)別詞、副詞又合稱為實(shí)詞,而介詞、連詞、助詞、語氣詞合稱為虛詞。在實(shí)際文本中出現(xiàn)的詞語,除了屬于以上18個(gè)基本詞類的以外,還存在比基本詞類要大的單位,如:成 語(i) 如:空中樓閣、畫龍點(diǎn)睛、字字珠璣、一衣帶水習(xí)用語(l) 如:總而言之、自古以來、跑龍?zhí)、擺花架子簡稱略語(j) 如:北大、數(shù)理化、總參、三好、農(nóng)牧業(yè)也存在比基本詞類更小的單位,如:前接成分(h) 如:阿(~妹)、老(~張)、偽(~指令)后接成分(k) 如:子(桌~)、兒(花~)、頭(石~)、式、員語 素 字(g) 如:碧、棉、賓、潔、農(nóng)、怒非語素字(x) 如:鴛、鴦、葡、萄、咖、啡中文的標(biāo)點(diǎn)符號(hào)(w) 如:。,《》 、!“”為了分析實(shí)際文本的需要,現(xiàn)代漢語詞語功能分類體系共包括了26個(gè)不同的詞語類別,F(xiàn)在已完成了語法詞典收錄的5萬詞語的歸類工作。2.2 語法詞典的結(jié)構(gòu)與形態(tài)語法詞典采用成熟的關(guān)系數(shù)據(jù)庫技術(shù),結(jié)合使用分類與屬性描述兩種方法,對(duì)5萬詞語建立了分級(jí)的語法屬性庫。每一個(gè)庫文件都刻劃了詞語及其屬性的二維關(guān)系。長期以來,自然語言處理技術(shù)都是應(yīng)用規(guī)則系統(tǒng)描述語言的語法規(guī)律。這種規(guī)則系統(tǒng)抽象程度高,適合于描述詞類與詞類之間的組合關(guān)系。但是自然語言極其復(fù)雜,每個(gè)詞語都有自己的特性,規(guī)則系統(tǒng)是難以應(yīng)付大范圍的實(shí)際語料的復(fù)雜性的。面向?qū)嶋H語料中詞與詞的同現(xiàn)關(guān)系的統(tǒng)計(jì)學(xué)研究是一個(gè)有前途的新方向,但統(tǒng)計(jì)的數(shù)據(jù)量非常大,需要強(qiáng)大的計(jì)算機(jī)系統(tǒng)甚至超并行計(jì)算機(jī)系統(tǒng)的支持。語法詞典介于上述兩種辦法之間,是在應(yīng)用需求與客觀條件之間進(jìn)行權(quán)衡與折衷的實(shí)際可行的策略。詞典中共有32個(gè)數(shù)據(jù)庫文件?値1個(gè)。各類詞庫24個(gè)(嘆詞、象聲詞、非語素字現(xiàn)未另建庫)。代詞庫下又設(shè)兩個(gè)庫,即人稱代詞、指示 / 疑問代詞分庫,動(dòng)詞庫下又設(shè)體賓動(dòng)詞、謂賓動(dòng)詞、雙賓動(dòng)詞、動(dòng)結(jié)式、動(dòng)趨式、離合詞等6個(gè)分庫。所有詞的共同屬性容納在總庫中,總庫中的屬性包括讀音、詞類、切分標(biāo)記、姓氏標(biāo)記等,共計(jì)約20項(xiàng)。各類詞的特有屬性填在各類詞的庫中。以動(dòng)詞為例,動(dòng)詞庫中列出了46項(xiàng)屬性,表1是動(dòng)詞屬性庫中部分屬性的樣例。
表1. 動(dòng)詞屬性庫中部分屬性的樣例
詞語同形義項(xiàng)助動(dòng)外內(nèi)體謂準(zhǔn)雙賓著了過重疊VVO離合單作謂語單作補(bǔ)語兼類
交給體雙了
理發(fā)內(nèi)了過VVO離可
會(huì)A見面體著了過VVn
會(huì)B1理解體可可
會(huì)B2可能助謂可
會(huì)C付帳體可
加強(qiáng)體準(zhǔn)了
進(jìn)行準(zhǔn)了
能夠助謂可
保管1保存體著了過ABAB可
保管2擔(dān)保謂
幫幫助體雙著了過VV可q
冒險(xiǎn)內(nèi)過VVO離a
上去內(nèi)了過離可可
對(duì)動(dòng)詞的某些屬性(如體詞賓語、謂詞賓語的類型)還要進(jìn)一步刻劃,則分別建立有關(guān)的分庫。這樣,整個(gè)信息庫形成了層次構(gòu)造的體系。總庫與各類詞庫,代詞與下屬的2個(gè)分庫,動(dòng)詞與下屬的6個(gè)分庫都可以進(jìn)行連結(jié)(JOIN),連接條件可以用詞語、詞類、同形這些字段來表達(dá)。這樣,這32個(gè)庫文件構(gòu)成有上下位繼承關(guān)系的“樹”,子結(jié)點(diǎn)繼承父結(jié)點(diǎn)的全部信息,或者說,將父結(jié)點(diǎn)與子結(jié)點(diǎn)連結(jié)起來就可以得到詞語的更全面的信息。2.3 詞語的屬性描寫分類法刻劃事物雖然簡潔、清晰、信息密度大,但屬于同一類的事物仍可能各具特點(diǎn),例如“魚”和“!蓖瑢賯(gè)體名詞,因?yàn)椤棒~”有專用個(gè)體量詞“尾”,“!庇袑S脗(gè)體量詞“頭”。但是,“魚”通常還可以與度量詞“斤,克”搭配,“!本筒恍。因此語法詞典更依靠屬性描述來刻劃每一個(gè)詞語的語法信息。如對(duì)于名詞,就詳細(xì)描述每個(gè)名詞可以搭配的各類量詞。語法詞典對(duì)每一類詞的語法屬性進(jìn)行了相當(dāng)充分的發(fā)掘。例如,對(duì)于作為研究重點(diǎn)的動(dòng)詞共確定了46項(xiàng)屬性。這些屬性大致可歸納為7類。第一類是關(guān)于動(dòng)詞本身特性的,如該動(dòng)詞是不是系詞、助動(dòng)詞、趨向動(dòng)詞。第二類是關(guān)于動(dòng)詞變化形態(tài)的,如有沒有VV、ABAB、AABB、V一V、V了V等形態(tài)。第三類描述該動(dòng)詞有無名詞特性,如能否直接修飾名詞,能否直接受名詞修飾、能否作動(dòng)詞“有”的賓語等。第四類反映該動(dòng)詞同一些虛詞的關(guān)系,如它前面能不能受“不,沒,很”修飾,后面能不能帶“著,了,過”。第五類描述動(dòng)詞在句中的功能,即該動(dòng)詞在句法結(jié)構(gòu)中能否單獨(dú)作主語、謂語、賓語、狀語和補(bǔ)語,其中能否單獨(dú)作謂語是一項(xiàng)很重要的屬性。第六類刻劃動(dòng)詞與后繼成分的關(guān)系,即該動(dòng)詞能否后接表示結(jié)果的補(bǔ)語,能否后接趨向動(dòng)詞,能否后接時(shí)量成分,能否后接動(dòng)量成分,能否帶賓語。如果能帶賓語,則進(jìn)一步細(xì)分能帶什么樣的賓語:體詞,謂詞,雙賓等。第七類包含其它零散的屬性,如該動(dòng)詞的主語是否必須是“復(fù)數(shù)”。3. 現(xiàn)代漢語語法信息詞典的設(shè)計(jì)思想3.1 通用與專用相結(jié)合,以通用為主在自然語言處理系統(tǒng)中,通常都有一部包括詞法、句法、語義信息的機(jī)器詞典,但由于這類詞典是服務(wù)于特定目的與特定系統(tǒng)的,為了把它從一個(gè)系統(tǒng)移植到另一個(gè)系統(tǒng)時(shí)需要花費(fèi)很大力氣,人們往往寧愿另起爐灶。本語法詞典作為中文信息處理技術(shù)應(yīng)用開發(fā)平臺(tái)的一個(gè)組成部分,是獨(dú)立于特定的處理系統(tǒng)的,甚至也不依賴于某個(gè)具體的計(jì)算語言學(xué)理論與算法,它反映的是現(xiàn)代漢語詞語的語法功能的基本事實(shí)。各個(gè)具體的應(yīng)用系統(tǒng)可能不需要語法詞典所包含的全部知識(shí),但都可以對(duì)它進(jìn)行裁剪或從中提取出所需要的知識(shí)。語法詞典的收詞原則、各個(gè)詞的義項(xiàng)的選取原則以及語法屬性的確定都是面向通用的現(xiàn)代漢語的。但是,當(dāng)將語法詞典應(yīng)用于具體系統(tǒng)時(shí),也可以通過詞語的選取、屬性的增刪向各個(gè)具體系統(tǒng)傾斜,專用的色彩就會(huì)變濃。3.2 專家知識(shí)與語料庫相結(jié)合,以專家知識(shí)為主現(xiàn)代漢語詞語分類體系的確立、若干詞類的子類的劃分、各類詞的共同語法屬性(總庫)與特殊屬性(分庫)的設(shè)置以及屬性值的確定主要依賴專家的知識(shí)。指導(dǎo)、主持與參與語法詞典開發(fā)的專家或者是造詣?lì)H深的著名語言學(xué)家,或者是在開發(fā)具體的自然語言處理系統(tǒng)中積累了豐富感性知識(shí)的計(jì)算機(jī)專家,或者是基礎(chǔ)扎實(shí)文理結(jié)合的青年計(jì)算語言學(xué)工作者。語法詞典就是將這些專家的知識(shí)以形式化、規(guī)格化的方式存儲(chǔ)到計(jì)算機(jī)系統(tǒng)中。而且語法詞典的開發(fā)也為計(jì)算機(jī)科學(xué)與語言學(xué)的結(jié)合找到了一個(gè)合適的途徑。計(jì)算機(jī)系統(tǒng)可以較快地吸收語言學(xué)家的知識(shí),語言學(xué)家也能比較容易地利用語法詞典開展語言研究與語言教學(xué)研究。在依賴專家知識(shí)的同時(shí),我們也重視語料庫的建設(shè)。對(duì)總體組提供的3批語料,我們參與了切分與詞性標(biāo)注。北大計(jì)算語言學(xué)研究所還建立了面向語法研究的語料庫,并對(duì)其中一部分(約70萬字)進(jìn)行了切分與標(biāo)注。利用這些語料,可對(duì)詞典內(nèi)容進(jìn)行比較與校對(duì),從而大大提高了詞典內(nèi)容的可信度。3.3 基礎(chǔ)研究與應(yīng)用研究相結(jié)合,以基礎(chǔ)研究為主北大計(jì)算語言學(xué)研究所在八五期間始終將語法詞典的開發(fā)列為工作的重點(diǎn),尤其是課題組的主要成員,更是全身心地投入了這項(xiàng)開發(fā)工作,以全局利益和長遠(yuǎn)利益為重,堅(jiān)持做底層的基礎(chǔ)的工作。北大計(jì)算語言學(xué)研究所也在另外一些項(xiàng)目中使用語法詞典的成果。這些項(xiàng)目包括獨(dú)立開發(fā)的現(xiàn)代漢語語料庫多級(jí)標(biāo)注系統(tǒng)CCMP[9],也包括與其它單位合作開發(fā)的如1.中所述的應(yīng)用系統(tǒng)。從應(yīng)用中得到的反饋意見既使課題組得到鼓舞,也使課題組清醒地認(rèn)識(shí)到,要使這項(xiàng)成果早日問世,發(fā)揮作用,尚有很多艱苦的工作要做。4. 現(xiàn)代漢語語法詞典應(yīng)用例解語法詞典是語言信息處理的基礎(chǔ),它不僅可以在語言信息處理的各個(gè)項(xiàng)目(如:機(jī)器翻譯,自然語言接口,文獻(xiàn)檢索,語音識(shí)別,語音合成,文字識(shí)別,中文鍵盤輸入,文本校對(duì),語料庫加工等)中得到應(yīng)用,而且也可以在傳統(tǒng)的語言學(xué)研究特別是現(xiàn)代漢語語法研究中得到應(yīng)用。下面以實(shí)例解釋如何運(yùn)用這部語法詞典。4.1 句法分析按照當(dāng)前的主流技術(shù),句法分析是機(jī)器翻譯與自然語言理解等系統(tǒng)的處理流程中的一個(gè)必要的環(huán)節(jié)。句法分析指的是依據(jù)某種句法分析理論提供的規(guī)則分析自然語言的句子,得到這個(gè)句子的句法樹(如上下文無關(guān)語法CFG)或以復(fù)雜特征集表示的功能結(jié)構(gòu)(如詞匯功能語法LFG)。要進(jìn)行這種句法分析,必須要知道每個(gè)詞的詞性(即該詞所屬的詞類, part of speech)。但僅僅依靠詞性,會(huì)產(chǎn)生大量的歧義結(jié)構(gòu)。如: 我們 選舉 他 當(dāng) 主席。 (1) 我們 認(rèn)為 他 是 主席。 (2)(1)與(2)的相似是明顯的,從詞性來看,它們都有如(3)所示的同樣的詞類序列。 r v r v n (3)根據(jù)上下文無關(guān)的語法規(guī)則,這樣的詞類序列可以產(chǎn)生多種句法樹。從語法詞典中查“選舉”,這個(gè)動(dòng)詞可以后接兼語結(jié)構(gòu),(1)的結(jié)構(gòu)可以優(yōu)選為圖1中的左邊的樹。從語法詞典中查“認(rèn)為”,這個(gè)動(dòng)詞只能帶謂詞性賓語,且這個(gè)謂詞性賓語是一個(gè)子句,(2)的結(jié)構(gòu)只可能是圖1中的右邊的樹。 S SNP VP NP VP r v NP VP r v SC r v n NP VP我們 選舉 他 當(dāng) 主席 r v n 我們 認(rèn)為 他 是 主席圖1 句子(1)與(2)的句法樹 在機(jī)器翻譯系統(tǒng)中,只有得到了源語言句子的正確的句法結(jié)構(gòu),才有可能產(chǎn)生可信度與可讀性皆好的目標(biāo)語言的句子。4.2 句子生成一般地說,在自然語言處理系統(tǒng)中,漢語的句子生成相對(duì)說來要簡單些,這是因?yàn)闈h語的詞沒有復(fù)雜的形態(tài)變化,詞序又比較靈活。以漢語為母語的人容易從詞語、語素排列串中猜出它們要表達(dá)的意思。正因?yàn)槿绱,現(xiàn)在對(duì)漢語的句子生成投入的力量是不夠的。自然語言處理系統(tǒng)生成的漢語句子往往帶有“機(jī)器味兒”,不像地道的漢語。例如,機(jī)器翻譯系統(tǒng)給出以下兩句漢語是尋常的。 她是一個(gè)美麗姑娘。 (4) 當(dāng)時(shí)敵機(jī)轟炸著這個(gè)城市。 (5) “美麗”是形容詞,“美麗”修飾“姑娘”在語義上也是適配的,但讀起來總覺得有些別扭。這是因?yàn)闈h語中的形容詞,只有一部分可以直接修飾名詞,相當(dāng)多的一部分需要加助詞“的”才能修飾名詞。從語法詞典的形容詞庫中,可以查到,“美麗”需加“的”,而它的同義詞“漂亮”則不需要加“的”。只要利用這些平凡的知識(shí),則能生成更自然的句子“她是一個(gè)美麗的姑娘”或“她是一個(gè)漂亮姑娘”。對(duì)于(5),之所以覺得它不地道,是因?yàn)椤稗Z炸”這個(gè)動(dòng)詞后面不能接動(dòng)態(tài)助詞“著”,為了表示進(jìn)行時(shí)態(tài),可以改為“當(dāng)時(shí)敵機(jī)正在轟炸這個(gè)城市”。在語法詞典中確實(shí)包含了動(dòng)詞“轟炸”不能帶“著”、可以受“正在”修飾的信息。4.3 語音識(shí)別與拼音漢字轉(zhuǎn)換語音識(shí)別通常分為兩個(gè)階段。第一階段是將無編碼的語音信號(hào)轉(zhuǎn)換為機(jī)內(nèi)的漢語拼音序列,這是模式識(shí)別的任務(wù)。第二階段是分化同音字或同音詞,表現(xiàn)在書面上則是將拼音序列轉(zhuǎn)換為漢字序列。這是語言信息處理的任務(wù)。采用拼音方式從鍵盤上輸入中文所要解決的問題也是拼音序列到漢字序列的轉(zhuǎn)換。假定,給定拼音序列 Zhuo1zi5 shang4 you3 yi1 jin1 pi2pa5。 (6) 這里,全拼音節(jié)后的數(shù)字1,2,3,4,5分別代表陰平、陽平、上聲、去聲、輕聲。由于“pi2pa5”對(duì)應(yīng)兩個(gè)同音詞“琵琶”和“枇杷”,某些系統(tǒng)轉(zhuǎn)換出 桌子上有一斤琵琶 。 (7) 是不足為怪的。但如果利用語法詞典,則可以查到每一個(gè)具體的名詞可能與哪些子類的量詞以及哪些具體的量詞相適配。與“琵琶”相適配的只有個(gè)體量詞“把”,而“枇杷”卻是可以與度量詞“斤”相適配的。根據(jù)語法詞典提供的這些信息,系統(tǒng)就可以修正(7),從而得到“桌子上有一斤枇杷”。又假定系統(tǒng)已確認(rèn)對(duì)應(yīng)“jiayi”的詞是“加以”,接著輸入“yanjiu”。沒有更多的信息,系統(tǒng)很難判定對(duì)應(yīng)“yanjiu”的是“煙酒”還是“研究”。如果利用語法詞典,則知道“加以”是形式動(dòng)詞,只能帶準(zhǔn)謂詞性賓語,不會(huì)帶體詞性賓語,因此在“加以”的制約下,對(duì)應(yīng)“yanjiu”的只能是“研究”而不會(huì)是“煙酒”。4.4 漢字識(shí)別的后校正現(xiàn)在脫機(jī)(off-line)漢字識(shí)別技術(shù)對(duì)“師”這個(gè)模式通常給出“師、怖、帥”等若干個(gè)候選字。如果沒有上下文,孤立地決定選取哪一個(gè)字是困難的。但如果在上下文“三個(gè)師的士兵”中,“師”的前后都是筆劃較少、較易辨認(rèn)的字,并且已經(jīng)唯一地確定下來了,則只有“師”這個(gè)名詞可以與個(gè)體量詞“個(gè)”相適配。在現(xiàn)代漢語中,“帥”與“怖”只是語素,不能獨(dú)立成詞,一般不會(huì)與“個(gè)”相適配。因此,系統(tǒng)就會(huì)很有信心地從3個(gè)候選字中選擇“師”。4.5 語料庫標(biāo)注北大計(jì)算語言學(xué)研究所開發(fā)漢語語料庫多級(jí)加工系統(tǒng)CCMP的經(jīng)驗(yàn)表明,進(jìn)行語料庫標(biāo)注,采取基于規(guī)則的方法與基于統(tǒng)計(jì)的方法相結(jié)合的策略是恰當(dāng)?shù),并且切分與標(biāo)注同步進(jìn)行是合理的[9]。在進(jìn)行這種標(biāo)注時(shí),語法詞典可以發(fā)揮重要的作用。詞典中的數(shù)以萬計(jì)的詞都已經(jīng)劃好了類,對(duì)標(biāo)注的正確性與一致性可以起到基本的保證作用。標(biāo)注程序只需集中力量解決兼類詞的歧義消解及未登錄詞的確認(rèn)與詞性判定。利用純粹的統(tǒng)計(jì)方法進(jìn)行詞類標(biāo)注,也需要有人先對(duì)一部分語料進(jìn)行手工標(biāo)注(即對(duì)系統(tǒng)進(jìn)行訓(xùn)練)。由于存在不同的語法體系,由于不同的人會(huì)有不同的認(rèn)識(shí),即使同一個(gè)人的認(rèn)識(shí)也會(huì)發(fā)展變化,所以由人直接標(biāo)注語料難免出現(xiàn)不一致性。例如,對(duì)于主賓語位置上的謂詞(動(dòng)詞、形容詞等)有可能被標(biāo)為謂詞,也有可能被標(biāo)為名詞。這樣就會(huì)影響自動(dòng)標(biāo)注的正確率。依靠這部語法詞典,就不會(huì)發(fā)生這種情況。而且,標(biāo)注了詞性的語料庫與語法信息詞典相結(jié)合,可以構(gòu)成立體的知識(shí)庫,即從語料中的詞/詞性入口,可以迅速檢索到該詞的諸多語法特性,從而為進(jìn)一步的分析或標(biāo)注提供豐富的知識(shí)。5. 后記本項(xiàng)研究雖然已取得了可觀的階段性成果,但要做的工作還很多。本課題組決心持之以恒,繼續(xù)推進(jìn)這項(xiàng)研究。本項(xiàng)研究自始至終是在陳力為院士的關(guān)心與支持下進(jìn)行的?傮w組的多位專家(如袁琦、董振東、黃昌寧等)及各合作單位都給過北大計(jì)算語言學(xué)研究所多種形式的支持與鼓勵(lì)。在此一并致以衷心的謝意。陸儉明與郭銳兩位先生起了重要的顧問作用。北大計(jì)算語言學(xué)研究所的張蕓蕓、郭濤、周強(qiáng)、陶曉鵬、詹衛(wèi)東、周莉娜等人或者是在詞典本身的開發(fā)中或者是在詞典的應(yīng)用中都為本項(xiàng)研究貢獻(xiàn)了力量。參考文獻(xiàn)[1] 俞士汶,中文輸入中語法分析技術(shù)的應(yīng)用,《中文信息學(xué)報(bào)》,1988年,第二卷,第三期,PP20-26 [2] 俞士汶,現(xiàn)代漢語詞語信息庫開發(fā)工作介紹提綱,《計(jì)算機(jī)開發(fā)與應(yīng)用》,1989年,第五卷第二期, PP16-18[3] 陳力為,建立應(yīng)用開發(fā)平臺(tái)是中文信息處理技術(shù)的當(dāng)務(wù)之急,《計(jì)算機(jī)世界》,1992年1月8日,第2期第5版[4] Zhengdong Dong , 中國中文信息處理平臺(tái)工程項(xiàng)目與漢語研究,Communications of COLIPS, Volume 3, Number 2, 79~88,1993. [5] 俞士汶,朱學(xué)鋒,郭銳,現(xiàn)代漢語語法電子詞典的概要與設(shè)計(jì),第三屆中文信息處理國際會(huì)議論文集(ICCIP’92),PP186-191[6] 俞士汶,信息處理用現(xiàn)代漢語詞語分類體系介紹,計(jì)算語言學(xué)教學(xué)參考資料(北大計(jì)算語言所1993年7月編),PP35-57 ,其摘要“關(guān)于現(xiàn)代漢語詞語的語法功能分類”刊載于《中國計(jì)算機(jī)報(bào)》,1994年5月31日第73版至第75版[7] 王惠,朱學(xué)鋒,《現(xiàn)代漢語語法電子詞典》的收詞原則,《中國計(jì)算機(jī)報(bào)》,1994年5月31日第79版至第83版[8] 朱學(xué)鋒,王惠,張蕓蕓,現(xiàn)代漢語語法電子詞典中量詞與名詞的子類劃分,《中國計(jì)算機(jī)報(bào)》,1994年5月31日第79版[9] 周強(qiáng),俞士汶,一個(gè)人機(jī)共生的漢語語料庫多級(jí)加工處理系統(tǒng)CCMP,《計(jì)算語言學(xué)進(jìn)展與應(yīng)用》,清華大學(xué)出版社,1995年11月,PP50~55本文刊登在新加坡《中文與東方語言信息處理學(xué)會(huì)通訊》,1995年第2期,PP81~86--------------------------------------------------------------------------------* 本項(xiàng)研究得到中國八五攻關(guān)項(xiàng)目與國家自然科學(xué)基金的支持論文出處(作者):
中文全文信息檢索系統(tǒng)中索引項(xiàng)技術(shù)及分詞系統(tǒng)的實(shí)現(xiàn)
現(xiàn)代漢語文本的詞語切分技術(shù)
【《現(xiàn)代漢語語法信息詞典》的開發(fā)與應(yīng)用】相關(guān)文章:
談?dòng)⒄Z語法教學(xué)的幾種誤解08-22
現(xiàn)代漢語言文學(xué)教學(xué)探討論文(通用7篇)06-24
20世紀(jì)西方的主要語法學(xué)派的發(fā)展研究05-24
淺析電子商務(wù)時(shí)代的信息管理與信息系統(tǒng)06-10
論秘書的信息工作論文04-23
信息時(shí)代如何提高教師的信息素養(yǎng)教育論文04-13
基于信息安全的企業(yè)經(jīng)濟(jì)信息管理論文06-26
信息管理系統(tǒng)開題報(bào)告07-20
現(xiàn)代信息技術(shù)開題報(bào)告08-08
計(jì)算機(jī)信息論文12-13