計算語用學是一門新興的計算語言學分支學科,本書是有關(guān)計算語用學研究的入門級讀本。作者在書中系統(tǒng)闡述了計算語言學、語用學、形式語用學、計算語用學等基本概念,側(cè)重探討了語用學與計算語用學關(guān)注的重點言語行為與語境的形式化方法,以及基于語境的自然語言理解模型問題。
全書結(jié)構(gòu)清晰,邏輯嚴密,循序漸進,有助于讀者比較全面地了解計算語用學這一方興未艾的學科的發(fā)展態(tài)勢,適合對語言學及計算語言學感興趣的讀者閱讀。
本書作者在探討語境的形式化與自然語言理解模型的基礎(chǔ)上,給出了有關(guān)語境的一系列形式化定義,提出了基于語境的自然語言理解實現(xiàn)框架,構(gòu)造了一個基于語境的自然語言理解模型系統(tǒng)。全書結(jié)構(gòu)清晰,邏輯嚴密,循序漸進,有助于讀者比較全面地了解計算語用學這一方興未艾的學科的發(fā)展態(tài)勢,適合對語言學及計算語用學感興趣的讀者閱讀。本書作者具有強烈的創(chuàng)新精神,提出了一些國內(nèi)外學者沒有提過的見解、理論、方法、方案。并且知行統(tǒng)一,構(gòu)造出模型系統(tǒng),做出了開創(chuàng)性的貢獻!這種既敢想敢干又嚴謹求實的科學態(tài)度和鉆研精神是應該大力提倡的!
序一
人類在數(shù)百萬年的進化過程中逐步從原始猿類中進化分離出來,人類同其他動物最根本分界的特征有以下幾個:
第一是直立行走。直立行走使人類可將手和腳進行分工,將雙手解放出來,從事更豐富多彩的活動。直立行走使人大大提高了自己的視角,使眼界更遠、更開闊,認識世界的能力更強。手腳的分工反過來刺激了腦的發(fā)育。
第二是能動手制作勞動工具,延伸自己的器官。動物只能被動地適應這個世界,而人類由于能制造工具,就擺脫了被動適應世界的處境,可以主動地改造世界,創(chuàng)造出自然世界原來沒有的東西,并使人腦更加聰明和發(fā)達。
第三是在長期的實踐中,人類產(chǎn)生了越來越豐富的語言。其他動物也有自己的傳遞消息的聲音(語言)、動作(動作語言)。如蜜蜂用舞蹈來告訴同伴花叢的位置與方向,鳥類的鳴叫、猿猴的不同叫聲向同類發(fā)出危險將至、此處有食的信息。它們在歡愉、驚恐、痛苦、憤怒等不同情況下發(fā)出的聲音是不同的,而同類是理解的,這種信號已具有了語言最初級的功能與特征。但這種語言十分簡單、原始,語義含量極低。
人類是社會化的動物,在數(shù)百萬年的進化過程中,在越來越復雜的實踐活動中,由于許多活動需要多人配合才能實施,必須交流思想,就逐步形成了越來越豐富的口頭語言。有了語言就突破了動物界代際重復的局限,上一代人積累的知識通過語言可以迅速擴散傳播,可以順利地傳遞給下一代,使下一代的認識能力、實踐能力進一步提高,超過上一代。這是十分偉大的進步,大大加快了人類的進化速度。
口頭語言逐步豐富,延綿使用了百萬年之后,在大約一萬年至數(shù)千年前形成了文字。文字可以精確地記錄人類的實踐,更大范圍地傳播人類的思想、理論和知識,產(chǎn)生了巨大的作用,使人類社會全面快速進步。因此,文字的發(fā)明被歷史學家看作人類社會脫離野蠻時代、進入文明時代的標志之一。
正是以上三個基本特征的延續(xù)和發(fā)展,使人類最終成為地球的主宰者。語言的產(chǎn)生,其意義無論怎樣強調(diào)都不過分。
斯大林曾指出,語言是思想的物質(zhì)的語言的外殼。他的這一論斷有積極意義,但又不全面。因為人類的思維形式有抽象(邏輯)思維、形象(直感)思維和創(chuàng)造性思維,而創(chuàng)造性思維中既有抽象(邏輯)思維,又有形象(直感)思維成分。人的抽象(邏輯)思維是建立在概念的基礎(chǔ)上的,語言可以說是抽象(邏輯)思維的外殼。人腦的前額葉(其位置在人頭部的前額內(nèi))很突出,而智力水平最高的類人猿黑猩猩的前額低平。近三十幾年來的研究表明,人的前額葉中至少有數(shù)千萬個神經(jīng)元,它們的激發(fā)只同抽象概念直接相關(guān),而不管刺激來源于什么信息通道。換句話說,它們只同抽象概念相聯(lián)系。從人類進化過程中不同時期的頭蓋骨形態(tài)變化中也可以發(fā)現(xiàn),進化程度越高,腦容量越大,前額葉也不斷增大。顯然人腦語言中樞模塊與前額葉的發(fā)展是同人類語言的發(fā)展相對應的。形象思維的發(fā)展比抽象思維早得多,在動物界早已有之?梢哉f有感覺和知覺的動物界主要是靠形象思維生存的。
我們應該看到,人用語言描述一個場景、一幅圖像往往不準確,效率也不高。而用眼睛和視覺皮層配合一瞬間就可以準確完成?梢,形象的感知與思維極為重要,語言還是有很大局限性的。
Ⅱ
Ⅲ
人腦、人的思維是綜合集成式的。人腦集中了動物進化過程中相當多的最優(yōu)秀的神經(jīng)模塊。如人的腦干中甚至有爬行動物的神經(jīng)模塊,而豐富的腦皮層特別是前額葉的神經(jīng)模塊的許多部分卻是人特有的。人的思維方式和工具多種多樣,也具有綜合集成的特點,為了解決社會實踐中的問題,它們被綜合應用、靈活應用。而語言是人與人之間思想交流的工具,是社會化的橋梁,地位特別重要。
科學技術(shù)是推動人類社會前進的最革命的因素之一,也是最根本的動力之一。正如錢學森院士所指出的,是科學革命推動技術(shù)革命,技術(shù)革命推動產(chǎn)業(yè)革命,產(chǎn)業(yè)革命推動社會革命?茖W、技術(shù)、產(chǎn)業(yè)的發(fā)展使人類社會的生產(chǎn)力不斷提升,當生產(chǎn)關(guān)系已經(jīng)嚴重阻礙生產(chǎn)力發(fā)展的時候,就不可避免地發(fā)生社會革命,推翻阻礙生產(chǎn)力發(fā)展的生產(chǎn)關(guān)系和上層建筑,建立適應生產(chǎn)力發(fā)展的嶄新的生產(chǎn)關(guān)系和上層建筑,使人類社會由較低級的社會向更高級的社會演進。
二十世紀是人類社會變化最劇烈,災難最慘烈,進步也極為巨大的世紀。二十世紀人類創(chuàng)造的四項科技成果意義重大,它們是愛因斯坦相對論的提出和核能釋放、航空航天科技、電子計算機及計算機網(wǎng)絡(luò)的發(fā)明、DNA(脫氧核糖核酸)雙螺旋結(jié)構(gòu)的發(fā)現(xiàn)。
其中,電子計算機及計算機網(wǎng)絡(luò)的發(fā)明意義更為深遠。因為在計算機發(fā)明之前,科學技術(shù)的總的作用都是在延伸人類的體力、肢體和感知能力。如基于物理學和化學等學科的化石能(煤、石油、天然氣)、熱能、電能、核能的利用,蒸汽機、內(nèi)燃機、電動機、火藥、炸藥、原子彈、氫彈等的發(fā)明,將人類的肌肉動力、人利用的畜力(牛、馬等)放大了十倍、百倍、千萬倍。各種機器的研發(fā)成功地將人類從繁重的體力勞動中解放了出來。而望遠鏡、顯微鏡、電子顯微鏡、雷達、聲納、射電望遠鏡等的發(fā)明使人類看到更廣闊、更遙遠、更細微的世界。而電子計算機及其網(wǎng)絡(luò)的發(fā)明,則開始延伸人類的大腦和思維,開始將人類從繁重的腦力勞動中解放出來,因而具有劃時代的偉大意義。
第一臺電子計算機于1946年在美國賓夕法尼亞大學莫爾電子學院誕生,主要用于科學計算(計算火炮的彈道)。此后,計算機的性能不斷提高,應用領(lǐng)域不斷擴大,經(jīng)過70年的發(fā)展,每秒鐘運行10億億次的我國高性能超級計算機神威·太湖之光計算機已經(jīng)面世,其運算速度居世界第一位。計算機的應用類型從科學計算到數(shù)據(jù)處理、過程控制、數(shù)字化通信、人工智能等,幾乎滲透到人類社會生活的每一個角落,深刻地改變著人類社會的形態(tài)和面貌,改變著人類的思維方式。計算機網(wǎng)絡(luò)將整個世界聯(lián)系起來,將偌大一個地球變成了地球村,使信息傳遞的空間距離幾乎消失。
電子計算機發(fā)明十年之后,一門旨在用人造系統(tǒng)模擬人類思維和智能行為的,橫跨計算機科學、數(shù)學、物理學、心理學、生理學、腦科學、邏輯學、哲學、社會學、行為科學、語言學等多學科的嶄新的學科人工智能應運而生。1956年暑假,在美國達特茅斯學院召開了世界上第一次人工智能學術(shù)會議,宣告這個學科的誕生。參加會議的有卡內(nèi)基·梅隆大學的認知心理學家、諾貝爾經(jīng)濟學獎得主赫伯特·西蒙、心理學家艾倫·紐維爾、麻省理工學院數(shù)學家明斯基等16人。這以后人工智能的研究領(lǐng)域被確定為自然語言理解、模式識別、知識表達、問題求解、機器學習、機器定理證明、機器翻譯、專家系統(tǒng)、機器人、計算機視覺、語音與聲音合成、數(shù)據(jù)庫智能查詢、自動程序設(shè)計、人工智能程序設(shè)計語言等。近十幾年來,數(shù)據(jù)挖掘、大數(shù)據(jù)的智能化處理、無人化智能平臺與機器人成為研究熱點。
自然語言理解是人工智能領(lǐng)域最古老的也是最困難的研究方向之一。早在20世紀50年代初,就有人開展同語言計算機處理相關(guān)的研究,如美國喬治城大學與IBM公司研發(fā)俄英自動翻譯試驗系統(tǒng)等。隨著計算機工作者同語言學工作者的精誠合作日益加深,自然語言處理、計算語言學這種提法應運而生,它的范疇超出了人工智能工作者最先提出的自然語言理解范疇,并且具有了廣泛應用的意味。
華中科技大學文學院以尉遲治平教授為首的中文系研究團隊高度重視計算語言學方面的研究工作,20世紀八九十年代,在中文系建立中文信息處理實驗室。1998年底學校領(lǐng)導決定要我參加計算語言學研究工作,支持文科發(fā)展。2000年華中科技大學文學院申請語言及應用語言學博士點,獲得國家學位委員會批準。2001年,文學院成立計算語言學研究所,委任我擔任第一任所長。
劉根輝是畢業(yè)于中文系的青年學者,他以驚人的毅力勤奮學習數(shù)學、計算機和人工智能等領(lǐng)域的知識,掌握了計算機及網(wǎng)絡(luò)的應用技術(shù),并以優(yōu)良成績考入華中科技大學人工智能研究所控制科學與工程學科模式識別與人工智能專業(yè),成為我的第一位計算語言學方向的博士研究生。經(jīng)過六年多的艱苦努力,他跨過文科、理工科兩大領(lǐng)域的界線,獲得工學博士學位,成為跨領(lǐng)域的兩棲型學者,并被提升為副教授。當前,國內(nèi)這樣的人才十分稀缺。我們深深感到,只有培養(yǎng)更多既有深厚文科根基,又有扎實的數(shù)理與計算機科學知識和技能的兩棲型學者,計算語言學或自然語言理解領(lǐng)域的堡壘才能最終被攻克。
在為劉根輝選擇研究方向的時候,我們有多種選擇,為什么最終選定計算語用學為突破口呢?我在計算機、人工智能領(lǐng)域工作了四十三年,發(fā)現(xiàn)我國學者中相當多的人總在做跟蹤性研究,而且培養(yǎng)出了一種奴性:外國人沒有碰過(或碰得少)的問題,他們不敢碰;外國人沒有說過的話,他們不敢說;外國人的缺陷或錯誤,他們不敢反駁、糾正。這使得國內(nèi)許多領(lǐng)域的學術(shù)研究殖民化,民族自尊心、自信心和創(chuàng)造性被嚴重壓抑。我們必須突破這種氛圍!怎么突破呢?我的父親李國平院士認為:多學科的邊緣領(lǐng)域是原始創(chuàng)新的富集區(qū),應該到那里去干。他還認為:一般的老師,總是將學生帶到自己最熟悉的領(lǐng)域之中,在別人論文的縫隙中做工作、討生活。好的老師是將學生帶上一條前途遠大的康莊大道,盡管自己并不一定很熟悉,但他有決心引導年輕人去探索。他還告訴我們:對洋人的好東西,我們要認真學習,但不能有任何奴性。那些外國人我們都較量過,沒有什么了不起的!四十年前,就是在父親這種學術(shù)思想的引導下,在當時國內(nèi)還不敢提人工智能,很少有人從事相關(guān)研究的困難情況下,我起草了國內(nèi)第一份人工智能發(fā)展規(guī)劃報告,并完成了第一項將人工智能技術(shù)應用于重大武器裝備的科研工作。在劉根輝的博士論文選題上,我們讓這種傳統(tǒng)再現(xiàn)了。
Ⅳ
Ⅴ
愛因斯坦曾經(jīng)說過,一個蹩腳的科學家是在木板上尋找一個最薄的地方,然后密密麻麻地打上許多個洞。而一位優(yōu)秀的科學家是在木板上選擇一個最厚的地方,扎扎實實地打上一個深洞。
我們認真分析了自然語言理解和計算語言學的發(fā)展過程和趨勢。經(jīng)過全球許多科學工作者的艱辛努力,計算語言學在語音學、詞匯學、語法學、語義學、語料庫語言學等方面都已經(jīng)取得了重大進展,形成了不少理論和方法,甚至研發(fā)出了一些應用系統(tǒng),而當時國際上計算語用學的論文很少,國內(nèi)尚無人問津,而且漢語中又有許多特殊規(guī)律需要探索。計算語用學需要大量前期工作的積累,是綜合性極強、難度極大的研究工作。因此,選擇它作為主攻方向符合我們的上述理念。
經(jīng)過多年的積累和艱苦探索,劉根輝博士不負眾望,出版《計算語用學引論》這本專著,我們都感到無比欣慰和愉悅。這本著作是我國第一部計算語用學專著,由于作者獨具匠心,鼓勵后繼,這本專著又是一本大學本科生、研究生和學者探索計算語用學的入門引導書,其作用十分重要。
本人認為該書具有以下特點:
第一,作者系統(tǒng)深入地綜述了計算語言學、自然語言理解領(lǐng)域較為完整的發(fā)展過程、當前狀況和未來趨勢,讀者可以獲得十分清晰、系統(tǒng)的概念和信息。
第二,作者介紹了計算語用學的起源、發(fā)展和主要的研究方向,論述了漢語語用學的研究發(fā)展趨勢。充分考慮了我國學者研究漢語語用學的需要。
第三,在所有的計算機應用問題中,形式化都是關(guān)鍵的一步,舍此無法使用計算機解決任何問題。作者在第三章研究了語用的形式化問題,結(jié)合形式語用學發(fā)展概況,闡述了國內(nèi)形式語用學研究的發(fā)展思路。
第四,作者深入探討了計算語用學的研究途徑和方法,就語用推理、溯因推理、信任推理、動態(tài)環(huán)境以及話語意義的計算模型等五個熱點問題進行了深入探討。
第五,作者在Austin、Searle的語言行為理論的基礎(chǔ)上,從認知角度出發(fā)提出了言語行為的形式化模型系統(tǒng)。
第六,作者在探討語境的形式化與自然語言理解模型的基礎(chǔ)上,給出了有關(guān)語境的一系列形式化定義,提出了基于語境的自然語言理解實現(xiàn)框架,構(gòu)造了一個基于語境的自然語言理解模型系統(tǒng)。
全書結(jié)構(gòu)清晰,邏輯嚴密,循序漸進,有助于讀者比較全面地了解計算語用學這一方興未艾的學科的發(fā)展態(tài)勢,適合對語言學及計算語用學感興趣的讀者閱讀。尤其讓我感到高興的是作者具有強烈的創(chuàng)新精神,提出了一些國內(nèi)外學者沒有提過的見解、理論、方法、方案。并且知行統(tǒng)一,構(gòu)造出模型系統(tǒng),做出了開創(chuàng)性的貢獻!這種既敢想敢干又嚴謹求實的科學態(tài)度和鉆研精神是應該大力提倡的!
李德華
(華中科技大學人工智能研究所、計算語言學研究所所長,二級教授,博士生導師)
2016年6月21日于華中科技大學人工智能研究所
劉根輝,男,江西豐城人。1989年畢業(yè)于宜春師范?茖W校漢語言文學專業(yè)。1999年畢業(yè)于華中科技大學(原華中理工大學)語言學及應用語言學專業(yè)(漢語音韻學研究方向),獲文學碩士學位,后留校任教。2005年畢業(yè)于華中科技大學模式識別與智能系統(tǒng)專業(yè)(計算語言學研究方向),獲工學博士學位。2000年被聘為講師,2005年被評為副教授。韓國國立安東大學訪問學者,美國韋恩州立大學訪問學者、孔子學院教師。主要研究領(lǐng)域為計算語言學、語料庫語言學、語用學、計算機輔助語言研究等。主持或參與國家社科基金重點項目、教育部社科基金項目、國家985創(chuàng)新基地項目、校自主創(chuàng)新研究基金等各級各類科研項目10余項,在Advances in Systems Science and Applications、《中文信息學報》、《計算機工程與應用》、《語言研究》等各種期刊發(fā)表學術(shù)論文20余篇。
目錄
第一章計算語言學與計算語用學()
第一節(jié)幾個相關(guān)概念()
第二節(jié)國內(nèi)外計算語言學研究概況()
一、 國外計算語言學研究概況()
二、 國內(nèi)計算語言學研究發(fā)展概況()
第三節(jié)國內(nèi)外計算語用學研究狀況()
一、 計算語用學的概念()
二、 計算語用學的研究內(nèi)容()
三、 計算語用學研究現(xiàn)狀()
第二章語用學與漢語語用學()
第一節(jié)語用學的起源()
第二節(jié)語用學的定義()
第三節(jié)語用學研究的主要論題()
一、 指示語()
二、 預設(shè)()
三、 言語行為理論()
四、 會話含意()
五、 關(guān)聯(lián)理論()
第四節(jié)漢語語用學研究與發(fā)展()
一、 語用學理論的引進和發(fā)展()
二、 漢語語用學研究概況()
三、 漢語語用學研究的發(fā)展方向()
第三章語用的形式化研究()
第一節(jié)語用形式化的早期探索()
第二節(jié)形式語用學的定義()
一、 形式語用學的定義()
二、 形式語用學與計算語用學的關(guān)系()
第三節(jié)形式語用學研究發(fā)展概況()
第四節(jié)國內(nèi)的形式語用學研究()
一、 哲學角度的自然語言邏輯研究()
二、 語用形式化的語言學研究()
三、 漢語形式語用學研究的發(fā)展思路()
第四章計算語用學研究的途徑和方法()
第一節(jié)語言理解與語用推理()
第二節(jié)溯因推理與缺省邏輯()
第三節(jié)信任推理()
第四節(jié)動態(tài)語境()
第五節(jié)話語意義的計算模型()
第五章言語行為的形式化模型研究()
第一節(jié)言語行為理論的產(chǎn)生背景()
第二節(jié)Austin的言語行為三分說()
第三節(jié)Searle的言語行為理論()
一、 施事行為及其構(gòu)成規(guī)則()
二、 施事行為的分類()
三、 對Searle言語行為理論的評價()
第四節(jié)認知角度的言語行為形式化描述()
一、 認知狀態(tài)下交際情境的形式定義()
二、 語用算子()
三、 施事行為的語用描述()
第六章語境的形式化與自然語言理解模型()
第一節(jié)面向自然語言處理的語境形式化研究()
一、 語境在自然語言處理中的作用()
二、 語境的現(xiàn)代語言學分類()
三、 自然語言理解中語境的形式化描述()
四、 實例分析()
第二節(jié)基于語境的自然語言理解的實現(xiàn)框架()
一、 構(gòu)造描述空間和語義空間()
二、 構(gòu)建語言知識庫()
三、 獲得話題焦點()
四、 構(gòu)建動態(tài)語境知識庫()
五、 根據(jù)語境推斷話語含意()
六、 基于語境分析的話語理解實現(xiàn)流程()
第三節(jié)一個基于語境的自然語言理解模型()
一、 模型總體設(shè)計()
二、 語料處理和知識庫的構(gòu)建()
三、 詞法分析和句法分析()
四、 確定焦點詞的語境義()
五、 實驗結(jié)果及分析()
結(jié)語計算語用學研究展望()
參考文獻()
后記()