隨著格式化全文數據的出現,基于全文數據的引文分析,或全文引文分析,變得更加方便。全文引文分析方法,通過識別和分析引文在施引文獻正文中的具體引用位置、引用次數和引用語境,從而在微觀上揭示引用的特征和規律,發現引用背后的動機和機理,識別引文在施引文獻中的功能和作用。在對基于全文的引用行為研究進行綜述的基礎上,本文提出一種由引用位置、引用強度和引用語境組成的全文引文分析的研究框架,可以系統而全面地對科學論文正文中的引用信息進行分析和研究。
這可能是世界上第一部叫做“全文引文分析”的著作。當然,從學術的角度來看,這未必是一件值得驕傲的事情。一個選題如果過于小眾,也可以以所謂的“新穎性”和“開拓性”自居。選一個別人還沒有涉足的研究領域并非難事,難的是押中的這個領域將來是否能夠脫離小眾、成為主流,是否能夠得到同行專家和學者的認可和肯定。否則,一項“開拓性”的研究選題就會陷入自娛自樂的尷尬境地,在堅持和放棄之間進退兩難。這當然不是我愿意看到的局面。
當然,我也不相信這樣的局面會發生在全文引文分析領域。雖然這-領域還處在研究范式形成的初期階段,但我有著遠超于此的信心和樂觀。正如我的博士導師劉則淵教授在為本書所寫的序言里所說,“全文科學文本蘊藏的豐富引文空間信息,是一片尚待開墾的處女地,為拓荒者提供了大展宏圖的機遇與場所”。對于文獻分析和科技評價領域有所涉足的同行專家來說,洞察基于全文數據的引文分析所能帶來的研究前景并非難事。因此,我并不想在這里浪費讀者的時間去論述全文引文分析這-領域的研究意義和學術價值,雖然在這方面我其實很有經驗-在我博士論文的創新點和國家自然科學基金的申請書中,都有大量的論證全文引文分析是如何重要和前沿的段落。我更愿意借此機會回顧一下自己是如何進入全文引文分析這-領域的。
2011年,我最早進入全文引文分析領域的時候,并沒有“全文引文分析”這個術語。那年秋天,我正以大連理工大學聯合培養博士生的身份,在美國費城的德雷塞爾大學跟隨陳超美教授進行為期18個月的學習。時間已經過半,但是我關于科學家新陳代謝規律的研究還是沒有大的突破,于是陳老師建議我換一個方向。那時候,他剛剛獲得了Elsevier Consyn數據庫的試用權限,可以批量下載Elsevier收錄的期刊論文的XML格式的全文數據,他讓我試試能不能從這些全文數據中挖掘出一些有意義的東西。多番嘗試以后,我們都認為最有價值的信息是正文中出現的引用信息,比如引用的位置和引用的語境等。于是,我試著編寫程序從中抽取并索引所有關于引用的信息,同時也對全文的章節結構進行解析和切分,以便判斷引用所在的章節位置。
程序的編寫持續了數周,以Journal of Informetrics期刊所載論文為案例而做的引用信息抽取工作終于完成,這些引用信息被分別存放到MySQL數據庫的幾個表中,等待隨后進行的分析和解讀。這時候,設計一個全面而系統的分析和解讀框架,以確定我接下來的研究邊界,是首先需要完成的任務。在大量文獻研讀的基礎上,我最終選擇引用位置、引用強度和引用語境這樣三個“完備正交”的研究維度,作為我這一研究的總綱領。
胡志剛(1984-),男,山東濟寧人,大連理工大學科學學與科技管理研究所講師、博士后。2006年本科畢業于北京師范大學管理學院,2009年碩士畢業于中國科學院研究生院人文學院,2014年博士畢業于大連理工大學科學學與科技管理研究所并留校任教。2010~2012年間在美國德雷賽爾大學做聯合培養博士生。
主持國家自然科學基金青年項目1項,中國博士后基金資助項目1項,參與其他國家、省市級和其他委托項目10余項。參與編寫或翻譯出版學術專著3部,在Journal of Informetrics、Scientometrics、《情報學報》、《國書情報工作》、《科學學與科技管理》等期刊發表論文30余篇。
序邁向引文分析4.0時代
前言
全文引文分析:引文分析的新階段
1.1 引文分析的誕生和發展
1.2 對引文功能和引用動機的探索
1.3 全文引文分析應運而生
1.4 全文引文分析:新的開始
位置、強度和語境:全文引文分析的三個維度
2.1 引用位置:where to cite
2.2 引用強度:how to cite
2.3 引用語境:why to cite
從引文到引用:全文引文分析的研究進路
3.1 引文和引用:兩個不同的概念
3.2 引用:全文引文分析的對象
3.3 引文特征與引用特征:全文引文分析的框架
學術論文文本:全文引文分析的數據基礎
4.1 學術論文的歷史演變
4.2 PDF文檔:學術論文的電子化
4.3 HTML/XML文檔:學術論文的結構化
4.4 常見的全文數據庫
4.5 XML格式學術論文的典型架構
引用信息抽取:搭建一個全文引文分析的系統
5.1 全文中學術信息的提取
5.2 構建面向XML格式全文的引文分析系統
5.3 數據層:引用信息的提取
5.4 數據層:引用信息的存儲
5.5 用戶層:引用信息的檢索
5.6 用戶層:引用信息的可視化
5.7 全文引文分析的案例分析
引用位置分析:可視化的展現
6,1學術論文的正文結構
6.2 引用在學術論文中的位置分布
6.3 引用位置與引文特征之間的關系
6.4 引用位置的基本特征
引用強度分析:正文中的多引現象
7.1 引文的引用強度分布分析
7.2 引用強度與引用位置的關系
7.3 引用強度與引文特征的關系
7.4 引用強度的基本特征
引用語境分析:內容詞與線索詞
8.1 引用語境的基本特征
8.2 引用語境與引用特征的關系
8.3 引用語境與引文特征的關系
8.4 引用語境的基本特征
斷章取義:引用位置在科學知識圖譜構建中的應用
9.1 科學知識圖譜方法及其功能
引新吐故:引用強度在論文評價中的應用
尋詞摘句:引用語境在文獻檢索中的應用
參考文獻
附錄
彩圖