本書內容包括采樣、數理統計、實驗設計、主成分分析、多元校正、穩健校正、非線性建模、分類及模式識別、自模式曲線分辨、多維分析及三維校正等方法、算法和大量的應用實例, 突出如何利用化學計量學理論和方法去解決各類具有多元和動態特性的化學及分析化學的實際復雜問題。
第1章 化學計量學引論
PaulJ.Gemperline
1.1 化學量測――決策之基礎
化學量測已成為當今社會重要決策活動的基礎。例如,在對患者進行醫學治療前,需要進行大量醫學化驗和檢查(包括血液化學分析等),這些常常構成醫療的基礎,而不準確的結果常與接受醫療的個體生死相關。在工業中,安全而有效地控制和操作高能化學過程,如乙烯生產,就基于在線化學分析。乙烯生產流程中供氧量不準確會導致氧量過多,引起劇烈爆炸,危及工人和當地居民的人身安全。我們的環境保護也基于化學量測。政府政策制定者依賴可靠的量測進行損益決策,以保證現在及將來數百萬人民的健康和安全。很顯然,化學量測提供的信息必須是可靠的,尤其對上述這些情況,化學量測就是重要決策過程的基礎。
1.2 化學量測――三支點平臺
構成許多人類重要決策過程之基礎的可信化學信息,依賴于量測過程的三個關鍵屬性,包括其化學屬性、物理屬性和統計屬性。支持可信化學量測的這些條件就像三個支點支撐著這一平臺。只有在化學量測的這三個關鍵屬性被充分理解和控制的環境下,才可以獲得可信賴的信息。
(1)化學屬性,包括化學計量、物料平衡、化學平衡等。
(2)物理屬性,包括溫度、能量傳遞、相態轉化等。
(3)統計屬性,包括量測過程中誤差來源、干擾因素的控制、響應信號的校正、復雜多元信號的建模等。
如果這三個支點中的任意一個有誤或者缺失,這個平臺就會不穩定,而且量測體系將不能給出可信的結果,有時甚至會導致災難性后果。其中的第三個支點――統計屬性就需要統計學和化學計量學來給出,正是這個基本的角色需求給化學計量學領域提供了發展的原始動力。可信的化學計量學方法和受過良好訓練的人力對于提供用于人類決策活動的可信化學信息是必需的。在后續章節中,我們將展開對化學計量學各個主題的介紹。
1.3 化學計量學
化學計量學一詞是在1971年首次提出的,以描述在化學領域,特別是分析化學領域中,數學模型、統計原理和其他基于邏輯的方法的不斷增多的使用。化學計量學是一個涉及多元統計、數學建模、計算機科學和分析化學的交叉學科。化學計量學的一些主要應用領域包括:①校正、驗證和顯著性檢驗;②化學量測和實驗過程的優化;③分析數據中最大化學信息的提取。
在許多方面,化學計量學領域是統計學、計算機和“信息時代”的產物。快速的技術進展,特別是用于分析化學的計算機化儀器的發展,使得化學計量學領域在過去的三十年有了顯著的發展。對于這一時期的大部分時間來說,進展集中于多元方法。由于我們所在的世界本質上就是多元的,在任何數據分析策略中,同時處理多元量測是很有意義的。例如,當我們測量一個溶液的紫外(UV)吸光度時,相對于測定單一波長處的吸光度,快速地在低噪聲水平下測定其全譜也是很簡單的。通過恰當地同時考慮多元變量的分布,我們可以獲得比獨立考慮單個變量所獲得的更多的信息。這就是所謂的“多元優勢”之一。增加的信息以相關性的形式呈現給我們。當一次考察一個變量時,我們忽視了變量之間的相關性,故而丟失了整體的一部分。
最近一篇由Bro發表的文章描述了多元方法相比于一元方法的四個額外優勢[1]。當使用合適的多元方法來同時分析多變量時,降噪是可能的。例如,當使用主成分分析從數以百計的波長下測得的UV光譜中提取出少數幾個有意義的因子時,就可以獲得低噪聲的因子。另一個重要的優勢是通過使用部分選擇性測量及合適的多元方法,可以擺脫干擾信號的影響,從而獲得正確的結果。第三個優勢是可以容易地發現假樣本,例如在光譜分析中,對于任何表征良好的化學計量學方法,材料量測的部分都應該可以使用訓練集或者說校正集光譜的線性組合來合理地解釋。假如有新的、陌生的材料存在,而其給出與預計部分輕微不同的光譜信號,就可以在光譜殘差中被檢出,并且相應的部分會被標識為異常點或者“假樣本”。化學計量學的這些優勢常常是使用多元方法的結果。通讀本書,讀者將會發現這些優勢和所強調的其他優勢。
1.4 如何使用本書
本書適合作為化學計量學的入門教科書或用作自學指南。每一個章節都是相對獨立的,它們共同涵蓋了化學計量學的許多主要領域。從第2章對基本統計學(包括假設檢驗)的概述開始,前面的章節為入門性內容和基本概念。第2章主要是從一元的視角來綜述用于實驗計劃和數據分析的合適工具,涵蓋的主題包括定義一個研究的假設,然后評估提出可以用來檢測所做的假設是否真實的統計工具。第3章建立了一元正態分布的概念,并將其拓展到多元正態分布。給出了一個例子以表明將近紅外光譜用于原材料檢驗的分析,其中兩個降解產物被檢測出處于0.5%~1%的質量分數范圍。第4章講述主成分分析(PCA)――化學計量學中的一個主要方法。這是所有的基礎或入門化學計量學課程都應該包含的主題。第5章涵蓋多元校正的內容,包括偏最小二乘――化學計量學中一個單一應用最廣泛的領域。多元校正一般指將儀器的響應轉化,以給出更信息化的化學或者物理變量之估計值的數學方法,如(檢測)目標分析物。第3~5章共同構成了本書基本的核心內容。
本書余下的章節介紹了化學計量學中一些更深層次的主題。由于這些章節涵蓋了一些重要的深層次主題,所以本書的涉及面相當廣泛。第6章介紹穩健多元方法。穩健方法對異常值的存在是不敏感的。第6章論述的絕大多數方法可以容忍數據集中包含上限達50%的異常值,而對結果沒有破壞性影響。對多元正態分布、穩健PCA和穩健多元校正,包括穩健PLS的穩健估值,都提供了方法和例子的描述。故而,第6章是第3~5章的一個很好的延伸。
第7章涵蓋非線性多元模型估計這一深層次主題,其主要的例子來自化學動力學。第8章涵蓋實驗設計這一重要的內容。實驗設計在本書中的位置之所以相對靠后,是因為我們認為將其安排在有關校正和非線性模型估計的章節之后,對于讀者(特別是學生)來說,將更易于認識到實驗設計的重要應用。第9章涵蓋了多元聚類和模式識別的主題。這類方法被設計來探尋描述不同數據組之間相似性或相異性的關系,從而揭示一個數據集中對象之間的共同趨勢。使用合適的多元方法策略,可以同時研究大量的特征。化學計量學在這方面的應用實例,包括污染源的鑒別、不合格原材料的檢測、臨床吸塑包裝內未標記藥物的無損聚類、人的疾病化驗和食品質量檢驗..僅列舉以上這幾個例子。
第10章信號處理和數字濾波,與意在通過降噪來增強信號的數學方法有關。在這種方式下,可以從被其他因素干擾的信號中獲得“真實”信號。第11章多元曲線分辨,描述了對多元數據集――從漸進體系到表示純組分貢獻的描述性模型――進行數學分辨的方法。正確地分辨體系中各組分純濃度輪廓和純光譜的能力依賴于不同組分純峰形重疊的程度和這些峰形在重疊區域的具體重疊方式。第12章描述了三維校正方法――化學計量學中一個活躍的研究領域。該章包含了諸如廣義秩消(GRAM)和平行因子分析(PARAFAC)等方法的論述。三維校正方法的主要優勢是它們在未知、未校正光譜干擾共存下仍能估計待分析物濃度的能力。第13章綜述了化學計量學中一些最活躍的研究領域。
1.4.1 軟件應用
我們學習化學計量學和向其他人講授化學計量學的經驗一次又一次地表明:人們是通過使用新技術解決感興趣的問題來學習新技術的。因此,本書的許多編纂者選擇了使用微軟@Excel、MATLAB或其他有力的計算機應用軟件,來闡述他們的化學計量學方法。對于許多化學計量學研究小組來說,MATLAB已經成為主要的研究工具,大量共享的用于化學計量學的MATLAB軟件包可以在互聯網上找到。MATLAB是一個交互式計算環境,擺脫了使用線性代數去解決復雜問題的繁重計算問題。它將計算機繪圖、數值分析和矩陣計算整合為一個簡單易用的工具包。這種工具包可以在大范圍的個人計算機和工作站上使用,包括IBM和Macintosh計算機。它尤其適用于使用一個簡單的類似于代數的術語來求解復雜的矩陣方程。由于一些作者已選擇使用MATLAB,所以我們可以為您提供一些實例程序。使用BASIC、Pascal、FORTRAN或者C語言來表述本書中例子的等價程序可能會過于冗長復雜。通過在你自己的數據集上使用這些方法,或修改這些方法以適應你的具體需要,將更容易去嘗試體會本書中的這些方法。想要學習更多MATLAB的讀者可以查閱有相關程序的手冊和有描述程序使用指導內容的各類網站。