本書著眼于人工智能自身的安全問題,旨在將當前人工智能安全的基礎問題、關鍵問題、核心算法進行歸納總結。本書的定位是學習人工智能安全的入門書籍,因此先詳細介紹了人工智能安全相關的基礎知識,包括相關的基礎算法和安全模型,使得讀者明確人工智能面臨的威脅,對人工智能安全有一個大體的概念和初步認識。然后將人工智能系統的主要安全威脅分為模型安全性威脅和模型與數據隱私威脅兩大類。模型安全性威脅主要包括投毒攻擊、后門攻擊、對抗攻擊、深度偽造。模型與數據隱私威脅主要包括竊取模型的權重、結構、決策邊界等模型本身信息和訓練數據集信息。本書在介紹上述經典攻擊技術的同時,也介紹了相應的防御方法,使得讀者通過這些攻擊了解人工智能模型的脆弱性,并對如何防御攻擊的方法、如何增強人工智能模型的魯棒性有一定的思考。本書主要從隱私保護的基本概念、數據隱私、模型竊取與防御三個維度來介紹通用的隱私保護定義與技術、典型的機器學習數據隱私攻擊方式和相應的防御手段,并探討了模型竊取攻擊及其對應的防御方法,使得讀者能夠直觀全面地了解模型與數據隱私并掌握一些經典算法的整體實現流程。這本書還介紹了真實世界場景中不同傳感器下的對抗攻擊和相應的防御措施以及人工智能系統對抗博弈的現狀。相比于數字世界的攻擊,真實世界的攻擊更需要引起人們的關注,一旦犯罪分子惡意利用人工智能系統的漏洞,將會給人們的生產生活帶來安全威脅,影響大家的人身安全、財產安全還有個人隱私。讀者可以通過閱讀此書的知識內容及相關經典案例了解掌握人工智能系統面臨的攻防技術,了解如何在前人的基礎上,研究出針對各種攻擊的防御方法,為可信人工智能助力。本書適合期望入門人工智能安全的計算機相關專業的學生、技術工作者,人工智能領域的從業人員,對人工智能安全感興趣的人員,致力于建設可信人工智能的人員,本書所涉及的內容可以幫助讀者快速全面地了解人工智能安全所涉及的問題及技術,了解相關攻防技術算法的基本原理,可幫助人工智能領域的開發人員做出更安全的應用產品。
近年來,以深度神經網絡為代表的人工智能技術飛速發展,在越來越多任務中的表現超過了人類智力水平。在金融、教育、醫療、軍事、工業制造、社會服務等多個領域,人工智能技術的應用不斷深化和成熟。然而,隨著人工智能與社會生活的高度融合,人工智能系統自身暴露出眾多的安全問題,引起了社會的廣泛關注。
相對于人工智能賦能于網絡安全領域,人工智能自身的安全是一個新穎而有趣的領域,其主要研究方向可以分為攻擊和防御兩個層面。近年來不斷涌現出針對人工智能系統的新型安全攻擊,如對抗攻擊、投毒攻擊、后門攻擊、偽造攻擊、模型竊取攻擊、成員推理攻擊等。這些攻擊損害了人工智能算法和數據的機密性、完整性、可用性,受到學術界和工業界的廣泛關注。人工智能系統面對的安全威脅主要分為模型安全性、模型與數據隱私兩大類。
模型安全性指的是人工智能模型在全生命周期所面臨的安全威脅,包括人工智能模型在訓練與推理階段可能遭受潛在的攻擊者對模型功能的破壞,以及由人工智能自身魯棒性欠缺引起的危險。對抗攻擊通過在模型的輸入中加入精心構造的噪聲,使模型輸出出現錯誤,其本質是利用了模型決策邊界與真實邊界不一致的脆弱性。例如,在交通指示牌上貼上特殊的小貼紙,可以使自動駕駛汽車錯誤地將其識別為轉向標志。投毒攻擊通過篡改訓練數據來改變模型行為和降低模型性能。例如微軟的一款與Twitter用戶交談的聊天機器人Tay,在受到投毒攻擊后做出與種族主義相關的評論,從而被關閉。后門攻擊是指人工智能模型對于某些特殊的輸入(觸發器)會產生錯誤的輸出,對于干凈的輸入則產生預期的正確輸出。便如,在手寫數字識別中,后門模型能準確識別出圖像中的數字0~9,但當數字7的右下角加入一個圓圈時,后門模型將其識別為1。偽造攻擊包括視頻偽造、聲音偽造、文本偽造和微表情合成等。生成的假視頻和音頻數據可以達到以假亂真的程度,沖擊人們“眼見為實”的傳統認知。
模型與數據隱私指的是人工智能模型自身的模型參數及訓練數據的隱私性。深度學習模型使用過程中產生的相關中間數據,包括輸出向量、模型參數、模型梯度等,甚至模型對于正常輸入的查詢結果,都可能會泄露模型參數及訓練數據等敏感信息。模型竊取攻擊是指攻擊者試圖通過訪問模型的輸入和輸出,在沒有訓練數據和算法的先驗知識的情況下,復制機器學習模型。成員推理攻擊是指攻擊者可以根據模型的輸出判斷一個具體的數據是否存在于訓練集中。
攻擊和防御是“矛”與“盾”的關系,二者相輔相成,互相博弈,共同進步。針對上述攻擊,也提出了相應的防御方法。整體上來看,針對人工智能模型的攻擊及防御的研究,在特定的應用場景下展現出不錯的效果,但對現有人工智能系統造成嚴重威脅的通用性攻擊方法,能夠對抗多種攻擊手段和自動化部署的防御方法還處于探索之中。另外,人工智能自身還欠缺較好的可解釋性,人工智能模型的攻防研究更多地集中在實驗 的層次上,具備可解釋性的攻擊與防御方法是學術界未來研究的重點和熱點。
本書著眼于人工智能自身的安全問題,旨在對當前人工智能安全的基本問題、關鍵問題、核心算法進行歸納總結。本書的定位是關于人工智能安全的入門書籍,因此先詳細介紹了人工智能安全相關的基礎知識,包括相關的基本算法和安全模型,以便讀者明確人工智能面臨的威脅,對人工智能安全有一個初步認識。然后,本書將人工智能系統的主要安全威脅分為模型安全性威脅和模型與數據隱私威脅兩大類。模型安全性威脅主要包括投毒攻擊、后門攻擊、對抗攻擊、深度偽造攻擊。模型與數據隱私威脅主要包括竊取模型的權重、結構、決策邊界等模型本身信息和訓練數據集信息。
本書在介紹經典攻擊技術的同時,也介紹了相應的防御方法,使得讀者通過攻擊了解人工智能模型的脆弱性,并對如何防御攻擊、如何增強人工智能模型的魯棒性有一定的思考。本書主要從隱私保護的基本概念、數據隱私、模型竊取與防御三個維度來介紹通用的隱私保護定義與技術、典型的機器學習數據隱私攻擊方式和相應的防御手段,并探討了模型竊取攻擊及其對應的防御方法,使得讀者能夠直觀全面地了解模型與數據隱私并掌握一些經典算法的實現流程。本書還介紹了真實世界場景中不同傳感器下的對抗攻擊和相應的防御措施,以及人工智能系統對抗博弈的現狀。相比于數字世界的攻擊,真實世界的攻擊更需要引起人們的關注,一旦犯罪分子惡意利用人工智能系統的漏洞,將會給人們的生產生活帶來安全威脅,影響人身安全、財產安全和個人隱私。例如,罪犯利用對抗樣本來攻擊人臉識別系統,使得警察無法對其進行監視追蹤;不法分子通過深度偽造將名人或政客的臉替換到不良圖片或視頻中,造成不良的影響。讀者可以通過閱讀本書,了解人工智能系統相關的攻防技術,從而研究出針對各種攻擊的更可行的防御方法,為可信人工智能助力。
本書適合希望了解人工智能安全的計算機相關專業的學生、人工智能領域的從業人員、對人工智能安全感興趣的人員,以及致力于建設可信人工智能的人員閱讀,幫助讀者快速全面地了解人工智能安全所涉及的問題及技術。而了解相關攻防技術的基本原理,有助于人工智能領域的開發人員做出更安全的應用產品。
推薦序
前言
第一部分基礎知識
第1章人工智能概述2
11人工智能發展現狀2
111跌跌撞撞的發展史2
112充滿誘惑與希望的現狀3
113百家爭鳴的技術生態圈4
114像人一樣行動:通過圖靈測試
就足夠了嗎5
115像人一樣思考:一定需要具備
意識嗎7
116合理地思考:一定需要具備邏輯
思維嗎8
117合理地行動:能帶領我們走得
更遠嗎9
12人工智能安全現狀 12
121模型安全性現狀13
122模型與數據隱私現狀14
123人工智能安全法規現狀15
第2章人工智能基本算法16
21基本概念16
22經典算法17
221支持向量機17
222隨機森林22
223邏輯回歸25
224K近鄰27
225神經網絡28
226卷積神經網絡31
227強化學習36
23主流算法43
231生成對抗網絡43
232聯邦學習45
233在線學習49
24算法可解釋性51
241可解釋性問題52
242事前可解釋52
243事后可解釋53
244可解釋性與安全性分析56
25基礎算法實現案例56
26小結57
第3章人工智能安全模型58
31人工智能安全定義58
311人工智能技術組成58
312人工智能安全模型概述59
32人工智能安全問題60
321數據安全問題60
322算法安全問題60
323模型安全問題61
33威脅模型和常見攻擊62
331威脅模型63
332常見攻擊65
34模型竊取攻擊與防御實現
案例77
35小結77
第二部分模型安全性
第4章投毒攻擊與防御80
41投毒攻擊80
411針對傳統機器學習模型的投毒
攻擊81
412深度神經網絡中的投毒攻擊84
413強化學習中的投毒攻擊89
414針對其他系統的投毒攻擊89
42針對投毒攻擊的防御方法90
421魯棒學習91
422數據清洗92
423模型防御93
424輸出防御93
43投毒攻擊實現案例94
44小結94
第5章后門攻擊與防御95
51后門攻擊與防御概述95
511攻擊場景97
512機器學習生命周期中的后門
攻擊97
513后門攻擊相關定義98
514威脅模型99
52圖像后門攻擊100
521早期后門攻擊100
522基于觸發器優化的后門
攻擊102
523面向觸發器隱蔽性的后門
攻擊104
524“干凈標簽”條件下的后門
攻擊109
525其他后門攻擊方法112
53圖像后門防御113
531基于數據預處理的防御
方法114
532基于模型重建的防御方法114
533基于觸發器生成的防御方法115
534基于模型診斷的防御方法116
535基于投毒抑制的防御方法117
536基于訓練樣本過濾的防御
方法117
537基于測試樣本過濾的防御
方法117
538認證的防御方法118
54其他場景下的后門模型118
55后門攻擊和其他方法的關系119
551與對抗樣本攻擊的關系119
552與投毒攻擊的關系120
56后門攻擊與防御實現案例120
57小結121
第6章對抗攻擊與防御122
61對抗攻擊與防御概述122
62圖像對抗樣本生成技術123
621基于梯度的對抗樣本生成124
622基于優化的對抗樣本生成126
623基于梯度估計的對抗樣本
生成128
624基于決策的對抗樣本生成130
63圖像對抗樣本防御131
631輸入層面的防御方法131
632模型層面的防御方法134
633可驗證的防御方法138
634其他防御方法139
64文本對抗樣本生成與防御140
641文本對抗樣本生成140
642文本對抗樣本防御150
65其他數字對抗樣本155
651圖對抗樣本155
652惡意軟件檢測模型中的對抗
樣本162
66對抗攻擊與防御實現
案例168
67小結169
第7章深度偽造攻擊與防御170
71深度偽造攻擊與防御概述170
72深度偽造人臉生成171
721人臉合成171
722身份交換172
723面部屬性操作175
724面部表情操作176
73深度偽造人臉檢測176
731基于幀內差異的檢測方法177
732基于幀間差異的檢測方法180
74深度偽造語音生成與檢測182
741深度偽造語音生成182
742深度偽造語音檢測185
75深度偽造攻擊與防御實現
案例186
76小結187
第三部分模型與數據隱私
第8章隱私保護基本概念190
81隱私保護概述190
82安全多方計算191
821安全多方計算的基本概念191
822基于混淆電路的安全多方
計算193