《基于逼近論的多模態(tài)信息表示》從逼近論角度,由最基本的線性無關(guān)函數(shù)基(插值基、奇異值分解、主成分分析)出發(fā),到正交函數(shù)基(傅里葉變換、小波基),再到一般通用逼近算子(人工神經(jīng)網(wǎng)絡(luò)),延伸至過完備基(壓縮傳感、稀疏表示),最后實(shí)現(xiàn)分層特征表示(深度學(xué)習(xí))。通過基函數(shù)表示信息的思想貫穿始終,作者希望由此啟發(fā)讀者更進(jìn)一步思考如何構(gòu)造更好的表示方法實(shí)現(xiàn)多模態(tài)統(tǒng)一表示。
《基于逼近論的多模態(tài)信息表示》可供機(jī)器人、機(jī)器學(xué)習(xí)、信號(hào)處理、應(yīng)用數(shù)學(xué)領(lǐng)域的研究人員和實(shí)踐者閱讀,同時(shí)也可作為計(jì)算機(jī)科學(xué)與技術(shù)領(lǐng)域相關(guān)人員的參考書。
人腦是一個(gè)超乎尋常的、魯棒的自適應(yīng)信息處理器,能夠從大量含有噪聲且迥然各異的多源同步信息中整合出重要的知識(shí)。它通過對(duì)大量時(shí)空信息的處理,形成了對(duì)周圍世界的統(tǒng)一表示。在這方面,即便是目前最好的人工智能系統(tǒng)也望塵莫及。如何建立像人腦一樣能夠自適應(yīng)地處理多種不同信息源、不同數(shù)據(jù)類型和不同感知模態(tài)的系統(tǒng),是人工智能面臨的一個(gè)巨大挑戰(zhàn)。近年來,信息與通信技術(shù)的飛速發(fā)展為這個(gè)問題的解決帶來了曙光。
與此同時(shí),從事人工智能的研究者也在設(shè)計(jì)算法完成一些傳統(tǒng)意義上需要人類智能的任務(wù)。例如,最近,Google DeepMind公司設(shè)計(jì)的AlphaGo程序擊敗了韓國(guó)圍棋冠軍李世石和歐洲圍棋冠軍樊麾,引起了人們的極大關(guān)注。其中多種模態(tài)的信息如何統(tǒng)一表示和融合是一個(gè)關(guān)鍵問題,F(xiàn)在,我們有機(jī)會(huì)從數(shù)學(xué)中逼近論的角度來看,如何能夠?qū)崿F(xiàn)多模態(tài)信息的統(tǒng)一表示。
本書主要涉及多模態(tài)信息表示領(lǐng)域,列舉這個(gè)領(lǐng)域的一些問題,給出目前已經(jīng)得到的一些結(jié)果,同時(shí)也給出這個(gè)領(lǐng)域一些未來發(fā)展方向的思考,希望藉此能夠給多模態(tài)信息表示領(lǐng)域的研究者和本書的讀者帶來一些啟發(fā)。
活躍在這個(gè)領(lǐng)域的數(shù)學(xué)家可能會(huì)覺察到這個(gè)正在崛起的領(lǐng)域與調(diào)和分析、逼近論、矩陣分析等領(lǐng)域之間的密切聯(lián)系。但是,這不是寫作本書的最終目的。我們的興趣和目標(biāo)主要致力于這些研究成果的實(shí)際應(yīng)用領(lǐng)域,尤其是機(jī)器人領(lǐng)域,基于基函數(shù)表示的思想主要體現(xiàn)在多模態(tài)信息(聲音、圖像、力信號(hào)等)表示。從這個(gè)基本點(diǎn)出發(fā),可以發(fā)現(xiàn)很多有趣的應(yīng)用。
從數(shù)學(xué)角度考慮,通過把函數(shù)映射到一個(gè)固定線性子空間,稱為線性逼近,而如果函數(shù)被映射到非線性空間,則稱為非線性逼近。從逼近論角度看,我們主要發(fā)現(xiàn)這些應(yīng)用都可以通過一種特殊的數(shù)學(xué)模型來表示——基。如果配以合適的模型,可以用基函數(shù)來解決各種應(yīng)用——如圖像處理領(lǐng)域中去噪、恢復(fù)、分類、壓縮、采樣、解析與合成、檢測(cè)、識(shí)別等。我們通過仔細(xì)考證發(fā)現(xiàn),大量的基于基函數(shù)表示的方法被應(yīng)用于多模態(tài)信息表示領(lǐng)域。
基函數(shù)表示既有深厚的理論基礎(chǔ),也有廣泛的應(yīng)用場(chǎng)景。這使得我們可以從理論到應(yīng)用,全方位地展示其巨大威力。限于篇幅和作者的知識(shí),本書不能涉及所有相關(guān)領(lǐng)域。本書涉及的領(lǐng)域包括基本的插值計(jì)算、主成分分析和奇異值分解、傅里葉變換和小波分析、人工神經(jīng)網(wǎng)絡(luò)、稀疏表示與壓縮傳感、深度學(xué)習(xí)與特征表示等。
我們假設(shè)讀者已經(jīng)有基本的高等數(shù)學(xué)、機(jī)器學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)和人工智能基礎(chǔ)知識(shí)。這對(duì)于抓住和理解應(yīng)用表面背后的數(shù)學(xué)思想非常有幫助。
前言
第1章 引言
1.1 背景與動(dòng)機(jī)
1.1.1 什么是表示
1.1.2 表示與函數(shù)重構(gòu)
1.1.3 基函數(shù)表示
1.1.4 框架表示
1.1.5 Riesz基表示
1.1.6 投影表示
1.1.7 伽遼金表示
1.1.8 詞典表示
1.2 本書架構(gòu)
1.3 小結(jié)
第2章 插值
2.1 引言
2.2 拉格朗日插值
2.2.1 拉格朗日插值誤差
2.2.2 拉格朗日線性插值
2.2.3 拉格朗日二階插值
2.3 牛頓插值
2.4 Hermite插值
2.5 樣條插值
2.6 插值方法在數(shù)字圖像處理中的應(yīng)用
2.7 小結(jié)
第3章 奇異值分解和主成分分析
3.1.基本概念
3.1.1 內(nèi)積空間
3.1.2 范數(shù)
3.1.3 正交基
3.1.4 特征值與奇異值
3.2 奇異值分解
3.3 主成分分析
3.4 應(yīng)用
3.4.1 偽逆與最小二乘
3.4.2 數(shù)據(jù)表示與分析
3.4.3 線性判別分析
3.4.4 特征臉
3.4.5 潛在語義分析
3.5 小結(jié)
第4章 傅里葉變換與小波變換
4.1 函數(shù)與變換
4.2 傅里葉變換:時(shí)間遇到頻率
4.2.1 連續(xù)傅里葉變換
4.2.2 離散傅里葉變換
4.2.3 通過傅里葉變換實(shí)現(xiàn)稀疏表示
4.2.4 傅里葉變換的應(yīng)用
4.3 小波變換
4.3.1 多分辨率表示:嵌套網(wǎng)格逼近
4.3.2 連續(xù)小波變換
4.3.3 離散小波變換
4.3.4 小波變換實(shí)例
4.3.5 通過小波表示函數(shù)
4.3.6 小波應(yīng)用
4.4 傅里葉變換與小波變換比較
4.5 小結(jié)
第5章 人工神經(jīng)網(wǎng)絡(luò)——通用逼近算子
5.1 引言
5.2 基本概念
5.2.1 網(wǎng)絡(luò)架構(gòu)
5.2.2 激活函數(shù)
5.3 簡(jiǎn)單神經(jīng)元
5.4 單層神經(jīng)元
5.5 多層感知器
5.5.1 多層感知器的激活函數(shù)
5.5.2 后向傳播算法
5.5.3 多層感知器的表達(dá)與逼近能力
5.6 徑向基神經(jīng)網(wǎng)絡(luò)
5.6.1 徑向基網(wǎng)絡(luò)與多層感知器比較
5.6.2 例子
5.7 小結(jié)
第6章 稀疏表示
6.1 為什么要用稀疏表示
6.2 問題轉(zhuǎn)換
6.3 將問題轉(zhuǎn)換為線性規(guī)劃問題
6.4 稀疏表示的幾何解釋
6.5 貪婪算法
6.5.1 匹配追蹤
6.5.2 正交匹配追蹤
6.5.3 基追蹤
6.5.4 松弛方法
6.6 小結(jié)
第7章 壓縮傳感
7.1 引言
7.2 理論基礎(chǔ)與問題描述
7.2.1 稀疏性
7.2.2 壓縮傳感問題描述
7.3 測(cè)量矩陣與感知矩陣
7.3.1 有限等距性質(zhì)
7.3.2 感知矩陣
7.3.3 相關(guān)性
7.4 問題求解與信號(hào)恢復(fù)
7.4.1 范數(shù)重構(gòu)
7.4.2 范數(shù)重構(gòu)
7.4.3 范數(shù)重構(gòu)
7.5 重構(gòu)算法
7.5.1 凸優(yōu)化松弛方法
7.5.2 貪婪迭代算法
7.5.3 迭代閾值算法
7.5.4 組合算法與子線性算法
7.5.5 非凸優(yōu)化算法
7.6 應(yīng)用
7.6.1 數(shù)據(jù)壓縮
7.6.2 校驗(yàn)編碼
7.6.3 逆問題
7.6.4.?dāng)?shù)據(jù)與圖像獲取
7.7 小結(jié)
第8章 深度學(xué)習(xí)與特征學(xué)習(xí)
8.1 引言
8.2 深度框架
8.2.1 構(gòu)造深度框架的動(dòng)機(jī)
8.2.2 計(jì)算框架的深度和類型
8.2.3 逐層預(yù)訓(xùn)練
8.3 卷積神經(jīng)網(wǎng)絡(luò)
8.3.1 稀疏連接
8.3.2 加權(quán)共享
8.3.3 極大池化
8.3.4 完整模型:LeNet
8.4 深度置信網(wǎng)絡(luò)
8.4.1 限制玻爾茲曼機(jī)
8.4.2 堆疊限制玻爾茲曼機(jī)構(gòu)建深度置信網(wǎng)絡(luò)
8.5 堆疊自動(dòng)編碼器
8.5.1 自動(dòng)編碼器神經(jīng)網(wǎng)絡(luò)
8.5.2 去噪自動(dòng)編碼器
8.5.3 堆疊自動(dòng)編碼器構(gòu)造
8.5.4 稀疏自動(dòng)編碼器
8.6 深度學(xué)習(xí)相關(guān)軟件包
8.7 小結(jié)
第9章 深度學(xué)習(xí)應(yīng)用于自然語言處理:詞向量
9.1 語言模型
9.2 One-Hot表示方法
9.3 詞向量
9.4 詞向量的訓(xùn)練
9.4.1 Yoshua Bengio語言模型
9.1.2 Ronan Collobert-Jason Weston方法
9.4.3 Andriy Mnih-Geoffrey Hinton方法(HLBL)
9.4.4 Tomas Mikolov循環(huán)神經(jīng)網(wǎng)絡(luò)方法
9.5 Google詞向量工具包word2vec
參考文獻(xiàn)