譯者序
這是一本將機器學習算法應用于金融與投資領域的入門書籍。本書通俗易懂,沒有令人生畏的數學公式,還包含豐富的Python代碼,方便讀者更好地理解書中的內容。如果你計劃在金融與投資領域應用機器學習技術,那么本書是你的極佳選擇。
本書聚焦于概率機器學習模型在金融與投資領域的應用。選擇使用概率機器學習模型有諸多原因。首先,難以用模型刻畫金融與投資領域的所有變量,模型的參數、輸入和輸出都不可避免地存在錯誤和不確定性,而概率機器學習模型能夠處理這些錯誤與不確定性,將它們視為問題的特征而非缺陷;其次,概率機器學習模型可以融合個人經驗和機構知識,使得模型既具備從數據中學習的能力,又能借鑒先驗知識,從而可以避免失敗的投資可能帶來的毀滅性后果;最后,概率模型作為一種生成式模型,具備對自身局限性的認知能力,不僅能夠提供預測結果,還能給出預測結果的置信度。
此外,本書還介紹了概率論、機器學習以及金融與投資領域的一些有趣的知識,如貝葉斯定理的起源、頻率學派和貝葉斯學派(本書稱為認知學派)的分歧、蒙提霍爾問題(也叫三門問題)中的稟賦效應、檢察官謬誤、沒有免費午餐定理以及賭徒破產定律等。這些內容不僅對金融與投資領域的從業者大有裨益,對其他領域的讀者也有所啟發。
正如作者所述,本書的讀者對象為金融與投資領域具有獨立思考能力的從業者。相信閱讀完本書之后,讀者不但能夠掌握金融與投資領域概率機器學習模型的相關知識與技能,還將欣賞到作者犀利的批判性思維及其對諸多問題的獨到見解。
李波
前言
生成式人工智能,尤其是最近風靡一時的 ChatGPT-4 ,是當今備受矚目的技術。 概率機器學習(Machine Learning ,ML)是一種生成式人工智能,非常適用于金融和投資領域。與 ChatGPT 所使用的深度神經網絡不同,概率機器學習模型不是 黑盒模型,能夠以相當透明的方式根據結果推斷原因。這對金融和醫療等受到嚴格監管的行業來說很重要,因為你必須向眾多利益相關者解釋模型決策的依據。
使用概率機器學習,你能夠系統地將個人與機構的經驗和知識編碼到機器學習模型中,以保持競爭優勢。與傳統機器學習相比,概率機器學習能夠根據觀測數據和模型假設,生成高質量的模擬數據和模擬事實,而不受觀測數據的規模 和時序的限制。概率模型是一種生成式模型,它們知道自己的局限性,并通過擴大推理和預測范圍來真實地表達自己的無知。與之不同,ChatGPT不會提供 類似的可度量的值來描述模型對幻覺的不自信程度。從概率機器學習的角度來看,ChatGPT 的幻覺就是謊言。
所有的機器學習模型都基于以下假設:在訓練數據或樣本內數據中發現的模式 將在測試數據或樣本外數據中持續存在。然而,由于統計模型固有的基礎缺陷, 非概率機器學習模型在面對從未訓練或測試過的數據模式時,會做出極差的推 斷和預測。此外,這些機器學習模型在完成這一切時極其自信,而不會提醒決 策者注意模型決策中的不確定性。
在金融和投資決策中越來越多地采用非概率機器學習模型,可能會給個人和整個社會帶來災難性的后果,包括公司破產和經濟衰退。在根據未知數據做出 推斷和預測時,所有機器學習模型都必須量化其推斷或預測的不確定性,以便在復雜且不確定的世界中做出明智的決策。一些領先的公司已經意識到人工智能的局限性,并著手開發概率人工智能技術,以解決更加復雜的問題。最近, Google 公司推出了 TensorFlow Probability,擴展了其成熟的 TensorFlow 平臺。 同樣,Meta 公司和 Uber 公司也引入 Pyro,擴展了 PyTorch 平臺。目前,最流 行的開源概率機器學習平臺是 PyMC 和 Stan,其中 PyMC 由 Python 編寫,而 Stan 由 C 編寫。本書使用用戶友好且擁有龐大生態庫的 Python 編程語言。
讀者對象
本書的主要讀者是金融和投資領域有思想的從業者。有思想的從業者是指那些 不想按照手冊指示行事的人。他們希望理解技術背后的基本概念,以及為什么 必須采用某一個流程、模型或技術。通常,他們求知欲較強,喜歡學習。與此 同時,他們并不尋求煩瑣的數學證明或閱讀冗長的學術專著。本書每一章都提 供許多參考文獻供讀者參考,幫助他們尋找本書提到的概念和推導背后的數學 和技術細節。
有思想的從業者可以是個體投資者、分析師、開發人員、經理、項目經理、數 據科學家、研究員、投資組合經理或量化交易員。這些有思想的從業者明白, 他們需要不斷學習新概念和技術,以推進業務和職業生涯的發展。對新概念和 技術的深度理解使他們有信心應用所學的知識,為他們遇到的挑戰開發創造性 的解決方案。這種深度理解也為他們提供了一個框架,使他們可以輕松地探索 和學習相關技術與概念。
本書假設讀者對金融、統計學、機器學習和 Python 有基本的了解,但不要求讀 者讀過指定的書籍或掌握指定的技能。
創作動機
目前,關于通用概率機器學習的書籍相對較少,而且沒有一本是專門致力于金 融和投資問題的。由于金融和投資領域的特殊性和復雜性,任何形式通用機器 學習的簡單應用,特別是直接應用概率機器學習,都注定要失敗。深入了解這 些領域對成功至關重要。本書旨在為讀者提供扎實的概率機器學習基礎知識,并使用簡單的數學和 Python 代碼教會讀者將其應用于金融和投資問題中。
我寫這本書還有另一個原因。時至今日,書籍仍然是一種嚴肅的信息傳遞媒介。 我想提醒讀者,現代金融理論和傳統統計推斷方法仍然存在嚴重缺陷。令人憤 慨的是,盡管這些看似科學的方法存在深刻的缺陷而且表現乏善可陳,但這些 方法仍然在學術界傳授,并在工業界被付諸實踐。
我們正處于人工智能技術發展的十字路口,大多數專家預測人工智能的使用將 以指數級速度增長,從根本上改變我們的生活方式、工作方式和交往方式。人工智能系統即將接管人類是科幻小說中的情節,因為當今即使是最先進的人工智能系統也缺乏幼兒所具有的常識。真正清晰而現實的危險是,不太聰明的人可能會使用傳統金融和統計學中的虛假模型來管理強大的專家。這很可能會導 致比以往更大的災難,而且災難來臨的速度會更快。
內容導航
本書的內容在邏輯上可以分為兩部分,交織在每一章中。一部分研究金融和投 資領域流行的經濟、統計和機器學習模型,并說明這些模型為什么沒有用。另一部分探討為何概率機器學習是這些領域更準確、更有用的模型。本書的重點是讓你理解這一復雜的多學科領域的基礎知識,因此只涵蓋關鍵概念和應用。 本書每一章都介紹至少一個金融和投資領域的主要概念,并使用 Python 代碼付 諸實踐。本書的組織結構如下:
第 1 章探討理論金融學的一些不足之處,解釋困擾所有金融模型的三種錯誤, 以及為什么需要一種系統化的方法來量化推斷和預測的不確定性。該章將解釋 為什么概率機器學習為金融和投資提供了一個有用的框架。
第 2 章借助蒙提霍爾問題(三門問題)回顧概率論的基本概念,將探討概率的含義,并探索遍及世界的三種不確定性。該章還將探討歸納問題及其算法重述、 沒有免費午餐(No Free Lunch,NFL)定理,以及它們是如何支撐金融、投資 和概率機器學習的。
第 3 章回顧一些重要的統計概念,解釋作為最重要的數值技術之一的蒙特卡羅模擬(Monte Carlo Simulation ,MCS)如何生成近似概率來解決難以解析的問題。
第 4 章揭露科研和工業界常用的傳統統計推斷方法的欺騙行為,并解釋為什么它們會導致社會學和經濟學充滿虛假研究。
第 5 章將探討概率機器學習框架,并展示如何將數據推理和新數據模擬在邏輯上無縫地集成到這種生成模型中。
第 6 章揭示傳統人工智能系統的風險,特別是它們缺乏基本常識,以及它們不 了解自身的局限性,這給所有利益相關者和整個社會都帶來了巨大的風險。馬爾可夫鏈蒙特卡羅模擬是一種依存抽樣方法,用于解決金融和投資領域的復雜問題。
第 7 章解釋概率機器學習本質上是一種集成機器學習。該章將向讀者展示如何 使用 PyMC 、Xarray 和 ArviZ Python 庫為金融和投資領域的回歸問題開發生成 式線性集成模型。
第 8 章展示如何將生成式集成模型應用于金融和投資中的風險管理和資本配置 決策。該章將探討遍歷性的含義和使用集成平均進行金融決策的陷阱,還將研 究包括凱利準則在內的資本配置算法的優缺點。
目錄
前言1
第1章 概率機器學習的需求9
1.1 金融學不是物理學10
1.2 所有金融模型皆有謬誤且大多無用12
1.3 三類建模錯誤14
1.3.1 模型錯誤14
1.3.2 模型參數錯誤15
1.3.3 模型不能適應市場的結構性變化而導致的錯誤17
1.4 概率金融模型18
1.5 金融人工智能和機器學習20
1.6 概率機器學習23
1.6.1 概率分布24
1.6.2 知識集成25
1.6.3 參數推斷26
1.6.4 生成式集成模型26
1.6.5 不確定性認知27
1.7 本章小結27
參考文獻28
擴展閱讀29
第2章 不確定性的分析與量化30
2.1 蒙提霍爾問題31
2.2 概率公理33
2.3 反概率公式36
2.4 模擬解40
2.5 概率的含義42
2.5.1 頻率學派的概率43
2.5.2 認知概率44
2.5.3 相對概率47
2.6 風險與不確定性48
2.7 三種不確定性50
2.7.1 偶然不確定性51
2.7.2 認知不確定性53
2.7.3 本體論不確定性56
2.8 沒有免費午餐定理57
2.9 投資與歸納問題60
2.10 問題歸納、沒有免費午餐定理與概率機器學習64
2.11 本章小結65
參考文獻66
第3章 用于量化輸出不確定性的蒙特卡羅模擬68
3.1 蒙特卡羅模擬:概念驗證69
3.2 關鍵統計概念71
3.2.1 均值和方差71
3.2.2 期望值:概率加權算術平均值72
3.2.3 為什么用波動率來度量風險是荒謬的73
3.2.4 偏度與峰度74
3.2.5 高斯分布或正態分布75
3.2.6 為什么使用波動率會低估金融風險76
3.2.7 大數定律79
3.2.8 中心極限定理79
3.3 蒙特卡羅模擬的理論基礎81
3.4 軟件項目的估值82
3.5 構建一個健全的蒙特卡羅模擬系統85
3.6 本章小結87
參考文獻88
第4章 傳統統計方法的風險89
4.1 反向謬誤90
4.2 零假設顯著性檢驗中的檢察官謬誤96
4.3 信心游戲100
4.3.1 股票的單因素市場模型102
4.3.2 基于Statsmodels的簡單線性回歸103
4.3.3 和的置信區間106
4.4 揭秘信心游戲107
4.4.1 總體參數概率性陳述錯誤107
4.4.2 置信區間概率性陳述錯誤108
4.4.3 抽樣分布概率性陳述錯誤108
4.5 本章小結111
參考文獻112
擴展閱讀113
第5章 概率機器學習框架114
5.1 探究反概率規則115
5.2 估計債務違約的概率119
5.3 用預測概率分布生成數據124
5.4 本章小結127
擴展閱讀129
第6章 傳統人工智能系統的風險130
6.1 AI系統:缺乏常識是危險的132
6.2 為什么最大似然估計模型在金融領域失敗了133
6.2.1 盈余預期的最大似然估計模型134
6.2.2 盈余預期的概率模型137
6.3 馬爾可夫鏈蒙特卡羅模擬143
6.3.1 馬爾可夫鏈143
6.3.2 Metropolis抽樣145
6.4 本章小結149
參考文獻150
第7章 生成式集成概率機器學習151
7.1 最大似然回歸模型153
7.1.1 市場模型154
7.1.2 模型假設154
7.1.3 基于最大似然估計的參數學習155
7.1.4 基于置信區間的參數不確定性量化156
7.1.5 模型輸出的預測與模擬156
7.2 概率線性集成模型156
7.2.1 先驗概率分布P(, , e)158
7.2.2 似然函數P(Y| , , e, X)159
7.2.3 邊緣似然函數P(Y|X)159
7.2.4 后驗概率分布P(, , e| X, Y)159
7.3 使用PyMC庫與ArviZ庫構建概率線性集成模型160
7.3.1 定義集成模型的性能指標161
7.3.2 數據分析與特征工程164
7.3.3 開發和回溯先驗集成模型167
7.3.4 訓練和回溯后驗集成模型174
7.3.5 測試和評估集成模型182
7.4 本章小結185
參考文獻186
擴展閱讀186
第8章 基于生成式集成模型的概率決策187
8.1 概率推斷和預測框架188
8.2 概率決策框架191
8.2.1 融入主觀判斷191
8.2.2 估計損失192
8.2.3 最小化損失195
8.3 風險管理197
8.3.1 資本保全197
8.3.2 遍歷性197
8.3.3 生成式風險價值202
8.3.4 生成式預期虧空204
8.3.5 生成式尾部風險205
8.4 資本配置206
8.4.1 賭徒破產定律206
8.4.2 預期資產評估師的破產208
8.4.3 現代投資組合理論212
8.4.4 馬科維茨投資者的破產214
8.4.5 凱利準則219
8.4.6 凱利投資者的破產222
8.5 本章小結224
參考文獻225
擴展閱讀225