機器學習需要一條脫離過高理論門檻的入門之路。本書《機器學習篇》從小紅帽采蘑菇的故事開篇,介紹了基礎的機器學習分類模型的訓練(第1章)。如何評估、調試模型?如何合理地發(fā)掘事物的特征?如何利用幾個模型共同發(fā)揮作用?后續(xù)章節(jié)一步一步講述了如何優(yōu)化模型,更好地完成分類預測任務(第2章),并且初步嘗試將這些技術運用到金融股票交易中(第3章)。自然界*好的非線性模型莫過于人類的大腦。《深度學習篇》從介紹并對比一些常見的深度學習框架開始(第4章),講解了DNN模型的直觀原理,嘗試給出一些簡單的生物學解釋,完成簡單的圖片識別任務(第5章)。后續(xù)章節(jié)在此基礎上,完成更為復雜的圖片識別CNN模型(第6章)。接著,本書展示了使用Caffe完成一個完整的圖片識別項目,從準備數(shù)據(jù)集,到完成識別任務(第7章)。后面簡單描述了RNN模型(第8章),接著展示了一個將深度學習技術落地到圖片處理領域的項目(第9章)。
都說這年頭不會點機器學習不好意思出門,但高深的數(shù)學理論,復雜的算法又讓很多人忘而卻步,不知從何下手,《機器學習篇》繞過理論障礙,打通了一條由淺入深的機器學習之路。
豐富的實戰(zhàn)案例講解,介紹如何將機器學習技術運用到股票量化交易、圖片渲染、圖片識別等領域。
前言
越來越多的人期待能擠進機器學習這一行業(yè),這些人往往有一些編程和自學能力,但數(shù)學等基礎理論能力不足。對于這些人群,從頭開始學習概率統(tǒng)計等基礎學科是痛苦的,如果直接上手使用機器學習工具往往又感到理解不足,缺少點什么。本書就是面向這一人群,避過數(shù)學推導等復雜的理論推衍,介紹模型背后的一些簡單直觀的理解,以及如何上手使用。本書希望能夠得到這些人的喜愛。
本書包含兩部分:機器學習篇和深度學習篇。
機器學習篇(1~3 章)主要從零開始,介紹什么是數(shù)據(jù)特征,什么是機器學習模型,如何訓練模型、調試模型,以及如何評估模型的成績。通過一些簡單的任務例子,講解在使用模型時如何分析并處理任務數(shù)據(jù)的特征,如何組合多個模型共同完成任務,并在第3章初步嘗試將機器學習技術運用到股票交易中,重復熟悉這些技術的同時,感受機器學習技術在落地到專業(yè)領域時常犯的錯誤。
深度學習篇(4~9 章)則主要介紹了一些很基礎的深度學習模型,如DNN、CNN等,簡單涵蓋了一些RNN 的概念描述。我們更關注模型的直觀原理和背后的生物學設計理念,希望讀者能夠帶著這些理解,直接上手應用深度學習框架。說一點關于閱讀本書的建議。本書在編寫時不關注模型技術的數(shù)學推導及嚴謹表述,轉而關注其背后的直觀原理理解。建議讀者以互動執(zhí)行代碼的方式學習,所有示例使用IPython Notebook 編寫。讀者可在Git 上找到對應章節(jié)的內容,一步一步運行書中講解的知識點,直觀感受每一步的執(zhí)行效果。具體代碼下載地址:https://github.com/bbfamily/abu。
本書適合有Python 編程能力的讀者。如果讀者有簡單的數(shù)學基礎,了解概率、矩陣則更佳。使用過Numpy、pandas 等數(shù)據(jù)處理工具的讀者讀起來也會更輕松,但這些都不是必需的。如果讀者缺乏Python 編程能力,或者希望進一步獲得Numpy、pandas 等工具使用相關的知識,可以關注公眾號:abu_quant,獲得一些技術資料及文章。
感謝出版社提供機會讓我們編寫本書,感謝編輯不辭辛苦地和我溝通排版等細節(jié)問題。
本書的完成同樣需要感謝我們的幾位朋友:吳汶(老虎美股)、劉兆丹(百度金融),感謝你們在本書編寫作過程中提供的有力支持。感謝本書的試讀人員:蔡志威、李寅龍。
阿布:多年互聯(lián)網金融技術從業(yè)經驗,曾就職于奇虎360、百度互聯(lián)網證券、百度金融等互聯(lián)網型金融公司,現(xiàn)自由職業(yè),個人量化交易者,擅長個人中小資金量化交易領域系統(tǒng)開發(fā),以及為中小型量化私募資金提供技術解決方案、技術支持、量化培訓等工作。|
胥嘉幸:北京大學碩士,先后就職于百度金融證券、百度糯米搜索部門。多年致力于大數(shù)據(jù)機器學習方面的研究,有深厚的數(shù)學功底和理論支撐。在將機器學習技術融于傳統(tǒng)金融量化領域方面頗有研究。
第一篇 機器學習篇
第1 章 初識機器學習 .................................................................................... 2
1.1 機器學習賦予機器學習的靈魂 ..................................................................... 2
1.1.1 小紅帽識別毒蘑菇 ................................................................................................................... 2
1.1.2 三種機器學習問題 ................................................................................................................... 6
1.1.3 常用符號 .................................................................................................................................. 6
1.1.4 回顧 .......................................................................................................................................... 7
1.2 KNN相似的鄰居請投票 ........................................................................................ 7
1.2.1 模型原理 .................................................................................................................................. 7
1.2.2 鳶尾花卉數(shù)據(jù)集(IRIS) ....................................................................................................... 9
1.2.3 訓練模型 .................................................................................................................................. 9
1.2.4 評估模型 ................................................................................................................................ 12
1.2.5 關于KNN ............................................................................................................................... 14
1.2.6 運用KNN 模型 ...................................................................................................................... 15
1.2.7 回顧 ........................................................................................................................................ 16
1.3 邏輯分類I:線性分類模型 ........................................................................................ 16
1.3.1 參數(shù)化的模型 ........................................................................................................................ 16
1.3.2 邏輯分類:預測..................................................................................................................... 18
1.3.3 邏輯分類:評估..................................................................................................................... 22
1.3.4 邏輯分類:訓練..................................................................................................................... 23
1.3.5 回顧 ........................................................................................................................................ 24
1.4 邏輯分類II:線性分類模型 ....................................................................................... 24
1.4.1 尋找模型的權重..................................................................................................................... 24
VI ?O 機器學習之路Caffe、Keras、scikit-learn 實戰(zhàn)
1.4.2 去均值和歸一化..................................................................................................................... 31
1.4.3 實現(xiàn) ........................................................................................................................................ 33
1.4.4 回顧 ........................................................................................................................................ 34
第2 章 機器學習進階 .................................................................................. 35
2.1 特征工程 ...................................................................................................................... 35
2.1.1 泰坦尼克號生存預測 ............................................................................................................. 35
2.1.2 兩類特征 ................................................................................................................................ 38
2.1.3 構造非線性特征..................................................................................................................... 41
2.1.4 回顧 ........................................................................................................................................ 45
2.2 調試模型 ...................................................................................................................... 46
2.2.1 模型調試的目標..................................................................................................................... 46
2.2.2 調試模型 ................................................................................................................................ 49
2.2.3 回顧 ........................................................................................................................................ 52
2.3 分類模型評估指標 ...................................................................................................... 53
2.3.1 混淆矩陣系指標..................................................................................................................... 53
2.3.2 評估曲線 ................................................................................................................................ 58
2.3.3 回顧 ........................................................................................................................................ 61
2.4 回歸模型 ...................................................................................................................... 61
2.4.1 回歸與分類 ............................................................................................................................ 61
2.4.2 線性回歸 ................................................................................................................................ 62
2.4.3 波士頓房價預測..................................................................................................................... 66
2.4.4 泰坦尼克號生存預測:回歸預測特征年齡Age .................................................................. 69
2.4.5 線性模型與非線性模型 ......................................................................................................... 72
2.4.6 回顧 ........................................................................................................................................ 73
2.5 決策樹模型 .................................................................................................................. 73
2.5.1 信息與編碼 ............................................................................................................................ 74
2.5.2 決策樹 .................................................................................................................................... 76
2.5.3 對比線性模型和決策樹模型的表現(xiàn) ..................................................................................... 77
2.5.4 回顧 ........................................................................................................................................ 79
2.6 模型融合 ...................................................................................................................... 80
2.6.1 融合成群體(Ensamble) ..................................................................................................... 80
2.6.2 Bagging:隨機森林(Random Forest) ............................................................................... 82
目錄 ?O VII
2.6.3 Boosting:GBDT ................................................................................................................... 83
2.6.4 Stacking ......................................................................................