機器學(xué)習(xí)需要一條脫離過高理論門檻的入門之路。本書《機器學(xué)習(xí)篇》從小紅帽采蘑菇的故事開篇,介紹了基礎(chǔ)的機器學(xué)習(xí)分類模型的訓(xùn)練(第1章)。如何評估、調(diào)試模型?如何合理地發(fā)掘事物的特征?如何利用幾個模型共同發(fā)揮作用?后續(xù)章節(jié)一步一步講述了如何優(yōu)化模型,更好地完成分類預(yù)測任務(wù)(第2章),并且初步嘗試將這些技術(shù)運用到金融股票交易中(第3章)。自然界*好的非線性模型莫過于人類的大腦。《深度學(xué)習(xí)篇》從介紹并對比一些常見的深度學(xué)習(xí)框架開始(第4章),講解了DNN模型的直觀原理,嘗試給出一些簡單的生物學(xué)解釋,完成簡單的圖片識別任務(wù)(第5章)。后續(xù)章節(jié)在此基礎(chǔ)上,完成更為復(fù)雜的圖片識別CNN模型(第6章)。接著,本書展示了使用Caffe完成一個完整的圖片識別項目,從準備數(shù)據(jù)集,到完成識別任務(wù)(第7章)。后面簡單描述了RNN模型(第8章),接著展示了一個將深度學(xué)習(xí)技術(shù)落地到圖片處理領(lǐng)域的項目(第9章)。
都說這年頭不會點機器學(xué)習(xí)不好意思出門,但高深的數(shù)學(xué)理論,復(fù)雜的算法又讓很多人忘而卻步,不知從何下手,《機器學(xué)習(xí)篇》繞過理論障礙,打通了一條由淺入深的機器學(xué)習(xí)之路。
豐富的實戰(zhàn)案例講解,介紹如何將機器學(xué)習(xí)技術(shù)運用到股票量化交易、圖片渲染、圖片識別等領(lǐng)域。
前言
越來越多的人期待能擠進機器學(xué)習(xí)這一行業(yè),這些人往往有一些編程和自學(xué)能力,但數(shù)學(xué)等基礎(chǔ)理論能力不足。對于這些人群,從頭開始學(xué)習(xí)概率統(tǒng)計等基礎(chǔ)學(xué)科是痛苦的,如果直接上手使用機器學(xué)習(xí)工具往往又感到理解不足,缺少點什么。本書就是面向這一人群,避過數(shù)學(xué)推導(dǎo)等復(fù)雜的理論推衍,介紹模型背后的一些簡單直觀的理解,以及如何上手使用。本書希望能夠得到這些人的喜愛。
本書包含兩部分:機器學(xué)習(xí)篇和深度學(xué)習(xí)篇。
機器學(xué)習(xí)篇(1~3 章)主要從零開始,介紹什么是數(shù)據(jù)特征,什么是機器學(xué)習(xí)模型,如何訓(xùn)練模型、調(diào)試模型,以及如何評估模型的成績。通過一些簡單的任務(wù)例子,講解在使用模型時如何分析并處理任務(wù)數(shù)據(jù)的特征,如何組合多個模型共同完成任務(wù),并在第3章初步嘗試將機器學(xué)習(xí)技術(shù)運用到股票交易中,重復(fù)熟悉這些技術(shù)的同時,感受機器學(xué)習(xí)技術(shù)在落地到專業(yè)領(lǐng)域時常犯的錯誤。
深度學(xué)習(xí)篇(4~9 章)則主要介紹了一些很基礎(chǔ)的深度學(xué)習(xí)模型,如DNN、CNN等,簡單涵蓋了一些RNN 的概念描述。我們更關(guān)注模型的直觀原理和背后的生物學(xué)設(shè)計理念,希望讀者能夠帶著這些理解,直接上手應(yīng)用深度學(xué)習(xí)框架。說一點關(guān)于閱讀本書的建議。本書在編寫時不關(guān)注模型技術(shù)的數(shù)學(xué)推導(dǎo)及嚴謹表述,轉(zhuǎn)而關(guān)注其背后的直觀原理理解。建議讀者以互動執(zhí)行代碼的方式學(xué)習(xí),所有示例使用IPython Notebook 編寫。讀者可在Git 上找到對應(yīng)章節(jié)的內(nèi)容,一步一步運行書中講解的知識點,直觀感受每一步的執(zhí)行效果。具體代碼下載地址:https://github.com/bbfamily/abu。
本書適合有Python 編程能力的讀者。如果讀者有簡單的數(shù)學(xué)基礎(chǔ),了解概率、矩陣則更佳。使用過Numpy、pandas 等數(shù)據(jù)處理工具的讀者讀起來也會更輕松,但這些都不是必需的。如果讀者缺乏Python 編程能力,或者希望進一步獲得Numpy、pandas 等工具使用相關(guān)的知識,可以關(guān)注公眾號:abu_quant,獲得一些技術(shù)資料及文章。
感謝出版社提供機會讓我們編寫本書,感謝編輯不辭辛苦地和我溝通排版等細節(jié)問題。
本書的完成同樣需要感謝我們的幾位朋友:吳汶(老虎美股)、劉兆丹(百度金融),感謝你們在本書編寫作過程中提供的有力支持。感謝本書的試讀人員:蔡志威、李寅龍。
阿布:多年互聯(lián)網(wǎng)金融技術(shù)從業(yè)經(jīng)驗,曾就職于奇虎360、百度互聯(lián)網(wǎng)證券、百度金融等互聯(lián)網(wǎng)型金融公司,現(xiàn)自由職業(yè),個人量化交易者,擅長個人中小資金量化交易領(lǐng)域系統(tǒng)開發(fā),以及為中小型量化私募資金提供技術(shù)解決方案、技術(shù)支持、量化培訓(xùn)等工作。|
胥嘉幸:北京大學(xué)碩士,先后就職于百度金融證券、百度糯米搜索部門。多年致力于大數(shù)據(jù)機器學(xué)習(xí)方面的研究,有深厚的數(shù)學(xué)功底和理論支撐。在將機器學(xué)習(xí)技術(shù)融于傳統(tǒng)金融量化領(lǐng)域方面頗有研究。
第一篇 機器學(xué)習(xí)篇
第1 章 初識機器學(xué)習(xí) .................................................................................... 2
1.1 機器學(xué)習(xí)賦予機器學(xué)習(xí)的靈魂 ..................................................................... 2
1.1.1 小紅帽識別毒蘑菇 ................................................................................................................... 2
1.1.2 三種機器學(xué)習(xí)問題 ................................................................................................................... 6
1.1.3 常用符號 .................................................................................................................................. 6
1.1.4 回顧 .......................................................................................................................................... 7
1.2 KNN相似的鄰居請投票 ........................................................................................ 7
1.2.1 模型原理 .................................................................................................................................. 7
1.2.2 鳶尾花卉數(shù)據(jù)集(IRIS) ....................................................................................................... 9
1.2.3 訓(xùn)練模型 .................................................................................................................................. 9
1.2.4 評估模型 ................................................................................................................................ 12
1.2.5 關(guān)于KNN ............................................................................................................................... 14
1.2.6 運用KNN 模型 ...................................................................................................................... 15
1.2.7 回顧 ........................................................................................................................................ 16
1.3 邏輯分類I:線性分類模型 ........................................................................................ 16
1.3.1 參數(shù)化的模型 ........................................................................................................................ 16
1.3.2 邏輯分類:預(yù)測..................................................................................................................... 18
1.3.3 邏輯分類:評估..................................................................................................................... 22
1.3.4 邏輯分類:訓(xùn)練..................................................................................................................... 23
1.3.5 回顧 ........................................................................................................................................ 24
1.4 邏輯分類II:線性分類模型 ....................................................................................... 24
1.4.1 尋找模型的權(quán)重..................................................................................................................... 24
VI ?O 機器學(xué)習(xí)之路Caffe、Keras、scikit-learn 實戰(zhàn)
1.4.2 去均值和歸一化..................................................................................................................... 31
1.4.3 實現(xiàn) ........................................................................................................................................ 33
1.4.4 回顧 ........................................................................................................................................ 34
第2 章 機器學(xué)習(xí)進階 .................................................................................. 35
2.1 特征工程 ...................................................................................................................... 35
2.1.1 泰坦尼克號生存預(yù)測 ............................................................................................................. 35
2.1.2 兩類特征 ................................................................................................................................ 38
2.1.3 構(gòu)造非線性特征..................................................................................................................... 41
2.1.4 回顧 ........................................................................................................................................ 45
2.2 調(diào)試模型 ...................................................................................................................... 46
2.2.1 模型調(diào)試的目標..................................................................................................................... 46
2.2.2 調(diào)試模型 ................................................................................................................................ 49
2.2.3 回顧 ........................................................................................................................................ 52
2.3 分類模型評估指標 ...................................................................................................... 53
2.3.1 混淆矩陣系指標..................................................................................................................... 53
2.3.2 評估曲線 ................................................................................................................................ 58
2.3.3 回顧 ........................................................................................................................................ 61
2.4 回歸模型 ...................................................................................................................... 61
2.4.1 回歸與分類 ............................................................................................................................ 61
2.4.2 線性回歸 ................................................................................................................................ 62
2.4.3 波士頓房價預(yù)測..................................................................................................................... 66
2.4.4 泰坦尼克號生存預(yù)測:回歸預(yù)測特征年齡Age .................................................................. 69
2.4.5 線性模型與非線性模型 ......................................................................................................... 72
2.4.6 回顧 ........................................................................................................................................ 73
2.5 決策樹模型 .................................................................................................................. 73
2.5.1 信息與編碼 ............................................................................................................................ 74
2.5.2 決策樹 .................................................................................................................................... 76
2.5.3 對比線性模型和決策樹模型的表現(xiàn) ..................................................................................... 77
2.5.4 回顧 ........................................................................................................................................ 79
2.6 模型融合 ...................................................................................................................... 80
2.6.1 融合成群體(Ensamble) ..................................................................................................... 80
2.6.2 Bagging:隨機森林(Random Forest) ............................................................................... 82
目錄 ?O VII
2.6.3 Boosting:GBDT ................................................................................................................... 83
2.6.4 Stacking ......................................................................................