Effective數(shù)據(jù)科學(xué)基礎(chǔ)設(shè)施
定 價(jià):¥98
中 教 價(jià):¥57.82 (5.90折)促銷
庫(kù) 存 數(shù): 4
叢 書 名:數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)
"數(shù)據(jù)科學(xué)項(xiàng)目日益增多,每個(gè)項(xiàng)目在提出原型到生產(chǎn)的過(guò)程中都需要可靠的基礎(chǔ)設(shè)施。使用《Effective數(shù)據(jù)科學(xué)基礎(chǔ)設(shè)施》介紹的一些新技術(shù)和新工具,你將能建立一個(gè)適用于各類組織(無(wú)論是初創(chuàng)企業(yè)還是大型企業(yè))的基礎(chǔ)設(shè)施堆棧。 《Effective數(shù)據(jù)科學(xué)基礎(chǔ)設(shè)施》可幫助你建立數(shù)據(jù)流程和項(xiàng)目工作流,為你開發(fā)項(xiàng)目帶來(lái)強(qiáng)大動(dòng)力。《Effective數(shù)據(jù)科學(xué)基礎(chǔ)設(shè)施》呈現(xiàn)Netflix數(shù)據(jù)操作的**進(jìn)工具和概念,并在此基礎(chǔ)上介紹一種可定制的基于云的模型開發(fā)和MLOps方法,可輕松適應(yīng)公司的特定需求。當(dāng)團(tuán)隊(duì)把數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)應(yīng)用于廣泛的業(yè)務(wù)問題時(shí),這些實(shí)用的數(shù)據(jù)流程將更高效地生成更完美的結(jié)果。 主要內(nèi)容 ● 在云中處理計(jì)算和編排 ● 將基于云的工具耦合到一個(gè)內(nèi)聚的數(shù)據(jù)科學(xué)環(huán)境中 ● 使用Metaflow、AWS和Python數(shù)據(jù)生態(tài)系統(tǒng)開發(fā)可復(fù)制的數(shù)據(jù)科學(xué)項(xiàng)目 ● 構(gòu)建需要大型數(shù)據(jù)集和模型,需要數(shù)據(jù)科學(xué)家團(tuán)隊(duì)參與的復(fù)雜應(yīng)用程序"
《Effective數(shù)據(jù)科學(xué)基礎(chǔ)設(shè)施》由Netflix工程師Ville Tuulos撰寫,以Metaflow為對(duì)象,介紹了數(shù)據(jù)科學(xué)所需要的基礎(chǔ)設(shè)施,囊括數(shù)據(jù)準(zhǔn)備、特征工程、模型訓(xùn)練、模型部署、服務(wù)和持續(xù)監(jiān)控等環(huán)節(jié)。Metaflow專注于構(gòu)建生產(chǎn)流程,更適合具有深厚工程和DevOps技能的大型專業(yè)數(shù)據(jù)科學(xué)團(tuán)隊(duì)。本書的目標(biāo)讀者為數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)工程師、IT 技術(shù)人員和MLOps工程師。數(shù)據(jù)科學(xué)家在人工智能和算法方面非常精通,但軟件開發(fā)能力通常不足。他們渴望有一套方法論和工具來(lái)促進(jìn)從構(gòu)建到部署的迭代過(guò)程,從而落實(shí)自己的想法。數(shù)據(jù)科學(xué)家不在意在一個(gè)孤島。上開展數(shù)據(jù)挖掘和分析工作,他們更希望能夠在離線、實(shí)時(shí)和批處理等場(chǎng)景中落實(shí)項(xiàng)目。IT技術(shù)人員對(duì)機(jī)器學(xué)習(xí)算法理論和模型細(xì)節(jié)并不了解,他們渴望本書能夠提供一個(gè)機(jī)器學(xué)習(xí)流程的全貌,便于他們進(jìn)行任務(wù)編排。此外,一些企業(yè)的中高層管理人員可通過(guò)本書獲取MLOps管理理念,為制定AI項(xiàng)目管理和KPI考核提供參考依據(jù)。總之,與傳統(tǒng)的軟件工程師技能要求相比,MLOps工程師除了需要具備現(xiàn)代軟件工程所要求的強(qiáng)大能力,還需要具備ML專業(yè)知識(shí),具體包括ML模型訓(xùn)練、模型部署、模型監(jiān)控和幫助企業(yè)落實(shí)架構(gòu)、系統(tǒng)設(shè)計(jì)和故障排除等能力。
我在十幾歲時(shí),對(duì)人工智能產(chǎn)生了濃厚的興趣。13歲時(shí),我訓(xùn)練了我的第一個(gè)人工神經(jīng)網(wǎng)絡(luò)。我從零開始,用C和C 實(shí)現(xiàn)了簡(jiǎn)單的訓(xùn)練算法,這是20世紀(jì)90年代時(shí)探索該領(lǐng)域的唯一方法。此后,我繼續(xù)學(xué)習(xí)了計(jì)算機(jī)科學(xué)、數(shù)學(xué)和心理學(xué),以更好地理解這一龐大主題的基礎(chǔ)。當(dāng)時(shí),機(jī)器學(xué)習(xí)(數(shù)據(jù)科學(xué)這個(gè)術(shù)語(yǔ)還不存在)的應(yīng)用方式有時(shí)似乎更像魔術(shù),而不是真正的科學(xué)或原理工程。后來(lái),我從學(xué)術(shù)界轉(zhuǎn)向大公司和初創(chuàng)公司,此后,我一直在構(gòu)建支持機(jī)器學(xué)習(xí)的系統(tǒng)。Linux等開源項(xiàng)目和當(dāng)時(shí)新興的Python數(shù)據(jù)生態(tài)系統(tǒng)對(duì)我的影響很大。Python數(shù)據(jù)生態(tài)系統(tǒng)提供了NumPy等包,與C或C 相比,這些包使得構(gòu)建高性能代碼更容易。除了開源的技術(shù)優(yōu)勢(shì),我還發(fā)現(xiàn)圍繞這些項(xiàng)目形成了十分創(chuàng)新、充滿活力且廣受歡迎的領(lǐng)域。當(dāng)我在2017年加入Netflix,受命從零開始構(gòu)建新的機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施時(shí),我秉持著3個(gè)原則。首先,我們需要對(duì)全棧有一個(gè)原則性的理解數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)不是魔術(shù),而需要成為一門真正的工程學(xué)科。其次,無(wú)論是出于技術(shù)角度還是因?yàn)槠潺嫶蟮陌菪灶I(lǐng)域,我都確信Python是新平臺(tái)的基礎(chǔ)。最后,歸根結(jié)底,數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)是人類使用的工具。使用工具的唯一目的是提高工作效率,成功的工具還可提供令人愉悅的使用體驗(yàn)。工具是由孕育其誕生的文化塑造的。我創(chuàng)建了開源工具M(jìn)etaflow后,Netflix的文化對(duì)其產(chǎn)生了巨大的影響,該工具后來(lái)成為一個(gè)強(qiáng)勁的開源項(xiàng)目。Netflix的發(fā)展壓力確保了Metaflow和我們對(duì)整個(gè)數(shù)據(jù)科學(xué)堆棧的理解都是基于數(shù)據(jù)科學(xué)家的實(shí)際需求。Netflix給予其數(shù)據(jù)科學(xué)家高度的自主權(quán),而這些數(shù)據(jù)科學(xué)家通常不是經(jīng)過(guò)訓(xùn)練的軟件工程師。這使我們要仔細(xì)考慮數(shù)據(jù)科學(xué)家在開發(fā)項(xiàng)目并最終將其部署到生產(chǎn)中時(shí)面臨的所有挑戰(zhàn)。Netflix的頂尖工程團(tuán)隊(duì)已使用云計(jì)算超過(guò)十年,已充分了解了云計(jì)算的優(yōu)缺點(diǎn),我們對(duì)堆棧的理解也深受他們的影響。我撰寫本書旨在與更多人共享這些經(jīng)歷。無(wú)論是開源領(lǐng)域、深有遠(yuǎn)見又無(wú)私共享的個(gè)人,還是聰明絕頂?shù)臄?shù)據(jù)科學(xué)家,都教會(huì)了我很多,我覺得我有義務(wù)回饋他們。本書肯定不是我學(xué)習(xí)旅程的終點(diǎn),只是一個(gè)里程碑。因此,我很期待反饋。不要猶豫,趕快與我聯(lián)系吧,分享你的經(jīng)歷、想法和反饋!
Ville Tuulos在Netflix公司設(shè)計(jì)并構(gòu)建了用于數(shù)據(jù)科學(xué)的全棧框架Metaflow。目前,Ville在一家專業(yè)開發(fā)數(shù)據(jù)科學(xué)基礎(chǔ)設(shè)施的初創(chuàng)公司擔(dān)任首席執(zhí)行官。
第1章 數(shù)據(jù)科學(xué)基礎(chǔ)設(shè)施介紹 11.1 選擇數(shù)據(jù)科學(xué)基礎(chǔ)設(shè)施的原因 21.2 什么是數(shù)據(jù)科學(xué)基礎(chǔ)設(shè)施 51.2.1 數(shù)據(jù)科學(xué)基礎(chǔ)設(shè)施堆棧 61.2.2 支持?jǐn)?shù)據(jù)科學(xué)項(xiàng)目的整個(gè)生命周期 81.2.3 不能以偏概全 91.3 良好基礎(chǔ)設(shè)施的重要性 101.3.1 管理復(fù)雜性 111.3.2 利用現(xiàn)有平臺(tái) 121.4 以人為中心的基礎(chǔ)設(shè)施 131.4.1 自由與責(zé)任 141.4.2 數(shù)據(jù)科學(xué)家自主性 151.5 本章小結(jié) 16第2章 數(shù)據(jù)科學(xué)的工具鏈 172.1 建立開發(fā)環(huán)境 182.1.1 云賬戶 212.1.2 數(shù)據(jù)科學(xué)工作站 222.1.3 筆記 242.1.4 歸納 272.2 介紹工作流 292.2.1 工作流基礎(chǔ) 302.2.2 執(zhí)行工作流 312.2.3 工作流框架 332.3 本章小結(jié) 35第3章 Metaflow簡(jiǎn)介 373.1 Metaflow的基本概念 383.1.1 安裝Metaflow 393.1.2 編寫基本工作流 403.1.3 管理工作流中的數(shù)據(jù)流 443.1.4 參數(shù) 503.2 分支和合并 553.2.1 有效的DAG結(jié)構(gòu) 563.2.2 靜態(tài)分支 573.2.3 動(dòng)態(tài)分支 613.2.4 控制并發(fā) 643.3 Metaflow實(shí)際應(yīng)用 663.3.1 啟動(dòng)新項(xiàng)目 673.3.2 使用客戶端API訪問結(jié)果 693.3.3 調(diào)試故障 723.3.4 最后潤(rùn)色 763.4 本章小結(jié) 79第4章 隨計(jì)算層伸縮 814.1 什么是可伸縮性 824.1.1 整個(gè)堆棧的可伸縮性 834.1.2 實(shí)驗(yàn)文化 854.2 計(jì)算層 874.2.1 使用容器進(jìn)行批處理 894.2.2 計(jì)算層示例 924.3 Metaflow中的計(jì)算層 984.3.1 為Metaflow配置AWS批處理 1004.3.2 @batch和@resources裝飾器 1044.4 處理故障 1074.4.1 使用@retry從瞬態(tài)錯(cuò)誤中恢復(fù) 1094.4.2 使用@timeout殺死僵尸 1104.4.3 最后一種裝飾器:@catch 1114.5 本章小結(jié) 113第5章 實(shí)踐可伸縮性和性能 1155.1 從簡(jiǎn)單開始:垂直可伸縮性 1165.1.1 示例:聚類Yelp評(píng)論 1175.1.2 實(shí)踐垂直可伸縮性 1195.1.3 為什么選擇垂直可伸縮性 1245.2 實(shí)踐水平可伸縮性 1265.2.1 為什么選擇水平可伸縮性 1265.2.2 示例:超參數(shù)搜索 1275.3 實(shí)施性能優(yōu)化 1305.3.1 示例:計(jì)算共現(xiàn)矩陣 1315.3.2 加快工作流的方法 1395.4 本章小結(jié) 140第6章 投入生產(chǎn) 1416.1 穩(wěn)定的工作流調(diào)度 1436.1.1 中心化元數(shù)據(jù) 1456.1.2 使用AWS Step Functions和Metaflow 1476.1.3 使用@schedule調(diào)度運(yùn)行 1526.2 魯棒的執(zhí)行環(huán)境 1536.2.1 Metaflow包如何流動(dòng) 1556.2.2 為什么依賴管理很重要 1606.2.3 使用@conda裝飾器 1626.3 穩(wěn)定運(yùn)行 1676.3.1 原型開發(fā)期間的命名空間 1696.3.2 生產(chǎn)命名空間 1736.3.3 使用@project的并行部署 1746.4 本章小結(jié) 177第7章 處理數(shù)據(jù) 1797.1 快速數(shù)據(jù)的基礎(chǔ) 1827.1.1 從S3加載數(shù)據(jù) 1837.1.2 使用表格數(shù)據(jù) 1887.1.3 內(nèi)存數(shù)據(jù)堆棧 1927.2 與數(shù)據(jù)基礎(chǔ)設(shè)施的交互 1947.2.1 現(xiàn)代數(shù)據(jù)基礎(chǔ)設(shè)施 1957.2.2 用SQL準(zhǔn)備數(shù)據(jù)集 1997.2.3 分布式數(shù)據(jù)處理 2057.3 從數(shù)據(jù)到特征 2107.3.1 區(qū)分事實(shí)和特征 2117.3.2 編碼特征 2137.4 本章小結(jié) 218第8章 使用和操作模型 2218.1 生成預(yù)測(cè) 2238.1.1 批處理、流式和實(shí)時(shí)預(yù)測(cè) 2258.1.2 示例:推薦系統(tǒng) 2278.1.3 批處理預(yù)測(cè) 2328.1.4 實(shí)時(shí)預(yù)測(cè) 2438.2 本章小結(jié) 248第9章 全棧機(jī)器學(xué)習(xí) 2499.1 可插拔的特征編碼器和模型 2509.1.1 為可插拔的組件開發(fā)框架 2519.1.2 執(zhí)行特征編碼器 2559.1.3 基準(zhǔn)模型 2599.2 深度回歸模型 2649.2.1 編碼輸入張量 2669.2.2 定義深度回歸模型 2699.2.3 訓(xùn)練深度回歸模型 2729.3 總結(jié)所學(xué) 2759.4 本章小結(jié) 277附錄 安裝Conda 279