本書從企業(yè)實(shí)踐出發(fā),內(nèi)容覆蓋數(shù)據(jù)、平臺(tái)、分析和應(yīng)用等企業(yè)內(nèi)數(shù)據(jù)流轉(zhuǎn)的主要環(huán)節(jié)。布局上,按照數(shù)據(jù)與平臺(tái)篇、分析篇和應(yīng)用篇分別撰寫。數(shù)據(jù)與平臺(tái)篇(第1~3章),立足找到數(shù)據(jù)、整合數(shù)據(jù)、使用數(shù)據(jù)三個(gè)角度,介紹數(shù)據(jù)在企業(yè)內(nèi)的分布和處理邏輯,以便快速為分析準(zhǔn)備素材。分析篇(第4~11章),選取企業(yè)實(shí)際案例,介紹常用的數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)算法,以業(yè)務(wù)場景為導(dǎo)向展示數(shù)據(jù)分析過程和技巧。應(yīng)用篇(第12~15章),選取當(dāng)前主流的四個(gè)應(yīng)用場景,介紹如何實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng),讓數(shù)據(jù)“自動(dòng)”流轉(zhuǎn)于各個(gè)環(huán)節(jié)。
(1)從數(shù)據(jù)、基礎(chǔ)平臺(tái)、分析方法、行業(yè)應(yīng)用4個(gè)維度,義場景化方式講解數(shù)據(jù)從獲取、預(yù)處理、挖掘、建模、結(jié)論分析與展現(xiàn)到系統(tǒng)應(yīng)用的流程,以及機(jī)器學(xué)習(xí)的重要技術(shù)
(2)三位金融領(lǐng)域的大數(shù)據(jù)專家近10年行業(yè)實(shí)戰(zhàn)經(jīng)驗(yàn)總結(jié),包含大量行業(yè)解決方案和案例,并公開源代碼
Preface 前 言不畏浮云遮望眼,只緣身在最高層。 —王安石《登飛來峰》數(shù)據(jù)科學(xué)家 = 統(tǒng)計(jì)學(xué)家 + 程序員 + 講故事的人 + 藝術(shù)家—Shlomo Aragmon本書的創(chuàng)作初衷大數(shù)據(jù)方面的書籍可謂琳瑯滿目,有的講解理論,有的介紹方法,有的傳播理念。但是,大數(shù)據(jù)從業(yè)人員(如數(shù)據(jù)工程師、數(shù)據(jù)分析師、業(yè)務(wù)分析師、算法設(shè)計(jì)師等)應(yīng)該掌握哪些知識(shí)與技能,如何應(yīng)用數(shù)據(jù)解決現(xiàn)實(shí)的業(yè)務(wù)問題呢?恐怕最能給出答案的還是實(shí)際的數(shù)據(jù)從業(yè)者。為此,三位作者基于近10年的數(shù)據(jù)分析與應(yīng)用經(jīng)驗(yàn),融合各自在商業(yè)銀行、互聯(lián)網(wǎng)金融和電商領(lǐng)域的切身體驗(yàn),寓理論于實(shí)戰(zhàn),選取多個(gè)詳實(shí)的案例,站在企業(yè)實(shí)際應(yīng)用的角度介紹數(shù)據(jù)分析應(yīng)用過程并公布源代碼,并最終形成本書。本書對于讀者開展數(shù)據(jù)分析工作能夠提供直接幫助,為有志于在大數(shù)據(jù)領(lǐng)域發(fā)展的讀者啟航。 本書特點(diǎn)本書有三大特點(diǎn)。其一,內(nèi)容全面,覆蓋大數(shù)據(jù)生態(tài)中的數(shù)據(jù)、基礎(chǔ)平臺(tái)、分析方法和應(yīng)用四個(gè)領(lǐng)域,對數(shù)據(jù)應(yīng)用從業(yè)務(wù)需求、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)分析、挖掘建模、演示報(bào)告、成果應(yīng)用等全流程進(jìn)行了詳細(xì)闡述;其二,以業(yè)務(wù)場景為主線,精選銀行和互聯(lián)網(wǎng)方面最具代表性的案例,站在數(shù)據(jù)消費(fèi)者和分析師的角度,身臨其境地介紹了數(shù)據(jù)如何產(chǎn)生價(jià)值,寓理論于實(shí)戰(zhàn),讓讀者能知其所以然;其三,寫作手法上遵循大道至簡原則,用淺顯的語言介紹復(fù)雜的數(shù)據(jù)分析應(yīng)用過程,歸納數(shù)據(jù)分析師乃至數(shù)據(jù)科學(xué)家應(yīng)該修煉的要點(diǎn),既關(guān)注技術(shù)細(xì)節(jié),又不拖泥帶水,能為讀者提供直接幫助。 本書定位本書既可作為數(shù)據(jù)分析與商業(yè)分析人員的入門指引和案頭工具,亦可為統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、市場營銷等專業(yè)研究生拓寬視野。 源代碼下載對書中源代碼感興趣的讀者,可與作者聯(lián)系(郵箱:64346837@qq.com)。
陳春寶,先后獲得了經(jīng)濟(jì)學(xué)碩士和工業(yè)工程博士學(xué)位,擁有10年數(shù)據(jù)分析及應(yīng)用經(jīng)驗(yàn),目前任職于股份制商業(yè)銀行總行,在數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和業(yè)務(wù)咨詢方面有著獨(dú)到的見解,他的工作跨大數(shù)據(jù)、營銷、風(fēng)險(xiǎn)、運(yùn)營等多個(gè)領(lǐng)域,擅長診斷各類業(yè)務(wù)問題,應(yīng)用商業(yè)和數(shù)據(jù)分析手段獲得創(chuàng)新性的解決方案,并幫助業(yè)務(wù)部門有效的實(shí)施。他曾經(jīng)擔(dān)任交通銀行*中心的數(shù)據(jù)分析經(jīng)理,以及美國MSA公司咨詢顧問,擁有銀行、*、煙草、醫(yī)藥與電信等行業(yè)幾十個(gè)項(xiàng)目的數(shù)據(jù)挖掘分析與SAS建模經(jīng)驗(yàn)。基于大數(shù)據(jù)構(gòu)建的預(yù)測模型,創(chuàng)新了商業(yè)模式并為公司帶來新的收入來源,參與設(shè)計(jì)的算法獲得人民銀行科技發(fā)展二等獎(jiǎng)。他還長期負(fù)責(zé)企業(yè)內(nèi)的數(shù)據(jù)分析人員培訓(xùn)和管理,并先后擔(dān)任兩個(gè)大數(shù)據(jù)專業(yè)期刊的責(zé)任編輯,近幾年經(jīng)常作為嘉賓活躍在高校與企業(yè)的一系列大數(shù)據(jù)活動(dòng)中。曾擔(dān)任上海交通大學(xué)工程碩士企業(yè)導(dǎo)師,SCI&EI索引期刊發(fā)表論文10余篇。
Contents 目 錄前言第一部分 數(shù)據(jù)與平臺(tái)篇第1章 數(shù)據(jù)與數(shù)據(jù)平臺(tái)31.1 數(shù)據(jù)的基本形態(tài)41.1.1 數(shù)據(jù)環(huán)境與數(shù)據(jù)形態(tài)41.1.2 生產(chǎn)數(shù)據(jù)51.1.3 原始數(shù)據(jù)51.1.4 分析數(shù)據(jù)61.2 數(shù)據(jù)平臺(tái)71.2.1 數(shù)據(jù)倉庫平臺(tái)91.2.2 大數(shù)據(jù)平臺(tái)131.2.3 MPP數(shù)據(jù)庫221.2.4 NoSQL數(shù)據(jù)庫231.3 應(yīng)用系統(tǒng)241.4 本章小結(jié)25第2章 數(shù)據(jù)體系262.1 數(shù)據(jù)閉環(huán)272.2 數(shù)據(jù)緩沖區(qū)282.2.1 系統(tǒng)解耦292.2.2 批量導(dǎo)出312.2.3 FTP傳輸402.2.4 批量導(dǎo)入422.3 ETL492.3.1 ETL工具502.3.2 ETL作業(yè)522.4 作業(yè)調(diào)度562.5 監(jiān)控和預(yù)警562.5.1 使用監(jiān)控工具進(jìn)行監(jiān)控572.5.2 使用BI工具進(jìn)行監(jiān)控572.6 本章小結(jié)57第3章 實(shí)戰(zhàn):打造數(shù)據(jù)閉環(huán)593.1 數(shù)據(jù)緩沖區(qū)的基本規(guī)則603.1.1 文件存儲(chǔ)規(guī)則613.1.2 文件命名規(guī)則613.1.3 文件清理規(guī)則623.2 自動(dòng)加載的流程623.2.1 掃描文件633.2.2 下載文件643.2.3 解壓文件653.2.4 加載文件653.3 自動(dòng)加載程序的數(shù)據(jù)庫設(shè)計(jì)663.3.1 數(shù)據(jù)文件信息表673.3.2 數(shù)據(jù)文件狀態(tài)表683.3.3 加載配置信息表693.3.4 數(shù)據(jù)緩沖區(qū)信息表703.3.5 目標(biāo)服務(wù)器表703.4 自動(dòng)加載程序的多線程實(shí)現(xiàn)713.4.1 ScanFiles723.4.2 DownLoadAndUnZip753.4.3 LoadToHive773.4.4 LoadToOracle783.4.5 自動(dòng)加載程序的部署架構(gòu)793.4.6 程序的維護(hù)和優(yōu)化803.5 本章小結(jié)80第二部分 分 析 篇第4章 數(shù)據(jù)預(yù)處理834.1 數(shù)據(jù)表的預(yù)處理844.2 變量的預(yù)處理854.2.1 缺失值的處理854.2.2 極值的處理904.3 變量的設(shè)計(jì)914.3.1 暴力衍生914.3.2 交叉升維924.4 變量篩選954.4.1 篩選顯著變量954.4.2 剔除共線性964.5 本章小結(jié)100第5章 聚類,簡單易用的客戶細(xì)分方法1015.1 從客戶細(xì)分說起1025.1.1 為什么要做客戶細(xì)分1025.1.2 怎么做客戶細(xì)分1035.1.3 聚類分析,無監(jiān)督的客戶細(xì)分方法1075.2 譜系聚類1075.2.1 基本步驟1075.2.2 案例:公司客戶差異化服務(wù)1105.2.3 譜系聚類方法的題外話1155.3 K-means算法1165.3.1 基本步驟1165.3.2 案例:電商賣家細(xì)分1175.3.3 K-means算法的題外話1215.4 本章小結(jié)121第6章 關(guān)聯(lián)規(guī)則挖掘,發(fā)現(xiàn)產(chǎn)品加載和交叉銷售機(jī)會(huì)1226.1 銷售的真諦:讓客戶買得更多1236.1.1 案例:電商的生意經(jīng)1236.1.2 案例:富國銀行的“商店”經(jīng)營模式1246.1.3 案例總結(jié)1256.2 交叉銷售1266.2.1 為什么要做交叉銷售1266.2.2 怎么做交叉銷售1266.3 關(guān)聯(lián)規(guī)則挖掘,發(fā)現(xiàn)交叉銷售機(jī)會(huì)1286.3.1 Apriori算法1296.3.2 Apriori算法的主要指標(biāo)1296.3.3 Apriori算法的基本步驟1316.4 案例:信用卡產(chǎn)品交叉銷售1316.4.1 準(zhǔn)備數(shù)據(jù)1326.4.2 SAS實(shí)現(xiàn)1326.4.3 結(jié)果分析1336.4.4 序列關(guān)聯(lián)分析1366.4.5 結(jié)果應(yīng)用1376.5 本章小結(jié)138第7章 社交網(wǎng)絡(luò)分析,從“關(guān)系的角度分析問題1397.1 先看幾張美輪美奐的圖片1407.2 社交網(wǎng)絡(luò)分析方法1427.2.1 定義1427.2.2 應(yīng)用場景1427.2.3 網(wǎng)絡(luò)識(shí)別算法1437.3 案例:電商通過訂單數(shù)據(jù)識(shí)別供應(yīng)鏈1447.3.1 供應(yīng)鏈及供應(yīng)鏈金融1447.3.2 識(shí)別核心企業(yè)及其上下游關(guān)系1447.3.3 分析結(jié)果的業(yè)務(wù)應(yīng)用1497.4 案例:P2P投資風(fēng)險(xiǎn)防范1517.4.1 案例背景1517.4.2 防范方法1527.5 本章小結(jié)153第8章 線性回歸,預(yù)測客戶價(jià)值1558.1 數(shù)值預(yù)測1568.2 回歸與擬合1578.2.1 回歸就是擬合1578.2.2 在Excel中添加趨勢線預(yù)測1588.3 案例:信用卡客戶價(jià)值預(yù)測1598.3.1 確定預(yù)測目標(biāo)1598.3.2 準(zhǔn)備建模數(shù)據(jù)1618.3.3 模型擬合1638.3.4 模型評估1658.4 基于客戶價(jià)值分層的業(yè)務(wù)策略1678.5 本章小結(jié)167第9章 Logistic回歸,精準(zhǔn)營銷的主要支撐算法1699.1 大數(shù)據(jù)時(shí)代的精準(zhǔn)營銷1709.1.1 精準(zhǔn)營銷1709.1.2 基于大數(shù)據(jù)的精準(zhǔn)營銷模式1719.1.3 如何做到精準(zhǔn)1729.2 Logistic回歸算法介紹1739.2.1 算法原理1739.2.2 關(guān)鍵步驟1749.3 案例:信用卡消費(fèi)信貸產(chǎn)品的精準(zhǔn)營銷1769.3.1 案例背景1769.3.2 數(shù)據(jù)準(zhǔn)備1769.3.3 數(shù)據(jù)預(yù)處理1809.3.4 建模1829.3.5 模型評估1859.4 預(yù)測模型的應(yīng)用與評估1899.5 本章小結(jié)189第10章 決策樹類算法,反欺詐模型“專家”19110.1 決策樹,重要的分類器19110.2 決策樹的關(guān)鍵思想19210.2.1 理財(cái)客戶畫像案例背景19210.2.2 關(guān)鍵思想一:遞歸劃分19410.2.3 關(guān)鍵思想二:剪枝19710.3 案例:電商盜卡交易風(fēng)險(xiǎn)識(shí)別19810.3.1 案例背景19810.3.2 以SAS實(shí)現(xiàn)19910.3.3 以Clementine實(shí)現(xiàn)20110.3.4 以R實(shí)現(xiàn)20410.4 隨機(jī)森林20810.5 本章小結(jié)209第11章 數(shù)據(jù)可視化,是分析更是設(shè)計(jì)21011.1 數(shù)據(jù)演示之道21011.1.1 好“色”之圖21111.1.2 版式有形21211.1.3 數(shù)據(jù)發(fā)聲21411.2 個(gè)性化地圖21511.2.1 案例背景:存款增長率指標(biāo)展示21511.2.2 獲取地理位置的經(jīng)緯度數(shù)據(jù)21611.2.3 定制地圖背景和圖標(biāo)21711.2.4 生成地圖22011.3 文本分析22211.3.1 案例:電商的客戶評價(jià)分析22211.3.2 分詞22311.3.3 詞云制作22411.3.4 情感分析22511.4 本章小結(jié)227第三部分 應(yīng) 用 篇第12章 標(biāo)簽系統(tǒng)23112.1 認(rèn)識(shí)標(biāo)簽系統(tǒng)23112.2 標(biāo)簽系統(tǒng)的設(shè)計(jì)23312.2.1 標(biāo)簽系統(tǒng)的層次結(jié)構(gòu)23312.2.2 標(biāo)簽系統(tǒng)的更新規(guī)則23312.2.3 機(jī)器學(xué)習(xí)模型轉(zhuǎn)化為標(biāo)簽23512.3 標(biāo)簽系統(tǒng)的實(shí)現(xiàn)23612.3.1 標(biāo)簽映射表23712.3.2 標(biāo)簽系統(tǒng)的前端實(shí)現(xiàn)23812.3.3 標(biāo)簽系統(tǒng)的數(shù)據(jù)后端實(shí)現(xiàn)23812.3.4 標(biāo)簽系統(tǒng)的在線接口實(shí)現(xiàn)24212.4 本章小結(jié)242第13章 數(shù)據(jù)自助營銷平臺(tái)24413.1 數(shù)據(jù)自助營銷平臺(tái)的價(jià)值所在24513.1.1 自動(dòng)化營銷,提升工作效率24513.1.2 降低營銷成本,提升用戶體驗(yàn)24713.1.3 個(gè)性化營銷,提升響應(yīng)率24813.1.4 統(tǒng)一管理,便于效果追蹤24913.2 數(shù)據(jù)自助營銷平臺(tái)的實(shí)現(xiàn)原則24913.2.1 數(shù)據(jù)營銷活動(dòng)的節(jié)點(diǎn)24913.2.2 數(shù)據(jù)自助營銷平臺(tái)的基礎(chǔ):標(biāo)簽系統(tǒng)25113.2.3 數(shù)據(jù)自助營銷平臺(tái)的批量任務(wù)25213.2.4 實(shí)時(shí)數(shù)據(jù)營銷25413.3 數(shù)據(jù)自助營銷平臺(tái)的場景實(shí)例25413.3.1 客戶生命周期管理25413.3.2 用卡激勵(lì)計(jì)劃25713.4 本章小結(jié)260第14章 基于Mahout的個(gè)性化推薦系統(tǒng)26114.1 Mahout的推薦引擎26214.1.1 Mahout的安裝配置26214.1.2 Mahout的使用方式26314.1.3 協(xié)同過濾算法26414.1.4 Mahout的推薦引擎26514.2 規(guī)模與效率26814.2.1 Mahout推薦算法的適用范圍26814.2.2 通過分布式解決規(guī)模和效率的問題27014.3 實(shí)現(xiàn)一個(gè)推薦系統(tǒng)27514.3.1 系統(tǒng)框架27514.3.2 推薦系統(tǒng)的刷新27614.3.3 部署一個(gè)可用的推薦系統(tǒng)27614.4 本章小結(jié)280第15章 圖計(jì)算與社會(huì)網(wǎng)絡(luò)28115.1 社會(huì)網(wǎng)絡(luò)和屬性圖28215.2 Spark GraphX與Neo4j28315.2.1 Scala編程語言28415.2.2 Cypher查詢語言28515.3 使用Spark GraphX和Neo4j處理社會(huì)網(wǎng)絡(luò)28615.3.1 背景說明28615.3.2 數(shù)據(jù)準(zhǔn)備28615.3.3 Spark GraphX處理原始網(wǎng)絡(luò)28715.3.4 Neo4j交互式查詢分析29115.3.5 更多的應(yīng)用場景29515.4 本章小結(jié)296