數據分析原理與實踐 基于經典算法及Python編程實現
定 價:¥89.9
中 教 價:¥58.44 (6.50折)
庫 存 數: 0
叢 書 名:啟迪數字學院系列叢書
本書主要采用理論學習與實踐操作并重、上層應用與底層原理相結合的方式講解數據分析師需要掌握的數據分析基礎知識,包括基礎理論、關聯規則分析、回歸分析、分類分析、聚類分析、集成學習、自然語言處理、圖像處理和深度學習。每章內容從7個方面展開講解:包括應用場景、算法原理、核心術語、Python編程實踐、重點與難點解讀、習題和主要參考文獻及推薦閱讀書目。本書在編寫過程中不僅充分借鑒了國內外著名大學設立的相關課程、專家學者的代表性成果,以及近幾年的熱門暢銷書,而且也考慮到了國內相關課程的教學以及相關從業人員自學的需求。本書可以滿足數據科學與大數據技術、大數據管理與應用、計算機科學與技術、管理工程、工商管理、數據統計、數據分析、信息管理與信息系統、商業分析等多個專業的教師、學生的教學和學習需要,也適合廣大從事數據分析工作的人員學習參考。
一流本科課程數據科學導論負責人,數據科學50人,中國人民大學青年杰出學者朝樂門老師新作。聚焦數據分析經典算法,夯實數據分析師核心技能基礎。對算法從應用場景、算法原理、核心術語、Python編程實踐、重點與難點解讀、習題和主要參考文獻及推薦閱讀書目七個維度進行介紹,內容全面實用。
數據分析已成為現代人才必備的能力之一。然而,數據分析能力是一種綜合素質,不僅需要扎實的理論功底,而且還需要豐富的實踐經驗。在理論學習方面,數據分析師必須具備機器學習、統計學、數據分析、高等數學、線性代數、運籌學、離散數學、人工智能、數據庫、數據倉庫、數據挖掘等基礎知識;在實踐操作方面,數據分析師需要積累大量的實際動手操作經驗,尤其是基于Python語言的開源工具的數據分析實戰經驗。因此,如何有效學習數據分析理論和進行實踐已成為多數初學者所面臨的挑戰。破解這一難題的關鍵在于師資和教材。遇到一位好老師或一本好書,對于初學者而言是機遇也是幸運。我認為,一本好的數據分析圖書需要同時滿足以下條件:不僅能讀懂,而且能讀下去;能激發深入學習的興趣,增強讀者繼續學習的信心;不僅有理論知識,而且有實踐操作;融會貫通數據分析的多種基礎理論,不受限于單一理論;探討更好的學習思路,提供更豐富的實踐技巧;有特色,有智慧。但是,很多同學和朋友曾多次跟我反映,很難找到這樣的好書。對此,我都會回答:那么,等我寫一本吧!這就是我寫本書的初心和使命。本書的編寫過程是一個反復打磨的過程,融入了我和我的團隊長期從事數據科學與大數據分析相關的教學一線、科學研究和數據分析的實踐經驗,以及我應邀擔任多個企事業單位數據科學家或大數據顧問的經驗。同時,本書不僅吸收了國際一流大學及國外相關領域的標志性成果及最新進展,而且充分體現了我國數據分析人才培養的需要及未來社會人才需求的基本要求。本書由朝樂門主編,完成了頂層設計、內容選擇、知識講解和注解點評,張晨(第2章和第7章)、余欣(第3章)、劉璇(第3章、第6章)、王銳(第3章、第4章)、孫智中(第4章)、尹顯龍(第4章)、斳慶文(第4章、第5章)、肖紀文(第6章)、熊雷(第9章)、任安興(第8章)參與部分內容的編寫工作,鄧寧遠參與了校對工作,在此一并感謝。同時,本書出版得到了機械工業出版社的王斌編輯、中國人民大學、啟迪數字學院、阿里云計算有限公司產學合作協同育人項目以及本書編委會的指導與幫助,在此感謝他們的鼎力支持。本書在編寫過程中參考和引用了大量國內外文獻資料,雖盡可能地標注了出處,但也難免有遺漏。因此,也向有關作者表示衷心的感謝。由于我們的水平有限,疏漏、不足乃至錯誤之處在所難免,敬請各位專家批評指正。朝樂門2022年6月18日于中國人民大學中關村校區
朝樂門,一流本科課程數據科學導論負責人,數據科學50人,中國人民大學青年杰出學者;中國計算機學會信息系統專委員會執行委員、全國高校人工智能與大數據創新聯盟專家委員會副主任;核心期刊《計算機科學》執行編委、英文期刊Data Scienceand Informatics副主編;榮獲高等學校科學研究優秀成果獎、IBM全球卓越教師獎、留學基金委-IBM中國優秀教師獎教金等多種獎勵30余項;曾出版我國*早系統闡述數據科學的重要專著之一《數據科學》。
第1章數據分析概述1.1數據分析的基本類型1.2數據分析與機器學習1.2.1統計學與機器學習1.2.2機器學習算法的類型1.2.3機器學習中的算法、模型、參數和超參數1.2.4數據分析中的基礎算法1.2.5數據分析中的高級算法1.3數據分析的主要流程1.4數據分析中的算法選擇1.5數據分析中常用的Python包1.5.1NumPy1.5.2Pandas1.5.3Matplotlib1.5.4Seaborn1.5.5statsmodels1.5.6scikitlearn1.5.7jieba1.5.8OpenCV1.5.9TensorFlow和PyTorch1.6數據分析的注意事項1.7數據分析的現狀與趨勢1.8習題1.9主要參考文獻及推薦閱讀書目第2章關聯規則分析2.1應用場景2.2算法原理2.2.1Apriori算法的假設2.2.2Apriori算法的流程2.3核心術語2.3.1事務型數據2.3.2項集2.3.3支持度2.3.4置信度2.3.5提升度2.3.6關聯規則2.4Python編程實踐購物車分析2.4.1業務理解2.4.2數據讀入2.4.3數據理解2.4.4數據預處理2.4.5生成頻繁項集2.4.6計算關聯度2.4.7可視化2.5重點與難點解讀2.6習題2.7主要參考文獻及推薦閱讀書目第3章回歸分析3.1應用場景3.2算法原理3.2.1基本思路3.2.2評價方法3.3核心術語3.3.1回歸分析中常用的統計量3.3.2特征矩陣與目標向量3.3.3過擬合與欠擬合3.3.4高杠桿點、離群點和強影響點3.4Python編程實踐3.4.1線性回歸女性身高與體重數據分析3.4.2多元回歸廣告收入數據分析3.4.3泊松回歸航班數據分析3.5重點與難點解讀3.5.1參數解讀線性回歸算法3.5.2ZScore標準化3.5.3方差3.5.4相關系數3.5.5泊松分布3.5.6L1和L2正則化3.5.7閔氏距離、歐氏距離、曼哈頓距離和切比雪夫距離3.6習題3.7主要參考文獻及推薦閱讀書目第4章分類分析4.1應用場景4.2算法原理4.1.1KNN4.1.2貝葉斯分類4.1.3支持向量機4.1.4邏輯回歸4.3核心術語4.3.1偏差和方差之間的權衡4.3.2學習曲線4.3.3混淆矩陣4.3.4ROC曲線與AUC面積4.3.5貝葉斯理論4.3.6核函數及核技巧4.4Python編程實踐病例自動診斷分析4.4.1使用KNN算法實現4.4.2使用貝葉斯分類算法實現4.4.3使用SVM算法實現4.4.4使用邏輯回歸算法實現4.5重點與難點解讀4.5.1參數解讀KNN、貝葉斯分類、SVM和邏輯回歸算法4.5.2數據標準化處理4.5.3混淆矩陣及分類算法的評價指標4.5.4最大似然估計4.5.5判別模型與生成模型4.5.6類別不平衡問題4.5.7KD Tree與Ball Tree4.5.8GridSearchCV及其原理4.5.9GaussianNB、MultinomialNB和BernoulliNB的區別4.5.10LabelEncoder及其原理4.6習題4.7主要參考文獻及推薦閱讀書目第5章聚類分析5.1應用場景5.2算法原理5.2.1kmeans算法5.2.2聚類效果的評價5.3核心術語5.4Python編程實踐蛋白質消費特征分析5.4.1業務理解5.4.2數據讀入5.4.3數據理解5.4.4數據準備5.4.5模型訓練5.4.6模型評價5.4.7模型調參5.4.8模型預測5.5重點與難點解讀5.5.1參數解讀kmeans算法5.5.2kmeans 方法5.5.3elkan方法5.6習題5.7主要參考文獻及推薦閱讀書目第6章集成學習6.1應用場景6.2算法原理6.2.1隨機森林6.2.2XGBoost6.3核心術語6.4Python編程實踐房屋價格預測分析6.4.1使用隨機森林算法實現6.4.2使用XGBoost實現6.5重點與難點解讀6.5.1參數解讀隨機森林和XGBoost6.5.2純度最大化6.5.3數據標準化6.5.4泰勒展開式6.5.5集成學習中幾個注意事項6.6習題6.7主要參考文獻及推薦閱讀書目第7章自然語言處理7.1應用場景7.2算法原理7.2.1中文分詞7.2.2詞袋模型7.2.3Ngrams模型7.2.4TFIDF算法7.2.5文本規范化7.2.6詞性標注7.3核心術語7.4Python編程實踐2021年政府工作報告分析7.4.1業務理解7.4.2數據讀入7.4.3分詞處理7.4.4添加自定義詞匯7.4.5詞性標注7.4.6停用詞處理7.4.7詞性分布分析7.4.8高頻詞分析7.4.9關鍵詞抽取7.4.10繪制詞云圖7.5重點與難點解讀7.5.1NLTK的詞性標注7.5.2NLTK的功能模塊7.6習題7.7主要參考文獻及推薦閱讀書目第8章圖像處理8.1應用場景8.2算法原理8.2.1建模階段8.2.2檢測階段8.3核心術語8.4Python編程實踐人臉檢測分析8.4.1安裝并導入OpenCVpython包8.4.2讀取圖像文件8.4.3將RGB圖像轉換為灰度圖8.4.4人臉檢測與矩陣標識8.4.5圖像顯示8.4.6圖像保存8.5重點與難點解讀8.5.1參數解讀OpenCV8.5.2AdaBoost算法8.5.3基于OpenCV和CNN的圖像處理的對比8.5.4Haar特征和LBP特征的對比分析8.5.5AdaBoost算法和XGboost算法的主要區別8.6習題8.7主要參考文獻及推薦閱讀書目第9章深度學習9.1應用場景9.2算法原理9.2.1全連接神經網絡及其缺點9.2.2全連接神經網絡的改進及卷積神經網絡的提出9.2.3卷積神經網絡的基本思路9.2.4CNN的整體流程9.3核心術語9.4Python編程實踐手寫數字識別分析9.4.1業務理解9.4.2數據讀入及理解9.4.3數據準備9.4.4數據理解9.4.5定義CNN的學習框架9.4.6執行CNN學習及模型訓練9.4.7模型評價9.4.8模型預測9.5重點與難點解讀9.5.1參數解讀CNN算法9.5.2機器學習中的性能與可解釋性的矛盾9.5.3隨機梯度下降及學習率9.5.4Onehot encoding9.5.5端到端的學習9.5.6CNN與其他深度學習方法的區別及聯系9.5.7CNN算法設置超參數的經驗法則9.6習題9.7主要參考文獻及推薦閱讀書目附錄習題參考答案