《DeepSeek圖解:大模型是怎樣構建的》是一本系統講解DeepSeek開發的技術指南,傳授大家開發DeepSeek模型的基礎知識。旨在幫助讀者深入理解DeepSeek的工作機制,并掌握其在大規模預訓練、推理優化及應用開發中的關鍵技術。
全書共10章,依次介紹文本預處理、特征提取、文本分類與情感分析、語言的生成、機器翻譯、DeepSeek的核心Transformer模型、多模態模型的架構和訓練、預訓練模型的訓練與微調、DeepSeek API應用開發實戰,以及基于DeepSeek的Web知識庫系統。
《DeepSeek圖解:大模型是怎樣構建的》不僅適合對大模型感興趣的技術人員閱讀,也適合人工智能研究者、開發者及行業從業者等閱讀。
(1)圖解奧義 :思維導圖詳解大模型構建之道,開啟AI智能新時代
(2)全面覆蓋:從文本預處理到知識庫系統,全鏈路解析DeepSeek核心技術
(3)實戰演練:理論與實戰交織,深度剖析大模型構建的關鍵環節
(4)聚焦未來:聚焦Transformer、多模態與MoE,助你掌握未來智能發展的密碼
張治政
----------------------------
張治政,中國海洋大學計算機碩士,哈爾濱工業大學通信博士,百度云研發工程師,百度大模型工程師,在大規模機器學習、深度學習、數據搜索、行業垂直應用、研發管理等領域擁有豐富經驗。在企業智能化轉型、業務線上化經營、擁有豐富的大規模搜索架構、個性化推薦架構、機器學習系統架構經驗和技術團隊管理經驗。現在從事城市大數據中心的開發和建設工作,將深度學習運用到數字經濟等領域。
薛棟
----------------------------
薛棟,華東理工大學信息科學與技術學院副教授、碩士生導師,德國慕尼黑工業大學工學博士,上海市高層次青年人才計劃上海市浦江人才計劃獲得者。所在的X-D Lab(心動實驗室)致力于人工智能技術的探索與研究,已發布多個垂直領域的大模型項目,包括心理領域的MindChat(漫談)、醫療領域的 Sunsimiao(孫思邈)、教育領域的 GradChat(錦鯉)。
公鑫
----------------------------
公鑫,東南大學副教授,香港大學控制工程專業博士,研究領域主要聚焦集群智能,包括分布式控制、估計與優化、基于分布式估計和數字孿生的復合網絡攻擊與防御等。現任中國指揮與控制學會高級會員和青工委委員、中國自動化學會會員、中國計算機學會會員和網絡彈性專委會委員、IEEE Member,并在多個國際期刊和會議上擔任審稿人和分會場主席,曾獲多項杰出審稿人獎。
目錄
第1章 明月松間照,清泉石上流:文本預處理
1.1? 分詞
1.1.1 分詞的重要性和基本原理
1.1.2 基于空格的分詞
1.1.3 基于標點符號的分詞
1.2? 詞干化與詞形還原
1.2.1 詞干化與詞形還原的區別
1.2.2 詞干化
1.2.3 詞形還原
1.3? 去除停用詞
1.3.1 什么是停用詞
1.3.2 基于詞匯列表的去除
1.3.3 基于詞頻的去除
1.3.4 TF-IDF 方法去除
1.3.5 機器學習方法去除
1.4? 數據清洗和處理
1.4.1 處理缺失值
1.4.2 異常值檢測與處理
1.4.3 處理重復數據
第2章 大音希聲,大象無形:特征提取
2.1? 特征提取介紹
2.1.1 特征在大模型中的關鍵作用
2.1.2 特征提取與數據預處理的關系
2.2? 特征選擇
2.2.1 特征選擇的必要性
2.2.2 特征選擇的方法
2.3? 特征抽取
2.3.1 特征抽取的概念
2.3.2 主成分分析
2.3.3 獨立成分分析
2.3.4 自動編碼器
2.4? 嵌入
2.4.1 嵌入介紹
2.4.2 使用嵌入層進行特征提取
2.4.3 Word2Vec 模型
2.4.4 GloVe 模型
2.5? 詞袋模型
2.5.1 實現詞袋模型的步驟
2.5.2 詞袋模型的限制與改進
2.6? TF-IDF 值
2.6.1 什么是 TF-IDF
2.6.2 使用 TF-IDF 方法提取文本特征
2.6.3 TF-IDF 方法與詞袋模型的比較
第3章 人有悲歡離合,月有陰晴圓缺:文本分類與情感分析
3.1? 樸素貝葉斯分類器
3.1.1 樸素貝葉斯分類器的基本概念
3.1.2 樸素貝葉斯分類器的應用場景
3.2? 支持向量機
3.2.1 SVM 介紹
3.2.2 線性 SVM 與非線性 SVM
3.3? 隨機森林
3.3.1 隨機森林介紹
3.3.2 隨機森林的應用場景
3.4? 卷積神經網絡
3.4.1 CNN 的發展背景
3.3.2 CNN 的結構
3.3.3 文本特征提取與分類
3.5? 循環神經網絡
3.5.1 循環神經網絡介紹
3.5.2 使用 TensorFlow 框架制作情感分析模型
3.6? 遞歸神經網絡
3.6.1 遞歸神經網絡的主要特點
3.6.2 RvNN
第4章 白日依山盡,黃河入海流:語言的生成
4.1? 基于規則的生成
4.1.1 基于規則的生成方法介紹
4.1.2 基于規則的生成方法在 NLP 中的應用場景
4.2? 基于統計的生成
4.2.1 基于統計的生成方法介紹
4.2.2 N-gram 模型
4.2.3 隱馬爾可夫模型
4.2.4 最大熵模型
4.3? 基于神經網絡的生成
4.3.1 基于神經網絡的生成方法
4.3.2 生成對抗網絡
4.4? 注意力機制
4.4.1 注意力機制介紹
4.4.2 注意力機制的變體
4.5? 序列到序列模型
4.5.1 Seq2Seq 模型介紹
4.5.2 使用 Seq2Seq 模型實現翻譯系統
第5章 海內存知己,天涯若比鄰:機器翻譯
5.1? 統計機器翻譯
5.1.1 SMT 介紹
5.1.2 SMT 模型
5.1.3 SMT 的訓練和解碼
5.2? 神經機器翻譯
5.2.1 NMT 的特點和工作流程
5.2.2 NMT 的訓練和解碼
5.2.3 基于 NMT 的簡易翻譯系統
第6章 會當凌絕頂,一覽眾山小:DeepSeek 的核心 Transformer 模型
6.1? Transformer 模型介紹
6.1.1 Transformer 模型的基本概念
6.1.2 Transformer 模型的優勢
6.1.3 Transformer 模型的核心組件
6.1.4 機器翻譯任務中的 Transformer 模型
6.2? 多頭注意力機制和多頭潛在注意力
6.2.1 多頭注意力機制
6.2.2 多頭潛在注意力
6.3? 混合專家架構
6.3.1 MoE 架構介紹
6.3.2 MoE 架構的特點
6.3.3 MoE 架構的應用
6.3.4 DeepSeek 中的 MoE 架構介紹
第7章 大漠孤煙直,長河落日圓:多模態模型的架構和訓練
7.1? 多模態技術簡介
7.1.1 多模態介紹
7.1.2 多模態技術的發展歷史
7.2? DeepSeek 的多模態大模型
7.2.1 DeepSeek 多模態大模型的發展歷程
7.2.2 架構介紹
7.2.3 多模態理解
7.2.4 視覺生成路徑
7.2.5 自回歸 Transformer 模型
7.2.6 三階段訓練策略
7.3? 訓練策略
7.3.1 多任務學習
7.3.2 全量微調
7.3.3 對比學習
7.3.4 參數高效微調
7.3.5 遷移學習
7.3.6 人類反饋強化學習
7.3.7 動態學習率調整
7.3.8 監督微調
第8章 學而時習之,不亦說乎:預訓練模型的訓練和微調
8.1? 預訓練模型的訓練和微調介紹
8.1.1 預訓練
8.1.2 微調
8.1.3 預訓練與微調的對比
8.2? CLIP 模型的微調
8.2.1 實例介紹
8.2.2 創建文本和圖像配對數據集
8.2.3 創建模型
8.2.4 訓練模型
8.2.5 模型微調
8.2.6 調試運行
8.3? 使用 KTO 微調 DeepSeek-R1-Distill Qwen 模型
8.3.1 KTO 的概念
8.3.2 DeepSeek-R1-Distill-Qwen 模型介紹
8.3.3 具體實現
第9章 千帆過盡,始見真章:DeepSeek API 應用開發實戰
9.1? DeepSeek API 開發基礎
9.1.1 DeepSeek API 介紹
9.1.2 DeepSeek API 基本教程
9.1.3 基于 DeepSeek API 的對話應用程序
9.2? DeepSeek 的基本接入實戰
9.2.1 Chatbox 接入實戰
9.2.2 NextChat 接入實戰
9.3? 社交媒體工具接入實戰
9.3.1 基于 DeepSeek 的微信聊天 機器人
9.3.2 基于 DeepSeek 的 QQ 機器人
9.4? 將 DeepSeek 接入到 Office
9.4.1 OfficeAI 介紹
9.4.2 在 Word 中應用 DeepSeek
9.4.3 在 Excel 中應用 DeepSeek
9.5? 將 DeepSeek 接入 VS Code
9.5.1 Continue 插件基礎
9.5.2 將 DeepSeek 接入 VS Code 316
9.5.3 調用 DeepSeek 生成代碼
9.5.4 DeepSeek 代碼生成和補全
第 10 章 紙上得來終覺淺,絕知此事要躬行:基于 DeepSeek 的 Web 知識庫系統
10.1? 項目介紹
10.1.1 背景介紹
10.1.2 市場需求
10.1.3 主要功能
10.1.4 技術棧
10.2? 配置文件和基礎工具函數
10.2.1 導航欄配置
10.2.2 基礎工具函數
10.2.3 API 交互工具函數
10.3? 組件
10.3.1 頁面布局組件
10.3.2 聊天組件
10.4? 調試運行