"《大模型輕量化:模型壓縮與訓練加速》圍繞大模型輕量化這一主題,系統地闡述大模型輕量化的基本理論與實現方法,旨在提升模型的部署效率和計算性能。全書分為3部分,共10章。第1部分(第1~5章),介紹大模型的背景與面臨的問題,以及Transformer和MoE架構的基本原理;重點講解模型壓縮、訓練加速和推理優化等核心技術,包括量化、蒸餾和剪枝等,并通過實際案例驗證其效果。第2部分(第6、7章),重點介紹端側學習與計算引擎優化策略,尤其是動態Batch和異構執行的工程實現。第3部分(第8~10章),針對高性能算子庫與手工算子開發,分別以cuDNN、NEON、CUDA等為代表,揭示算子優化的細節,最后,以國產開源模型DeepSeek-V3為例,展現從訓練到推理的綜合優化方案。
《大模型輕量化:模型壓縮與訓練加速》提供全面實用的輕量化方法論,結合豐富代碼示例與實踐案例,適合從事大模型開發與優化的工程師,也為研究人員提供深入探討的素材與視角,助力解決大模型訓練與推理中的實際問題。"