本書總計13章。第1章講解AI與大模型時代對基礎架構的需求;第2章講解軟件程序與專用硬件的結合;第3章剖析GPU的硬件架構;第4章講解GPU服務器的設計與實現;第5章講解機器學習所依托的I/O框架體系;第6章講解GPU集群的網絡設計與實現;第7章講解GPU板卡算力調度技術;第8章講解GPU虛擬化調度方案;第9章講解GPU集群的網絡虛擬化設計與實現;第10章講解GPU集群的存儲設計與實現;第11章講解如何基于云原生技術為機器學習應用設計與實現更好的開發和運行平臺;第12章講解基于云平臺的GPU集群的管理與運營;第13章基于一個服務機器學習的GPU計算平臺落地案例,展示如何針對機器學習應用進行需求分析、設計與實現。