本書第1章介紹ApacheKylin的歷史、技術原理和產品定位,幫助用戶了解何時和為何使用Kylin。第2章通過一個具體的案例快速入門,講解Kylin核心概念、Cube建模和SQL連接查詢這些基本使用。第3、4章講解增量構建和進一步的流式構建,是大多數案例典型配置。第5、6章是針對查詢和可視化、Cube調優的兩個專門章節,適合較高級的用戶。第7章是一系列有行業特點的具體案例分析,貫穿之前的所有概念。第8、9章講ApacheKylin的擴展和企業級高級功能,技術性較強,會有較多的代碼示例。第10章講運維管理,從安裝配置、監控維護到常見的問題和修復。全書后兩章談ApacheKylin開源社區和項目發展規劃。
“麒麟出沒,必有祥瑞。”
——中國古諺語“于我而言,與Apache Kylin團隊一起合作使Kylin通過孵化成為頂級項目是非常激動人心的,誠然,Kylin在技術方面非常振奮人心,但同樣令人興奮的是Kylin代表了亞洲國家,特別是中國,在開源社區中越來越高的參與度。”
-Ted Dunning Apache孵化項目副總裁,MapR首席應用架構師今天,隨著移動互聯網、物聯網、AI等技術的快速興起,數據成為了所有這些技術背后最重要,也是最有價值的“資產”。如何從數據中獲得有價值的信息?這個問題驅動了相關技術的發展,從最初的基于文件的檢索、分析程序,到數據倉庫理念的誕生,再到基于數據庫的商業智能分析。而現在,這一問題已經變成了如何從海量的超大規模數據中快速獲取有價值的信息,新的時代、新的挑戰、新的技術必然應運而生。
在數據分析領域,大部分的技術都誕生在國外,特別是美國,從最初的數據庫,到以Hadoop為首的大數據技術,再到今天各種DL( Deep Learning)、AI,等等。但我國擁有著世界上獨一無二的“大”數據,最多的人口、最多的移動設備、最活躍的應用市場、最復雜的網絡環境等,應對這些挑戰,我們需要有自己的核心技術,特別是在基礎領域的突破和研發方面。今天,以Apache Kylin為首的各種來自中國的先進技術不斷涌現,甚至在很多方面都大大超越了國外的其他技術,這一點也彰顯了中國的技術實力。
自Hadoop選取大象伊始,上百個項目,以動物居之者為多,而其中唯有Apache Kylin(麒麟)來自中國,在眾多項目中分外突出。在全球最大的開源基金會-Apache軟件基金會(Apache Software Foundation,ASF)的1 60多個頂級項目中,Apache Kylin是唯一一個來自中國的頂級開源項目,與Apache Hadoop、Apache Spark、Apache Kafka、Apache Tomcat、?Apache Struts、Apache Maven等頂級項目一起以The Apache Way構建了開源大數據領域的國際社區,并拓展了生態系統。
大數據與傳統技術最大的區別就在于數據的體量對查詢帶來的巨大挑戰。從最早使用大數據技術來做批量處理,到現在越來越多地需要大數據平臺也能夠如傳統數據倉庫技術一樣支持交互式分析。隨著數據量的不斷膨脹,數據平民化的不斷推進,低延遲、高并發地在Hadoop之上提供標準SQL查詢的能力成為必須要攻破的技術難題。而Apache Kylin的誕生正是基于這個背景,并成功地完成了很多人認為不可能實現的突破。Apache Kylin最初誕生于eBay中國研發中心(坐落于上海浦東新區的德國中心),在2013年9月底,eBay中國研發中心的技術人員開始對此進行POC并組建團隊,經過一年的艱苦開發和測試,于2014年9月30日使其正式上線,并在第二天(2014年10月1日)正式開源。
在這個過程中,使用何種技術,如何進行架構,如何突破那些看似無法完成的挑戰,整個開發團隊和用戶一起經歷了一段艱難的歷程。今天呈現出的Apache Kylin已經經歷了上千億乃至上萬億規模數據量的分析請求,以及上百家公司的實際生產環境的檢驗,成為各個公司大數據分析平臺不可替代的重要部分。本書將從Apache Kylin的架構和設計、各個模塊的使用、與第三方的整合、二次開發及開源實踐等方面進行講解,為各位讀者呈現最核心的設計理念和哲學、算法和技術等。
Apache Kylin社區的發展不易,自2014年10月開源到今天已有兩年,從最初的幾個人發展到今天的幾十個貢獻者,國內外上百家公司在正式使用,連續兩年獲得InfoWorld BossieAwards最佳開源大數據工具獎。來自核心團隊、貢獻者、用戶、導師、基金會等的幫助和無私的奉獻鑄就了這個活躍的社區,也使得Apache Kylin得以在越來越多的場景下發揮作用。
現在,由Apache Kylin核心團隊撰寫了本書,相信能更好地將相關的理論、設計、技術、架構等展現給各位朋友,希望能夠讓更多的朋友更加充分地理解Kylin的優點和使用的場景,更多地挖掘出Kylin的潛力。同時也希望本書能夠鼓勵并吸引更多的人參與Kylin項目和開源項目,影響更多人貢獻更多的項目和技術到開源世界來。
韓卿Apache Kylin聯合創建者及項目委員會主席2016年10月
查看全部↓
本書將由李揚為首的麒麟技術團隊撰寫。團隊是Apache Kylin的主創團隊,是了解麒麟技術的一個團隊。
李揚是大數據架構師和工程師,專注大數據分析技術。他是Apache Kylin管理委員會成員,也是Kyligence Inc.(一家專業提供大數據商務智能服務的創業公司)創始人之一。李揚是Apache Kylin主創團隊的架構師和技術負責人,在eBay期間從2014年開始開發Kylin項目。之前,李揚在IBM工作8年,在摩根士丹利工作2年。在IBM期間,他是“杰出技術貢獻獎”的獲獎者,曾擔任InfoSphere BigInsights的技術負責人,負責Hadoop開源產品架構。在摩根士丹利期間,李揚擔任副總裁,負責全球監管報表基礎架構。
推薦序推薦序二推薦序三推薦序四前言第1章Apache Kylin概述
1.1背景和歷史
1.2ApacheKyin的使命
1.3 ApacheKylin的工作原理
1.3.1維度和度量簡介
1.3.2 Cube和Cuboid
1.3.3工作原理 。
1.4 ApacheKylin的技術架構
1.5 ApacheKylin的主要特點
1.5.1標準SQL接口
1.5.2支持超大數據集
1.5.3亞秒級響應
1.5.4可伸縮性和高吞吐率
1.5.5 BI及可視化工具集成
1.6與其他開源產品比較
1.7小結第2章快速入門
2.1核心概念
2.1.1數據倉庫、OLAP與BI
2.1.2維度和度量
2.1.3事實表和維度表
2.1.4 Cube、Cuboid和
Cube Segment
2.2在Hive中準備數據
2.2.1星形模型
2.2.2維度表的設計
2.2.3 Hive表分區
2.2.4了解維度的基數
2.2.5 SampleData
2.3設計Cube
2.3.1導入Hive表定義
2.3.2創建數據模型
2.3.3創建CubP
2.4構建Cube
第3章增量構建
第4章流式構建
第5章查詢和可視化
第6章Cube優化
第7章應用案例分析
第8章擴展Apache Kyin
第9章Apache Kyin的企業級功能
第10章運維管理
第11章參與開源
第12章Apache Kyin的未來
查看全部↓