伴隨著大數據時代的發展,數據價值的挖掘以及產品化逐漸被重視起來。本書作為該領域的入門教程,打破以往的數據工具與技術的介紹模式,憑借作者在大數據價值探索過程中的所感所悟,以故事的形式和讀者分享一個又一個的數據經歷,引人深思、耐人尋味。全書共9章,第1~2章介紹數據情懷與數據入門;第3~6章討論大數據挖掘相關的一系列學習體系;第7~9章為實踐應用與數據產品的介紹。讓所有學習大數據挖掘的朋友清楚如何落地,以及在整個數據生態圈所需要扮演的角色,全面了解數據的上下游。
前言
這是一本關于大數據挖掘與數據產品的參考讀物,為了使盡可能多的讀者通過本書對大數據應用有所了解,筆者以個人所感所悟引導初學者正確學習大數據挖掘。但是基礎知識歸納、開發環境部署、算法原理的介紹都是不可避免的。因此,本書更適合于工作經驗在3年以內的數據挖掘工程師,以及轉型入門做數據挖掘的人士,或者是對數據產品感興趣的追逐者閱讀。
全書共9章,第1~2章介紹數據情懷與數據入門;第3~6章討論大數據挖掘相關的一系列學習體系;第7~9章為實踐應用與數據產品的介紹。
本書在內容上盡可能以故事的形式,輕松愉快地介紹大數據、數據挖掘與數據產品實踐應用的各方面內容。但作為學習方向性的引導讀物且考慮到本書主題,很多常見的算法、技術知識點未能覆蓋,畢竟相關的內容在網上已經有很多了,但大多數內容只是“術”,而缺乏“神”。所以本書才另尋思路,以筆者的真實經歷告訴讀者在學習過程中可能會遇到的“坑”,以及該如何正確學習。因此,建議有興趣的讀者進一步鉆研探索,結合更多的學習資料實踐應用。
筆者認為,大數據時代的發展,已經逐漸從基礎性的建設、數據的積累,慢慢轉變成對于數據價值的探索以及業務痛點的落地解決。因此,建議更多的數據挖掘學習者要結合業務場景思考,多了解數據生態圈的上下游,認清數據產品價值的重要性,以及知曉自身在整個數據流程中所扮演的角色的重要性。閱讀這些內容的意義遠遠超過對數據分析工具、算法模型的熟練度的意義。
大數據、人工智能發展極為迅速,但是數據價值的輸出仍然存在瓶頸,極大的原因是由于廣大追逐者在對數據探索時走向了誤區,把更多心思放在了“玩轉數據”,而不是真正地解決業務痛點。所以,希望閱讀本書的每一位讀者都能夠從筆者的過往經歷和所感所悟中感受到數據之禪。參與本書編寫的人員還有王勇老師,在此表示感謝。
筆者自認自己還有許多需要學習的地方,同時時間和精力有限,書中不足之處在所難免,望廣大讀者批評指正,不勝感激。
收起全部↑
汪榕(@樂平汪二),一個充滿大數據情懷的程序員,致力于分享自己的所感所悟,為數據生態圈的健康發展貢獻自己一份力量。擁有6年的業務建模經驗,曾率隊奪得全國大學生數據建模一等獎,并代表重慶高校隊伍與全國優秀名校一起參與深圳夏令營建模比賽。
目前從事互聯網金融行業,專注于大數據挖掘與數據產品。同時也是大數據挖掘雜談社區的創建人,匯集了全球各地的數據愛好者,共同探索數據的價值。
數據之禪
大數據不是新概念,它一直存在,且不以人的意識為轉移。
大數據的價值并不在于積累,而在于用更全面的角度去解讀事物本身。
業務場景對于數據而言極其重要,它決定了你的分析思路。
當你沉迷于令人眼花繚亂的技術時,要記得數據才是最本質的一切。
浮躁時,找個時間去觀察數據,你會得到意想不到的驚喜。
對待數據,要有敬畏之心。因為假的真不了,真的篡改不了。
不要試圖去猜測數據,在你沒讀懂時,肯定還有一層層迷霧遮擋著你。
世間的萬物皆有規律,有因有果,數據的表現也是這個道理。
要做好一個數據人,就要懂得沉淀,這樣才能透過現象看到本質。
數據情懷
談起大數據,知曉它的人都會說:勢頭猛、高科技、待遇好。“圈外”的人,迫不及待想一頭扎進來。殊不知,“圈里”的大部分人卻在坐以待斃,茫然無方向。
這些年,筆者接觸過很多工作,如數據開發、數據分析、數據挖掘和產品經理,但都與數據產品相關,從來沒改變過。近些年,隨著“數據”概念的火熱,越來越多的人涌向數據這個領域。
數據情懷這股勁
自始至終,國內真正領悟到大數據產品精髓核心的人并不多,有價值的數據產品更是屈指可數。難道大數據的價值在一款跨時代的數據產品身上這么難體現嗎?歸根結底,關鍵性因素是“數據情懷”惹的禍。為什么這樣說?很多身處大數據領域的人,不管是做培訓,還是做產品,缺乏真正意義上的那一股勁——“數據情懷”,而這股勁,直接影響著你在為這個領域的蓬勃發展貢獻多大的力量。
對數據情懷的理解
數據情懷都體現在哪些方面?概括起來,有以下幾個詞:
初心
使命感
快感
共鳴與傲嬌
這是筆者對待大數據的一種態度。下面分別講幾個故事。
初心:不忘初心,方得始終。
有位朋友向我提過這樣的問題:你是如何趕上機遇,選擇這個領域的?是熱愛,還是偶然?我很理解這個問題被提出的出發點,因為我知道現在大數據圈子里有這樣一個現象:
很大一群“準大數據人”,正在培訓班里接受培訓或者自己學習。
一部分轉型做數據開發的大數據人,工作年限在5年以上,很多人是從Java開發轉行過來做大數據框架的,真正接觸大數據的時間不會超過兩年。
一部分轉型做數據倉庫或數據分析的大數據人,是從傳統BI數據轉過來的。
這樣轉型,除職業發展中的規劃外,也有薪酬水平的原因,很幸運自己就算是其中一個。
故事一:筆者與數學的藕斷絲連
筆者是學通信專業的,從小到大數學都很厲害,一路以來,轉變過很多方向,都是在尋找一個答案——學數學的意義。
筆者在上大學以前,數學一直不錯。上了大學后,還曾經熬夜鉆研過哥德巴赫猜想,十分興奮。但后來想明白了,數學公式的計算、求證和推導,并不是我感興趣的。在大學有機會接觸數學建模,頃刻間覺得它是應用數學在實踐中的真正應用,是一種知識的融合和思考問題的突破。筆者參加了11次比賽,除在深圳參加夏令營遺憾地獲得了三等獎,最后一次參加比賽獲得美國建模二等獎外,剩余都是一等獎(其中也包括全國大學生數學建模一等獎)。
這時大數據時代來臨,筆者覺得從大數據中或許能夠找到數學乃至數據真正的意義,這的確是筆者喜歡瞎折騰的一個初心,太想在自己身上找到數學存在的意義了。所以,當時第一個想法是玩轉數學。剛開始總是圍繞數據源打轉,做一些類似阿里指數那樣的大數據報表,總想把各種大數據生態圈底層的開發技術都了解到,但這么做費力不討好,也沒有體現出大數據真正的價值在何處。后來,在從事大數據領域工作的過程中,又轉變了一些方向,有幸多次參與對一家美妝公司,甚至是一些高層的調研。花了一個多月的時間,慢慢領悟到業務真正需要數據為它做什么和業務方需要什么樣的數據產品。數據真正的價值潛力很大,只是還很少有人去探索成功罷了。
這是自己目前折騰的事,至少這一路的初心,都是在尋找數學乃至數據的價值。并不是每個從事大數據工作的人,都必須要像筆者這樣折騰,但至少你需要思考一下,當初選擇進入這個圈子是自己的初心,還是執著,或者只是追潮流?
使命感:人這一輩子,能折騰的事不多,用心做好每一件事。
故事二:筆者的朋友圈,一些活躍的、典型的數據人
在筆者的朋友圈有位特別專注于智能金融的“捷哥”,一個從國外回來創業,想在互聯網金融這個行業探索數據價值的人;有天天吟詩作樂,深深陶醉在大數據情懷的高總,同時他也有著大數據人才思維培養的重任;有從事自由職業,卻天天飛這飛那做培訓的黃老師,一直重視著業務與數據緊密結合,推廣著自己寫的書;有想在培訓行業做出一番貢獻,一直默默籌備著機會的老李,充滿了情懷,立志于打破目前大數據培訓的混亂局面。
這些人充滿了使命感,即使迷途惆悵,也堅信光明就在遠方。我喜歡這樣的一群人,只是這樣的人在大數據的圈子里面太少太少了。
故事三:特立獨行的數據人
有些特立獨行的數據人踏入大數據圈子僅僅是為了轉型,為了薪酬,為了養老,并不想真正做出點什么。他們擁有一定的專業技能,但總在小圈子里鉆,認為不斷學習技術才是存在感,卻不知技術本身真正的意義和價值,難應用于業務。
快感:一種想到就會小抽搐,跌宕起伏的興奮。
故事四:最近上線的數據產品,讓筆者充滿了快感
幾年前,領導私下問每個新人,對工作有什么規劃,如下類似的答案從別人口中說出:想做資深Hadoop運維工程師、架構師、數據倉庫大牛等。筆者的回答是:想做一款數據產品。結果被笑不切 實際(卻沒人知道,筆者當初為了面試數據產品經理,整整準備了兩大頁自己的構思和知識點的整合)。前些日子,由于個人發展方面的原因,筆者跳槽了,在面試過程中,還是有人問職業規劃的問題。筆者認為,會有人相信了,所以說了自己這幾年做了很多準備,就是想以后成為數據產品經理,做一款有自己特色的大數據產品。結果出乎意料,都被一一質疑,以及婉拒了。后面我變聰明了,改口說要成為資深數據挖掘師,沉醉于技術海洋里。聽者興奮,說者無心。很幸運,來目前這家公司的這段時間里,花了半年多的時間,真切地擁有屬于自己特色的數據產品了。從無到有,從需求的調研和分析、系統功能的規劃和確定,到前后端功能的開發、推動和聯調。
共鳴與傲嬌:我們天生傲嬌,卻在渴望尋找著共鳴的聲音。
老羅在一次發布會上提到了傲嬌這個詞,那種由心而然的底氣很強烈,每次看發布會直播,筆者都能深深感受到,因為在大數據圈子里也有這樣的一面。就像錘子手機,從創辦至今,雖然不被一些人看好,但卻在辦每一次發布會時引起全國、全世界的關注。
能感受到老羅內心里的渴望,渴望共鳴的聲音。即使聲音很弱、很小,但卻急切期待懂他的人能夠共鳴,老羅找到了這樣一些共鳴。每次聽他發布會的“錘粉”們,因為懂他,也都會替他緊緊捏著一把汗。
回到大數據圈子里,每一個圈子里面的人,都在做著改變未來世界的事,都有可能引領大數據科技與生活的完美融合,不管是互聯網+、生物醫療、基因工程、智能家居還是人工智能等,太多新領域充滿了未知,充滿了使命感。所以,我們真正天生傲嬌,每個人都是自己的英雄。
……