“數(shu)(shu)據(ju)科(ke)(ke)學(xue)家(jia)”在2009年由Natahn Yau首次提出(chu),其(qi)概念是采用科(ke)(ke)學(xue)方(fang)法、運用數(shu)(shu)據(ju)挖掘(jue)工具(ju)尋找新的(de)數(shu)(shu)據(ju)洞(dong)察(cha)的(de)工程師。數(shu)(shu)據(ju)科(ke)(ke)學(xue)家(jia)集技術專家(jia)與(yu)數(shu)(shu)量分析(xi)師的(de)角色(se)于(yu)一身,與(yu)傳(chuan)統(tong)數(shu)(shu)量分析(xi)師相(xiang)比:后者通(tong)常(chang)利用企業的(de)內(nei)部數(shu)(shu)據(ju)進行(xing)分析(xi),以支(zhi)持(chi)領導層的(de)決策(ce);而前者更多(duo)的(de)是通(tong)過關注面向用戶的(de)數(shu)(shu)據(ju)來創造不同特性的(de)產品和流程,為客戶提供有意義(yi)的(de)增(zeng)值(zhi)服務。
面(mian)向客戶的性質決定(ding)了大(da)部(bu)分數據科學(xue)家(jia)擔任公司(si)產(chan)品開發或營(ying)銷部(bu)門的職(zhi)位,或是效力于(yu)首(shou)席技(ji)(ji)術官(guan)。那么數據科學(xue)家(jia)需要具備哪些(xie)核(he)心能(neng)力呢?科技(ji)(ji)記者Derrick Harris在其文章中介紹了數據科學(xue)家(jia)應具備的一些(xie)技(ji)(ji)能(neng)。
他表示,在你詢問別(bie)人(ren)什么是數(shu)據(ju)(ju)科學(xue)(xue)(xue)家,或者(zhe)數(shu)據(ju)(ju)科學(xue)(xue)(xue)家是做(zuo)什么的(de)時候,很(hen)容易發現(xian):“數(shu)據(ju)(ju)科學(xue)(xue)(xue)家”其(qi)實是從“大數(shu)據(ju)(ju)”引發的(de)術語(yu)混(hun)亂(luan)中(zhong)形成的(de)。數(shu)據(ju)(ju)科學(xue)(xue)(xue)的(de)核心(xin)能(neng)力(li)被(bei)定義為(wei):SQL、統計、預測建模和編程、Python等,這些聽起來很(hen)合理。但是很(hen)快(kuai)就(jiu)有更多名詞添加到其(qi)中(zhong):Hadoop/MapReduce、機器學(xue)(xue)(xue)習、可視化,甚(shen)至還有傳統的(de)數(shu)學(xue)(xue)(xue)、物理、計算機科學(xue)(xue)(xue)等類(lei)似能(neng)力(li)。
許多人呼吁專業領(ling)域、商業智(zhi)慧、創造力(li)及(ji)表(biao)達能(neng)力(li)也是(shi)(shi)同(tong)樣(yang)重要的(de)(de)。一(yi)個數(shu)據(ju)科學(xue)家(jia)(jia)(jia)不能(neng)只擅長數(shu)字(這(zhe)種人被稱為統計(ji)學(xue)家(jia)(jia)(jia)或分析師),也要能(neng)夠理解(jie)業務(wu)(wu):什么(me)樣(yang)的(de)(de)數(shu)據(ju)或結果才是(shi)(shi)有參(can)考性的(de)(de);能(neng)夠找到(dao)新的(de)(de)數(shu)據(ju)集并(bing)為其創造新產(chan)品;然后能(neng)夠讓CEO們理解(jie)這(zhe)一(yi)切。這(zhe)是(shi)(shi)一(yi)個艱巨的(de)(de)任務(wu)(wu),這(zhe)個世界上這(zhe)類人是(shi)(shi)很少的(de)(de)。作為頂(ding)尖的(de)(de)數(shu)據(ju)科學(xue)家(jia)(jia)(jia),不要求他們對環境做出什么(me)積極的(de)(de)改變,但是(shi)(shi)需要他們嘗試(shi)做一(yi)些真正先進(jin)的(de)(de)東西,幫助大家(jia)(jia)(jia)更好(hao)的(de)(de)解(jie)決業務(wu)(wu)上的(de)(de)問題(ti)。
數據科學(xue)家的六(liu)種能力:
1.對數(shu)據的(de)提(ti)取與(yu)綜合(he)能力(li);
2.統計分(fen)析能力;
3.數據洞察(cha)與(yu)信息(xi)挖掘能力;
4.開發軟件(jian)能(neng)力;
5.網絡編(bian)程能力;
6.數據的可視(shi)化表示能力。
數據科學家涉及學科:
1.計算(suan)機科學:數據(ju)(ju)(ju)獲取(qu)、數據(ju)(ju)(ju)解析、數據(ju)(ju)(ju)存放、和數據(ju)(ju)(ju)安全
2.數理統計學:數據(ju)(ju)分析、數據(ju)(ju)過濾、數據(ju)(ju)挖掘、和數據(ju)(ju)優化
3.圖形(xing)(xing)設計學:顯示(shi)數據結果,比如將數據表達成三維圖形(xing)(xing),以便更好地理解和利(li)用
4.人(ren)機交互學:在用戶和(he)數據之間(jian)建立(li)有機聯(lian)系,使得人(ren)對數據的使用更方便