“數(shu)(shu)據(ju)(ju)科學(xue)家(jia)”在2009年由Natahn Yau首次提(ti)出,其(qi)概念是采用科學(xue)方法、運用數(shu)(shu)據(ju)(ju)挖掘(jue)工具尋找新的(de)(de)(de)(de)數(shu)(shu)據(ju)(ju)洞(dong)察的(de)(de)(de)(de)工程師。數(shu)(shu)據(ju)(ju)科學(xue)家(jia)集技術(shu)專家(jia)與(yu)數(shu)(shu)量分(fen)析師的(de)(de)(de)(de)角色于一身,與(yu)傳統(tong)數(shu)(shu)量分(fen)析師相比(bi):后者(zhe)通常(chang)利用企業的(de)(de)(de)(de)內部數(shu)(shu)據(ju)(ju)進行分(fen)析,以支持領導層的(de)(de)(de)(de)決策;而前者(zhe)更多的(de)(de)(de)(de)是通過關注面向用戶的(de)(de)(de)(de)數(shu)(shu)據(ju)(ju)來創造不同特性的(de)(de)(de)(de)產品和流程,為客戶提(ti)供有意義的(de)(de)(de)(de)增值(zhi)服務(wu)。
面(mian)向客戶(hu)的(de)性質決定了大部(bu)分(fen)數(shu)據(ju)科學家擔(dan)任公司產品開發(fa)或(huo)營銷部(bu)門(men)的(de)職(zhi)位(wei),或(huo)是效力于首席技(ji)(ji)術官。那么數(shu)據(ju)科學家需(xu)要具備(bei)(bei)哪些(xie)核心能(neng)力呢(ni)?科技(ji)(ji)記者Derrick Harris在其文章(zhang)中介紹了數(shu)據(ju)科學家應(ying)具備(bei)(bei)的(de)一些(xie)技(ji)(ji)能(neng)。
他表(biao)示,在你詢問別人什么是數(shu)據(ju)(ju)科(ke)學(xue)(xue)家,或者數(shu)據(ju)(ju)科(ke)學(xue)(xue)家是做什么的(de)時(shi)候,很(hen)容易發現:“數(shu)據(ju)(ju)科(ke)學(xue)(xue)家”其實是從“大數(shu)據(ju)(ju)”引發的(de)術(shu)語混亂(luan)中(zhong)形成的(de)。數(shu)據(ju)(ju)科(ke)學(xue)(xue)的(de)核心(xin)能力被定義(yi)為(wei):SQL、統計(ji)、預(yu)測建(jian)模和編程、Python等(deng)(deng),這些聽(ting)起(qi)來很(hen)合理。但(dan)是很(hen)快就有(you)更(geng)多名詞添加到其中(zhong):Hadoop/MapReduce、機(ji)器學(xue)(xue)習、可視化,甚至(zhi)還有(you)傳統的(de)數(shu)學(xue)(xue)、物(wu)理、計(ji)算機(ji)科(ke)學(xue)(xue)等(deng)(deng)類似能力。
許(xu)多(duo)人呼吁(yu)專(zhuan)業(ye)領域、商業(ye)智慧、創造力及表(biao)達能(neng)力也是同樣(yang)重要(yao)的(de)(de)(de)(de)。一個數(shu)據(ju)科學家不能(neng)只擅長數(shu)字(這種人被稱為(wei)統計(ji)學家或(huo)分析師),也要(yao)能(neng)夠理解業(ye)務(wu):什么樣(yang)的(de)(de)(de)(de)數(shu)據(ju)或(huo)結果才是有(you)參考(kao)性的(de)(de)(de)(de);能(neng)夠找到新的(de)(de)(de)(de)數(shu)據(ju)集并為(wei)其創造新產品;然(ran)后能(neng)夠讓CEO們(men)理解這一切。這是一個艱巨的(de)(de)(de)(de)任務(wu),這個世界上這類人是很少的(de)(de)(de)(de)。作(zuo)為(wei)頂尖的(de)(de)(de)(de)數(shu)據(ju)科學家,不要(yao)求他們(men)對環境做(zuo)出什么積(ji)極的(de)(de)(de)(de)改變(bian),但是需要(yao)他們(men)嘗(chang)試做(zuo)一些真正先進(jin)的(de)(de)(de)(de)東西,幫(bang)助(zhu)大家更好(hao)的(de)(de)(de)(de)解決業(ye)務(wu)上的(de)(de)(de)(de)問題(ti)。
數據科學家的(de)六種(zhong)能(neng)力:
1.對數(shu)據的(de)提(ti)取(qu)與綜合(he)能力;
2.統計分(fen)析能力;
3.數據洞察與(yu)信息挖(wa)掘能力(li);
4.開(kai)發(fa)軟件能力;
5.網絡編程能力;
6.數據的可視(shi)化表示能力。
數據科(ke)學家涉及學科(ke):
1.計算機科(ke)學:數(shu)據(ju)獲取、數(shu)據(ju)解析、數(shu)據(ju)存放、和數(shu)據(ju)安全(quan)
2.數(shu)(shu)理統計學:數(shu)(shu)據(ju)分析、數(shu)(shu)據(ju)過濾(lv)、數(shu)(shu)據(ju)挖(wa)掘、和數(shu)(shu)據(ju)優化
3.圖形設計學:顯示數據結果,比如將數據表達成三(san)維圖形,以便更好地理解和利用
4.人(ren)機交互(hu)學:在用戶和數(shu)據(ju)(ju)之(zhi)間建立有機聯系(xi),使(shi)得人(ren)對數(shu)據(ju)(ju)的使(shi)用更方(fang)便