“數(shu)(shu)據(ju)(ju)科學(xue)(xue)家”在2009年由Natahn Yau首次提出,其(qi)概念是采用科學(xue)(xue)方法(fa)、運(yun)用數(shu)(shu)據(ju)(ju)挖掘工具尋(xun)找新的(de)數(shu)(shu)據(ju)(ju)洞(dong)察的(de)工程師。數(shu)(shu)據(ju)(ju)科學(xue)(xue)家集技術專家與數(shu)(shu)量(liang)分(fen)析師的(de)角色于一(yi)身,與傳統數(shu)(shu)量(liang)分(fen)析師相比:后者通常利用企業的(de)內部數(shu)(shu)據(ju)(ju)進行(xing)分(fen)析,以支持領導層的(de)決策;而(er)前者更多的(de)是通過關(guan)注面向用戶的(de)數(shu)(shu)據(ju)(ju)來(lai)創造不(bu)同特性(xing)的(de)產品和(he)流(liu)程,為客戶提供有意義的(de)增(zeng)值服務(wu)。
面向客戶的(de)性質決定了(le)大(da)部(bu)(bu)分數(shu)據科(ke)(ke)學(xue)(xue)家擔任(ren)公司(si)產品開發或營銷部(bu)(bu)門的(de)職位,或是(shi)效力于首席技術(shu)官。那么數(shu)據科(ke)(ke)學(xue)(xue)家需要具備(bei)哪些核心(xin)能(neng)力呢?科(ke)(ke)技記者Derrick Harris在其文(wen)章(zhang)中介(jie)紹了(le)數(shu)據科(ke)(ke)學(xue)(xue)家應(ying)具備(bei)的(de)一些技能(neng)。
他表示(shi),在你(ni)詢問(wen)別人什(shen)么是數(shu)(shu)據(ju)科學(xue)家(jia),或(huo)者數(shu)(shu)據(ju)科學(xue)家(jia)是做什(shen)么的(de)(de)時候,很容易發(fa)(fa)現(xian):“數(shu)(shu)據(ju)科學(xue)家(jia)”其實是從(cong)“大數(shu)(shu)據(ju)”引發(fa)(fa)的(de)(de)術語混(hun)亂中(zhong)形(xing)成的(de)(de)。數(shu)(shu)據(ju)科學(xue)的(de)(de)核心能力被定義(yi)為:SQL、統計、預(yu)測建(jian)模(mo)和編(bian)程(cheng)、Python等(deng),這些聽起來很合理。但是很快就有(you)更多名詞添加到其中(zhong):Hadoop/MapReduce、機(ji)器學(xue)習(xi)、可視化(hua),甚至還有(you)傳統的(de)(de)數(shu)(shu)學(xue)、物理、計算機(ji)科學(xue)等(deng)類似能力。
許多人(ren)呼吁專業(ye)領域(yu)、商(shang)業(ye)智慧、創造力(li)及表達能(neng)(neng)力(li)也是(shi)(shi)同(tong)樣(yang)重要的(de)(de)(de)(de)。一個(ge)(ge)數(shu)(shu)(shu)據(ju)(ju)科學家不能(neng)(neng)只擅長數(shu)(shu)(shu)字(zi)(這種(zhong)人(ren)被稱為(wei)統(tong)計學家或分析師),也要能(neng)(neng)夠理解(jie)(jie)業(ye)務(wu):什(shen)么(me)(me)樣(yang)的(de)(de)(de)(de)數(shu)(shu)(shu)據(ju)(ju)或結果(guo)才是(shi)(shi)有參(can)考性的(de)(de)(de)(de);能(neng)(neng)夠找到新的(de)(de)(de)(de)數(shu)(shu)(shu)據(ju)(ju)集并(bing)為(wei)其(qi)創造新產品;然后能(neng)(neng)夠讓CEO們(men)理解(jie)(jie)這一切(qie)。這是(shi)(shi)一個(ge)(ge)艱巨的(de)(de)(de)(de)任務(wu),這個(ge)(ge)世界上這類(lei)人(ren)是(shi)(shi)很少的(de)(de)(de)(de)。作為(wei)頂尖的(de)(de)(de)(de)數(shu)(shu)(shu)據(ju)(ju)科學家,不要求他們(men)對環境做出(chu)什(shen)么(me)(me)積極的(de)(de)(de)(de)改變,但是(shi)(shi)需要他們(men)嘗試(shi)做一些真正先進的(de)(de)(de)(de)東(dong)西,幫(bang)助大家更好的(de)(de)(de)(de)解(jie)(jie)決業(ye)務(wu)上的(de)(de)(de)(de)問(wen)題(ti)。
數據科學家(jia)的(de)六種能(neng)力:
1.對數據(ju)的提取與(yu)綜合能力;
2.統(tong)計分析能力;
3.數據洞(dong)察與信息挖掘能力;
4.開發軟(ruan)件能力(li);
5.網絡(luo)編程能力(li);
6.數據(ju)的可視(shi)化表示能力。
數據科學(xue)家涉及(ji)學(xue)科:
1.計(ji)算機科學(xue):數據獲取、數據解析、數據存(cun)放、和數據安全
2.數(shu)理統計學:數(shu)據分(fen)析、數(shu)據過濾、數(shu)據挖掘(jue)、和數(shu)據優(you)化
3.圖形設(she)計學(xue):顯示數(shu)據(ju)結果,比如將(jiang)數(shu)據(ju)表達(da)成三維(wei)圖形,以便更好地理解(jie)和(he)利用
4.人機交互學(xue):在用戶和數(shu)據之(zhi)間建立有機聯系,使(shi)得人對數(shu)據的使(shi)用更方便