李濤,畢業(yè)于復(fù)旦大學(xué)醫(yī)學(xué)院臨床醫(yī)學(xué)專業(yè) ,取得美國卡內(nèi)基梅隆大學(xué)信息管理碩士和美國休斯頓大學(xué)醫(yī)院管理碩士學(xué)位,美國教學(xué)醫(yī)院聯(lián)盟的醫(yī)院管理專家,中科厚立信息技術(shù)(成都)有限公司董事長,成都高層次創(chuàng)新創(chuàng)業(yè)人才“人才計劃“、南京高層次“人才引進計劃”,廣東省醫(yī)院協(xié)會常務(wù)理事委員,四川省醫(yī)療衛(wèi)生統(tǒng)計學(xué)會常務(wù)委員等。
曾在北京積水潭醫(yī)院擔任主治醫(yī)生,90年代中期留學(xué)美國,擁有近20年美國醫(yī)院管理經(jīng)驗,參與醫(yī)院管理標準的制定。熟悉美國醫(yī)療信息分類標準、質(zhì)量管理和國際醫(yī)院管理比較標準等,有醫(yī)療質(zhì)量管理、Six Sigma、醫(yī)療大數(shù)據(jù)分析、臨床科研、醫(yī)院管理決策支持等實踐經(jīng)驗,同時也是美國教學(xué)醫(yī)院聯(lián)盟客座教授和高級數(shù)據(jù)分析專家,美國醫(yī)院管理協(xié)會和德州醫(yī)學(xué)中心醫(yī)院質(zhì)量管理委員會組委成員等。
著有《數(shù)據(jù)決策打造醫(yī)院智能管理》、《疾病風險調(diào)整及其在醫(yī)院精準監(jiān)管與評估中的應(yīng)用》等專著論文數(shù)十余篇,擁有疾病風險調(diào)整相關(guān)軟著發(fā)明專利十余項。
現(xiàn)如今,當人們被問到什么學(xué)科最火爆,收入不菲,就業(yè)率最高時,“數(shù)據(jù)科學(xué)(Data Science)”想必一定是其中的一個答案?!豆鹕虡I(yè)評論》甚至曾一度將“數(shù)據(jù)科學(xué)家(Data Scientist)”這一職業(yè)評為21世紀最性感的工作。究竟是什么原因?qū)е聰?shù)據(jù)科學(xué)突然變得這么火爆呢?
回溯歷史,第一個提出對傳統(tǒng)的統(tǒng)計學(xué)進行改革的吹哨人是20世紀美國著名的統(tǒng)計學(xué)家John W. Tukey在1962年發(fā)表的文章《數(shù)據(jù)分析的未來》(The Future of Data Analysis),他提出了數(shù)據(jù)分析(Data Analysis)這一新科學(xué)和其未來發(fā)展的可能性,并成功預(yù)言突破數(shù)理統(tǒng)計學(xué)邊界的數(shù)據(jù)時代將會到來。他指出數(shù)據(jù)分析的目的是通過對數(shù)據(jù)的收集、處理和分析來學(xué)習(xí)數(shù)據(jù)中的信息,解決我們生活中所遇到的實際問題,而不僅僅是做研究任務(wù)。
時間來到1974年,計算機圖靈獎獲得者,丹麥人彼得·諾爾首次提議用“數(shù)據(jù)科學(xué)(data science)”來代替“計算機科學(xué)(computer science)”,用于區(qū)分出數(shù)據(jù)科學(xué)作為一個獨立于計算機科學(xué)的學(xué)科。但之后的二十多年,這個名詞在行業(yè)中卻似乎也沒人再提起過。
直到1997年,美籍華裔教授吳建福(C. F. Jeff Wu)在就任密西根大學(xué)的就職演說中發(fā)表了一篇題為“統(tǒng)計=數(shù)據(jù)科學(xué)?”的演講,他將統(tǒng)計工作描述為數(shù)據(jù)收集、數(shù)據(jù)建模和分析、以及決策制定的三部曲。在他的結(jié)論中,他開創(chuàng)了“數(shù)據(jù)科學(xué)”(而非“計算機科學(xué)”)這個術(shù)語的現(xiàn)代用法,并提倡將統(tǒng)計學(xué)重命名為數(shù)據(jù)科學(xué),數(shù)據(jù)科學(xué)家就是能夠從大型數(shù)據(jù)集中析取出數(shù)據(jù),并進行統(tǒng)計推斷的統(tǒng)計學(xué)家。
自此之后,隨著2000年左右的互聯(lián)網(wǎng)信息技術(shù)的大爆炸,2010年左右的人工智能技術(shù)的大爆炸等多種因素綜合在一起,最終促成了數(shù)據(jù)科學(xué)成為一個時髦專業(yè),數(shù)據(jù)科學(xué)家也成為令人羨慕和神往的新興職業(yè)。
然而,在彼得·諾爾1974年提出數(shù)據(jù)科學(xué)概念的之后的二十多年中,數(shù)據(jù)科學(xué)并沒有像預(yù)期那樣的快速發(fā)展,歸根到底的原因有三個:
◇缺乏設(shè)施:計算機硬軟件設(shè)備遠遠達不到今天的強大和規(guī)模,當時最先進的IBM計算機還不如今天一個最普通的手機的功能強大。
◇缺乏原材料:在互聯(lián)網(wǎng)普及和數(shù)據(jù)大爆炸之前,數(shù)據(jù)的累計程度還不能體現(xiàn)出數(shù)據(jù)科學(xué)的重要性和傳統(tǒng)統(tǒng)計學(xué)之間的差異。
◇缺乏共識:由于計算機都還沒有普及使用,當時的統(tǒng)計學(xué)家們都否認這個學(xué)科,所以認為他們所做的工作與數(shù)據(jù)科學(xué)的描述沒有什么差異。
真正讓數(shù)據(jù)科學(xué)成為時髦學(xué)科的工具推手是開源性的編程語言,首先是R,其次是Python,最后是一系列重要的數(shù)據(jù)庫。
◇R:由Robert Gentleman和Ross Ihaka基于S語言在1993年成功地開發(fā)了R語言,并將其開源(這個還是很偉大的創(chuàng)舉),使R得到了迅速地傳播。R的數(shù)據(jù)結(jié)構(gòu)包括向量、數(shù)列、列表和數(shù)據(jù)框架。其衍生出的各種庫讓R能夠?qū)崿F(xiàn)對各種統(tǒng)計的理論概念的應(yīng)用,其中包括:線性、廣義線性和非線性模型經(jīng)典統(tǒng)計檢驗、空間和時間序列分析、分類模型、聚類模型等。
◇Python:如果說R語言奠定了數(shù)據(jù)科學(xué)基礎(chǔ),改變了傳統(tǒng)的數(shù)據(jù)分析方式,那么Python的出現(xiàn)則拓展了數(shù)據(jù)科學(xué)的潛能,同樣作為一款開源的編程語言,Python不僅相比R更容易學(xué)習(xí),且應(yīng)用極其廣泛。
除此之外,Python作為一個連接器,它能夠連接、調(diào)取、并且使用各種數(shù)據(jù)庫的資源,因此,Python得到了眾多數(shù)據(jù)科學(xué)家的追捧。據(jù)統(tǒng)計,在2019年,大約有65.8%的數(shù)據(jù)科學(xué)家稱他們在使用Python,這無疑是一個龐大的比率,并且這個數(shù)字每年還在持續(xù)增長。
◇其他的數(shù)據(jù)庫:這些重要的數(shù)據(jù)庫資源包括NumPy、Pandas、Matplotlib、Scikit-Learn、TensorFlow等用來解決不同場景中的算法和機器深度學(xué)習(xí)等。由于太過專業(yè),本文就不一一的詳細介紹。
俗話說巧婦難為無米之炊,推動數(shù)據(jù)科學(xué)成為火爆學(xué)科的原材料推手是網(wǎng)絡(luò)爬蟲技術(shù)(Hadoop)和云平臺。
◇Hadoop:由計算機科學(xué)家Doung Cutting和Mike Cafarella在2005年共同研發(fā)了開源的軟件框架Hadoop,用來存儲和處理大量的數(shù)據(jù)集。Hadoop的出現(xiàn)讓企業(yè)擁有了處理大量數(shù)據(jù)集的能力,也讓企業(yè)家們意識到數(shù)據(jù)處理在商業(yè)中的重要性。數(shù)據(jù)研究不僅使商業(yè)公司的諸多問題得到了解決,而且?guī)椭麄兲剿餍碌纳虡I(yè)模式、研究消費者行為,在此基礎(chǔ)上做出更好的商業(yè)決策。
◇云平臺:隨著越來越多的商業(yè)公司開始重視數(shù)據(jù)的重要性,數(shù)據(jù)的保存成為了各大公司重要目標。云平臺在大數(shù)據(jù)領(lǐng)域中提供了云分布式存儲以及分布式計算的方案,解決了數(shù)據(jù)科學(xué)家由于龐大的數(shù)據(jù)量導(dǎo)致的算力不足的難題。
隨著數(shù)據(jù)科學(xué)的日益成熟,美國國家標準技術(shù)研究所于2015年發(fā)表七卷大數(shù)據(jù)參考框架(NIST Big Data Reference Architecture,NBDRA),于第一卷定義篇中將數(shù)據(jù)科學(xué)定為在理論科學(xué)、實驗科學(xué)和計算科學(xué)之后的第四科學(xué)。隨著企業(yè)家們越來越認識到數(shù)據(jù)的重要性,他們空前渴望擁有數(shù)據(jù)分析能力的人才,這也使數(shù)據(jù)科學(xué)在商業(yè)領(lǐng)域中得到了迅速發(fā)展,并獲得了大量的實踐成果。接下來我們講講數(shù)據(jù)科學(xué)家的職責是有哪些呢?
本文中的內(nèi)容大多是基于我本人在從業(yè)過程中的切身體會和對討論議題的個人看法,若有不妥之處,敬請諒解,也歡迎在評論區(qū)留言。感謝大家的點贊、評論加關(guān)注。咱們下期《為什么數(shù)據(jù)科學(xué)突然火起來了?(下)》再見!
中科厚立信息技術(shù)(成都)有限公司 | |
電話 :028-62695200 | |
郵箱 :holistic@houlidata.com1 | |
地址 :成都高新區(qū)益州大道中段1800號1棟17層 |