在我國,資料科學與大資料技術專業的建設已成為新的熱點話題。在系統調研世界一流大學資料科學專業建設現狀的基礎上,從特色課程視角重點分析加州大學伯克利分校、約翰·霍普金斯大學、華盛頓大學、紐約大學、斯坦福大學、卡內基梅隆大學、哥倫比亞大學、倫敦城市大學等8所大學的資料科學專業,提出資料科學與大資料技術這一新專業應重視的10門特色課程,並分析了現階段我國資料科學教育中普遍存在的8種曲解現象及對策建議。
2016年,教育部釋出的《2015年度普通高等學校本科專業備案和審批結果》中就首次增設“資料科學與大資料技術專業”,並獲批了北京大學、對外經濟貿易大學及中南大學的新增專業申請。接著,2017年,中國人民大學等32所高校出現在第二批次的獲批名單中。另,全國高校大資料教育聯盟的統計資料顯示,2017年申請該專業的院校高達263所,其中工學190所,理學73所[1]。從申請資料看,國內資料科學專業是一門主要以統計學和電腦科學與技術專業為基礎建設的全新專業。資料科學專業已成為我國現階段高等教育的熱點問題之一。但是,建設什麼樣的專業以及如何建設該專業仍為各高校面臨的難點問題。
在國外,資料科學(Data Science)專業是以資料分析學(Data Analytics)專業為基礎發展而來的,可追溯至2007年北卡羅來納州立大學(North Carolina State University)率先設立的資料分析碩士學位(Master of Science in Analytics)[2]。與統計學和電腦科學與技術等基礎學科不同的是,資料分析學進一步抽象了這些底層科學中的資料問題,連線了包括統計學和電腦科學在內的基礎學科與資料科學之間的空白,為資料科學這一新學科的出現奠定了直接基礎。從“資料分析學”向“資料科學”的實質性過渡出現在2013年左右,比較有代表性的是紐約大學於2013年新開設的資料科學碩士專業(The Master of Science in Data Science)[3]。之後,包括加州大學伯克利分校、約翰·霍普金斯大學、華盛頓大學在內的多個學校設立了資料科學專業。可見,國外一流大學的資料科學專業建設至少早於國內三年。
為此,本文在調查分析世界一流大學資料科學專業的培養方案,重點分析資料科學專業中開設的特色課程,並對探討我國資料科學專業建設的借鑒意義。
作者透過Study Portal進行調查發現,截止2017年11月,國外資料科學專業的本科、碩士、博士學位專案分別已達到5601、4179和301項,主要分佈在美國、英國、澳大利亞、加拿大、德國和義大利等國家。但是,從課程體系和人才培養定位看,能夠體現國外資料科學專業教育的本質與特色的是碩士層次的教育,比較有典型的學校有加州大學伯克利分校、約翰·霍普金斯大學、華盛頓大學、紐約大學、斯坦福大學、卡內基梅隆大學、哥倫比亞大學、倫敦城市大學,如表1所示。
表1 典型資料科學專業及其特色課程(Typical Data Science Programs and their Core Courses)
學校 |
學位名稱 |
特色課程 |
加州大學伯克利分校 [4] |
資訊與資料科學碩士 |
Python 與資料科學/Python for Data Science 研究設計及資料與分析中的應用/Research Design and Application for Data and Analysis 資料儲存與檢索/ Storing and Retrieving Data 應用機器學習/ Applied Machine Learning 試驗與因果分析/Experiments and Causality 大資料——人與價值/ Behind the Data: Humans and Values (縱向擴充套件及真正的)大資料/ Scaling Up! Really Big Data 資料視覺化與溝通/ Data Visualization and Communication (資料科學)綜合訓練課程/ Synthetic Capstone Course |
約翰·霍普金斯大學 [5] |
資料科學理學碩士 |
資料科學/Data Science 資料視覺化/Data Visualization 隨機最佳化與控制/Stochastic Optimization and Control 資料科學家的工具箱/ Data Scientist’s Toolbox 資料採集與清洗/Getting and Cleaning Data 探索性資料分析/Exploratory Data Analysis 可重覆研究/Reproducible Research 實用機器學習/Practical Machine Learning 資料產品開發/Developing Data Products 資料科學綜合訓練課程/Data Science Capstone |
華盛頓大學 [6] |
資料科學理學碩士 |
資料視覺化與探索性分析/ Data Visualization & Exploratory Analytics 應用統計與試驗設計/Applied Statistics & Experimental Design 資料管理與資料科學/Data Management for Data Science 資料科學家常用的統計機器學習/Statistical Machine Learning for Data Scientists 面向資料科學的軟體設計/Software Design for Data Science 可擴充套件的資料系統與演演算法/Scalable Data Systems & Algorithms 以人為中心的資料科學/Human-Centered Data Science 資料科學綜合訓練課程/Data Science Capstone Project |
紐約大學 [7] |
資料科學理學碩士MS in Data Science |
資料科學導論/ Intro to Data Science 大資料/Big Data 面向資料科學的統計學與機率論/Probability and Statistics for Data Science 推理與表示/ Inference and Representation 機器學習與計算統計學/ Machine Learning and Computational Statistics 資料科學綜合訓練課程/ Capstone Project in Data Science 基於最佳化的資料分析/Optimization-based Data Analysis 非光滑凸最佳化/Convex and Nonsmooth Optimization |
斯坦福大學 [8] |
統計學:資料科學理學碩士學位 M.S.in Statistics:Data Science |
現代應用統計學:學習/Modern Applied Statistics: Learning 現代應用統計學:資料挖掘/Modern Applied Statistics: Data Mining 資料驅動型醫學/ Data Driven Medicine 現代統計學與現代生物學/Modern Statistics for Modern Biology 大資料商務智慧/ Business Intelligence from Big Data 基於資料的計算正規化/Paradigms for Computing with Data |
卡內基梅隆大學 [9] |
計算資料科學碩士學位 |
雲端計算/Cloud Computing 高階雲端計算/Advanced Cloud Computing 多媒體資料庫及資料挖掘/Multimedia Databases and Data Mining 移動與普適計算/Mobile and Pervasive Computing 大資料集的機器學習/Machine Learning with Big Data Sets 智慧資訊系統的設計與開發/Design and Engineering of Intelligent Info Systems 大資料分析學/Big Data Analytics |
哥倫比亞大學(紐約) [10] |
資料科學理學碩士 |
資料科學導論/Introduction to Data Science 面向資料科學的計算機系統/Computer Systems for Data Science 探索性資料分析與視覺化/Exploratory Data Analysis & Visualization 資料科學中的因果推理/ Causal Inference for Data Science 大資料分析學/Big Data Analytics 資料科學綜合訓練及倫理/Data Science Capstone & Ethics |
倫敦城市大學 [11] |
資料科學理學碩士 |
資料科學原理/Principles of data science 大資料/Big Data 可視分析學/Visual analytics 資料視覺化/Data visualization 神經計算/Neural computing 研究方法與專業問題/Research Methods and Professional Issues 高階併發程式設計 /Advanced Programming: Concurrency |
該學校的資料科學專業由資訊學院(School of Information)開設,專業名稱為資訊與資料科學,授予的學位為資訊和資料科學專業碩士(Professional Master of Information and Data Science, MIDS)[12]。該專業主要側重於培養學生的研究設計、資料清洗、儲存與檢索、挖掘與探索、資料視覺化、道德與隱私、資料分析、溝通與呈現的能力,如圖1所示。
圖1 加州大學伯克利分校MIDS專業所關註的學生能力
(Key Skill Areas of MIDS at UC Berkeley)[12]
為了達到上述人才培養目的,該專業開設基礎課程、高階課程和綜合訓練課程等3類課程。其中,基礎課程共有5門,即面向資料科學的Python語言(Python for Data Science)、面向資料與分析的研究設計(Research Design and Application for Data and Analysis)、面向資料科學的統計學(Statistics for Data Science)、資料儲存與檢索(Storing and Retrieving Data)以及應用機器學習(Applied Machine Learning);高階課程有7門,包括試驗與因果分析(Experiments and Causality)、資料、人與價值(Behind the Data: Humans and Values)、(縱向擴充套件及真正的)大資料(Scaling Up! Really Big Data)、面向離散響應,時間序列和麵板資料的統計方法(Statistical Methods for Discrete Response, Time Series, and Panel Data)、可擴充套件的機器學習(Machine Learning at Scale)、基於深度學習的自然語言處理(Natural Language Processing with Deep Learning)以及資料視覺化與溝通(Data Visualization and Communication)。除了基礎課程和高階課程,該學校還開設一門綜合訓練課程(Synthetic Capstone),培養學生綜合運用所學專業知識及解決現實問題的能力。
從總體上看,人才培養定位在培養資料科學領域的領導者,側重培養學生的運用新工具和新方法,從現實資料中獲得洞見(Insights)以及如何有效地溝通與闡釋自己的研究發現,進而改變他人行動和思想的能力。該學校的資料科學專業的人才培養具有如下幾個特點:
-
強調資料科學的多學科交叉特點,將社會科學,電腦科學,統計學,管理學和法學等多學科知識融入具體課程之中;
-
凸顯資料科學本身的講解,註重提升學生的基於資料提出好問題的能力以及面向資料科學的研究設計、資料清理、儲存與檢索、交流與溝通、統計分析、道德與隱私、資料視覺化以及資料挖掘與探索等關鍵技能;
-
引入基於專案的學習方法,借鑒本校資訊學院其他專業的培養經驗,透過基於專案的教學方式,鼓勵學生綜合運用多種不同的工具和方法來解決複雜問題;
-
強調動手實踐能力的培養,為學生提供亞馬遜Web服務和IBM大資料平臺等實踐平臺。
該學校的懷廷工程學院(Whiting School of Engineering)開設名為資料科學(Data Science)的新專業,授予的學位為資料科學理學碩士(Master of Science in Data Science)。
該專業的課程體系包含先修課程(Prerequisite Courses)、基礎課程(Foundation Course)、必修課程(Required Courses)、選修課程(Electives)以及獨立學習(Independent study)課程等近60門課程[13]。基礎課程有2門,即演演算法基礎(Foundations of Algorithms)和統計方法與資料分析(Statistical Methods and Data Analysis);必修課程包括資料庫系統原理、資料科學、資料視覺化、最佳化導論(Introduction to Optimization)、統計模型與回歸、計算統計學;選修課分為機器學習和統計學兩個大方向,共有14門主要課程,均為較為常見課程。值得一提的是,該專業另提供了近30門擴充套件選修課程(Additional Selections),供學生用於置換同一個領域的必須/選修課程,這些擴充套件課程均為統計學和電腦科學與技術專業常見課程。獨立學習(Independent study)課程主要包括獨立動手實戰(Capstone專案)和獨立學習(Independent Study)。
從總體上看,該學校的資料科學專業的人才培養具有如下幾個特點:
-
從人才培養的目的看,專業旨在培養“有競爭力”的資料科學家,要求學生具備三方面的能力:綜合運用電腦科學和應用數學的知識,分析與處理大規模資料集的能力;從複雜資料中快速洞察到有價值資訊的能力和從資訊中發現相關關係的能力;基於規範的技術和抽象的方法以及面向現實世界中的具體問題的建模能力[14]。
-
強調學生對資料科學的理論基礎的掌握程度,突出了三個主要領域:電腦科學與技術、統計學與應用數學。其中,對應用數學的重視是該學校資料科學專業的一大特色。
-
從課程設計及內容選擇看,該專業鼓勵在每一門課程中引入來自現實世界的具體問題作為例題和主要關註點。例如,獨立學習(Independent Study)課程中強調對具體行業中實際問題的處理能力。
-
強調培養學生的資料全生命期管理、統計分析和故事化描述能力。
整合自己的應用數學系、生物統計學系、Paul G. Allen電腦科學與工程學院、以人為本的設計與工程系、統計系、資訊學院6大院系以及電子科學研究所的資源,開設出了一種面向在職人員的夜大類資料科學專業專案,所授予的學位為資料科學理學碩士(Master of Science in Data Science)。該專業的課程設計較為簡潔,包括8門核心課程以及1個Capstone專案。其中,8個核心課程分別是統計與機率論(Introduction to Statistics & Probability)、資訊視覺化(Information Visualization)、應用統計與試驗設計(Applied Statistics & Experimental Design)、面向資料科學的資料管理(Data Management for Data Science)、資料科學家常用的統計機器學習(Statistical Machine Learning for Data Scientists)、面向資料科學的軟體設計(Software Design for Data Science)、可擴充套件的資料系統與演演算法(Scalable Data Systems & Algorithms)和以人為中心的資料科學(Human-Centered Data Science)。Capstone專案要求學生自己組隊,並自主完成專案的選題、研究設計和研究過程等工作,側重培養學生對大規模資料集的處理能力、從資料中獲得洞察能力(Insights)以及與其他人分享自己所發現的洞見的能力[15]。
從整體看,該學校的資料科學專業主要定位在應用型人才的培養,尤其是資料分析師和應用型資料科學家。人才培養的主要特點如下:
-
面向在職人員。該專業主要針對剛畢業的學生或在職人員開設,上課時間一般為業餘時間,允許學生脫產或在職學習。
-
重視團隊協作能力。多數課程的作業均需要團隊方式完成,而並非為個人獨立完成。
-
強調動手操作能力,加強學生運用Python和R進行資料分析的能力,部分作業還需要進行Java程式設計。
-
突出以人為中心的資料科學與視覺化(human-centered data science and visualization)能力,開設有專門《以人為中心的資料科學( Human-Centered Data Science)》。
該學校的資料科學專業由資料科學中心(Center for Data Science)開設,授予的學位為資料科學理學碩士(Master of Science in Data Science) [16]。主要必選課程有資料科學導論、面向資料科學的統計學與機率論(Probability and Statistics for Data Science)、機器學習、大資料以及Capstone專案。此外,該專業還要求學生從以下6門課程中選擇1門:推理與表示、深度學習、基於表示學習的自然語言處理、自然語言理解與計算語意、基於最佳化的資料分析(Optimization-based Data Analysis)、最佳化與計算線性代數。值得一提的是,該學校的資料科學專業設有多個培養方向(Track):
-
大資料方向(Data Science: Big Data Track)設有自然語言理解與計算語意、資訊視覺化、大規模視覺化分析、資料庫導論、高階資料庫系統等課程;
-
數學與資料方向(Data Science: Mathematics and Data Track)設有基於最佳化的資料分析、推理與表示、資料科學中數學:圖與網路(Mathematics of Data Science: Graphs and Networks)以及非光滑凸最佳化(Convex and Nonsmooth Optimization)等課程。
-
自然語言處理方向(Data Science: Natural Language Processing Track)開設基於表示學習的自然語言理解、自然語言理解與計算語意、統計自然語言理解、推理與表示、深度學習、文字資料(Text as Data)、自然語言處理以及高階語言學等課程。
-
物理學方向(Data Science: Physics Track)中開設的主要課程有推理與表示、實驗物理研究(Experimental Physics Research)、理論物理研究(Theoretical Physics Research)、研究式閱讀( Research Reading)、計算物理(Computational Physics)、統計物理、生物物理(Biophysics)、專題研討課、天體物理學專題(Special Topics in Astrophysics)以及相變與臨界現象(Phase Transitions and Critical Phenomena)。
-
生物學方向(Data Science: Biology Track)重點講解基礎生物學、健康與疾病等基礎知識,並要求選修生物學的課程。
紐約大學的資料科學專業的人才培養定位在“下一代資料科學家”,為具備數學、電腦科學和應用統計基礎的學生提供了多個可選的培養方案,其主要特點如下:
-
設有多個培養方向,如大資料、數學與資料、自然語言處理、物理學和生物學等,其人才培養特別強調資料科學與其他專業的深度融合。
-
重視對最佳化論的學習,在課程體系中設定了多個與最佳化論相關的課程,如《基於最佳化的資料分析(Optimization-based Data Analysis)》和《最佳化與計算線性代數(Optimization and Computational Linear Algebra)》、《非光滑凸最佳化(Convex and Nonsmooth Optimization)》。
-
強調實踐操作能力,重視來自現實世界的具體問題的處理能力。
該學校的資料科學專業由統計系(Department of Statistics)和計算與數學學院(Institute for Computational and Mathematical Engineering)聯合開設,授予的學位為資料科學方向的統計學理學碩士(M.S. in Statistics: Data Science)。共開設有29門課程[17],分為以下5個模組:
-
基礎課程模組:數值線性代數(Numerical Linear Algebra)、離散數學與演演算法、最佳化論、工程中的隨機方法(Stochastic Methods in Engineering)以及隨機演演算法與機率分析(Randomized Algorithms and Probabilistic Analysis);
-
資料科學模組:統計推理導論、回歸模型及方差分析導論、統計模型導論、現代應用統計學:學習以及現代應用統計學:資料挖掘;
-
高階科學程式設計及高效能運算(Advanced Scientific Programming and High Performance Computing)模組,涉及的課程有高階科學程式設計(Advanced Scientific Programming)、平行計算導論、分散式演演算法與最佳化論、數值分析的並行方法、平行計算、平行計算機的架構及程式設計以及高階多核系統;
-
專業選修(Specialized Electives)模組,設有以下課程:計算分子生物學中的表示與演演算法(Representations and Algorithms for Computational Molecular Biology)、資料驅動型醫學(Data Driven Medicine)、面向現代生物學的統計學、社會與資訊網路分析、機器學習、面向視覺認知的摺積神經網路(Convolutional Neural Networks for Visual Recognition)、海量資料集的挖掘、計算機圖形學、地理統計學(Geostatistics)、基於大資料的商務智慧(Business Intelligence from Big Data)、人類神經影像學方法(Human Neuroimaging Methods)和資料計算正規化(Paradigms for Computing with Data);
-
實戰(Practical Component)模組,包括Capstone專案和獨立學習專案。
斯坦福大學此專業的人才培養標的側重的是統計學家,而並非是資料科學家。其最突出的特點是將資料科學作為統計學的一個方向,將培養出面向資料科學的統計學家。因此,該專業與其他學校的資料科學專業不同,強調的是資料科學與統計學的深度融合。
該學校的資料科學專業由資料科學學院( Data Science Institute)開設,授予的學位為資料科學理學碩士(Master of Science in Data Science)。課程體系可分為導論類課程、電腦科學、統計學、選修課程和Capstone課程等5大類。
-
導論類課程的定位在計算機學和統計學的交叉課程,課程名稱為《資料科學原理》;
-
電腦科學類課程包括面向資料科學的計算機系統(Computer Systems for Data Science)、資料科學中的機器學習、資料科學中的演演算法;
-
統計學類課程包括機率論、面向資料科學的機率統計(Probability & Statistics for Data Science)、探索性資料分析及視覺化、統計推理與建模;
-
選修課程為跨專業課程,鼓勵學生跨專業選修哥倫比亞大學其他專業的課程,比較受歡迎的選修課程包括翻譯生物資訊學(Translational Bioinformatics)、應用機器學習、資料科學中的因果推理、資料科學的要素、面向資料科學的機器學習產品、社會意義的計算模型(Computational Models of Social Meaning)、資料科學專案、大資料分析學、面向計算機視覺化、語音和語言的深度學習(Deep Learning for Computer Vision, Speech, and Language)、金融大資料(Big Data in Finance)和可持續技術與智慧城市的演化(Sustainability Technology and the Evolution of Smart Cities);
-
Capstone專案的名稱為資料科學Capstone與道德(Data Science Capstone & Ethics),綜合運用所學知識解決產業、政府和非盈利部門的實際資料和具體問題[18]。
該專業的人才培養定位在資料科學家。主要特點有兩個:一是專業教育與專業認證的相結合。該學校不僅開設有資料科學碩士專業,而且還提供一項專業認證——資料科學專業成就認證(The Certification of Professional Achievement in Data Sciences),打通了二者的課程設定;二是專業教育與線上免費課程的相結合。作為線下專業課程的重要補充,該學校提供了線上開放課程——資料科學與分析X系列課程(Data Science and Analytics XSeries),介紹資料科學的最新工具及其在金融、健康醫療、產品開發、市場營銷等領域中的應用。目前,已開設的線上課程有:資料科學與分析學中的統計思維(Statistical Thinking for Data Science and Analytics)、資料科學與分析學中的機器學習(Machine Learning for Data Science and Analytics)、資料科學與分析學中的驅動技術:物聯網(Enabling Technologies for Data Science and Analytics: The Internet of Things)。
該學校的資料科學專業由數學、計算機與工程學院(School of Mathematics, Computer Science & Engineering)和計算機系(Department of Computer Science)聯合開設,授予的學位為資料科學理學碩士(Master of Science in Data Science),其課程體系由核心模組、選修模組和綜合訓練課程3部分組成。每個模組包括動手實驗室教程和課程作業。其中,核心模組包括資料科學原理(Principles of Data Science)、機器學習、大資料、神經計算(Neural Computing)、可視分析學、研究方法與專業問題(Research Methods and Professional Issues);選修課程有高階併發程式設計(Advanced Programming: Concurrency)、高階資料庫、資訊檢索、資料視覺化、數字訊號處理及音訊程式設計(Digital Signal Processing and Audio Programming)、雲端計算、計算機視覺、軟體代理(Software Agents)等。綜合訓練課程與其他學校不同,並非以小組形式完成,而是以學生在指導教師或合作企業的指導下獨立完成。選題要求必須為來自實際部門的真實資料及現實問題[19]。
該專業的人才培養定位在資料科學家,特別強調學生的“洞察”能力的培養,即從大規模資料中快速洞見有價值的、可以指導實際行動的“洞見”的能力。主要特色如下:
-
重點培養學生的3C精神,尤其是好奇心,透過掌握新技術來提升自己的職業競爭力。該專業的學員主要來自於經濟學、統計學和電腦科學專業。
-
強調資料科學的三個要素,突出資料科學的跨學科性,開設課程涉及電腦科學、統計學、機器學習及實戰應用。此外,該學校特別強調機器學習在資料科學中的重要地位,重視學生對機器學習和資料視覺化的掌握和應用能力
-
強調實習的重要性,開設由PLU( Professional Liaison Unit)資助的專業實習專案(Professional Internships Program),將學生派送到NHS、Facebook、亞馬遜、BBC的實際工作部門進行為期6個月的實習。
-
重視產業真實資料及現實問題的處理能力。該學校設有個人大作業(The individual project),要求學生綜合運用所學知識,選擇來自產業、學術或政府的真實資料,解決現實世界中存在的具體問題。
該學校的資料科學專業人才培養分散在多個專業之中,如表2所示,其中直接用資料科學命名的專業為計算資料科學(Computational Data Science)[20]。計算資料科學專業由計算機學院開設,課程體系設有分析和系統2個方向,學生必須選修5門核心課程、3門選修課和1門Capstone專案。分析方向的核心課程為智慧資訊系統、機器學習、大規模資料集的機器學習、搜尋引擎和可擴充套件分析學;系統方向的核心課程為作業系統的實現、資料庫應用、平行計算機架構及程式設計、分散式系統、大資料系統、高階儲存系統、雲端計算及高階雲端計算、資料庫系統的前沿問題及多媒體資料庫。
表2 卡內基梅隆大學的資料科學碩士專業(Data Science Master’s Table at Carnegie Mellon University)[20]
學院 |
學位 |
時間 |
型別 |
背景要求 |
未來工作去向 |
|
海因茨學院 |
公共政策碩士(政策分析方向) |
2年 |
專業碩士 |
商業、科學或技術學位 |
政府、諮詢公司、智庫 |
|
資訊系統管理碩士(商務智慧與資料分析方向) |
1.5年 |
專業碩士 |
具有工科學位和工作經驗 |
金融服務公司、科技公司、初創企業 |
||
泰伯商學院 |
工商管理碩士(商務分析方向) |
2年 |
專業碩士 |
不同的背景(見正文) |
諮詢公司、IT公司、財務資料分析公司等 |
|
電腦科學學院 |
語言技術研究院 |
計算資料科學碩士 |
1.5年 |
專業碩士 |
電腦科學或其他相關專業 |
高科技公司的軟體工程職位 |
智慧資訊系統碩士 |
1年 |
專業碩士 |
電腦科學或其他相關專業 |
高科技公司的軟體工程職位 |
||
語言技術碩士 |
2年 |
專業碩士 |
電腦科學或其他相關專業 |
軟體工程工作、博士專案 |
||
人機互動研究院與心理學系 |
教育技術碩士 |
1年 |
專業碩士 |
心理學、教育學、電腦科學等專業 |
各種相關工作 |
|
機器學習系 |
機器學習碩士 |
1.5年 |
專業碩士 |
電腦科學、統計或其他相關專業 |
軟體工程、財務工作、博士專案 |
|
迪特裡希人文社會科學學院 |
統計實踐碩士 |
1年 |
專業碩士 |
數學或統計資料相關專業 |
諮詢公司、金融公司、市場營銷公司等 |
該學校的人才培養側重於專業中的資料科學家,強調的是與具體專業學科高度融合的人才培養。其主要特點有兩個:
-
側重融合式教育及專業中的資料科學家的培養。與上述其他學校不同的是,該學校的資料科學專業分散在多個學位專案,如公共政策、資訊系統管理、工商管理、計算資料科學、智慧資訊系統、語言技術、教育技術、機器學習和統計實踐等。其中,以資料科學為命名的專業只有一個,即為計算資料科學(Computational Data Science)。
-
強調跨學科方法(Interdisciplinary Approach):重視統計學、電腦科學和具體應用領域之間的深入融合,所涉及的具體應用領域有公共政策、資訊系統管理、商務分析、智慧資訊系統、語言技術、教育技術與應用學習。
特色課程是一個新專業的存在標誌之一。透過對上述8個學校的培養方案進一步深入調研發現,資料科學與大資料技術專業的特色課程有9種:
2.1資料科學的“理論基礎”類課程
主要講解正式學習資料科學之前必備的知識而對資料科學本身的介紹較少,主要定位是資料科學專業的先修課程,為學生學習資料科學課程奠定基礎。常見的理論基礎類課程有統計學、機器學習以及Python語言(或R語言)。
-
“統計學”類課程:主要講解面向資料科學的應用統計學的知識,為學生深入學習資料科學理論奠定基礎。例如,華盛頓大學《應用統計與試驗設計( Applied Statistics & Experimental Design) 》[21]主要學習離散和連續隨機變數的推理統計方法,包括手段和比例差異的測試、線性和邏輯回歸、因果關係以及重取樣方法等。再如,斯坦福大學開設兩門統計學類課程,即現代應用統計學:學習( Modern Applied Statistics:Learning)和現代應用統計學:資料挖掘(Modern Applied Statistics:Data Mining)[22]。
-
“機器學習”類課程:主要講解面向資料科學的應用機器學習的知識,為學生深入學習資料科學理論奠定基礎。例如,加州大學伯克利分校開設的應用機器學習(Applied Machine Learning)[23]課程認為機器學習是電腦科學與統計學交叉點之上發展迅速的領域,強調的是尋找資料中的樣式。類似的課程還有華盛頓大學的資料科學家常用的統計機器學習(Statistical Machine Learning for Data Scientists)[24]和紐約大學的機器科學與計算統計學( Machine Learning and Computational Statistics)等課程。
-
Python語言(或R語言)課程,主要講解面向資料科學的資料分析語言及開源工具。例如,加州大學伯克利分校開設的《面向資料科學的Python語言(Python for Data Science) 》[25]側重講解的是資料科學工作所必需掌握的Python知識——Python基本語法及資料科學常用包的應用。
2.2資料科學的“基礎理論”類課程
主要講解資料課程本身的術語、理念、理論、方法、技術、工具和最佳實踐應用,屬於資料科學專業的入門性、導論類課程。例如,約翰·霍普金斯大學《資料科學(Data Science) 》[26]課程涵蓋資料科領域的核心概念和技能,包括問題識別和通訊、機率、統計推斷、視覺化、提取/變換/載入、探索性資料分析、線性和邏輯回歸、模型評估以及常用機器學習演演算法等。該課程以有效溝通和可重覆分析為指導思想,認為資料科學並不等同於統計學和機器學習的簡單拼接,強調的是對資料科學自身的新知識的講解。
2.3資料科學的“領域應用”類課程
主要講解資料科學對某一學科領域的影響及其應用方法論或最佳實踐。例如斯坦福大學開設的《資料驅動型醫學( Data Driven Medicine) 》[27]和《基於大資料的商務智慧(Business Intelligence From Big Data)》[28]課程,分別探討的是如何將資料科學的理念、理論方法和技術應用於醫學和商務智慧領域。
2.4“資料呈現和溝通”類課程
主要講解資料呈現與溝通能力在資料科學中的重要地位以及資料科學中常用的視覺化表示與故事化描述方法。例如,加州大學伯克利分校《資料視覺化 (Data Visualization) 》[29]、約翰·霍普金斯大學的《資料視覺化(Data Visualization) 》[30]以及倫敦城市大學的《可視分析學(Visual Analytics) 》[31]課程講解視覺化方法在資料科學專業中的應用。此外,資料的故事化描述能力也是資料科學家的基本功之一。杜克大學的交叉資料科學碩士專業認為資料的故事化描述與視覺化表示同等重要,並開設課程《資料邏輯、視覺化表達與故事化描述(Data Logic, Visualization,and Storytelling)》[32]。
2.5“資料計算”類課程
主要講解大資料環境下計算樣式的變化及新的演演算法、技術、工具與平臺。例如,華盛頓大學的《可擴充套件的資料系統與演演算法(Scalable Data Systems & Algorithms) 》主要講解面向大規模資料的可擴充套件演演算法。再如,卡內基梅隆大學的《雲端計算(Cloud Computing ) 》[33]課程不僅介紹雲端計算樣式,還講解資料中心,虛擬化,雲儲存和程式設計模型等主題。斯坦福大學也同樣開設了關於資料計算方面的《基於資料的計算正規化(Paradigms for Computing with Data)》[34]課程。
2.6“資料管理”類課程
主要講解資料管理,尤其是大資料時代的資料管理新挑戰、新理念、新方法、新技術和新工具。例如,華盛頓大學開設的《資料管理與資料科學(Data Management for Data Science) 》主要講解的是資料模型、查詢語言、資料庫調優和最佳化、資料倉庫以及並行處理等內容。再如,加州大學伯克利分校開設的《資料儲存與檢索(Storing and Retrieving Data ) 》[35]課程的涉及面很廣,鼓勵學生綜合運用Python、關係資料庫、Hadoop、Map reduce、Spark和雲端計算(AWS)等多種技術,完成分散式資料處理、流式資料分析、圖計算和大資料架構設計等工作。
2.7“資料分析”類課程
主要講解資料分析,尤其是大資料分析的方法和技術。例如,卡內基梅隆大學多媒體資料庫及資料挖掘(Multimedia Databases and Data Mining),華盛頓大學的大資料分析學(Big Data Analytics) 以及哥倫比亞大學(紐約)的大資料分析學(Big Data Analytics)[36]均強調了大資料分析的主要挑戰和新方法。值得一提的是,正如Gartner資料分析價值扶梯模型(Gartner’s analytic value escalator)所示,因果分析是大資料資料分析中重要組成部分。例如,哥倫比亞大學開設有《資料科學中的因果推理(Causal Inference for Data Science)》,重點講解因果分析在資料科學中的應用。此外,探索性資料分析成為資料科學專業的重要課程之一,如約翰霍普金斯大學和哥倫比亞大學均開設有名為探索性資料分析(Exploratory Data Analysis)的課程。
2.8“資料產品開發”類課程
主要講解資料產品開發方法、試驗設計和最佳化論等知識。其中,資料產品開發是資料科學專業教育的重要抓手之一。例如,卡內基梅隆大學的智慧資訊系統的設計與開發(Design and Engineering of Intelligent Info Systems)。在資料產品開發中,試驗設計和最佳化論是必不可少的支撐課程,如華盛頓大學和紐約大學分別開設有關試驗設計(Design of Experiment)和最佳化論(Optimization)有關的課程。
2.9資料科學中“人文”類課程
主要講解資料科學的研究與實踐中的非技術和工程類問題,主要涉及大資料與資料分析相關的道德、隱私、法律、經濟和社會影響。例如,華盛頓大學開設的《以人為中心的資料科學(Human-Centered Data Science)》課程[37]的內容涉及資料道德與隱私、演演算法偏倚、法律框架和智慧財產權保護、資料溯源和再現、資料管理與長久儲存、大資料的使用者體驗和可用性測試、大規模協同中的道德問題、資料溝通以及資料科學的社會影響。
10綜合訓練類課程
主要講解如何綜合運用資料科學專業中學習的理論、方法、技術和工具解決具體行業中的實際問題,重點培養學生的實戰能力。加州大學伯克利分校、約翰·霍普金斯大學、華盛頓大學、紐約大學、哥倫比亞大學(紐約)的綜合訓練課程成為《資料科學綜合訓練課程(Data Science Capstone)》課程,均強調學生以團隊工作的形式,選擇解決具體行業中真實問題和真實資料,提升自己的資料洞見、資料產品開發和綜合動手能力。
目前,我國資料科學與大資料技術專業建設仍處於起步階段,其課程體系的設計中存在一些不足之處,甚至存在曲解現象。我國大資料教育中存在的常見曲解以及以上分析的借鑒意義主要體現在:
從目前國內部分高校的培養方案可看出,其資料科學專業課程體系主要由電腦科學和統計學兩大學科領域的主幹課程組成,而對資料科學本身的關註不夠,並沒有開出資料科學專業的特色課程。需要註意的是,電腦科學和統計學是資料科學的理論基礎,而並非是資料科學特有的知識[38]。世界一流大學的資料科學課程設定看,資料科學專業並非是電腦科學和統計學的簡單拼湊,而更加突出的是資料科學本身——資料科學的基礎理論、資料加工、資料分析、資料計算、資料管理及資料產品開發。從本次調查分析發現,資料科學專業中應重視的新課程有:
-
資料科學導論(Introduction to Data Science)或資料科學原理(Principles of data science);
-
資料視覺化(Data Visualization)或可視分析學(Visual analytics);
-
資料產品開發(Data Product Development);
-
探索性資料分析(Exploratory Data Analysis,EDA);
-
大資料分析(Big Data Analytics);
-
試驗設計(Experimental Design 或 Design of Experiment);
-
最佳化論(Optimization);
-
因果分析(Causality);
-
資料科學綜合訓練課程(Data Science Capstone)。
從國內部分高校公佈的資料科學專業課程體系看,一般均設有兩門基礎課程——統計學和機器學習,並直接將電腦科學和統計學專業的兩門課程照搬到資料科學這一新專業之中,甚至教學大綱都沒有做任何的改動。但是,從上述一流大學的課程設定看,資料科學專業中講解統計學和機器學習的方式與統計學和電腦科學等傳統學科不同。以機器學習為例,
-
加州大學伯克利分校和約翰霍普金斯大學的開設的課程名分別為《應用機器學習(Applied Machine Learning)》、《實用機器學習(Practical Machine Learning)》,強調的是從應用角度講解機器學習;
-
華盛頓大學開設課程名為《資料科學家常用的統計機器學習(Statistical Machine Learning for Data Scientists)》,強調的是從資料科學視角講解統計學,突出的是資料科學與機器學習之間的關聯;
-
卡內基梅隆大學的課程名為《大資料集的機器學習(Machine Learning with Big Data Sets)》,強調的是面向大資料的機器學習。
-
紐約大學開設的課程名為《機器學習與計算統計學(Machine Learning and Computational Statistics) 》,強調的是機器學習與統計學的深層融合,而並非是二者的簡單拼湊。
由於大資料在相關性分析領域的應用案例和故事較多,部分高校的大資料教育中過分強調相關分析,而忽略了因果分析,甚至認為大資料或資料科學不善於或不包括因果分析。因此,因果分析的課程在國內資料科學與大資料技術專業的課程中極其罕見。與此不同的是,國外資料科學專業中“因果分析”課程較為常見,體現了資料分析的多樣性以及因果分析在資料科學中的重要地位:
-
加州大學伯克利分校開設有《試驗與因果分析(Experiments and Causality)》;
-
哥倫比亞大學的資料科學專業開設有《資料科學中的因果推理(Causal Inference for Data Science)》課程。
在國內,部分學校的資料科學專業的人才培養方案與資料工程、資料倉庫、商務智慧等其他專業或方向的區別並非明顯,課程設定仍定位在於資料工程師的培養,關註的科學問題是資料本身的管理。但是,資料科學專業與資料工程專業不同,側重的是“基於資料的管理”,而並非是“資料本身的管理”,其培養目的為資料科學家和資料分析師。例如,
-
斯坦福大學的《資料驅動型醫學(Data Driven Medicine)》
-
紐約大學的《基於最佳化的資料分析(Optimization-based Data Analysis)》
-
約翰·霍普金斯大學的《資料產品開發(Developing Data Products)》。
在國內,從部分學校的大資料專業課程體系看,為了區分和凸顯新專業的特殊性,在每個課程的名稱中簡單機械地增加了“大資料”字樣,如《大資料系統與演演算法》等。但是,從國外經驗可以看出,資料科學專業的課程不一定要打“大資料”的旗號,例如:
-
華盛頓大學開設的課程《可擴充套件的資料系統與演演算法(Scalable Data Systems & Algorithms)》,雖沒有註明“大資料(Big Data)”字樣,但充分體現了大資料系統和演演算法的核心需求和主要矛盾——可擴充套件性(Scalability)。
-
斯坦福大學開設的課程“基於資料的計算正規化(Paradigms for Computing with Data)”,雖然沒有“大(Big)”字樣,但抓住了資料科學的核心問題——基於資料的計算正規化。
目前,國內多所高校的資料科學專業的培養方案趨於同質,相互參照得過多,並沒有體現所在高校的優勢。從國外課程體系的設計看,不同學校的資料科學與大資料技術專業的人才培養方案並非相同,而主要區別體現在所在高校的學科優勢和人才培養的定位。例如斯坦福大學結合自己在統計學、醫學、生物學和商務智慧的優勢,開設出了一些特色課程:
-
現代應用統計學:學習(Modern Applied Statistics: Learning);
-
現代應用統計學:資料挖掘(Modern Applied Statistics: Data Mining);
-
資料驅動型醫學(Data Driven Medicine);
-
現代統計學與現代生物學(Modern Statistics for Modern Biology);
-
大資料商務智慧(Business Intelligence from Big Data)。
目前,國內部分學校的資料科學專業的課程設計中僅強調技術和工程問題,而忽略了人文和管理問題。但是,從國外資料科學專業課程設計看,資料科學不僅是技術和工程的問題,而且還涉及道德和法律的範疇,例如:
-
加州大學伯克利分校的課程《大資料中的人與價值(Behind the Data: Humans and Values)》;
-
華盛頓大學的課程《以人為中心的資料科學(Human-Centered Data Science)》;
-
哥倫比亞大學的課程《》資料科學綜合訓練及倫理(Data Science Capstone & Ethics》。
目前,國內資料科學專業的課程設計是專門為電腦科學、統計學或資料科學專業的學生設計的,而忽略了其他專業學生的需求。但是,從國外大學資料科學專業或課程的選修生源看,主要生源並非是上述三個專業,而其他專業的生源佔絕大多數。紐約大學的資料科學專業的多個培養方向也證明瞭這一點。因此,在資料科學專業的課程設計中應適當考慮學生來源和去向,加強資料科學與領域知識的高度融合。
參考文獻
[1] 全國高校大資料教育聯盟.2017申報“資料科學與大資料技術”專業本科院校數量再創新高[OL].http://www.sohu.com/a/168748806_589639
[2] Steve Pierson.Master’s Programs in Data Science and Analytics[OL](2017-12-3) .http://magazine.amstat.org/blog/2017/06/01/masters-programs2/
[3] New York University.Academics[OL].https://cds.nyu.edu/academics/
[4] UC Regents. Data Science (DATASCI)[OL].(2017-11-21). http://guide.berkeley.edu/courses/datasci/
[5] Johns Hopkins Engineering for Professionals. Data Science[OL].(2017-11-21). https://ep.jhu.edu/programs-and-courses/programs/data-science
[6] University of Washington | Seattle, WA. Courses & Curriculum[OL].(2017-11-21). https://www.datasciencemasters.uw.edu/details/courses/
[7] New York University. MS in Data Science Courses[OL].(2017-11-21). https://cds.nyu.edu/academics/ms-in-data-science/ms-courses/
[8] Stanford University, Stanford, California 94305. M.S. in Statistics: Data Science. https://statistics.stanford.edu/academics/ms-statistics-data-science
[9] Carnegie Mellon University. Data Science Overview. [OL].(2017-11-21). https://www.cmu.edu/graduate/data-science/
[10] GraduateCurriculum.ColumbiaUniversity[OL].(2017-11-21).
http://datascience.columbia.edu/course-inventory
[11] City, University of London. Data Science[OL].(2017-11-21).https://www.city.ac.uk/courses/postgraduate/data-science-msc
[12] UC Regents. Master of Information and Data Science[OL].(2017-11-21) .https://www.ischool.berkeley.edu/programs/mids
[13] Johns Hopkins Engineering for Professionals.Courses. Courses [OL].(2017-11-21). https://ep.jhu.edu/programs-and-courses/programs/data-science
[14] Johns Hopkins Engineering for Professionals.Courses. About [OL].(2017-11-21). https://ep.jhu.edu/programs-and-courses/programs/data-science
[15] University of Washington | Seattle, WA. Career Outlook. [OL].(2017-11-21) https://www.datasciencemasters.uw.edu/details/
[16] New York University.MS in DATA SCIENCE. [OL].(2017-11-21). https://cds.nyu.edu/academics/ms-in-data-science/
[17] Stanford University, Stanford, California 94305. M.S. in Statistics: Data Science [OL].(2017-11-21) https://statistics.stanford.edu/academics/ms-statistics-data-science
[18] Columbia University. Mission[OL].(2017-11-21). http://datascience.columbia.edu/columbia-data-science
[19] City, University of London. Objectives. [OL].(2017-11-21). https://www.city.ac.uk/courses/postgraduate/data-science-msc
[20] Carnegie Mellon University.Overview: Carnegie Mellon’s Interdisciplinary Approach to Data Science[OL][2017-11-22].https://www.cmu.edu/graduate/data-science/
[21] 2017 University of Washington | Seattle, WA. Course Descriptions[OL].(2017-11-21).https://www.datasciencemasters.uw.edu/details/courses/course-descriptions/#DATA557
[22] Stanford University, Stanford California 94305. STATS315B – Modern Applied Statistics: Data Mining[OL].(2017-11-21). http://scpd.stanford.edu/search/publicCourseSearchDetails.do?method=load&courseId;=1164541
[23] UC Regents. Info 251Applied Machine Learning[OL].(2017-11-21). https://www.ischool.berkeley.edu/courses/info/251
[24] 2017 University of Washington | Seattle, WA. Course Descriptions[OL].(2017-11-21). https://www.datasciencemasters.uw.edu/details/courses/course-descriptions/#DATA557
[25] 2017 UC Berkeley School of Information. Python for Data Science[OL].(2017-11-21). https://datascience.berkeley.edu/academics/curriculum/python-for-data-science/
[26] Johns Hopkins Engineering for Professionals. 605.448 – Data Science[OL].(2017-11-21). https://ep.jhu.edu/programs-and-courses/605.448-data-science
[27] Stanford University. BIOMEDIN 215: Data Driven Medicine[OL].(2017-11-21). http://explorecourses.stanford.edu/search?view=catalog&filter-coursestatus-Active;=on&page;=0&catalog;=&academicYear;=20172018&q;=+Data+Driven+Medicine&collapse;=
[28] Stanford University. OIT 367: Business Intelligence from Big Data[OL].(2017-11-21) http://explorecourses.stanford.edu/search?q=OIT%2b367&academicYear;=20172018
[29] UC Berkeley School of Information. Data Visualization[OL].(2017-11-21). https://datascience.berkeley.edu/academics/curriculum/data-visualization/
[30] Johns Hopkins Engineering for Professionals. 605.462 – Data Visualization[OL].(2017-11-21). https://ep.jhu.edu/programs-and-courses/605.462-data-visualization
[31] City, University of London. Core modules[OL].(2017-11-21). https://www.city.ac.uk/courses/postgraduate/data-science-msc
[32] Duke University.MIDS – Program Overview[OL].(2012-12-3).https:// datascience.duke.edu/content/course-schedule
[33] Master of Computational Data Science. Masters – CDS – Curriculum[OL].(2017-11-21) https://mcds.cs.cmu.edu/masters-cds-curriculum
[34] Stanford University, Stanford, California 94305. Paradigms for Computing with Data[OL].(2017-11-21) https://statistics.stanford.edu/courses/2014-2015-stats-290
[35] UC Berkeley School of Information. Storing and Retrieving Data[OL].(2017-11-21). https://datascience.berkeley.edu/academics/curriculum/storing-retrieving-data/
[36] Columbia University. Graduate Curriculum [OL].(2017-11-21). http://datascience.columbia.edu/course-inventory
[37] University of Washington .Human-Centered Data Science[OL][2017-12-1].https://www.datasciencemasters.uw.edu/details/courses/course-descriptions/#DATA512
[38] 朝樂門.資料科學理論與實踐[M].清華大學出版社,2017.
END
版權宣告:本號內容部分來自網際網路,轉載請註明原文連結和作者,如有侵權或出處有誤請和我們聯絡。
關聯閱讀:
原創系列文章:
資料運營 關聯文章閱讀:
資料分析、資料產品 關聯文章閱讀: