如果展开讲,这个问题可以写一篇综述了。
最近刚好有空,打算认真写写。仅仅在几年前,数据科学家还不是一个正式确定的职业,然而一眨眼的工夫,这个职业就已经被誉为“今后十年IT行业最重要的人才”了。一、数据科学家的起源"数据科学"(DataScience)起初叫"datalogy "。最初在1966年由Peter Naur提出,用来代替"计算机科学"(丹麦人,2005年图灵奖得主,丹麦的计算机学会的正式名称就叫Danish Society of Datalogy,他是这个学会的第一任**。Algol 60是许多后来的程序设计语言,包括今天那些必不可少的软件工程工具的原型。图灵奖被认为是“计算科学界的诺贝尔奖”。)1996年,International Federation of Classification Societies (IFCS)国际会议召开。数据科学一词首次出现在会议(Data Science, classification, and related methods)标题里。1998年,C.F. Jeff Wu做出题为“统计学=数据科学吗? 的演讲,建议统计改名数据的科学统计数据的科学家。 (吴教授于1987年获得COPSS奖,2000年在 被选为中研院院士,2004年作为第一位统计学者当选美国国家工程院院士,也是第一位华人统计学者获此殊荣。)2002年,国际科学理事会:数据委员会科学和技术(CODATA)开始出版数据科学杂志。2003年,美国哥伦比亚大学开始发布数据科学杂志,主要内容涵盖统计方法和定量研究中的应用。2005年,美国国家科学委员会发表了"Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century",其中给出数据科学家的定义:"the information and computer scientists, database and software and programmers, disciplinary experts, curators and expert annotators, librarians, archivists, and others, who are crucial to the successful management of a digital data collection"信息科学与计算机科学家,数据库和软件工程师,领域专家,策展人和标注专家,图书管理员,档案员等数字数据管理收集者都以可成为数据科学家。它们主要任务是:"进行富有创造性的查询和分析。"2012年,O'Reilly媒体的创始人 Tim O'Reilly 列出了世界上排名前7位的数据科学家。Larry Page,谷歌CEO。Jeff Hammerbacher,Cloudera的首席科学家和DJ Patil,Greylock风险投资公司企业家。Sebastian Thrun,斯坦福大学教授和Peter Norvig,谷歌数据科学家。Elizabeth Warren,Massachusetts州美国参议院候选人。Todd Park,人类健康服务部门首席技术官。Sandy Pentland,麻省理工学院教授。Hod Lipson and Michael Schmidt,康奈尔大学计算机科学家。