大数据研究_未来科技及经济社会发_省略_领域_大数据的研究现状与(2)
式,即面对海量数据,科研人员只需从数据中直接查找或挖掘所需要的信息、知识和智慧,甚至无需直接接触需研究的对象。2007年,已故的图灵奖得主吉姆·格雷(JimGray)在他最后一次演讲中描绘了数据密集型科学研究的“第四范式”(The
[5]
FourthParadigm),把数据密集型科学从计算科学“黑盒模型”和普适规律。数据库理论是一个很好
中单独区分开来。格雷认为,要解决我们面临的某些最棘手的全球性挑战,“第四范式”可能是唯一具有系统性的方法。其实,“第四范式”不仅是科研方式的转变,也是人们思维方式的大变化。
的例子。在经历了层次数据库、网状数据库多年实践后,Codd[18]发现了数据库应用的共性规律,建立了有坚实理论基础的关系模型。在这之前人们也一直在问数据库可不可能有共性的理论。现在大数据研究要做的事就是提出像关系数据库这样的理论来指导海量非结构化数据的处理。
信息技术的发展使我们逐步进入“人-机-物”
4对大数据研究的科学思考
4.1“数据科学”研究的对象是什么?
计算机科学是关于算法的科学,数据科学是关于数据的科学。从事数据科学研究的学者更关注数据的科学价值,试图把数据当成一个“自然体(Datanature)”来研究,提出所谓“数据界(Datauni-verse)”的概念,颇有把计算机科学划归为自然科学的倾向。但脱离各个领域的“物理世界”,作为客观事物间接存在形式的“数据界”究竟有什么共性问题还不清楚。物理世界在网络空间中有其数据映像,目前一些学者认为,数据界的规律其本质可能是物理世界的规律(还需要在物理世界中测试验证)。除去各个领域的规律,作为映像的“数据界”还有其独特的共同规律吗?这是一个值得深思的问题。
任何领域的研究,若要成为一门科学,一定是研究共性的问题。针对非常狭窄领域的某个具体问题,主要依靠该问题涉及的特殊条件和专门知识做数据挖掘,不大可能使大数据成为一门科学。数据研究能成为一门科学的前提是,在一个领域发现的数据相互关系和规律具有可推广到其他领域的普适性。抽象出一个领域的共性科学问题往往需要较长的时间,提炼“数据界”的共性科学问题还需要一段时间的实践积累。至少未来5—10年内计算机界的学者还需多花精力协助其
融合的三元世界,未来的世界可以做到“机中有人,人中有机,物中有机,机中有物”。所谓“机”就是联系人类社会(包括个人身体与大脑)与物理世界的网络空间,其最基本的构成元素是不同于原子和神经元的bit。物理空间和人类社会(包括人的大脑)都有共性的科学问题和规律,与这两者有密切联系的网络空间会不会有不同的共性科学问题?从“人-机-物”三元世界的角度来探讨大数据科学的共性问题,也许是一个可以尝试的突破口。
4.2数据背后的共性问题——关系网络
观察各种复杂系统得到的大数据,直接反映的往往是一个个孤立的数据和分散的链接,但这些反映相互关系的链接整合起来就是一个网络。例如,基因数据构成基因网络,脑科学实验数据形成神经网络,Web数据反映出社会网络。数据的共性、网络的整体特征隐藏在数据网络中,大数据往往以复杂关联的数据网络这样一种独特的形式存在,因此要理解大数据就要对大数据后面的网络进行深入分析。网络有不少参数和性质,如平均路径长度、度分布、聚集系数、核数、介数等,这些性质和参数也许能刻画大数据背后网络的共性。因此,大数据面临的科学问题本质上可能就
是网络科学问题,复杂网络分析应该是数据科学
2012年.第27卷.第6期
大数据的研究现状与科学思考
的重要基石。
目前,研究Web数据的学者以复杂网络上的数据(信息)传播机理、搜索、聚类、同步和控制作为主要研究方向。最新的研究成果表明[4],随机的Scale-free网络不是一般的“小世界”,而是“超小世界(Ultrasmallworld)”,规模为N的网络的最短路径的平均长度不是一般小世界的lnN而是lnlnN。网络数据研究应发现网络数据产生、传播以及网络信息涌现的内在机制,还要研究隐藏在数据背后的社会学、心理学、经济学的机理,同时利用这些机理研究互联网对政治、经济、文化、教育、科研的影响。基于大数据对复杂系统内在机理进行整体性的研究,也许将为研究复杂系统提供新的途径。从这种意义上看,数据科学是从整体上研究复杂系统的一门科学。
发现Scale-free网络的Albert-LászlóBarabási教授在2012年1月的NaturePhys ics上发表一篇重要文章“Thenetworktake
[3]
over”。文章认为:20世纪是量子力学的世
有B,或者反过来有B就一定有A。严格来讲,统计学无法检验逻辑上的因果关系。如,根据统计结果:可以说“吸烟的人群肺癌发病率会比不吸烟的人群高几倍”,但统计结果无法得出“吸烟致癌”的逻辑结论。统计学的相关性有时可能会产生把结果当成原因的错觉。如,统计结果表明:下雨之前常见到燕子低飞,从时间先后看两者的关系可能得出燕子低飞是下雨的原因,而事实上,将要下雨才是燕子低飞的原因。
也许正是因为统计方法不能致力于寻找真正的原因,才促使数据挖掘和大数据技术在商业领域广泛流行。企业的目标是多赚钱,只要从数据挖掘中发现某种措施与增加企业利润有较强的相关性,采取这种措施就是了,不必深究为什么能增加利润,更不必发现其背后的内在规律和模型。一般而言,企业收集和处理大数据,不是按学者们经常描述的“从数据到信息再到知识和智慧”的研究思路,而是走“从数据直接到价值”的捷径。Google广告获得巨额收入经常被引用作为大数据相关分析的成功案例,美
纪,从电子学到天文物理学,从核能到量子
计算,都离不开量子力学;而到了21世纪,国Wired杂志主编ChrisAnderson在他的著网络理论正在成为量子力学的可尊敬的后继,正在构建一个新的理论和算法的框架。
名文章“TheEndofTheory”的结尾发问:“现在是时候问这一句了:科学能从谷歌那儿学
[2]
到什么?”。
4.3大数据研究中的关联关系与因果关系
大数据研究不同于传统的逻辑推理研究,而是对数量巨大的数据做统计性的搜索、比较、聚类、分类等分析归纳,因此继承了统计科学的一些特点。统计学关注数据的相关性或称关联性,所谓“相关性”是指两个或两个以上变量的取值之间存在某种规律性。“相关分析”的目的是找出数据集里隐藏的相互关系网(关联网),一般用支持度、可信度、兴趣度等参数反映相关性。两个数据A和B有相关性,只有反映A和B在取值时相互有影响,并不能告诉我们有A就一定
因果关系的研究曾引发了科学体系的建立,近代科学体系获得的成就已经证明,科学是研究因果关系最重要的手段。相关性研究是可以替代因果分析的科学新发展还只是因果分析的补充,不同的学者有完全不同的看法。我们都是从做平面几何证明题开始进入科学大花园的,脑子里固有的逻辑思维模式少不了因果分析,判断是否是真理也习惯看充分必要条件,对于大数据的关联分析蕴含的科学意义往往理解不深。对于简单封闭的系统,基于小数据的因果分析
院刊
战略与决策研究
容易做到。当年开普勒发现行星三大定律,牛顿
Strategy&PolicyDecisionResearch
络大数据有许多不同于自然科学数据的特点,包括多源异构、交互性、时效性、社会性、突发性和高噪声等,不但非结构化数据多,而且数据的实时性强,大量数据都是随机动态产生。 …… 此处隐藏:2816字,全部文档内容请下载后查看。喜欢就下载吧 ……
相关推荐:
- [资格考试]石油钻采专业设备项目可行性研究报告编
- [资格考试]2012-2013学年度第二学期麻风病防治知
- [资格考试]道路勘测设计 绪论
- [资格考试]控烟戒烟知识培训资料
- [资格考试]建设工程安全生产管理(三类人员安全员
- [资格考试]photoshop制作茶叶包装盒步骤平面效果
- [资格考试]授课进度计划表封面(09-10下施工)
- [资格考试]麦肯锡卓越工作方法读后感
- [资格考试]2007年广西区农村信用社招聘考试试题
- [资格考试]软件实施工程师笔试题
- [资格考试]2014年初三数学复习专练第一章 数与式(
- [资格考试]中国糯玉米汁饮料市场发展概况及投资战
- [资格考试]塑钢门窗安装((专项方案)15)
- [资格考试]初中数学答题卡模板2
- [资格考试]2015-2020年中国效率手册行业市场调查
- [资格考试]华北电力大学学习实践活动领导小组办公
- [资格考试]溃疡性结肠炎研究的新进展
- [资格考试]人教版高中语文1—5册(必修)背诵篇目名
- [资格考试]ISO9001-2018质量管理体系最新版标准
- [资格考试]论文之希尔顿酒店集团进入中国的战略研
- 全国中小学生转学申请表
- 《奇迹暖暖》17-支2文学少女小满(9)公
- 2019-2020学年八年级地理下册 第六章
- 2005年高考试题——英语(天津卷)
- 无纺布耐磨测试方法及标准
- 建筑工程施工劳动力安排计划
- (目录)中国中央空调行业市场深度调研分
- 中国期货价格期限结构模型实证分析
- AutoCAD 2016基础教程第2章 AutoCAD基
- 2014-2015学年西城初三期末数学试题及
- 机械加工工艺基础(完整版)
- 归因理论在管理中的应用[1]0
- 突破瓶颈 实现医院可持续发展
- 2014年南京师范大学商学院决策学招生目
- 现浇箱梁支架预压报告
- Excel_2010函数图表入门与实战
- 人教版新课标初中数学 13.1 轴对称 (
- Visual Basic 6.0程序设计教程电子教案
- 2010北京助理工程师考试复习《建筑施工
- 国外5大医疗互联网模式分析