大数据研究_未来科技及经济社会发_省略_领域_大数据的研究现状与(3)
[12]是对的)。设计这一实验的激动人心之处在于,使国家长治久安的大事。我国拥有世界上最多的
不论找到还是没有找到希格斯粒子,都是物理学的重大突破。从这一实验可以看出,科学实验的大数据处理是整个实验的一个预定步骤,发现有价值的信息往往在预料之中。
Web上的信息(譬如微博)是千千万万的人随机产生的,从事社会科学研究的学者要从这些看似杂乱无章的数据中寻找有价值的蛛丝马迹。网
网民和最大的访问量,在网络大数据分析方面已有较强的基础,有望做出世界领先的原始创新成果,应加大网络大数据分析方面的研究力度。
4.5数据处理的复杂性研究
计算复杂性是计算机科学的基本问题,科学计算主要考虑时间复杂性和空间复杂性。对于大数据处理,除了时间和空间复杂性外,可能还需要
2012年.第27卷.第6期
大数据的研究现状与科学思考
考虑解决一个问题需要多大的数据量,暂且称为“数据量复杂性”。数据量复杂性和空间复杂性不是一个概念,空间复杂性要考虑计算过程中产生的空间需求。
设想有人采集完全随机地抛掷硬币的正反面数据,得到极长的01数字序列,通过统计可计算出现正面的比例。可以肯定,收
的殿堂。
4.6科研第四范式是思维方式的大变化
已故图灵奖得主吉姆·格雷提出的数据密集型科研“第四范式(thefourthpara-digm)”,将大数据科研从第三范式(计算科学)中分离出来单独作为一种科研范式,是因为其研究方式不同于基于数学模型的传
集的数据越多,其结果与0.5的误差越小,统研究方式[5]。Google公司的研究部主任这是一个无限渐进的过程。基于唯象假设的数据处理常出现这类增量式进步,数据多一点,结果就好一点。这类问题的数据科学价值可能不大。反过来,可能有些问题的数据处理像个无底洞,无论多少数据都不可能解决问题。这种问题有些类似NP问题。我们需要建立一种理论,对求解一个问题达到某种满意程度(对判定问题是有多大把握说“是”或“否”,优化问题是接近最优解的程度)需要多大规模的数据量给出理论上的判断。当然,目前还有很多问题没有定义清楚,比如,对于网络搜索之类的问题,如何定义问题规模和数据规模等。
对从事大数据研究的学者而言,最有意
PeterNorvig的一句名言可以概括两者的区别:“所有的模型都是错误的,进一步说,没有模型你也可以成功(Allmodelsarewrong,andincreasinglyyoucansucceed
[2]
withoutthem)”。PB级数据使我们可以做
到没有模型和假设就可以分析数据。将数据丢进巨大的计算机机群中,只要有相互关系的数据,统计分析算法可以发现过去的科学方法发现不了的新模式、新知识甚至新规律。实际上,Google的广告优化配置、战胜人类的IBM沃森问答系统都是这么实现的,这就是“第四范式”的魅力!
美国Wired杂志主编ChrisAnderson2008年曾发出“理论已终结”的惊人断言:
思的问题应该是,解决一个问题的数据规模“数据洪流使(传统)科学方法变得过时有一个阈值。数据少于这个阈值,问题解决不了;达到这个阈值,就可以解决以前解决
(TheDataDelugeMakestheScientificMeth-[2]odObsolete)”。他指出,获得海量数据和
不了的大问题;而数据规模超过这个阈值,处理这些数据的统计工具的可能性提供了对解决问题也没有更多的帮助。我们把这类问题称为“预言性数据分析问题”,即在做大数据处理之前,我们可以预言,当数据量到达多大规模时,该问题的解可以达到何种满意程度。
与社会科学有关的大数据问题,例如舆情分析、情感分析等,许多理论问题过去没有考虑过,才刚刚开始研究。迫切需要计算机学者与社会科学领域的学者密切合作,共同开拓新的疆域。借助大数据的推力,社会科学将脱下“准科学”的外衣,真正迈进科学
理解世界的一条完整的新途径。Petabytes让我们说:相互关系已经足够(Correlationisenough)。我们可以停止寻找模型,相互关系取代了因果关系,没有具有一致性的模型、统一的理论和任何机械式的说明,科学也可以进步。
ChrisAnderson的极端看法并没有得到科学界的普遍认同,数据量的增加能否引起科研方法本质性的改变仍然是一个值得探讨的问题。对研究领域的深刻理解(如空气动力学方程用于风洞实验)和数据量的积累
院刊
战略与决策研究
应是一个迭代累进的过程。没有科学假设和模型
Strategy&PolicyDecisionResearch
的方法,不一定能直观地展现出大数据本身的意义。要想有效利用数据并挖掘其中的信息或知识,必须找到最合适的数据表示方法。在一种不合适的数据表示中寻找大数据的固定模式、因果关系和关联关系时,可能会落入固有的偏见之中。数据表示方法和最初的数据产生者有着密切关系。如果原始数据有必要的标识,就会大大减轻事后数据识别和分类的困难。但标识数据会给用户增添麻烦,所以往往得不到用户认可。研究既有效又简易的数据表示方法是处理网络大数据必须解决的技术难题之一;
(3)高效率低成本的大数据存储。大数据的存储方式不仅影响其后的数据分析处理效率也影响数据存储的成本。因此,就需要研究高效率低成本的数据存储方式。具体则需要研究多源多模态数据高质量获取与整合的理论和技术、流式数据的高速索引创建与存储、错误自动检测与修复的理论和技术、低质量数据上的近似计算的理论和算法等;
(4)大数据的有效融合。数据不整合就发挥不出大数据的大价值。大数据的泛滥与数据格式太多有关。大数据面临的一个重要问题是个人、企业和政府机构的各种数据和信息能否方便地融合。如同人类有许多种自然语言一样,作为网络空间中唯一客观存在的数据难免有多种格式。但为了扫清网络大数据处理的障碍,应研究推广不与平台绑定的数据格式。大数据已成为联系人类社会、物理世界和网络空间的纽带,需要通过统一的数据格式构建融合人、机、物三元世界的统一信息系统;
(5)非结构化和半结构化数据的高效处理。据统计,目前采集到的数据85%以上是非结构化和半结构化数据,而传统的关系数据库技术无法胜任这些数据的处理,因为关系数据库系统的出发点是追求高度的数据一致性和容错性。根据CAP(Consistency,Availability,tolerancetonet-workPartitions)理论,在分布式系统中,一致性、可
就能发现新知识究竟有多大的普适性也需要实践来检验,我们需要思考:这类问题有多大的普遍性?这种优势是数据量特别大带来的还是问题本身有这种特性?所谓从数据中获取知识要不要人的参与,人在机器自动学习和运行中应该扮演什么角色?也许有些领域可以先用第四范式,等领域知识逐步丰富了再过渡到第三范式。
5面临的主要问题与挑战
现有的数据中心技术很难满足大数据的需求,需要考虑对整个IT架构进行革命性的重构。而存储能力的增长远远赶不上数据的增长,因此设计最合理的分层存储架构已成为IT系统的关键。数据的移动已成为IT系统最大的开销,目前传送大数据最高效也最实用的方式是通过飞机或地面交通工具运送磁盘而不是网络通信。在大数据时代,IT系统需要从数据围着处理器转改变为处理能力围着数据转,将计算推送给数据,而不是将数据推送给计算。大数据也导致高可扩展性成为对IT系统最本质的需求,并发执行(同时执行的线程)的规模要从现在的千万量级提高到10亿级以上。
在应对处理大数据的各种技术挑战中,以下几 …… 此处隐藏:2886字,全部文档内容请下载后查看。喜欢就下载吧 ……
相关推荐:
- [资格考试]石油钻采专业设备项目可行性研究报告编
- [资格考试]2012-2013学年度第二学期麻风病防治知
- [资格考试]道路勘测设计 绪论
- [资格考试]控烟戒烟知识培训资料
- [资格考试]建设工程安全生产管理(三类人员安全员
- [资格考试]photoshop制作茶叶包装盒步骤平面效果
- [资格考试]授课进度计划表封面(09-10下施工)
- [资格考试]麦肯锡卓越工作方法读后感
- [资格考试]2007年广西区农村信用社招聘考试试题
- [资格考试]软件实施工程师笔试题
- [资格考试]2014年初三数学复习专练第一章 数与式(
- [资格考试]中国糯玉米汁饮料市场发展概况及投资战
- [资格考试]塑钢门窗安装((专项方案)15)
- [资格考试]初中数学答题卡模板2
- [资格考试]2015-2020年中国效率手册行业市场调查
- [资格考试]华北电力大学学习实践活动领导小组办公
- [资格考试]溃疡性结肠炎研究的新进展
- [资格考试]人教版高中语文1—5册(必修)背诵篇目名
- [资格考试]ISO9001-2018质量管理体系最新版标准
- [资格考试]论文之希尔顿酒店集团进入中国的战略研
- 全国中小学生转学申请表
- 《奇迹暖暖》17-支2文学少女小满(9)公
- 2019-2020学年八年级地理下册 第六章
- 2005年高考试题——英语(天津卷)
- 无纺布耐磨测试方法及标准
- 建筑工程施工劳动力安排计划
- (目录)中国中央空调行业市场深度调研分
- 中国期货价格期限结构模型实证分析
- AutoCAD 2016基础教程第2章 AutoCAD基
- 2014-2015学年西城初三期末数学试题及
- 机械加工工艺基础(完整版)
- 归因理论在管理中的应用[1]0
- 突破瓶颈 实现医院可持续发展
- 2014年南京师范大学商学院决策学招生目
- 现浇箱梁支架预压报告
- Excel_2010函数图表入门与实战
- 人教版新课标初中数学 13.1 轴对称 (
- Visual Basic 6.0程序设计教程电子教案
- 2010北京助理工程师考试复习《建筑施工
- 国外5大医疗互联网模式分析