教学文库网 - 权威文档分享云平台
您的当前位置:首页 > 文库大全 > 资格考试 >

大数据研究_未来科技及经济社会发_省略_领域_大数据的研究现状与(3)

来源:网络收集 时间:2025-10-07
导读: [12]是对的)。设计这一实验的激动人心之处在于,使国家长治久安的大事。我国拥有世界上最多的 不论找到还是没有找到希格斯粒子,都是物理学的重大突破。从这一实验可以看出,科学实验的大数据处理是整个实验的一个

[12]是对的)。设计这一实验的激动人心之处在于,使国家长治久安的大事。我国拥有世界上最多的

不论找到还是没有找到希格斯粒子,都是物理学的重大突破。从这一实验可以看出,科学实验的大数据处理是整个实验的一个预定步骤,发现有价值的信息往往在预料之中。

Web上的信息(譬如微博)是千千万万的人随机产生的,从事社会科学研究的学者要从这些看似杂乱无章的数据中寻找有价值的蛛丝马迹。网

网民和最大的访问量,在网络大数据分析方面已有较强的基础,有望做出世界领先的原始创新成果,应加大网络大数据分析方面的研究力度。

4.5数据处理的复杂性研究

计算复杂性是计算机科学的基本问题,科学计算主要考虑时间复杂性和空间复杂性。对于大数据处理,除了时间和空间复杂性外,可能还需要

2012年.第27卷.第6期

大数据的研究现状与科学思考

考虑解决一个问题需要多大的数据量,暂且称为“数据量复杂性”。数据量复杂性和空间复杂性不是一个概念,空间复杂性要考虑计算过程中产生的空间需求。

设想有人采集完全随机地抛掷硬币的正反面数据,得到极长的01数字序列,通过统计可计算出现正面的比例。可以肯定,收

的殿堂。

4.6科研第四范式是思维方式的大变化

已故图灵奖得主吉姆·格雷提出的数据密集型科研“第四范式(thefourthpara-digm)”,将大数据科研从第三范式(计算科学)中分离出来单独作为一种科研范式,是因为其研究方式不同于基于数学模型的传

集的数据越多,其结果与0.5的误差越小,统研究方式[5]。Google公司的研究部主任这是一个无限渐进的过程。基于唯象假设的数据处理常出现这类增量式进步,数据多一点,结果就好一点。这类问题的数据科学价值可能不大。反过来,可能有些问题的数据处理像个无底洞,无论多少数据都不可能解决问题。这种问题有些类似NP问题。我们需要建立一种理论,对求解一个问题达到某种满意程度(对判定问题是有多大把握说“是”或“否”,优化问题是接近最优解的程度)需要多大规模的数据量给出理论上的判断。当然,目前还有很多问题没有定义清楚,比如,对于网络搜索之类的问题,如何定义问题规模和数据规模等。

对从事大数据研究的学者而言,最有意

PeterNorvig的一句名言可以概括两者的区别:“所有的模型都是错误的,进一步说,没有模型你也可以成功(Allmodelsarewrong,andincreasinglyyoucansucceed

[2]

withoutthem)”。PB级数据使我们可以做

到没有模型和假设就可以分析数据。将数据丢进巨大的计算机机群中,只要有相互关系的数据,统计分析算法可以发现过去的科学方法发现不了的新模式、新知识甚至新规律。实际上,Google的广告优化配置、战胜人类的IBM沃森问答系统都是这么实现的,这就是“第四范式”的魅力!

美国Wired杂志主编ChrisAnderson2008年曾发出“理论已终结”的惊人断言:

思的问题应该是,解决一个问题的数据规模“数据洪流使(传统)科学方法变得过时有一个阈值。数据少于这个阈值,问题解决不了;达到这个阈值,就可以解决以前解决

(TheDataDelugeMakestheScientificMeth-[2]odObsolete)”。他指出,获得海量数据和

不了的大问题;而数据规模超过这个阈值,处理这些数据的统计工具的可能性提供了对解决问题也没有更多的帮助。我们把这类问题称为“预言性数据分析问题”,即在做大数据处理之前,我们可以预言,当数据量到达多大规模时,该问题的解可以达到何种满意程度。

与社会科学有关的大数据问题,例如舆情分析、情感分析等,许多理论问题过去没有考虑过,才刚刚开始研究。迫切需要计算机学者与社会科学领域的学者密切合作,共同开拓新的疆域。借助大数据的推力,社会科学将脱下“准科学”的外衣,真正迈进科学

理解世界的一条完整的新途径。Petabytes让我们说:相互关系已经足够(Correlationisenough)。我们可以停止寻找模型,相互关系取代了因果关系,没有具有一致性的模型、统一的理论和任何机械式的说明,科学也可以进步。

ChrisAnderson的极端看法并没有得到科学界的普遍认同,数据量的增加能否引起科研方法本质性的改变仍然是一个值得探讨的问题。对研究领域的深刻理解(如空气动力学方程用于风洞实验)和数据量的积累

院刊

战略与决策研究

应是一个迭代累进的过程。没有科学假设和模型

Strategy&PolicyDecisionResearch

的方法,不一定能直观地展现出大数据本身的意义。要想有效利用数据并挖掘其中的信息或知识,必须找到最合适的数据表示方法。在一种不合适的数据表示中寻找大数据的固定模式、因果关系和关联关系时,可能会落入固有的偏见之中。数据表示方法和最初的数据产生者有着密切关系。如果原始数据有必要的标识,就会大大减轻事后数据识别和分类的困难。但标识数据会给用户增添麻烦,所以往往得不到用户认可。研究既有效又简易的数据表示方法是处理网络大数据必须解决的技术难题之一;

(3)高效率低成本的大数据存储。大数据的存储方式不仅影响其后的数据分析处理效率也影响数据存储的成本。因此,就需要研究高效率低成本的数据存储方式。具体则需要研究多源多模态数据高质量获取与整合的理论和技术、流式数据的高速索引创建与存储、错误自动检测与修复的理论和技术、低质量数据上的近似计算的理论和算法等;

(4)大数据的有效融合。数据不整合就发挥不出大数据的大价值。大数据的泛滥与数据格式太多有关。大数据面临的一个重要问题是个人、企业和政府机构的各种数据和信息能否方便地融合。如同人类有许多种自然语言一样,作为网络空间中唯一客观存在的数据难免有多种格式。但为了扫清网络大数据处理的障碍,应研究推广不与平台绑定的数据格式。大数据已成为联系人类社会、物理世界和网络空间的纽带,需要通过统一的数据格式构建融合人、机、物三元世界的统一信息系统;

(5)非结构化和半结构化数据的高效处理。据统计,目前采集到的数据85%以上是非结构化和半结构化数据,而传统的关系数据库技术无法胜任这些数据的处理,因为关系数据库系统的出发点是追求高度的数据一致性和容错性。根据CAP(Consistency,Availability,tolerancetonet-workPartitions)理论,在分布式系统中,一致性、可

就能发现新知识究竟有多大的普适性也需要实践来检验,我们需要思考:这类问题有多大的普遍性?这种优势是数据量特别大带来的还是问题本身有这种特性?所谓从数据中获取知识要不要人的参与,人在机器自动学习和运行中应该扮演什么角色?也许有些领域可以先用第四范式,等领域知识逐步丰富了再过渡到第三范式。

5面临的主要问题与挑战

现有的数据中心技术很难满足大数据的需求,需要考虑对整个IT架构进行革命性的重构。而存储能力的增长远远赶不上数据的增长,因此设计最合理的分层存储架构已成为IT系统的关键。数据的移动已成为IT系统最大的开销,目前传送大数据最高效也最实用的方式是通过飞机或地面交通工具运送磁盘而不是网络通信。在大数据时代,IT系统需要从数据围着处理器转改变为处理能力围着数据转,将计算推送给数据,而不是将数据推送给计算。大数据也导致高可扩展性成为对IT系统最本质的需求,并发执行(同时执行的线程)的规模要从现在的千万量级提高到10亿级以上。

在应对处理大数据的各种技术挑战中,以下几 …… 此处隐藏:2886字,全部文档内容请下载后查看。喜欢就下载吧 ……

大数据研究_未来科技及经济社会发_省略_领域_大数据的研究现状与(3).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.jiaowen.net/wenku/107393.html(转载请注明文章来源)
Copyright © 2020-2025 教文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:78024566 邮箱:78024566@qq.com
苏ICP备19068818号-2
Top
× 游客快捷下载通道(下载后可以自由复制和排版)
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
× 常见问题(客服时间:周一到周五 9:30-18:00)