快捷搜索:  as  test  1111  test aNd 8=8  test++aNd+8=8  as++aNd+8=8  as aNd 8=8

和记娱bh88285:大数据如何在存储上处理



关于大年夜数据和云谋略的关系人们平日会有误解。而且也会把它们混起来说,分手做一句话直白解释便是:云谋略便是硬件资本的虚拟化;大年夜数据便是海量数据的高效处置惩罚。

虽然上面的一句话解释不是异常的贴切,然则可以赞助你简单的理解二者的差别。别的,假如做一个更形象的解释,云谋略相称于我们的谋略机和操作系统,将大年夜量的硬件资本虚拟化之后再进行分配应用,在云谋略领域今朝的老大年夜应该算是Amazon,可以说为云谋略供给了商业化的标准,别的值得关注的还有VMwar和记娱bh88285e(着实从这一点可以赞助你理解云谋略和虚拟化的关系),开源的云平台最有生气愿望的便是Openstack了;

大年夜数据相称于海量数据的“数据库”,而且通不雅大年夜数据领域的成长也能看出,当前的大年夜数据处置惩罚不停在向着近似于传统数据库体验的偏向成长,Hadoop的孕育发生使我们能够用通俗机械建立稳定的处置惩罚TB级数据的集群,把传统而昂贵的并行谋略等观点一下就拉到了我们的眼前,然则其不得当数据阐发职员应用(由于MapReduce开拓繁杂),以是PigLatin和Hive呈现了(分手是Yahoo!和facebook提议的项目,说到这弥补一下,在大年夜数据领域Google、facebook、twitter等前沿的互联网公司作出了很积极和强大年夜的供献),为我们带来了类SQL的操作,到这里操作要领像SQL了,然则处置惩罚效率很慢,绝对和传统的数据库的处置惩和记娱bh88285罚效率有天地之别,以是人们又在想如何在大年夜数据处置惩罚上不光是操作要领类SQL,而处置惩罚速率也能“类SQL”,Google为我们带来了Dremel/PowerDrill等技巧,Cloudera(Hadoop商业化最强的公司,Hadoop之父cutTIng就在这里认真技巧引导)的Impala也呈现了。

整体来看,未来的趋势是,云盘看成为谋略资本的底层,支撑着上层的大年夜数据处置惩罚,而大年夜数据的成长趋势是,实时交互式的查询效率和阐发能力,借用Google一篇技巧论文中的话,“动一下鼠标就可以在秒级操作PB级其余数据”难道不让人愉快吗?

在谈大年夜数据的时刻,首先谈到的便是大年夜数据的4V特点,即类型繁杂,海量,快速和代价。IBM原本谈大年夜数据的时刻谈3V,没有代价这个V。而实际我们来看4V加倍恰当,代价才是大年夜数据问题办理的终纵目标,其它3V都是为代价目标办事。在有了4V的观点后,就很轻易简化的来理解大年夜数据的核心,即大年夜数据的总体架构包括三层,数据存储,数据处置惩罚和数据阐发。类型繁杂和海量由数据存储层办理,快速和时效性要求由数据处置惩罚层办理,代价由数据阐发层办理。

数据先要经由过程存储层存储下来,然后根据数据需乞降目标来建立响应的数据模型和数据阐发指标体系对数据进行阐发孕育发生代价。而中心的时效性又经由过程中心数据处置惩罚层供给的强大年夜的并行谋略和散播式谋略能力来完成。三层互相共同,让大年夜数据终极孕育发生代价。

数据存储层

数据有很多分法,有布局化,半布局化,非布局化;也有元数据,主数据,营业数据;还可以分为GIS,视频,文件,语音,营业买卖营业类各类数据。传统的布局化数据库已经无法满意数据多样性的存储要求,是以在RDBMS根基上增添了两种类型,一种是hdfs可以直接利用于非布局化文件存储,一种是nosql类数据库,可以利用于布局化和半布局化数据存储。

从存储层的搭建来说,关系型数据库,NoSQL数据库和hdfs散播式文件系统三种存储要领都必要。营业利用根据实际的环境选择不合的存储模式,然则为了营业的存储和读取方便性,我们可以对存储层进一步的封装,形成一个统一的共享存储办事层,简化这种操作。从用户来讲并不关心底层存储细节,只关心数据的存储和读取的方便性,经由过程共享数据存储层可以实现在存储上的利用和存储根基设置的彻底解耦。

数据处置惩罚层

数据处置惩罚层核心办理问题在于数据存储呈现散播式和记娱bh88285后带来的数据处置惩罚上的繁杂度,海量存储后带来了数据处置惩罚上的时效性要求,这些都是数据处和记娱bh88285置惩罚层要办理的问题。

在传统的云相关技巧架构上,可以将hive,pig和hadoop-mapreduce框架相关的技巧内容整个划入到数据处置惩罚层的能力。原本我思虑的是将hive划入到数据阐发层能力分歧适,由于hive重点照样在真正处置惩罚下的繁杂查询的拆分,查询结果的从新聚合,而mapreduce本身又实现真正的散播式处置惩罚能力。

mapreduce只是实现了一个散播式谋略的框架和逻辑,而真正的阐发需求的拆分,阐发结果的汇总和合并照样必要hive层的能力整合。终极的目的很简单,即支持散播式架构下的时效性要求。

数据阐发层

着末回到阐发层,阐发层重点是真正掘客大年夜数据的代价所在,而代价的掘客核心又在于数据阐发和掘客。那么数据阐发层核心仍旧在于传统的BI阐发的内容。包括数据的维度阐发,数据的切片,数据的上钻和下钻,cube等。

数据阐发我只关注两个内容,一个便是传统数据仓库下的数据建模,在该数据模型下必要支持上面各类阐发措施和阐发策略;其次是根据营业目标和营业需求建立的KPI指标体系,对应指标体系的阐发模型和阐发措施。办理这两个问题基础办理数据阐发的问题。

传统的BI阐发经由过程大年夜量的ETL数据抽取和集中化,形成一个完备的数据仓库,而基于大年夜数据的BI阐发,可能并没有一个集中化的数据仓库,或者将数据仓库本身也是散播式的了,和记娱bh88285BI阐发的基础措施和思路并没有变更,然则落地到履行的数据存储和数据处置惩罚措施却发生了大年夜变更。

谈了这么多,核心照样想阐明大年夜数据两大年夜核心为云技巧和BI,脱离云技巧大年夜数据没有基本和落地可能,脱离BI和代价,大年夜数据又变更为本末颠倒,丢弃关键目标。简单总结便是大年夜数据目标驱动是BI,大年夜数据实施落地式云技巧。

责任编辑:ct

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

您可能还会对下面的文章感兴趣: