大数据一出现,就成为了业界的宠儿,每个企业和组织都言必称采用大数据技术。那大数据究竟有没有标准,是否每个产品都可以贴上大数据的标签。大数据处理对象的4V特性大家都是耳熟能详,此处就不多谈,除此以外,大数据其实有自己数据量化指标。
“数据总体存储量达到PB级标准,每秒数据处理速度达到GB级标准”。达到这一标准,就可以贴上一个大数据的标签。或许会有人认为这一标准不是难事,不就是拼硬件,不就是购买10万个1T的硬盘,买10万个硬盘不就解决了吗?真的就这么简单?
要达到这一标准,技术门槛非常高。
给你10万个1T的硬盘,在硬件层面,如何组网,数据备份和容灾怎么做,系统可靠性如何保证,整个系统的IO如何设计?
在软件层面,具体到如存储这些数据、数据格式如何、数据的管理节点如何分布,数据冗余和同步、备份如何设计?
在计算层面,如何快速对于数据进行检索,如何对于数据进行高效主题计算,如何获取到高价值的信息,如何能够做到PB级数据计算,并保证数据计算的实时性。当然有人会说,我们有Hadoop,这个问题不就解决了吗?Hadoop提供的HDFS分布式文件系统和HBASE,的确是一种好的解决方案或者技术方向,但是这些技术提供的只是一个具体的框架性技术,技术本身也在逐渐完善,要想使用好这些技术,自己要做事情会非常多,针对各个不同的业务场景,使用HDFS和HBASE的技术实践一直都属于高技术难度的工作,具体到部署策略,分区域管理策略、数据同步策略都是高难度的任务,目前技术上面完全解决,是非常困难的,只能做到一个技术平衡取舍,从目前获取到的资料看,做为国内技术上顶尖的淘宝技术团队,目前使用HBASE上线产品的数据管理容量也就只能达到200T水平,还没有能够搭建出PB级的上线产品。
就个人看法,大数据就是一把双刃剑,面对海量数据,合理利用,就能给你带来源源的财富,使用不当,那就是一种技术负担,会让人焦头烂额,疲惫不堪。大数据核心技术,有自身的解决方向和自然规律,这与基于RDBS的MIS系统处理思路完全不一样。好比在风景区登山技术和登珠穆朗玛峰的技术完全就不是一个技术,修建3层小楼建筑技术和修建上海中心600多米的建筑技术完全不是一个技术。
因此,企业和组织在自己产品贴上大数据的标签同时,请仔细掂量一下自己的技术积累,有没有这种大数据处理核心能力,慎重的贴上这个标签。