“中国用户虽然已经有了明确的大数据需求,但是大多数用户目前只是抱着试试看的心理,将一部分应用转到大数据平台上。电信运营商、银行等用户都在做这种尝试。”Informatica公司大中国区首席产品顾问但彬表示,“但是,对于转移到大数据平台需要花费多少精力和财力、大数据平台是否可靠等问题,中国用户还在考察之中。”
扫清大数据处理的障碍
我们现在能看到的大数据成功案例多来自互联网领域。但是如果比较数据本身的含金量,还是企业大数据(结构化数据)更具价值。虽然Informatica的产品已经应用于像Facebook这样的互联网企业,但是其业务重点还是在结构化数据的处理上。在大数据概念出现以前,人们在商业智能分析方面已经做了很多工作,而完成这些工作需要的大量价格高昂的硬件对于企业来说已经不堪重负,如果再加上大数据分析,很多企业根本无法承受这样巨大的投入。因此,像Hadoop这样的开源产品应运而生。
用户转换到大数据平台,不仅要考虑软硬件的投入,还要考虑为此支出的人力成本和学习成本,在新的应用环境中如何更简单方便地使用相关工具等问题。但彬表示:“我们的目标是让用户基于原有的知识体系,就能透明地使用大数据工具。因此,我们把所有需要处理的东西虚拟出来,让它既可以运行在传统的硬件上,也可以运行在大数据平台上。这样,用户就不必考虑其数据和应用究竟运行在哪个平台之上,只要直接使用即可,降低了大数据应用的门槛和成本。”
Informatica主要解决的是数据质量和数据集成的问题,而大数据分析是其下游的应用。“如果放到大数据平台中的数据质量只有60分,那么分析得出的结果肯定不会是100分;如果我们为大数据平台提供质量为90分的数据,那么得出的结果肯定更好。大数据的展示固然重要,但是大数据的收集更加重要。”但彬举例说。Informatica的主要工作是在数据采集和流通过程中就对数据进行清洗、整合和处理,然后再将高质量的数据交由大数据平台进行分析。Informatica实际上做的是大数据的预处理工作,它就像是大数据通路上的清道夫。
实现硬件与应用的隔离
今年6月,Informatica发布了虚拟数据机(Virtual Data Machine,VDM)Vibe。但彬解释说:“Vibe的功用类似于Java虚拟机,它作为一个隔离层,可以很好地屏蔽异构硬件环境的异差化。无论是何种硬件平台,只要把代码扔给Vibe,它就会自行解析并按需要进行处理。Vibe的出现进一步提升了开发效率。”Vibe的重要意义在于,将底层支撑平台与应用分隔开。这一功能并不是现在才有的,Informatica 9版本已经具有了这一功能。Informatica之所以将VDM作为一个重要的功能正式发布出来,主要是因为VDM这种应用模式已经十分成熟。
从产品集成的角度看,未来Informatica的主要产品都将以Vibe为基础,但是像主数据管理、归档等不以数据处理为核心的应用暂时不会集成到这一平台上。谈到Vibe未来的发展,但彬表示,Informatica将从深度和广度两个维度对Vibe进行扩展:从深度方面讲,不断提升Vibe的性能和可靠性,更好地利用硬件平台;从广度方面讲,Vibe将支持更多种类的硬件平台,未来甚至有可能运行在像智能手机上。
为了在中国更好地推广产品,Informatica加强了与行业分销商的合作。但彬介绍说:“制药是制造行业的一个细分领域。作为一个平台产品厂商,我们很难准确找到我们的产品与制药行业客户的契合点,但是专注于此行业的分销商可以将我们的产品封装成适合制药客户需求的解决方案。”