近年来,“大数据”时下一个热门的词语,,似乎越来越多的行业和人们开始关注并实际探索大数据的应用。我们一起勾勒出大数据的伟大用途的蓝图,但在实践的道路上,我们都是初级阶段的孩子。

  大数据根基于互联网,数据仓库、数据挖掘、云计算等互联网技术的发展为大数据应用奠定基础。对于任何一个大数据的从业者或初接触者,或者都会有个共同的感触:大数据很有用!大数据该怎么用呢?

  1、大数据是什么?

  对于大数据的定义,我们来引用3个比较差用的大数据定义:

  1)Gartner:需要信息处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量、高增长率很多样化的信息资产。

  2)IDC:海量的数据规模(Volunme)、快速的数据流转和数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value)。

  3)Wiki:或称巨量数据、海量数据、大资料,指所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。

  其他关于大数据的定义也大抵类型,我们可以用几个关键词对大数据做一个界定。

  首先,“大规模”,这种规模可以从两个维度来衡量,一是时间序列累积大量的数据,二是在深度上更加细化的数据。

  其次,“多样化”,可以是不同的数据格式,如文字、图片、视频等,可以是不同的数据类别,如入口数据,经济数据等,还可以有不同的数据来源,如互联网、传感器等。

  最后,“动态化”,数据是不停变化的,可以随着时间快速增加大量数据,也可以是在空间上不断移动变化的数据。

  这三个关键词对大数据从形象上做了界定。

  但是还需要一个关键能力,就是“处理速度快”。如果这么大规模、多样化又动态变化的数据有了,但需要很长的时间去处理分析,那不叫大数据。从另一个角度,要实现这些数据快速处理,靠人工肯定是没办法实现的,因此,需要借助于机器实现。

  最终,我们借助机器,通过对这些数据进行快速的处理分析,获取想要的信息或者应用的整套体系,才能称为大数据。

  我们可以用下面的图示给大数据定义:

  2、大数据平台

  大数据并不是一场市场炒作。对于许多跨多个垂直的组织而言,大数据是真实存在的,而且它正在改变数据中心的架构。随着数据量、数据处理速度和数据类型的复杂度以远超标准前端和后台处理能力的速度增长,大数据在不断增长,这迫使企业的IT团队考虑采用新的方式处理业务需求。

  hadoop平台对于非操作非常大型的数据集而言是一个强大的工具。Hadoop是Apache软件基金会的一个顶级项目,用java语言编写。Hadoop的设计灵感来自于谷歌在其其Google File System(GFS)和MapReduce编程模式上的工作。Hadoop实际上是其创始人DougCutting的儿子给自己的毛绒玩具大象起的名字。

  流数据分析也是一种重要的大数据技术。IBM InfoSphereStreams是目前业界独有的流数据处理技术。在IBM InfoSphere Streams中,数据将会流过有能力操控数据流(每秒钟可能包含数百万个事件)的运算符,然后对这些数据执行动态分析。这项分析可触发大量事件,使企业利用即时的智能实时采取行动,最终改善业务成果。

  IBM的大数据战略以其在2012年5月发布智慧分析洞察“3A5步”动态路线图作为基础。

  IBM提出的“大数据平台”架构具备四大核心能力:包括Hadoop系统、流计算(Stream Computing)、数据仓库(Data Warehouse)和信息整合与治理(Information Integration and Governance)。其中的代表产品有IBM InfoSphere BigInsights、IBM InfoSphere Streams、InfoSphere Warehouse、IBM PureData系统等。

  IBM针对大数据环境的数据安全解决方案则包括IBM InfoSphere Guardium for Hadoop、IBM InfoSphere Optim Data Privacy,以及IBM Tivoli Key Lifecycle Manager。

  大数据_云计算_IBM

  3、大数据可以做什么?

  想要应用大数据,从流程来说,大概是这样。大数据_互联网_云计算

  首先我们要有数据源,然后对数据进行收集和存储,在这基础上,再进行分析和应用,形成我们的产品和服务,而产品和服务也会产生新的数据,这些数据会循环进入我们的流程中。

  当这整个循环体系成为一个智能化的体系,他通过机器可以实现自动化,那也许就会成为一种新的模式,不管是商业的,还是其他。

  然后具体到实际的应用中,大数据能够实现的应用,可以概括为两个方向,一是精准化定制,二是预测。

  主要是针对供需两方的,获取需方的个性化需求提供产品,最终实现供需双方的最佳匹配。

  大数据_java_搜索具体应用举例,也可以归纳为三类。

  一是个性化产品,比如智能化的搜索引擎搜索同样的内容,每个人的结果都不同,或者是一些定制化的新闻服务,或者是网游等。

  第二种是精准营销,现在已经比较常见的互联网营销,网页的推广等,或者是基于地理位置的信息推送,当我到达某个地方,会自动推送周边的消费设施等。

  第三种是选址定位,包括零售店面的选址,或者是公共基础设施的选址。

  这些全都是通过对用户需求的大数据分析,然后提供相对定制化的服务。

  应用的第二个方向,预测。

  预测主要是围绕目标对象,基于它过去、未来的一些相关因素和数据分析,从而提前做出预警,或者是实时动态的优化。

  互联网_云计算_大数据从具体的应用上,也大概可以分为三类。

  一类是支持类的,小到企业的运营决策,证券投资决策,医疗行业的临床诊疗支持,以及电子政务等。

  二是风险预警类的,比如疫情预测,日常健康管理的疾病预测,设备实施的运营维护,公共安全,以及金融行业的信用风险管理等。

  第三种是实时优化类的,比如智能线路规划,实时定价等。

  以上呢,是对于大数据可以用来做什么的一些畅想,事实上也许大数据可以做的事情,可以扩展到方方面面。

  但是,我们再看看现实中,大数据实际应用到了什么程度呢?

  目前,大数据真正实现了商业化的应用,只有一种,就是互联网营销。其他我们列举的方向,会有些初步的应用,但基本都还停留在探索的阶段。比如疫情预测,无抵押信用贷款等,对于准确性,精细度,可推广性方面还是有待推敲。造成大数据实际应用于目标蓝图之间的差距的主要原因是什么,认为是数据源的问题,你必须先获得数据,然后才能应用数据。因此,数据的可获取性,成为大数据在具体行业应用性评价的一个重要维度。可以从数据的标准化、开放性和集中度几个维度衡量数据可获取性。同时,获取数据之后,在应用数据方面,可以从大数据应用的潜在价值维度来衡量,包括绩效的提升,成本降低或者是新模式的产生。

  此外,还可以从大数据行业应用的可复制/推广性的角度来衡量,不仅包括在本行业内的推广,同时也包括跨行业的推广性。

  从三个维度,对大数据在各行业应用的可能性做了一个定位,但这个定位还是非常定性和粗略的,具体可能需要对行业有更多的大数据应用的探讨和探索。

  大数据和大数据平台是什么,有什么作用?中琛魔方大数据表示:大数据时代已经到来,这是一个时代的变化。只有抓住机遇,建立数据平台并将其应用于企业行业,我们才不会被这个时代所淘汰。随着时代的更迭,演变出更适合发展的模式。