大数据这一概念火了好些年,挺多企业跟着潮流购置了设备,存储了数量巨大的数据,然而其后却发觉这些数据根本没法加以运用

花了大价钱建的Hadoop平台,最后只成了个摆设。

问题出在哪?

不是技术不够新,而是从一开始就踩进了几个常见的坑里。

现今咱们来谈一谈,大数据的时代究竟面临着哪些实实在在的挑战,并且又应当怎样依照步骤逐一进行应对呢。

数据采集:第一步就卡住了

很多企业天天喊大数据,可连最基本的数据采集都没搞定。

传回来的经由设备传感器的数据不太准确,用户行为日志遗漏了相当大一部分,业务系统相互之间的字段存在不一致情况。

更让人头疼的是,存在这样一些数据情况,那就是根本采集不到,这是因为它受到网络带宽的局限,或者是由于对方系统没有开放接口,是这样的情形啊

拿在你手里的数据,从一开始就是错的,并且是缺的,还是乱的,就这种情况而言,不管下一步运用何种高级算法去做分析,最终得出的结果都绝对不可能是正确的

要将这个问题予以解决,那就必须先把数据采集工具替换成可靠的,比如说采用像 Flume、Logstash 这类成熟的采集框架,与此同时构建数据质量校验机制,于入口之处就将问题给卡住。

数据共享:宁愿烂在自己手里

数据共享在大数据时代是个老大难。

不少政府部门,以及众多大型企业,手上握着数量众多、价值颇高的数据,然而,只是攥在手中,却并不将其拿出来。

原因也简单:怕泄密、怕担责任、觉得凭啥便宜了别人。

由于各家重复进行投资来建设数据库,且各个的数据标准并不一样,任何一方的都让其他人没办法去使用

臂如,医疗方面的数据,分散于不一样的医院,金融领域的数据,被隔离在各个银行之中,若要构建一个跨越行业的分析模型,就连数据都无法凑齐。

若要打破这般僵局,需从顶层设计着手,构建起数据共享的激励机制,以及安全规范。

当下,已然存在一些地方试点数据交易中心,借助“可用不可见”的隐私计算技术,达成让数据静止而价值流动的状况

技术人才:懂业务又懂数据的人太少

有关 Hadoop、Spark 这些已开源多年的技术框架,然而真正能够将它们运用得恰到好处的企业数量并不多。

原因不是工具难装,而是既懂业务逻辑又懂数据分析的人太难找。

大数据挑战与应对 _ 数据开放与隐私权衡 _ 大数据时代挑战

有可能存在这样一种情况,有一个分析师,他或许会编写 SQL,然而却不一定能够理解销售流程;还有这样一个程序员,他能够搭建平台,可却不清楚哪些数据才是关键的。

不乏众多企业退无可退之下,选择其一,或是以高昂价格购置商业公司所拥有的大数据平台,或是自行逐步组建团队。

一种更为现实的做法是,首先从具体的业务场景着手,像是用户流失预测,亦或是库存优化这样的场景,接着再反过来推导需要什么样的数据跟算法,促使技术与业务能够开展磨合状态,相较于盲目地招聘一大批工程师而言,这种做法会更具成效。

开放生态:数据流动起来才有价值

数据跟石油不一样,石油用掉就没了,数据越用价值反而越大。

然而当下的状况是,数量众多的数据被封闭于各个“数据孤岛”之中,无法实现流动。

开放数据的意义,并非仅仅在于满足知情权,更为关键的在于,要使这些生产资料能够自由地进行流通,进而推动经济,从粗放式的增长,转变为精细化的运营。

国外存在着一些已然成熟的开放数据平台,像政府所公开的气象数据、交通数据以及人口数据,这些数据促使一大批创新应用得以催生。

我国于这方面同样在进行推进,然而,战略观念存在缺失,部门之间协调存在困难,企业投入意愿欠缺,这些统统都是现实障碍。

要迈过这道坎,需要政策引导加市场化机制双管齐下。

分析算法:通用模型还远未成熟

现在的数据挖掘算法看起来很厉害,但换个行业往往就不好用了。

在电商好用的推荐算法,拿到医疗领域可能完全失效。

于每个行业而言,其所具有的数据特征是不同的,其噪声水平也是各异的,其业务逻辑同样是不一样的,故而不存在一个能适用于所有情况的万能模型。

更让人头疼的是,当前存在的计算机智能,仅仅能够处理具备结构或者类似结构的数据,一旦遇到并非结构化的文本,以及图片、视频,在处理时就会显得极为吃力。

此外,算法对于数据量的依赖程度极高,倘若数据不足,或者质量欠佳,那么所训练出来的模型同样会出现偏差。

故而企业别想着买个现成的分析软件就能将一切问题都解决掉,依旧得于自身最为熟悉的业务场景之中,一点一点地去调试模型,积攒经验。

打个比方,大数据真正的门槛并非处于技术自身,而是取决于你有无办法获取精准、完备、适时的数据,有无机制促使数据在各部门间流通起来,有无这样一个既通晓业务且又熟知数据的团队去逐步雕琢分析模型。

那些抱有买几台服务器的指望,还想着装个开源平台便觉得诸事并无问题的想法,大多是会失望的。

从当下起始,首先着手将数据采集的起始源头妥善管理好,接着推进内部的数据共享事宜,而直到最后才开展上算法以及构建模型这一系列操作。

一步一个脚印,这座金矿才挖得动。