面对海量数据,不少企业管理者都感到头疼。

业务部门,对于所需数据,难以清晰表述,技术团队,因数据繁多且杂乱,发出抱怨,安全部门,忧虑信息会出现泄露情况,老板,却急切地要从数据当中挖掘出珍贵价值。

那些切实真实得以存在的难题,正是当前当下企业于拥抱迎接大数据之时绕不过去回避不了的坎儿。

本文会跟大家一块儿聊一聊,在大数据处理分析方面究竟遭遇着什么样的挑战,并且又应当从哪里开始着手对其进行应对呢。

业务部门需求模糊,数据价值难落地

大量企业之中的业务部门,对于大数据所能发挥的作用,并未持有清晰的概念认知,常是提出诸如“我要所有用户的数据”这般宽泛的要求

如此一来,致使技术团队投入诸多精力去收集数据,还要进行数据清洗,然而最终交出的报表,却没有任何人能够看得明白,更无法谈及对经营决策起到指导作用了。

根本成因在于,从事业务的人员匮乏数据思维,并不明晰自身到底期望借由数据分析去一并解决哪些确切详细的问题。

假设销售群体期望提高复购比例,然而却并未清晰确定到底是要剖析用户的购买循环时长,还是客户单次购买的平均金额,又或者是用户停止购买的关键时间点。

想要破解这般困局,企业得构建数据需求沟通机制,这机制要使得业务人员与技术人员相聚一处,将含混 “我要数据” 转变为精准问题 ,也就是 “我需要知晓上个月购买 A 产品的客户,在 30 天内最具可能购买何物”

与此同时,培育那种既对业务有所通晓又对数据有所了解的复合型人才,或者凭借外部专业团队,将业务语言转译为数据挖掘任务。

技术基础设施老旧,存储与计算遇瓶颈

大数据爆发式增长,最先考验的就是企业的存储系统和计算能力。

在处理 TB 乃至 PB 级别的数据之际,传统的关系型数据库,其所存在的扩展性差的问题,以及吞吐量低的问题,便完全暴露出来了。

许多公司察觉到,原本的服务器压根无法容纳每日所产生的日志,也不能接纳交易记录以及用户行为数据,更别说针对这些数据开展快速查询分析了。

即使构建了诸如 Hadoop、Spark 等之类的开源平台,却又遭遇了新的困扰,有这些情况:其一,技术生态还未发展到成熟的阶段,其二,商业解决方案的价格十分高昂,其三,高延迟的问题相当显著。

针对这种情况,企业不必一步到位搞大而全的平台。

能先梳理核心的数据流,将那最为急需进行分析的热数据,转移到恰当的分布式存储系统,像是 HDFS 或者云对象存储

同时运用混合架构,将传统数据库留存用于处理结构化业务数据,而借助大数据平台去应对非结构化或者半结构化的分析任务

那些预算存在限制的中小企业,会优先去考虑云服务商所提供的大数据解决方案,按照需求来支付费用,以此避免在前期出现硬件方面的大量投入。

数据来源多样复杂,整合与清洗难度大

大数据分析面临的挑战 _ 大数据挑战与应对 _ 大数据处理分析挑战

大数据常常源自社交媒体、传感器、日志文件、交易系统诸般各异渠道,其格式繁杂多样无比,存在着规整的数据库表格,还存在着杂乱的文本、图片以及视频。

这种多源异构的特性,让数据整合变得异常困难。

更为麻烦的是,诸多原始数据的质量令人担忧,存在着缺失的情况,存在着重复的状况,存在着格式错误等方面的问题。

正所谓垃圾进垃圾出,用脏数据做分析,结果自然不可靠。

要解决这个挑战,企业必须建立标准化的数据治理流程

首先,要界定统一的数据格式以及编码规则,接着,借助 ETL 工具或者编写清洗脚本,针对原始数据开展去重、补全以及转换的操作。

对于并非结构化的数据而言,能够借助自然语言处理技术以及图像识别技术来提取关键信息。

这个过程很繁琐,但绝不能跳过。

符合一定条件的企业能够去设立数据管理委员会,借由该委员会从组织这个层面来促使数据标准得以执行。

安全边界扩大与人才短缺,双重压力并存

大数据具备低价值密度的特性,这表明在海量的信息里头,仅仅只有极少的一部分才是切实有用的。

这为安全防御制造了新的难题,攻击者有潜藏于海量噪音里的可能性,安全管理的范围被无形中予以放大。

在这同一时间,个人信息被泄露的风险也正处于加剧的状态,一条属于用户的浏览记录,其位置轨迹看起来好像没什么要紧之处,然而将它们组合到一起,便能够完整地还原出一个人的生活习惯呢。

除了安全挑战,大数据人才缺口同样紧迫。

那种既对统计学、机器学习有所知晓,又能够熟练去操作 Spark、Flink 等工具,并且还对具体业务场景有所了解的复合型人才,于市场之上是极为抢手的。

企业应对这些挑战,需要双管齐下。

关于安全这一方面,构建依照级别划分的数据访问许可权,针对敏感的字段开展使其不敏感即脱敏或者加密这样的处理工作,并且按照固定的周期去进行渗透测试。

在人才领域,除去以高薪方式引入关键岗位所需人员之外,更应当着重关注内部挖掘潜力,从现有的 IT 团队或者业务团队里面挑选出具备潜力的员工,给予其系统的培训以及实战的机会。

同时与高校、培训机构合作,建立人才输送通道。

对大数据时代当中处于的企业而言,所面临的挑战主要聚焦于四个方面,其一为需求模糊,其二是技术落后的状况,其三是数据混杂这件事,其四是安全人才不足的情形。

要应对这些难题,不存在那种能一招就取得胜利的便捷途径,而是得从明确业务目标这一方面,升级基础设施这一方面,规范数据治理这一方面,强化安全机制这一方面,以及培养专业团队这一方面等多个维度同时进行推进。

企业的话,只有去正视那些挑战,并且采取扎实的改进措施,才能够真正从大数据这座金矿里头淘出属于自身的财富。