先前,我们运用了好些篇幅,谈及了大数据的存储,以及规模方面所面临的挑战,简要来讲,就是数据的数量众多,且速度极快,各个行业都无法避开。

那咱们今天改换一个角度,专门讲一讲藏在数量众多的数据背后的关键一步,也就是数据挖掘。

许多朋友在刚刚开始接触这个概念之际,极容易陷入犯迷糊的状态,那就是,天天听闻大数据、数据分析,这般的事物究竟跟数据挖掘是不是属于同一回事呢?

大数据下的数据挖掘技术 _ 数据挖掘 大数据 区别 _ 大数据时代数据挖掘算法

咱们今天就把它彻底讲清楚。

数据挖掘不是“挖宝藏”,而是找规律

不少人一听“挖掘”,便认为,那是如同挖矿那般,要从数据堆当中,刨出有价值的东西。

这么说虽然形象,但不完全准确。

数据挖掘确切的定义为,这乃是在大型的数据库里头,借由展开分析进而寻觅到有用信息的一种过程

它更像是一种自动化的“侦探工作”,并非依靠假设,并非依靠猜测,而是要让算法自主在数据当中寻觅那些隐匿的、先前未曾知晓的、然而却具备潜在价值的关系以及模式。

举例来说,超市将尿布与啤酒放置在一起,如此这般能够提升销量,而这个堪称经典的例子,便是借助数据挖掘所探寻到的“购物篮关联规则”。

大数据时代数据挖掘算法 _ 数据挖掘 大数据 区别 _ 大数据下的数据挖掘技术

它和咱们平常做报表、查销售额存在差异,报表会告知你“发生了什么”,与此不同的是,数据挖掘尝试去告诉你“为什么发生”,还有“接下来会发生什么”。

大数据时代,传统分析方法不够用了

往昔之时,数据量微乎其微,且种类寡少,借助电子表格抑或简易的统计工具便足以应对。

可现在面对大数据,老方法到处碰壁。

第一个拦路虎就是可伸缩性

大数据下的数据挖掘技术 _ 数据挖掘 大数据 区别 _ 大数据时代数据挖掘算法

那所谓的可伸缩,指的是,当算法所处理的数据量,从一万条转变为一亿条的时候,其运行时间,不能够从一秒变成一万秒,而应该基本上跟着数据量呈现线性增长。

众多经典算法,在面对海量数据时,直接就没办法运行了,所以必然要重新去设计一种能够高效访问每一条记录的新型数据结构

第二个问题是高维性

以前分析一个客户,可能就看年龄、收入几个属性。

目前进行基因分析,单个样本便兴许会存在成千上万个属性,诸如基因点位之类的。

数据挖掘 大数据 区别 _ 大数据下的数据挖掘技术 _ 大数据时代数据挖掘算法

维度一高,数据就变得极其稀疏,传统方法很容易失效。

大数据下的数据挖掘技术 _ 大数据时代数据挖掘算法 _ 数据挖掘 大数据 区别

数据类型更复杂,来源也越来越分散

现实世界的数据可不全是规规矩矩的数字表格。

异种数据和复杂数据现在成了家常便饭。

好比网页剖析,既要去处理那半结构化的文本,又得去分析网页相互之间的超链接关系;进行气象预报时,要同时直面不同地点的温度,以及湿度,还有风速等诸多连续变化的时间序列。

大数据时代数据挖掘算法 _ 数据挖掘 大数据 区别 _ 大数据下的数据挖掘技术

更麻烦的是数据的所有权与分布问题。

不少具备价值的数据,并非处于你自身的服务器范畴内,而是分散于诸多机构之中,诸如医院、银行以及电商平台等,此外还存在隐私附带的以及安全所设有的相关限制。

这时候就需要开发专门的分布式数据挖掘技术。

这类算法存在着三大挑战,其一,是如何去降低节点之间来回传递数据时的通信量,不然有可能网络会率先崩溃;其二,是要怎样将各地运行得出的结果进行有效地统一,以此避免结论出现相互冲突的情况;其三,是在不泄露原始数据的条件的语境下是解决分析处理方面应得重视问题,也就是隐私保护方面的课题。

分析模式变了:从假设驱动到数据驱动

数据挖掘 大数据 区别 _ 大数据时代数据挖掘算法 _ 大数据下的数据挖掘技术

有一种传统统计分析所具备的固定套路,那就是,首先要提出假设,接着去设计实验从而收集数据,最终对假设进行验证

这个过程费时费力,而且非常依赖人的经验和想象力。

大数据时代的分析任务常常需要同时考察成千上万种可能性。

比如药物研发中,要从海量化合物里筛选出有活性的候选分子。

这时候再靠人一个个提假设就行不通了。

大数据时代数据挖掘算法 _ 数据挖掘 大数据 区别 _ 大数据下的数据挖掘技术

数据挖掘恰恰能够对这个矛盾予以解决,它能够自动生成以及评估数量众多的假设,运用算法去代替一部分借助人工进行的思考。

这种转变,是从“假设检验”转变为“模式发现”,它属于数据挖掘区别于传统统计的核心特征里的其中一个。

它并非是去替代传统方法,而是在应对规模更为庞大、情况更为复杂的问题之际,成为一种具备强大效力的补充手段。

数据挖掘更像是为了应对大数据挑战而生的一套实用工具集。

它不追求理论上的完美,更看重实际效果和计算可行性。

不论数据呈现出分布式的状态,亦或是处于高维的情形,又或者属于混合类型的状况,它皆存在与之相对应的处理方式。

理解这些区别,能帮你在实际工作中更好地选择分析工具。

若下次再度听闻“大数据分析”,你便会晓得它兴许是一套涵盖存储、清洗、挖掘、可视化于其内的完备流程,而数据挖掘,恰恰是其中最为关键的“找规律”环节。