Vertica统一分析平台新功能详解,数据库性能调优指南

阿木 发布于 13 小时前 4 次阅读


别谈什么“变革之外”了。

这个词儿太重,像PPT里用来唬人的黑话。

今天我打算聊的,是那个隐匿于枯燥技术参数背后的,切实能让一家公司夜里安稳入睡的事物,是那个东西。

一个统一的平台。

你肯定经历过。

被销售部扔过来的报表,以及与财务部开会时所用的数字,在对“净利润”的解释方面,竟然能够相差出几百万。

并非是谁去做假账,而是大家所运用的数据源,以及计算口径,二者根本处于不同的次元。

这种争吵毫无意义,除了消耗。

这不再是“要不要上BI”的问题。

这年头,谁家还没个大屏?

问题是,你的“大屏”是不是又造了一个新的孤岛?

你这边的数据科学家,运用Python这个工具去运行模型,运行结束之后告知业务方面,业务方面仅仅回复了“哦”这么一个字,随后模型就只能搁置在笔记本当中了。

技术团队辛辛苦苦构建了数仓,然而业务人员却依旧凭借Excel去提取几万行数据,致使电脑风扇发出的声响好似即将升空。

所谓统一分析平台,它不该是个工具,该是个“翻译官”。

它得把SQL那种硬邦邦的技术语言,翻译成业务能听懂的人话。

致使那个从事运营工作的年轻女性,也能够凭借自然语言询问一句“上个月在华东地区购买了我们高端层级产品的用户群体,这个月再次进行购买的数量是多少?”,紧接着马上获取到答案,而并非是呈递工单并等待三天时间。

真的别神话技术。

讲那些说什么列式存储,提到MPP架构,主张比别的平台快50倍,诸如此类,这些颇为关键,然而又并非那般要紧至极。

关键在于,那个于凌晨三点奋力赶写报告的、处境可怜的孩子,在饮用第三杯咖啡之前,能否完成查询操作。

重点在于,在市场总监临时想要查看一份,那种按照地理空间聚合起来的,过去五年里同期进行对比的,令人头疼的数据时,系统没有直接崩溃掉。

别让数据科学家当“孤儿”

很多公司,数据科学团队是飘在业务之上的。

那种种炫酷的库,被他们用R,被他们用Python,在“小数据集”之上,尽情地自嗨着。

真正的平台,得能接住他们的“嗨”。

他们借助最为偏爱的工具来施行建模,随后把模型交付于平台,平台宣称:“可以,我会运用全量数据去运行,运行完毕后将答案反馈于你。”而非表述为:“你所构建的这个模型表现良好,然而我们的库并不具备相应支持,需重新编写。”。

还有那个叫PMML的东西。

听起来好似是个冷僻的缩写,然而在有着多云状况、混合起架构的这种现实世界当中,它恰恰就是救生艇。

在Spark之上训练而成的模型,要能够被拉拽到边缘计算节点之上运行,前往那个处于无法连接网络状态的仓库之中开展实时预测。

模型不可以被锁定于任何一个平台之中,要如同乐高一般,具备能够拆解的特性,拥有可以拼接的能力,并且能够在任何地点运行起來。

说到乐高。

统一平台最难的不是“统”,是“放”。

你总不能让销售部和供应链部用同一个计算池子抢资源吧?

双十一进行大规模促销活动期间,BI报表将相关资源全部消耗殆尽,供应链的进货补充算法陷入停滞状态,这种情况实在是令人觉得十分好笑。

所以,真功夫在于“子集群”。

将工作负载进行隔离,你从事你的实时大屏工作,他开展他的批量预测工作,互不干扰,各自进行。

甚至,你压根儿不用把数据拷来又拷去,大家面对的是同一份原始数据,各自按照自身需求取用啦。

这才是成年人世界的协作。

我还特喜欢一个细节。

它能管到“列”。

不是说给了你一张表,你就能看到所有。

不该你看到的,比如用户的身份证号,脱敏!

直接在那列上糊一层马赛克。

达到这样的权限控制精细程度,才会有胆量将数据开放予更多的人,而非使其被锁于保险柜内进而发霉。

现在的数据库啊,太多是“行”的思维,一坨一坨地读。

面对海量数据,那种方式太慢了。

得像切蛋糕一样,按“列”来,只读你需要的那些字段。

那所谓的大规模并行处理,听起来挺玄乎的,实际上呢,就是“人多好办事”这种情况,一万个核心一块儿去干活,干完就结束了。

当然,如果这些都还不够。

倘若连服务器都不愿自己去管理,不想费心半夜时磁盘满了该如何处理,不想进行升级打补丁。

那也可以,上SaaS。

所有功能丢给云,你只管用。

就像一个水龙头,拧开就有数据流出来,干净,压力还稳。

说回最开始。

高管们要洞察未来,太虚了。

未来不是算出来的,是拼出来的。

然而,要存在一个称得上优良的统一平台,起码能够使得你于进行比拼之际,手中所握持的是称手的兵器,而非烧火棍。

它使得那些单调乏味的数据,切实转变为流淌于公司血管之中的血液,携带着温度,携带着能量,用以去支持每一项决策,不管是大决策还是小决策,均是如此。

对了,差点忘了说。

如你使用的是那种已然过时的行存储,当你打算在几亿条数据之中开展诸如时间序列预测或者地理空间分析这般复杂的运算时,那就别抱什么希望了。

泡杯茶,睡一觉,醒来可能还没跑完。

而这里说的平台,内置了两倍以上的分析函数。

你甚至不用写那些复杂的代码,SQL拽两下,结果就出来了。

数据准备?

它也能做。

归一化、采样、处理那些脏数据……这些苦活累活,它替你干了。

接着你径直于其上展开创建,培育,测验你的机器学习模型,去瞧ROC曲线,去望混淆矩阵,连贯顺畅毫无阻碍。

这种感觉怎么说呢。

仿佛你原本正骑着自行车,突然间,有人递给了你一把能开启宇宙飞船的钥匙,此外还告知你,无需考取驾照,径直去驾驶。

大概就是这样吧。