关于你手上持有的那份大数据书单,或许其存在的时长要比你的工作年限还要久。到了2026年这般时间节点,Flink 1.6早就被时代淘汰进入已被废弃之地像博物馆一样,就连Kafka都已经更新迭代到了3.x版本,然而相关教材仍是定格在“入门初学者起步”的阶段。我花费了两周的时间翻阅了将近三年内出版发行问世的技术书籍,从中筛选出了这7本堪称优秀出色有实力的作品,每一本都能够直接与你当下所处的开发工作环境相对应适配。

大数据书单_Flink入门与实战_编程入门Flink入门

硬啃Flink不如配网课

由51CTO讲师谢磊所撰写的《Flink入门与实战》,是眼下少有的配备了视频的实体类书籍,这本著作依托于Flink 1.6,尽管其版本并非是最新的,然而在2019年出版之际恰好处于Flink的爆发阶段,将DataStream以及Table API的底层协同逻辑讲解得十分透彻,书中附带了当年课程的视频激活码,不少读者反馈称“看文字的时候没弄明白,看完第5章的视频后瞬间就通了”。

你可将其当作工具手册使用,当碰到CEP库复杂事件匹配的情况时,直接去翻看第8章案例,也就是电商用户下单未支付监控,代码可直接复制,只需更改个时间窗口就能实现跑通,这本书目前在二手平台售价仅20块,其性价比远远超过那些只是徒有空谈架构的新书了。

两本Redis打配合才够用

大数据书单_编程入门Flink入门_Flink入门与实战

《Redis入门指南(第2版)》,其作者为前新浪微博技术专家李子骅,这本书特别适合在周五晚上翻阅,书中运用PHP以及Node.js的实操代码,将发布订阅和管道技术讲解得十分透彻,在第11章讲述任务队列时,直接呈现出了秒杀系统的雏形,这本书自2017年出版以来重印12次,依靠的并非词汇,而是每一行代码皆能正常运行。

只看入门书籍是不行的,约西亚·卡尔森著的《Redis实战》得搭配着来看。豆瓣给出的8.0分很实在,在第三部分讲内存优化时直接给出Excel表格,告知你哈希结构相较于字符串到底能节省多少字节。把这两本书放在一块儿读,入门指南能帮你搭建环境,实战书能帮你优化性能,这是我在拉勾网进行技术尽调时验证过的组合。

虚拟化不是搭积木是算细账

Flink入门与实战_大数据书单_编程入门Flink入门

Cloudera架构师,那个名为乔治·特鲁希略的人,其关于《虚拟化》这本书,书名看着实在太过低调了,实际整本书里面,都在进行着算钱的事儿。其中第7章,做了裸金属环境与容器化部署相应TCO的对比,借助星巴克以及Netflix的真实案例,向你传达这样的信息:虚拟化这一操作开展,可不是为 了去炫技的,而是能够使得YARN集群利用率,从原本的32%提升到67%。

有一本书,其中最具冲击力的部分是第13章,它会一步一步地教你利用Apache Ambari来构建私有云即服务平台。在2021年,当这本书的中文版出版时,恰好在中国企业着手去IOE这个阶段,不少规模较小的工厂直接就把这一章的脚本拿过去稍作修改便上线了。这本书的作者并没有对其中存在的问题避而不谈,在第9章特地讲述了存在于虚拟化工作节点时内存溢出的四种挽救方案,这些可都是用惨痛代价换来的经验呀。

Flink入门与实战_编程入门Flink入门_大数据书单

HBase权威指南得读原版味

这是一本曾由Lars George所撰写的书,名为《HBase权威指南》,此书有着HBase项目委员会主席为其作序,并且其翻译版本在2013年得以出版。有许多人认为这本书显得陈旧,然而,HBase 0.92版所奠定的存储格式以及Compaction策略,直至如今都未曾有变化。该书译者是代志远,此人在Hadoop圈子里属于老前辈,他将诸如RegionServer的日志复制、主节点故障转移这些复杂难题的内容翻译得十分流畅。

建议你着重去啃第9章架构方面的细节,诸多面试题询问HBase怎样确保强一致性,其答案就在预写日志的sync策略当中,这本书当下能够买到的基本上都是影印版,这并不影响阅读,当中的集群进行优化的checklist,在2024年我帮某银行做数据平台迁移的时候还一直在使用。

Kafka两本对照读出真东西

买《Kafka入门与实践》,这是牟大恩所著,还得买小威廉·贝杰克的《Kafka实战》,这两本必须一起上手。牟大恩所著的那本,是从国内工程师视角出发,于2019年出版,在第6章讲副本同步原理时绘制了12张时序图,将ISR收缩机制拆解成保姆级教程。小威廉·贝杰克的那本是原版书翻译,重点要看第5章处理器API,能教你无需借助Storm,直接利用Kafka进行实时去重。

针对两本书对照着来读,能够察觉到有意思的事情:牟大恩着重指出重平衡对于消费者组所产生的冲击,然而贝杰克却觉得这属于必要的开销。究竟哪一种观点是正确的呢?当你在实际展开部署的时候,去尝试一下心跳间隔的设置,马上就会明白,在国内大促场景之下,为何会更加害怕频繁地进行重平衡了。

书单要动态更新别当收藏家

这份书单之中最新的那本是在2021年出版的,在这之后的三年时间里,数据库领域都没有出现过现象级的著作,并非是技术处于停滞状态,而是大家都在去看官方文档以及GitHub讨论区,就像Paimon湖存储格式直到2024年才成熟,根本没有时间来得及去成书。

我的习惯在于,新项目立项之际,翻动书籍里相应的章节去寻觅思路,而撰写代码之时,径直去翻阅官方示例。就像你手头持有的这部《Redis 实战》,其中第 6 章所构建的社交网站时间线,实际上便是当下短视频推荐系统最初的模型。技术书的价值并非在于“新”,而是在于助力你省去自行踩坑进行推演的那三个月时间。

Flink入门与实战_大数据书单_编程入门Flink入门

你近来鉴于数据倾斜调整了为期一周的参数,书中哪一段原理最终对你起到了帮助作用呢?在评论区将其分享出来,以使抄录了三天配置却也未见成效的兄弟能够减少两宿的熬夜时长。