返回
|搜索
转发

5本大数据领域必读的书籍推荐

2022-04-22 09:36

今日分享:小编在这里给大家推荐5本大数据领域必读的书籍!

1、Hadoop权威指南

推荐星级:5颗星

网友评分:98分

之所以把这本书放在第①位,主要是因为Hadoop是一个能够进行大量数据分布式处理的软件框架。而这本书由浅入深,全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。本书是一本专业、全面的Hadoop参考书和工具书,阐述了 Hadoop生态圈的新发展和应用,程序员可以从中探索海量数据集的存储和分析,管理员可以从中了解Hadoop集群的安装和运维。

这本书可以说是Hadoop权威指南,了解大数据存储分析实质,阅读本书给人眼前一亮的感觉,原来是这样。阅读本书需要一些知识储备,并不是入门书。

2、HBase权威指南

推荐星级:5颗星

网友评分:99分

HBase是Hadoop生态圈的一员,不过在Hadoop权威指南中对于HBase的解读比较少,如果对HBase的底层源码,高级架构,性能优化,集群管理等进阶操作感兴趣,那选择这本书juedui是没有错的。

《HBase权威指南》这本书主要是通过使用与 HBase高度集成的Hadoop将HBase的可伸缩性变得简单:把大型数据集分布到相对廉价的商业服务器集群中;使用本地Java客户端,或者通过提供了 REST、Avro和Thrift应用编程接口的网关服务器来访问HBase;了解HBase架构的细节,包括存储格式、预写日志、后台进程等;在HBase中集成 MapReduce框架;了解如何调节集群、设计模式拷贝表、导入批量数据和删除节点等。

当然,本书也是适合使用HBase进行数据库开发的高级数据库研发人员阅读。初级人员慎入。

3Spark权威指南

推荐星级:5颗星

网友评分:99分

Spark作为基于内存的用于大规模数据处理的统一分析引擎。近几年在机器学习,人工智能领域发展得也是如日中天。

这本书是所有Spark开发人员的必读书籍,介绍了许多别处无法学到的使用技巧,《Spark权威指南》在豆瓣评分非常高,数据库,分布式,批处理,流式处理,最关键的是,有很多容易理解错误的地方,都有很清楚的解释。

当然,如果是刚入门的话还是不建议看。

上课环境

4、Flink基础教程

推荐星级:5颗星

网友评分:96分

说道了Spark,自然少不了Flink,作为新一代的开源流处理器,Flink是众多大数据处理框架中一颗冉冉升起的新星。它以同一种技术支持流处理和批处理,并能同时满足高吞吐、低延迟和容错的需求。

本书由Flink项目核心成员执笔,系统闻释Flink的适用场景、设计理念、功能、用途和性能优势。对于流数据处理的介绍讨论都很精彩,翻译也挺好,难得好书。

5、Kylin权威指南

推荐星级:5颗星

网友评分:96分

ApacheKylin是一个开源OLAP引擎在Hadoop大数据平台上,将大数据的查询速度和并发性能提升至原来的百倍以上,为超大规模数据集上的交互式大数据分析打开了大门。

ApacheKylin在小米大数据系统中扮演着核心角色。本书系统地阐述了Kylin应用的方方面面,分享了大量的实战经验,如果你看了这本书,真的会有一种让人得之恨晚的感觉。

授课环境
郑州大数据工程师培训课程
面授小班
详询9人预约
首页1
我的
电话
在线666咨询
正规学校正规学校助学补贴助学补贴优质服务优质服务
logo