图书介绍

实战Hadoop 2.0 从云计算到大数据【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

叶晓江，刘鹏编著著
出版社：北京：电子工业出版社
ISBN：9787121285646
出版时间：2016
标注页数：505页
文件大小：69MB
文件页数：520页
主题词：数据处理

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：30e6d4fe4e9a50542fab51806fba57a8

下载说明

实战Hadoop 2.0 从云计算到大数据PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章大数据组件概述1

1.1 Google大数据组件2

1.2 Apache大数据组件6

1.2.1 Hadoop核心组件7

1.2.2 基于MR的数据分析组件10

1.2.3 数据库组件16

1.2.4 BSP组件19

1.2.5 基于YARN框架组件20

1.2.6 基于YARN的编程类库组件24

1.2.7 搜索引擎组件25

1.2.8 工作流组件26

1.2.9 数据流组件27

1.2.10 序列化和持久化组件29

1.2.11 调试工具30

1.2.12 安全性组件30

1.2.13 兼容性组件32

1.2.14 集群部署与管理组件33

习题33

参考文献34

第2章大数据集群37

2.1 大数据集群简介38

2.2 大数据集群bigCstor43

2.3 我的大数据集群littleCstor46

2.4 小结50

习题50

参考文献51

第3章集群管理工具Ambari53

3.1 Ambari简介54

3.2 使用Ambari部署HDP57

3.3 使用Ambari搭建littleCstor60

3.3.1 相关约定60

3.3.2 制定部署规划61

3.3.3 搭建prelittleCstor62

3.3.4 本地建仓70

3.3.5 部署AmbariServer74

3.3.6 搭建littleCstor81

3.3.7 小结104

3.4 使用Ambari管理littleCstor109

3.5 小结110

习题110

参考文献110

第4章分布式文件系统HDFS111

4.1 分布式存储引例112

4.1.1 问题描述112

4.1.2 常规解决方案113

4.1.3 分布式解决方案115

4.2 HDFS简介122

4.2.1 HDFS逻辑架构122

4.2.2 HDFS物理拓扑127

4.2.3 HDFS部署131

4.2.4 HDFS其他概念133

4.3 HDFS接口136

4.4 实战HDFS Shell139

4.4.1 HDFS文件级命令集139

4.4.2 HDFS系统级命令集141

4.5 实战WebHDFS148

4.5.1 WebHDFS简介148

4.5.2 WebHDFS示例150

4.6 实战HDFS JAVA API155

4.6.1 搭建开发环境155

4.6.2 常规操作示例157

4.7 实战HDFS大项目：用HDFS存储海量视频数据162

4.7.1 应用场景162

4.7.2 设计实现162

习题164

参考文献165

第5章分布式资源管理器YARN167

5.1 分布式资源管理器引例168

5.1.1 分布式资源管理器简介168

5.1.2 分布式资源管理器架构171

5.2 YARN简介174

5.2.1 基础概念174

5.2.2 物理拓扑177

5.2.3 体系架构178

5.2.4 集群部署187

5.3 YARN接口189

5.4 实战YARN Shell192

5.4.1 系统级命令192

5.4.2 程序级命令195

5.4.3 其他辅助命令197

5.5 实战YARN编程198

5.5.1 常见并行化范式198

5.5.2 YARN编程步骤204

5.6 实战YARN编程之DistributedShell212

5.6.1 DistributedShell简介212

5.6.2 编写DistributedShell213

5.7 实战YARN编程之三大范式220

5.7.1 Distributed Shell221

5.7.2 MapReduce221

5.7.3 Giraph222

习题223

参考文献223

第6章分布式并行处理MapReduce225

6.1 并行化范式M-S-R引例226

6.1.1 问题描述226

6.1.2 常规解决方案227

6.1.3 分布式解决方案228

6.1.4 小结234

6.2 MapReduce简介234

6.2.1 基本概念235

6.2.2 编程模型237

6.2.3 集群部署239

6.2.4 体系架构241

6.2.5 执行过程245

6.3 MapReduce接口247

6.4 实战MapReduce Shell250

6.5 实战MapReduce编程254

6.6 实战MapReduce编程之WordCount257

6.6.1 WordCount代码分析257

6.6.2 WordCount处理过程260

6.7 实战MapReduce编程之SecondarySort261

6.8 实战MapReduce编程之倒排索引266

6.8.1 简介266

6.8.2 分析与设计267

6.8.3 倒排索引完整源码269

6.9 实战MapReduce之性能优化271

习题280

参考文献281

第7章分布式锁服务ZooKeeper283

7.1 ZooKeeper简介284

7.1.1 ZooKeeper应用场景284

7.1.2 ZooKeeper体系架构287

7.1.3 ZooKeeper服务模型289

7.1.4 ZooKeeper部署290

7.2 ZooKeeper接口293

7.2.1 接口汇总293

7.2.2 实战ZooKeeper Shell294

7.3 实战ZooKeeper编程296

7.4 实战ZooKeeper之进程通信298

7.5 实战ZooKeeper之进程调度系统299

7.5.1 设计方案299

7.5.2 设计实现299

7.6 实战ZooKeeper之实现NameNode自动切换305

7.6.1 设计思想306

7.6.2 详细设计306

7.6.3 编码307

7.6.4 实战总结312

习题312

参考文献313

第8章分布式数据库HBase315

8.1 HBase简介316

8.1.1 体系架构316

8.1.2 数据模型322

8.1.3 集群部署323

8.2 HBase接口328

8.3 实战HBase Shell329

8.4 实战HBase API331

8.5 实战HBase之综例333

8.6 实战HBase之使用MapReduce构建索引334

8.6.1 索引表蓝图334

8.6.2 HBase和MapReduce335

8.6.3 实现索引336

习题339

参考文献339

第9章内存型计算框架Spark341

9.1 Spark简介342

9.1.1 基础概念342

9.1.2 体系架构348

9.1.3 集群部署359

9.1.4 计算模型367

9.1.5 工作机制375

9.1.6 其他特性376

9.2 Spark接口377

9.3 实战Spark Shell380

9.3.1 集群管理380

9.3.2 任务管理382

9.4 实战Spark编程之RDD384

9.4.1 RDD属性384

9.4.2 并行化证明RDD、调试RDD386

9.4.3 RDD操作389

9.5 实战Spark之WordCount396

9.6 实战Spark之MLLib397

习题400

参考文献400

第10章数据流实时处理系统Storm401

10.1 Storm简介402

10.1.1 与Hadoop的关系402

10.1.2 基础概念404

10.1.3 体系架构410

10.1.4 集群部署414

10.1.5 计算模型423

10.2 Storm接口451

10.3 实战Storm Shell454

10.4 实战Storm API之RollingTop Words457

习题459

参考文献460

第11章数据仓库工具Hive461

11.1 Hive简介462

11.1.1 工作原理462

11.1.2 体系架构463

11.1.3 计算模型464

11.1.4 集群部署465

11.2 Hive接口469

11.2.1 接口汇总469

11.2.2 实战Hive Web469

11.3 实战Hive Shell470

11.3.1 DDL Operations470

11.3.2 DML Operations471

11.3.3 SQL Operations472

11.4 实战Hive之复杂语句473

11.5 实战Hive之综合示例475

11.6 实战Hive API接口476

11.6.1 UDF编程示例476

11.6.2 UDAF编程示例477

习题479

参考文献479

第12章其他常见大数据组件481

12.1 Pig482

12.1.1 Pig简介482

12.1.2实战Pig485

12.2 Oozie485

12.2.1 Oozie简介485

12.2.2 实战Oozie487

12.3 Flume489

12.3.1 Flume简介489

12.3.2 实战Flume491

12.4 Mahout494

12.4.1 Mahout简介494

12.4.2 实战Mahout494

习题496

参考文献496

附录A 手工部署Hadoop2.0497

一、部署综述498

二、部署步骤502