图书介绍

Hadoop大数据开发实战【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

杨力编著著
出版社：北京：人民邮电出版社
ISBN：9787115502179
出版时间：2019
标注页数：226页
文件大小：114MB
文件页数：235页
主题词：数据处理软件－程序设计

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：e07227c646aa875d21912cbbfda04806

下载说明

Hadoop大数据开发实战PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章大数据概论1

1.1 大数据的学习基础1

1.2 大数据的背景2

1.3 对大数据的不同认识2

1.3.1 资深编程者眼中的大数据2

1.3.2 营销者和学者眼中的大数据3

1.3.3 商家看大数据4

1.4 大数据的行业案例4

1.4.1 电子地图4

1.4.2 电子商务——用户画像5

1.5 大数据的基本概念6

1.5.1 两个核心6

1.5.2 分布式存储6

1.5.3 分布式计算7

1.6 大数据技术生态圈7

本章总结8

本章习题8

第2章搭建Hadoop分布式集群9

2.1 云平台9

2.1.1 了解云平台9

2.1.2 安装V Mware软件9

2.2 安装CentOS 610

2.2.1 安装CentOS 610

2.2.2 安装中的关键问题15

2.2.3 克隆HadoopSlave和HadoopSlavel16

2.2.4 安装SSH客户端传输软件18

2.2.5 安装Xshell20

2.3 Linux系统配置23

2.4 Hadoop的配置部署39

本章总结47

本章习题47

第3章 HDFS入门48

3.1 Hadoop分布式文件系统HDFS48

3.1.1 认识HDFS48

3.1.2 HDFS的优势49

3.1.3 HDFS局限性50

3.1.4 HDFS特性51

3.2 HDFS核心设计52

3.2.1 数据块53

3.2.2 数据块复制53

3.2.3 数据块副本的存放策略54

3.2.4 机架感知55

3.2.5 数据块的备份数56

3.2.6 安全模式56

3.2.7 负载均衡57

3.2.8 心跳机制60

3.3 HDFS体系结构60

3.3.1 主从架构61

3.3.2 核心组件功能61

3.3.3 数据块损坏处理63

本章总结64

本章习题64

第4章 HDFS接口65

4.1 HDFS命令行接口65

4.2 HDFS Java接口67

4.2.1 在Linux虚拟机中安装Eclipse68

4.2.2 从Hadoop URL读取数据69

4.2.3 使用FileSystem读取文件70

4.2.4 FSDataInputStream对象随机读取71

4.2.5 使用FileSystem写入数据72

4.2.6 FSDataOutputStream对象批量写入73

4.2.7 查询文件状态FileStatus74

4.2.8 创建目录75

4.2.9 删除文件与目录76

本章总结77

本章习题77

第5章 HDFS的运行机制78

5.1 HDFS中数据流的读写78

5.1.1 RPC流程78

5.1.2 RPC实现模型79

5.1.3 RPC Client主要流程81

5.1.4 RPC Server实现模型82

5.1.5 文件读取83

5.1.6 文件写入84

5.2 HA机制85

5.2.1 HDFS的HA机制85

5.2.2 集群节点任务规划87

5.2.3 初识ZooKeeper87

5.2.4 安装部署ZooKeeper89

5.2.5 格式化ZooKeeper集群93

5.2.6 配置Hadoop94

5.2.7 启动JournalNode共享存储集群99

5.2.8 格式化ActiveNameNode100

5.2.9 启动ZooKeeperFailoverController101

5.2.10 启动ActiveNameNode101

5.2.11 格式化StandbyNameNode102

5.2.12 启动所有DataNode节点102

5.2.13 验证HA的故障自动转移103

5.3 Federation机制105

5.3.1 初始HDFS Federation机制105

5.3.2 HDFS Federation架构原理106

本章总结107

本章习题107

第6章 Hadoop I/O流操作108

6.1 数据完整性108

6.1.1 数据发生错误108

6.1.2 数据的检测109

6.1.3 数据完整性机制109

6.2 压缩111

6.2.1 压缩格式111

6.2.2 Hadoop中对压缩格式的实现Codec111

6.2.3 压缩格式是否支持切分114

6.3 序列化114

6.3.1 序列化简介114

6.3.2 反序列化115

6.3.3 序列化的分布式应用115

6.3.4 初识Hadoop序列化115

6.3.5 Hadoop序列化实现116

6.3.6 接口Comparable ＆ Comparator 与WritableComparable＆ WritableComparator117

6.3.7 Writable类123

6.4 基于文件的数据结构SequenceFile125

本章总结127

本章习题127

第7章初识MapReduce 编程模型128

7.1 MapReduce编程框架128

7.1.1 函数式编程模型128

7.1.2 MapReduce编程模型概念129

7.1.3 MapReduce的设计目标130

7.2 WordCount编程实例130

7.2.1 案例需求130

7.2.2 搭建开发环境Eclipse131

7.2.3 代码实现132

7.2.4 代码测试135

7.2.5 案例剖析139

7.3 Hadoop MapReduce架构141

7.3.1 Hadoop MapReduce架构的基本概念141

7.3.2 MapReduce架构核心组件142

本章总结144

本章习题144

第8章 MapReduce应用编程开发145

8.1 MapReduce编程开发145

8.1.1 设计思路145

8.1.2 搜索引擎数据处理实战147

8.2 MapReduce在集群上的运作152

8.2.1 打包作业152

8.2.2 启动作业154

8.2.3 通过WebUI查看Job状态154

8.3 MapReduce的类型与格式155

8.3.1 combiner函数155

8.3.2 MapReduce框架Partitioner分区方法157

8.3.3 MapReduce输入格式158

本章总结166

本章习题166

第9章 MapReduce编程案例167

9.1 数据去重167

9.1.1 实例表述167

9.1.2 设计思路168

9.1.3 程序代码168

9.1.4 代码结果169

9.2 数据排序170

9.2.1 实例表述171

9.2.2 设计思路171

9.2.3 程序代码171

9.2.4 代码结果173

9.3 平均成绩174

9.3.1 实例表述174

9.3.2 设计思路175

9.3.3 程序代码175

9.3.4 代码结果177

9.4 多表关联178

9.4.1 实例表述178

9.4.2 设计思路179

9.4.3 程序代码179

9.4.4 代码结果181

9.5 二次排序182

9.5.1 实例描述182

9.5.2 设计思路182

9.5.3 程序代码182

9.5.4 代码结果185

本章总结186

本章习题186

第10章 MapReduce运行机制与YARN平台187

10.1 剖析MapReduce作业运行机制187

10.1.1 提交作业的方式187

10.1.2 作业的运行组件187

10.1.3 作业的运行解析188

10.2 Shuffle和排序190

10.2.1 Mapper端190

10.2.2 Reducer端193

10.2.3 MapReduce性能调优196

10.3 任务的执行197

10.4 作业的调度199

10.4.1 先进先出调度器199

10.4.2 公平调度器199

10.4.3 计算能力调度器200

10.5 YARN平台简介200

10.5.1 YARN的诞生200

10.5.2 YARN的工作原理200

10.6 YARN平台架构201

本章总结204

本章习题204

第11章汽车销售数据统计分析项目205

11.1 数据概况205

11.2 项目实战206

11.2.1 统计乘用车辆和商用车辆的数量和销售额分布206

11.2.2 统计某年每个月的汽车销售数量的比例208

11.2.3 统计某个月份各市区县的汽车销售的数量210

11.2.4 用户数据市场分析——统计买车的男女比例213

11.2.5 统计不同所有权、型号和类型汽车的销售数量216

11.2.6 统计不同车型的用户的年龄和性别218

11.2.7 统计分析不同车型销售数据219

11.2.8 通过不同类型（品牌）汽车销售情况统计发动机型号和燃料种类222

11.2.9 统计同排量不同品牌汽车的销售量224

本章总结226

本章习题226