图书介绍

Hadoop+Spark大数据技术 微课版【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

Hadoop+Spark大数据技术 微课版
  • 刘彬斌主编 著
  • 出版社: 北京:清华大学出版社
  • ISBN:9787302514275
  • 出版时间:2018
  • 标注页数:344页
  • 文件大小:36MB
  • 文件页数:359页
  • 主题词:数据处理软件-高等学校-教材

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Hadoop+Spark大数据技术 微课版PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1篇 大数据系统基础3

第1章 大数据概述3

1.1 数据的产生与发展3

1.2 大数据的基础知识4

1.3 大数据架构5

第2章 系统的安装与使用7

2.1 系统安装7

2.1.1 安装CentOS 6.x7

2.1.2 安装步骤7

2.2 基本命令18

2.2.1 cd命令18

2.2.2 打包和解压指令19

2.2.3 其他常用命令21

2.3 权限与目录26

2.3.1 权限26

2.3.2 目录27

2.4 文件操作28

2.4.1 文件与目录管理28

2.4.2 用户和用户组管理39

2.5 习题与思考46

第3章 任务命令47

3.1 脚本配置47

3.1.1 Shell脚本47

3.1.2 Shell变量47

3.1.3 Shell传递参数48

3.1.4 Shell数组50

3.1.5 Shell运算符51

3.1.6 Shell echo命令55

3.1.7 Shell printf命令57

3.1.8 Shell test命令58

3.1.9 Shell流程控制60

3.2 网络配置67

3.3 习题与思考70

第4章 数据库操作71

4.1 数据库简介71

4.1.1 MySQL数据库简介71

4.1.2 安装MySQL72

4.2 数据库基本操作72

4.2.1 MySQL的DDL操作72

4.2.2 MySQL的DML操作80

4.3 数据库用户操作83

4.3.1 创建用户83

4.3.2 给用户授权83

4.3.3 撤销授权84

4.3.4 查看用户权限85

4.3.5 删除用户85

4.3.6 修改用户密码86

4.4 数据库查询操作86

4.5 习题与思考90

第2篇 Hadoop技术95

第5章 Hadoop开发环境95

5.1 Hadoop生态圈工具95

5.2 环境搭建97

5.2.1 步骤1——虚拟机安装97

5.2.2 步骤2——安装JDK和Hadoop97

5.2.3 步骤3——复制虚拟机113

5.2.4 步骤4——设置免密117

5.2.5 步骤5——安装Zookeeper119

5.2.6 步骤6——启动Hadoop集群122

5.2.7 正常启动顺序125

5.3 常见问题汇总127

5.4 习题与思考128

第6章 HDFS技术129

6.1 HDFS架构129

6.2 HDFS命令130

6.2.1 version命令131

6.2.2 dfsadmin命令131

6.2.3 jar命令132

6.2.4 fs命令132

6.3 API的使用140

6.4 习题与思考142

第7章 MapReduce技术143

7.1 MapReduce工作原理143

7.1.1 MapReduce作业运行流程143

7.1.2 早期MapReduce架构存在的问题144

7.2 YARN运行概述144

7.2.1 YARN模块介绍144

7.2.2 YARN工作流程145

7.3 MapReduce编程模型146

7.4 MapReduce数据流148

7.4.1 输入文件150

7.4.2 输入格式150

7.4.3 数据片段151

7.4.4 记录读取器151

7.4.5 Mapper151

7.4.6 Shuffle152

7.4.7 排序153

7.4.8 归约153

7.4.9 输出格式153

7.5 MapReduce API编程154

7.5.1 词频统计154

7.5.2 指定字段156

7.5.3 求平均数158

7.5.4 关联160

7.6 习题与思考163

第8章 Hive数据仓库165

8.1 Hive模型165

8.1.1 Hive架构与基本组成165

8.1.2 Hive的数据模型166

8.2 Hive的安装167

8.2.1 Hive的基本安装167

8.2.2 MySQL的安装168

8.2.3 Hive配置169

8.3 HQL详解170

8.3.1 Hive数据管理方式170

8.3.2 HQL操作174

8.4 习题与思考182

第9章 HBase分布式数据库183

9.1 HBase工作原理183

9.1.1 HBase表结构183

9.1.2 体系结构184

9.1.3 物理模型186

9.1.4 HBase读写流程187

9.2 HBase完全分布式189

9.2.1 安装前的准备189

9.2.2 配置文件189

9.2.3 集群启动191

9.3 HBase Shell192

9.3.1 DDL操作192

9.3.2 DML操作194

9.4 习题与思考197

第10章 Sqoop工具198

10.1 Sqoop安装199

10.2 Sqoop的使用200

10.2.1 MySQL的导入导出200

10.2.2 Oracle的导入导出201

10.3 习题与思考202

第11章 Flume日志收集203

11.1 体系架构204

11.1.1 Flume内部结构204

11.1.2 Flume事件204

11.2 Flume的特点205

11.3 Flume集群搭建206

11.4 Flume实例207

11.4.1 实例1:实时测试客户端传输的数据207

11.4.2 实例2:监控本地文件夹并写入到HDFS中208

11.5 习题与思考210

第3篇 Spark技术213

第12章 Spark概述213

12.1 Spark框架原理213

12.2 Spark大数据处理214

12.3 RDD数据集215

12.4 Spark子系统215

第13章 Scala语言216

13.1 Scala语法基础216

13.1.1 变量、常量与赋值216

13.1.2 运算符与表达式217

13.1.3 条件分支控制217

13.1.4 循环流程控制218

13.1.5 Scala数据类型218

13.2 Scala运算与函数219

13.3 Scala闭包220

13.4 Scala数组与字符串220

13.4.1 Scala数组220

13.4.2 Scala字符串221

13.5 Scala迭代器221

13.6 Scala类和对象222

13.7 习题与思考223

第14章 Spark高可用环境224

14.1 环境搭建224

14.1.1 准备工作224

14.1.2 下载并安装Spark224

14.2 常见问题汇总226

第15章 RDD技术228

15.1 RDD的实现228

15.1.1 数据源228

15.1.2 调度器228

15.2 RDD编程接口229

15.3 RDD操作229

15.3.1 Spark基于命令行的操作229

15.3.2 Spark基于应用作业的操作231

15.3.3 Spark操作的基础命令与开发工具介绍231

15.3.4 Spark基于YARN的调度模式231

15.3.5 Spark基于Scala语言的本地应用开发234

15.3.6 Spark基于Scala语言的集群应用开发235

15.3.7 Spark基于Java语言的应用开发236

15.3.8 Spark基于Java语言的本地应用开发237

15.3.9 Spark基于Java语言的集群应用开发238

15.4 习题与思考241

第16章 Spark SQL242

16.1 Spark SQL架构原理242

16.1.1 Hive的两种功能242

16.1.2 Spark SQL的重要功能242

16.1.3 Spark SQL的DataFrame特征243

16.2 Spark SQL操作Hive243

16.2.1 添加配置文件,便于Spark SQL访问Hive仓库243

16.2.2 安装JDBC驱动243

16.2.3 启动MySQL服务及其Hive的元数据服务243

16.2.4 启动HDFS集群和Spark集群244

16.2.5 启动Spark-Shell并测试244

16.3 Spark SQL操作HDFS244

16.3.1 操作代码244

16.3.2 工程文件246

16.3.3 创建测试数据246

16.3.4 运行Job并提交到集群247

16.3.5 查看运行结果247

16.4 Spark SQL操作关系数据库248

16.4.1 添加访问MySQL的驱动包248

16.4.2 添加必要的开发环境248

16.4.3 使用Spark SQL操作关系数据库248

16.4.4 初始化MySQL数据库服务250

16.4.5 准备Spark SQL源数据251

16.4.6 运行Spark代码252

16.4.7 创建dist文件夹252

16.4.8 安装数据库驱动252

16.4.9 基于集群操作253

16.4.10 打包工程代码到dist目录下256

16.4.11 启动集群并提交Job应用256

16.4.12 检查关系数据库中是否已有数据258

16.5 习题与思考258

第17章 Spark Streaming260

17.1 架构与原理260

17.1.1 Spark Streaming中的离散流特征260

17.1.2 Spark Streaming的应用场景260

17.2 KafKa中间件261

17.2.1 KafKa的特点261

17.2.2 ZeroCopy技术261

17.2.3 KafKa的通信原理261

17.2.4 KafKa的内部存储结构262

17.2.5 KafKa的下载262

17.2.6 KafKa集群搭建262

17.2.7 启动并使用KafKa集群263

17.2.8 停止KafKa集群264

17.2.9 KafKa集成Flume264

17.3 Socket事件流操作265

17.3.1 netcat网络Socket控制台工具265

17.3.2 基于本地的Spark Streaming流式数据分析示例266

17.3.3 基于集群的Spark Streaming流式数据分析示例269

17.3.4 基于集群模式下的集群文件I/O流分析示例272

17.4 KafKa事件流操作275

17.4.1 基于Receiver模式的KafKa集成275

17.4.2 基于Direct模式的KafKa集成278

17.5 I/O文件事件流操作280

17.5.1 基于路径扫描的Spark Streaming281

17.5.2 打包至工程的dist目录284

17.5.3 启动集群284

第18章 Spark机器学习289

18.1 机器学习原理289

18.1.1 机器学习的概念289

18.1.2 机器学习的分类289

18.1.3 Spark机器学习的版本演变290

18.1.4 DataFrame数据结构290

18.1.5 DataSet数据结构290

18.1.6 执行引擎的性能与效率290

18.1.7 Spark 2.x的新特性290

18.2 线性回归291

18.2.1 线性回归分析过程291

18.2.2 矩阵分析过程291

18.2.3 基于本地模式的线性回归分析291

18.2.4 基于集群模式的线性回归分析294

18.3 聚类分析300

18.3.1 K-Means聚类算法原理300

18.3.2 聚类分析过程300

18.3.3 基于本地模式的聚类算法分析301

18.3.4 基于集群模式的聚类算法分析305

18.4 协同过滤312

18.4.1 个性化推荐算法312

18.4.2 相关性推荐算法312

18.4.3 基于本地的协同过滤算法分析312

18.4.4 基于集群的协同过滤算法分析317

第4篇 项目实战325

第19章 基于电力能源的大数据实战325

19.1 需求分析325

19.2 项目设计325

19.2.1 数据采集325

19.2.2 数据处理326

19.2.3 数据呈现326

19.3 数据收集与处理329

19.3.1 数据收集329

19.3.2 数据处理329

19.4 大数据呈现341

19.4.1 数据传输341

19.4.2 数据呈现342

19.5 项目总结343

热门推荐