图书介绍

Spark编程基础【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

Spark编程基础
  • 林子雨,赖永炫,陶继平编著 著
  • 出版社: 北京:人民邮电出版社
  • ISBN:9787115475985
  • 出版时间:2018
  • 标注页数:186页
  • 文件大小:33MB
  • 文件页数:200页
  • 主题词:数据处理软件-教材

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Spark编程基础PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 大数据技术概述1

1.1 大数据的概念与关键技术2

1.1.1 大数据的概念2

1.1.2 大数据关键技术2

1.2 代表性大数据技术4

1.2.1 Hadoop4

1.2.2 Spark8

1.2.3 Flink10

1.2.4 Beam11

1.3 编程语言的选择12

1.4 在线资源13

1.5 本章小结14

1.6 习题14

实验1 Linux系统的安装和常用命令15

一、实验目的15

二、实验平台15

三、实验内容和要求15

四、实验报告16

第2章 Spark的设计与运行原理17

2.1 概述18

2.2 Spark生态系统19

2.3 Spark运行架构20

2.3.1 基本概念20

2.3.2 架构设计21

2.3.3 Spark运行基本流程22

2.3.4 RDD的设计与运行原理23

2.4 Spark的部署方式32

2.5 本章小结33

2.6 习题34

第3章 Spark环境搭建和使用方法35

3.1 安装Spark36

3.1.1 基础环境36

3.1.2 下载安装文件36

3.1.3 配置相关文件37

3.1.4 Spark和Hadoop的交互38

3.2 在spark-shell中运行代码38

3.2.1 spark-shell命令39

3.2.2 启动spark-shell40

3.3 开发Spark独立应用程序40

3.3.1 安装编译打包工具41

3.3.2 编写Spark应用程序代码42

3.3.3 编译打包42

3.3.4 通过spark-submit运行程序45

3.4 Spark集群环境搭建45

3.4.1 集群概况46

3.4.2 搭建Hadoop集群46

3.4.3 在集群中安装Spark47

3.4.4 配置环境变量47

3.4.5 Spark的配置47

3.4.6 启动Spark集群48

3.4.7 关闭Spark集群48

3.5 在集群上运行Spark应用程序49

3.5.1 启动Spark集群49

3.5.2 采用独立集群管理器49

3.5.3 采用Hadoop YARN管理器50

3.6 本章小结51

3.7 习题52

实验2 Spark和Hadoop的安装52

一、实验目的52

二、实验平台52

三、实验内容和要求52

四、实验报告53

第4章 RDD编程54

4.1 RDD编程基础55

4.1.1 RDD创建55

4.1.2 RDD操作56

4.1.3 持久化62

4.1.4 分区63

4.1.5 一个综合实例67

4.2 键值对RDD69

4.2.1 键值对RDD的创建69

4.2.2 常用的键值对转换操作70

4.2.3 一个综合实例74

4.3 数据读写75

4.3.1 文件数据读写76

4.3.2 读写HBase数据78

4.4 综合实例82

4.4.1 求TOP值82

4.4.2 文件排序84

4.4.3 二次排序85

4.5 本章小结87

实验3 RDD编程初级实践87

一、实验目的87

二、实验平台87

三、实验内容和要求87

四、实验报告89

第5章 Spark SQL90

5.1 Spark SQL简介91

5.1.1 从Shark说起91

5.1.2 Spark SQL架构92

5.1.3 为什么推出Spark SQL93

5.2 DataFrame概述93

5.3 DataFrame的创建94

5.4 DataFrame的保存95

5.5 DataFrame的常用操作96

5.6 从RDD转换得到DataFrame97

5.6.1 利用反射机制推断RDD模式98

5.6.2 使用编程方式定义RDD模式99

5.7 使用Spark SQL读写数据库101

5.7.1 通过JDBC连接数据库101

5.7.2 连接Hive读写数据103

5.8 本章小结107

5.9 习题107

实验4 Spark SQL编程初级实践108

一、实验目的108

二、实验平台108

三、实验内容和要求108

四、实验报告109

第6章 Spark Streaming110

6.1 流计算概述111

6.1.1 静态数据和流数据111

6.1.2 批量计算和实时计算112

6.1.3 流计算概念112

6.1.4 流计算框架113

6.1.5 流计算处理流程114

6.2 Spark Streaming115

6.2.1 Spark Streaming设计115

6.2.2 Spark Streaming与Storm的对比116

6.2.3 从“Hadoop+Storm”架构转向Spark架构117

6.3 DStream操作概述118

6.3.1 Spark Streaming工作机制118

6.3.2 编写Spark Streaming程序的基本步骤119

6.3.3 创建Stream ingContext对象119

6.4 基本输入源120

6.4.1 文件流120

6.4.2 套接字流122

6.4.3 RDD队列流127

6.5 高级数据源128

6.5.1 Kafka简介129

6.5.2 Kafka准备工作129

6.5.3 Spark准备工作130

6.5.4 编写Spark Streaming程序使用Kafka数据源131

6.6 转换操作135

6.6.1 DStream无状态转换操作135

6.6.2 DStream有状态转换操作136

6.7 输出操作140

6.7.1 把DStream输出到文本文件中140

6.7.2 把DStream写入到关系数据库中141

6.8 本章小结143

6.9 习题143

实验5 Spark Streaming编程初级实践144

一、实验目的144

二、实验平台144

三、实验内容和要求144

四、实验报告145

第7章 Spark Mllib146

7.1 基于大数据的机器学习147

7.2 机器学习库MLlib概述148

7.3 基本数据类型149

7.3.1 本地向量149

7.3.2 标注点149

7.3.3 本地矩阵150

7.4 机器学习流水线151

7.4.1 流水线的概念151

7.4.2 流水线工作过程152

7.5 特征提取、转换和选择153

7.5.1 特征提取154

7.5.2 特征转换156

7.5.3 特征选择161

7.5.4 局部敏感哈希162

7.6 分类算法163

7.6.1 逻辑斯蒂回归分类器163

7.6.2 决策树分类器167

7.7 聚类算法170

7.7.1 K-Means聚类算法171

7.7.2 GMM聚类算法173

7.8 协同过滤算法175

7.8.1 推荐算法的原理176

7.8.2 ALS算法176

7.9 模型选择和超参数调整180

7.9.1 模型选择工具180

7.9.2 用交叉验证选择模型181

7.10 本章小结183

7.11 习题183

实验6 Spark机器学习库MLlib编程实践184

一、实验目的184

二、实验平台184

三、实验内容和要求184

四、实验报告185

参考文献186

热门推荐