图书介绍

大数据Spark企业级实战【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

大数据Spark企业级实战
  • Spark亚太研究院,王家林编著 著
  • 出版社: 北京:电子工业出版社
  • ISBN:9787121247446
  • 出版时间:2015
  • 标注页数:800页
  • 文件大小:111MB
  • 文件页数:813页
  • 主题词:数据处理软件

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

大数据Spark企业级实战PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 Spark编程模型1

1.1 Spark:一体化、多元化的高速大数据通用计算平台和库1

1.1.1 为什么需要使用Spark5

1.1.2 Spark技术生态系统简介9

1.2 Spark大数据处理框架20

1.2.1 Spark速度为何如此之快20

1.2.2 RDD:分布式函数式编程24

1.3 Spark子框架解析28

1.3.1 图计算框架Spark GraphX28

1.3.2 实时流处理框架(Spark Streaming)41

1.3.3 交互式SQL处理框架Spark SQL46

1.3.4 机器学习框架(Spark MLlib)49

第2章 构建Spark分布式集群55

2.1 搭建Hadoop单机版本和伪分布式开发环境55

2.1.1 开发Hadoop需要的基本软件56

2.1.2 安装每个软件58

2.1.3 配置Hadoop单机模式并运行Wordcount示例76

2.1.4 配置Hadoop伪分布模式并运行Wordcount示例84

2.2 搭建Hadoop分布式集群92

2.2.1 在VMWare中准备第二、第三台运行Ubuntu系统的机器92

2.2.2 按照配置伪分布式模式的方式配置新创建运行Ubuntu系统的机器93

2.2.3 配置Hadoop分布式集群环境94

2.2.4 测试Hadoop分布式集群环境105

2.3 Spark集群的动手搭建108

2.3.1 Spark集群需要的软件108

2.3.2 安装每个软件110

2.3.3 启动并查看集群的状况116

2.4 构建Hadoop单机版本和伪分布式环境120

2.4.1 通过Spark的shell测试Spark的工作121

2.4.2 使用Spark的cache机制观察一下效率的提升125

第3章 Spark开发环境及其测试129

3.1 搭建和设置IDEA开发环境129

3.1.1 构建Spark的IDE开发环境129

3.1.2 配置Spark的IDE开发环境132

3.2 测试IDEA环境146

3.3 实战:在IDEA中开发代码,并运行在Spark集群中148

第4章 Spark RDD与编程API实战159

4.1 深度解析Spark RDD159

4.2 Transformation Operations动手实战165

4.3 Action Operations动手实战175

4.4 Spark API综合实战179

第5章 Spark运行模式深入解析191

5.1 Spark运行模式概述192

5.1.1 Spark的运行模式列表196

5.1.2 Spark的基本工作流程197

5.2 Standalone模式201

5.2.1 部署及程序运行202

5.2.2 内部实现原理206

5.3 Yarn-Cluster模式234

5.3.1 部署及程序运行235

5.3.2 内部实现原理237

5.4 Yarn-Client模式243

5.4.1 部署及运行程序243

5.4.2 内部实现原理244

第6章 Spark内核解析247

6.1 Spark内核初探247

6.1.1 Spark内核核心术语解析247

6.1.2 Spark集群概览250

6.1.3 Spark核心组件251

6.1.4 Spark任务调度系统初见252

6.2 Spark内核核心源码解读256

6.2.1 SparkContext核心源码解析初体验256

6.2.2 TaskSceduler启动源码解析初体验260

6.2.3 DAGScheduler源码解读初体验261

6.2.4 Spark的Web监控页面262

6.3 以RDD的count操作为例触发Job全生命周期源码研究263

6.4 Akka驱动下的Driver、Master、Worker276

6.4.1 Driver中的AppClient源码解析276

6.4.2 AppClient注册Master279

6.4.3 Worker中Executor启动过程源代码解析282

第7章 GraphX大规模图计算与图挖掘实战287

7.1 Spark GraphX概览288

7.2 Spark GraphX设计实现的核心原理291

7.3 Table operator和GraphOperator295

7.4 Vertices、edges、triplets296

7.5 以最原始的方式构建graph299

7.6 动手编写第一个Graph代码实例并进行Vertices、edges、triplets操作299

7.7 在Spark集群上使用文件中的数据加载成为graph并进行操作310

7.8 在Spark集群上掌握比较重要的图操作320

7.9 Spark GraphX图算法342

7.10 淘宝对Spark GraphX的大规模使用347

第8章 Spark SQL原理与实战349

8.1 为什么使用Spark SQL349

8.1.1 Spark SQL的发展历程349

8.1.2 Spark SQL的性能351

8.2 Spark SQL运行架构355

8.2.1 Tree和Rule357

8.2.2 sqlContext的运行过程360

8.2.3 hiveContext的运行过程362

8.2.4 catalyst优化器365

8.3 解析Spark SQL组件367

8.3.1 LogicalPlan367

8.3.2 SqlParser370

8.3.3 Analyzer378

8.3.4 Optimizer381

8.4 深入了解Spark SQL运行的计划383

8.4.1 hive/console的安装过程和原理383

8.4.2 常用操作386

8.4.3 不同数据源的运行计划388

8.4.4 不同查询的运行计划391

8.4.5 查询的优化393

8.5 搭建测试环境396

8.5.1 搭建虚拟集群(Hadoop1、Hadoop2、Hadoop3)397

8.5.2 搭建客户端398

8.5.3 文件数据的准备工作399

8.5.4 Hive数据的准备工作399

8.6 Spark SQL之基础应用400

8.6.1 sqlContext的基础应用402

8.6.2 hiveContext的基础应用405

8.6.3 混合使用408

8.6.4 缓存的使用409

8.6.5 DSL的使用410

8.7 ThriftServer和CLI411

8.7.1 令人惊讶的CLI411

8.7.2 ThriftServer414

8.8 Spark SQL之综合应用418

8.8.1 店铺分类419

8.8.2 PageRank421

8.9 Spark SQL之调优424

8.9.1 并行性424

8.9.2 高效的数据格式425

8.9.3 内存的使用427

8.9.4 合适的Task428

8.9.5 其他的一些建议428

第9章 Machine Learning on Spark431

9.1 Spark MLlib机器学习431

9.1.1 机器学习快速入门432

9.1.2 Spark MLlib介绍442

9.1.3 Spark MLlib架构解析447

9.1.4 Spark Mllib核心解析458

9.2 MLlib经典算法解析和案例实战462

9.2.1 Linear Regression解析和实战462

9.2.2 K-Means解析和实战484

9.2.3 协同过滤算法分析和案例实战502

9.3 MLLib其他常用算法解析和代码实战552

9.3.1 Basic Statics解析和实战553

9.3.2 MLlib朴素贝叶斯解析和实战560

9.3.3 MLlib决策树解析和实战562

第10章 Tachyon文件系统565

10.1 Tachyon文件系统概述565

10.1.1 Tachyon文件系统简介565

10.1.2 HDFS与Tachyon566

10.1.3 Tachyon设计原理568

10.2 Tachyon入门568

10.2.1 Tachyon部署568

10.2.2 Tachyon API的使用570

10.2.3 在MapReduce、Spark上使用Tachyon572

10.3 Tachyon深度解析573

10.3.1 Tachyon整体设计概述573

10.3.2 Tachyon Master启动流程分析574

10.3.3 Tachyon Worker启动流程分析577

10.3.4 客户端读写文件源码分析577

10.4 Tachyon配置参数一览579

10.5 小结580

第11章 Spark Streaming原理与实战581

11.1 Spark Streaming原理581

11.1.1 原理和运行场景581

11.1.2 编程模型DStream584

11.1.3 持久化、容错和优化588

11.2 Spark Streaming实战589

11.2.1 源码解析589

11.2.2 Spark Streaming实战案例600

第12章 Spark多语言编程605

12.1 Spark多语言编程的特点605

12.2 Spark编程模型609

12.3 深入Spark多语言编程611

12.4 Spark多语言编程综合实例622

第13章 R语言的分布式编程之SparkR627

13.1 R语言快速入门627

13.1.1 R语言是什么627

13.1.2 R语言的特点629

13.1.3 R语言的安装630

13.1.4 R的核心概念630

13.1.5 R动手实战631

13.2 使用SparkR661

13.2.1 SparkR的安装661

13.2.2 使用SparkR编写WordCount662

13.2.3 使用SparkR的更多代码示例662

第14章 Spark性能调优和最佳实践665

14.1 Spark性能调优665

14.1.1 Spark性能优化的12大问题及其解决方法665

14.1.2 Spark内存优化669

14.1.3 RDD分区672

14.1.4 Spark性能优化实例674

14.2 Spark性能调优细节675

14.2.1 broadcast和accumulator675

14.2.2 reduce和reduceByKey676

14.2.3 深入reduceByKey677

第15章 Spark源码解析679

15.1 BlockManager源码解析679

15.2 Cache源码解析706

15.3 Checkpoint源码解析725

附录A 动手实战Scala三部曲733

第一部 动手体验Scala735

第二部 动手实战Scala面向对象编程746

第三部 动手实战Scala函数式编程761

热门推荐