图书介绍

Hadoop与大数据挖掘【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

Hadoop与大数据挖掘
  • 张良均,樊哲,位文超,刘名军等著 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111567875
  • 出版时间:2017
  • 标注页数:322页
  • 文件大小:36MB
  • 文件页数:335页
  • 主题词:数据处理软件;数据采集

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Hadoop与大数据挖掘PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第一篇 基础篇2

第1章 浅谈大数据2

1.1大数据概述3

1.2大数据平台4

1.3本章小结5

第2章 大数据存储与运算利器——Hadoop6

2.1 Hadoop概述6

2.1.1 Hadoop简介6

2.1.2 Hadoop存储——HDFS8

2.1.3 Hadoop计算——MapReduce11

2.1.4 Hadoop资源管理——YARN13

2.1.5 Hadoop生态系统14

2.2 Hadoop配置及IDE配置17

2.2.1准备工作17

2.2.2环境配置18

2.2.3集群启动关闭与监控24

2.2.4动手实践:一键式Hadoop集群启动关闭25

2.2.5动手实践:Hadoop IDE配置26

2.3 Hadoop集群命令28

2.3.1 HDFS常用命令hdfs dfs30

2.3.2动手实践:hdfs dfs命令实战31

2.3.3 MapReduce常用命令mapred job32

2.3.4 YARN常用命令yam jar32

2.3.5动手实践:运行MapReduce任务33

2.4 Hadoop编程开发33

2.4.1 HDFS Java API操作33

2.4.2 MapReduce原理35

2.4.3动手实践:编写Word Count程序并打包运行44

2.4.4 MapReduce组件分析与编程实践46

2.5 K-Means算法原理及HadoopMapReduce实现53

2.5.1 K-Means算法原理53

2.5.2动手实践:K-Means算法实现55

2.5.3 Hadoop K-Means算法实现思路55

2.5.4 Hadoop K-Means编程实现57

2.6 TF-IDF算法原理及Hadoop MapReduce实现67

2.6.1 TF-IDF算法原理67

2.6.2 Hadoop TF-IDF编程思路67

2.6.3 Hadoop TF-IDF编程实现68

2.7本章小结79

第3章 大数据查询——Hive81

3.1 Hive概述81

3.1.1 Hive体系架构82

3.1.2 Hive数据类型86

3.1.3 Hive安装87

3.1.4动手实践:Hive安装配置91

3.1.5动手实践:HiveQL基础—— SQL91

3.2 HiveQL语句93

3.2.1数据库操作94

3.2.2 Hive表定义94

3.2.3数据导入100

3.2.4数据导出103

3.2.5 HiveQL查询104

3.3动手实践:基于Hive的学生信息查询108

3.4基于Hive的航空公司客户价值数据预处理及分析109

3.4.1背景与挖掘目标109

3.4.2分析方法与过程111

3.5本章小结115

第4章 大数据快速读写——HBase116

4.1 HBase概述116

4.2配置HBase集群118

4.2.1 Zookeeper简介及配置118

4.2.2配置HBase121

4.2.3动手实践:HBase安装及运行122

4.2.4动手实践:ZooKeeper获取HBase状态122

4.3 HBase原理与架构组件123

4.3.1 HBase架构与组件123

4.3.2 HBase数据模型127

4.3.3读取/写入HBase数据128

4.3.4 RowKey设计原则129

4.3.5动手实践:HBase数据模型验证131

4.4 HBase Shell操作132

4.4.1 HBase常用Shell命令132

4.4.2动手实践:HBase Shell操作136

4.5 Java API &MapReduce与HBase交互137

4.5.1搭建HBase开发环境137

4.5.2使用Java API操作HBase表144

4.5.3动手实践:HBase Java API使用147

4.5.4 MapReduce与HBase交互147

4.5.5动手实践:HBase表导入导出150

4.6基于HBase的冠字号查询系统151

4.6.1案例背景151

4.6.2功能指标151

4.6.3系统设计152

4.6.4动手实践:构建基于HBase的冠字号查询系统162

4.7本章小结175

第5章 大数据处理——Pig176

5.1 Pig概述176

5.1.1 Pig Latin简介177

5.1.2 Pig数据类型179

5.1.3 Pig与Hive比较179

5.2配置运行Pig180

5.2.1 Pig配置181

5.2.2 Pig运行模式181

5.3常用Pig Latin操作182

5.3.1数据加载182

5.3.2数据存储184

5.3.3 Pig参数替换185

5.3.4数据转换186

5.4综合实践194

5.4.1动手实践:访问统计信息数据处理194

5.4.2动手实践:股票交易数据处理195

5.5本章小结196

第6章 大数据快速运算与挖掘——Spark197

6.1 Spark概述197

6.2 Spark安装集群199

6.2.1 3种运行模式199

6.2.2动手实践:配置Spark独立集群199

6.2.3 3种运行模式实例201

6.2.4动手实践:Spark Streaming实时日志统计205

6.2.5动手实践:Spark开发环境——Intellij IDEA配置207

6.3 Spark架构与核心原理212

6.3.1 Spark架构212

6.3.2 RDD原理213

6.3.3深入理解Spark核心原理215

6.4 Spark编程技巧218

6.4.1 Scala基础218

6.4.2 Spark基础编程218

6.5如何学习Spark MLlib225

6.5.1确定应用227

6.5.2 ALS算法直观描述228

6.5.3编程实现229

6.5.4问题解决及模型调优233

6.6动手实践:基于Spark ALS电影推荐系统234

6.6.1动手实践:生成算法包235

6.6.2动手实践:完善推荐系统239

6.7本章小结250

第7章 大数据工作流——Oozie252

7.1 Oozie简介252

7.2编译配置并运行Oozie253

7.2.1动手实践:编译Oozie253

7.2.2动手实践:Oozie Server/client配置254

7.3 Oozie WorkFlow实践257

7.3.1定义及提交工作流257

7.3.2动手实践:MapReduce Work-Flow定义及调度260

7.3.3动手实践:Pig WorkFlow定义及调度263

7.3.4动手实践:Hive WorkFlow定义及调度265

7.3.5动手实践:Spark WorkFlow定义及调度267

7.3.6动手实践:Spark On Yarn定义及调度268

7.4 Oozie Coordinator实践270

7.4.1动手实践:基于时间调度270

7.4.2动手实践:基于数据有效性调度273

7.5本章小结275

第二篇 挖掘实战篇278

第8章 法律服务大数据智能推荐278

8.1背景278

8.2目标279

8.3系统架构及流程279

8.4分析过程及实现281

8.4.1数据传输281

8.4.2数据传输:动手实践282

8.4.3数据探索分析283

8.4.4数据预处理292

8.4.5模型构建297

8.5构建法律服务大数据智能推荐系统313

8.5.1动手实践:构建推荐系统JavaEE313

8.5.2动手实践:Oozie工作流任务317

8.6本章小结322

热门推荐