图书介绍

Hadoop基础教程【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

Hadoop基础教程
  • (英)特金顿著 著
  • 出版社: 北京:人民邮电出版社
  • ISBN:9787115341334
  • 出版时间:2014
  • 标注页数:310页
  • 文件大小:66MB
  • 文件页数:325页
  • 主题词:数据处理软件-教材

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Hadoop基础教程PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 绪论1

1.1大数据处理1

1.1.1数据的价值2

1.1.2受众较少2

1.1.3一种不同的方法4

1.1.4 Hadoop7

1.2基于Amazon Web Services的云计算12

1.2.1云太多了12

1.2.2第三种方法12

1.2.3不同类型的成本12

1.2.4 AW S : Amazon的弹性架构13

1.2.5本书内容14

1.3小结15

第2章 安装并运行Hadoop16

2.1基于本地Ubuntu主机的Hadoop系统16

2.2实践环节:检查是否已安装JDK17

2.3实践环节:下载Hadoop18

2.4实践环节:安装SSH19

2.5实践环节:使用Hadoop计算圆周率20

2.6实践环节:配置伪分布式模式22

2.7实践环节:修改HDFS的根目录24

2.8实践环节:格式化NameNode25

2.9实践环节:启动Hadoop26

2.10实践环节:使用HDFS27

2.11实践环节:MapReduce的经典入门程序——字数统计28

2.12使用弹性MapReduce33

2.13实践环节:使用管理控制台在EMR运行WordCount34

2.13.1使用EMR的其他方式41

2.13.2 AWS生态系统42

2.14本地Hadoop与EMR Hadoop的对比42

2.15 小结43

第3章 理解MapReduce44

3.1键值对44

3.1.1具体含义44

3.1.2为什么采用键/值数据45

3.1.3 MapReduce作为一系列键/值变换46

3.2 MapReduce的Hadoop Java API47

3.3编写MapReduce程序50

3.4实践环节:设置classpath50

3.5实践环节:实现WordCount51

3.6实践环节:构建JAR文件53

3.7实践环节:在本地Hadoop集群运行WordCount54

3.8实践环节:在EMR上运行WordCount54

3.8.1 0.20之前版本的Java MapReduce API56

3.8.2 Hadoop提供的mapper和 reducer实现57

3.9实践环节:WordCount的简易方法58

3.10查看WordCount的运行全貌59

3.10.1启动59

3.10.2将输入分块59

3.10.3任务分配60

3.10.4任务启动60

3.10.5不断监视JobTracker60

3.10.6 mapper的输入61

3.10.7 mapper的执行61

3.10.8 mapper的输出和reducer的输入61

3.10.9分块62

3.10.10可选分块函数62

3.10.11 reducer类的输入62

3.10.12 reducer类的执行63

3.10.13 reducer类的输出63

3.10.14关机63

3.10.15这就是MapReduce的全部64

3.10.16也许缺了combiner64

3.11实践环节:使用combiner编写Word Count64

3.12实践环节:更正使用combiner的 WordCount65

3.13 Hadoop专有数据类型67

3.13.1 Writable和Writable- Comparable接口67

3.13.2 wrapper类介绍68

3.14实践环节:使用Writable包装类69

3.15 输入/输出71

3.15.1文件、split和记录71

3.15.2 InputFormat和RecordReader71

3.15.3 Hadoop提供的InputFormat72

3.15.4 Hadoop提供的RecordReader73

3.15.5 OutputFomat和Record-Writer73

3.15.6 Hadoop提供的OutputFormat73

3.15.7别忘了Sequence files74

3.16小结74

第4章 开发MapReduce程序75

4.1使用非Java语言操作Hadoop75

4.1.1 Hadoop Streaming工作原理76

4.1.2使用Hadoop Streaming的原因76

4.2实践环节:使用Streaming实现Word- Count76

4.3分析大数据集79

4.3.1获取UFO目击事件数据集79

4.3.2了解数据集80

4.4实践环节:统计汇总UFO数据80

4.5实践环节:统计形状数据82

4.6实践环节:找出目击事件的持续时间与UFO形状的关系84

4.7实践环节:在命令行中执行形状/时间分析87

4.8实践环节:使用ChainMapper进行字段验证/分析88

4.9实践环节:使用Distributed Cache改进地点输出93

4.10计数器、状态和其他输出96

4.11实践环节:创建计数器、任务状态和写入日志96

4.12小结102

第5章 高级MapReduce技术103

5.1初级、高级还是中级103

5.2多数据源联结103

5.2.1不适合执行联结操作的情况104

5.2.2 map端联结与reduce端联结的对比104

5.2.3匹配账户与销售信息105

5.3实践环节:使用MultipleInputs实现reduce端联结105

5.3.1实现map端联结109

5.3.2是否进行联结112

5.4图算法112

5.4.1 Graph 101112

5.4.2图和MapReduce112

5.4.3图的表示方法113

5.5实践环节:图的表示114

5.6实践环节:创建源代码115

5.7实践环节:第一次运行作业119

5.8实践环节:第二次运行作业120

5.9实践环节:第三次运行作业121

5.10实践环节:第四次也是最后一次运行作业122

5.10.1运行多个作业124

5.10.2关于图的终极思考124

5.11使用语言无关的数据结构124

5.11.1候选技术124

5.11.2 Avro简介125

5.12实践环节:获取并安装Avro125

5.13实践环节:定义模式126

5.14实践环节:使用Ruby创建Avro源数据127

5.15 实践环节:使用Java语言编程操作Avro数据128

5.16实践环节:在MapReduce中统计UFO形状130

5.17实践环节:使用Ruby检查输出数据134

5.18实践环节:使用Java检查输出数据135

5.19小结137

第6章 故障处理138

6.1故障138

6.1.1拥抱故障138

6.1.2至少不怕出现故障139

6.1.3严禁模仿139

6.1.4故障类型139

6.1.5 Hadoop节点故障139

6.2实践环节:杀死DataNode进程141

6.3实践环节:复制因子的作用144

6.4实践环节:故意造成数据块丢失146

6.5实践环节:杀死TaskTracker进程149

6.6实践环节:杀死JobTracker153

6.7实践环节:杀死NameNode进程154

6.8实践环节:引发任务故障160

6.9数据原因造成的任务故障163

6.10实践环节:使用skip模式处理异常数据164

6.11小结169

第7章 系统运行与维护170

7.1关于EMR的说明170

7.2 Hadoop配置属性171

7.3实践环节:浏览默认属性171

7.3.1附加的属性元素172

7.3.2默认存储位置172

7.3.3设置Hadoop属性的几种方式173

7.4集群设置174

7.4.1为集群配备多少台主机174

7.4.2特殊节点的需求176

7.4.3不同类型的存储系统177

7.4.4 Hadoop的网络配置178

7.5实践环节:查看默认的机柜配置180

7.6实践环节:报告每台主机所在机柜180

7.7集群访问控制183

7.8实践环节:展示Hadoop的默认安全机制183

7.9管理NameNode187

7.10实践环节:为fsimage文件新增一个存储路径188

7.11实践环节:迁移到新的NameNode主机190

7.12管理HDFS192

7.12.1数据写入位置192

7.12.2使用平衡器193

7.13 MapReduce管理193

7.13.1通过命令行管理作业193

7.13.2作业优先级和作业调度194

7.14实践环节:修改作业优先级并结束作业运行194

7.15 扩展集群规模197

7.15.1提升本地Hadoop集群的计算能力197

7.15.2提升EMR作业流的计算能力198

7.16小结198

第8章 Hive:数据的关系视图200

8.1 Hive概述200

8.1.1为什么使用Hive200

8.1.2感谢Facebook201

8.2设置Hive201

8.2.1准备工作201

8.2.2下载Hive202

8.3实践环节:安装Hive202

8.4使用Hive203

8.5实践环节:创建UFO数据表204

8.6实践环节:在表中插入数据206

8.7实践环节:验证表208

8.8实践环节:用正确的列分隔符重定义表210

8.9实践环节:基于现有文件创建表212

8.10实践环节:执行联结操作214

8.11实践环节:使用视图216

8.12实践环节:导出查询结果219

8.13实践环节:制作UFO目击事件分区表221

8.13.1分桶、归并和排序224

8.13.2用户自定义函数225

8.14实践环节:新增用户自定义函数225

8.14.1是否进行预处理228

8.14.2 Hive和Pig的对比229

8.14.3未提到的内容229

8.15 基于Amazon Web Services的Hive230

8.16实践环节:在EMR上分析UFO 数据230

8.16.1在开发过程中使用交互式作业流235

8.16.2与其他AWS产品的集成236

8.17小结236

第9章 与关系数据库协同工作238

9.1常见数据路径238

9.1.1 Hadoop用于存储档案238

9.1.2使用Hadoop进行数据预处理239

9.1.3使用Hadoop作为数据输入工具239

9.1.4数据循环240

9.2配置MySQL240

9.3实践环节:安装并设置MySQL240

9.4实践环节:配置MySQL允许远程连接243

9.5实践环节:建立员工数据库245

9.6把数据导入Hadoop246

9.6.1使用MySQL工具手工导入246

9.6.2在mapper中访问数据库246

9.6.3更好的方法:使用Sqoop247

9.7实践环节:下载并配置Sqoop247

9.8实践环节:把MySQL的数据导入HDFS249

9.9实践环节:把MySQL数据导出到Hive253

9.10实践环节:有选择性的导入数据255

9.11实践环节:使用数据类型映射257

9.12实践环节:通过原始查询导入数据258

9.13从Hadoop导出数据261

9.13.1在reducer中把数据写入关系数据库261

9.13.2利用reducer输出SQL数据文件262

9.13.3仍是最好的方法262

9.14实践环节:把Hadoop数据导入MySQL262

9.15 实践环节:把Hive数据导入MySQL265

9.16实践环节:改进mapper并重新运行数据导出命令267

9.17在AWS上使用Sqoop269

9.18小结270

第10章 使用Flume收集数据271

10.1关于AWS的说明271

10.2无处不在的数据271

10.2.1数据类别272

10.2.2把网络流量导入Hadoop272

10.3实践环节:把网络服务器数据导入Hadoop272

10.3.1把文件导入Hadoop273

10.3.2潜在的问题273

10.4 Apache Flume简介274

10.5实践环节:安装并配置Flume275

10.6实践环节:把网络流量存入日志文件277

10.7实践环节:把日志输出到控制台279

10.8实践环节:把命令的执行结果写入平面文件281

10.9实践环节:把远程文件数据写入本地平面文件283

10.9.1信源、信宿和信道284

10.9.2 Flume配置文件286

10.9.3一切都以事件为核心287

10.10实践环节:把网络数据写入HDFS287

10.11实践环节:加入时间戳289

10.12实践环节:多层Flume网络292

10.13实践环节:把事件写入多个信宿294

10.13.1选择器的类型295

10.13.2信宿故障处理295

10.13.3使用简单元件搭建复杂系统296

10.14更高的视角297

10.14.1数据的生命周期297

10.14.2集结数据297

10.14.3调度297

10.15 小结298

第11章 展望未来299

11.1全书回顾299

11.2即将到来的Hadoop变革300

11.3其他版本的Hadoop软件包300

11.4其他Apache项目303

11.4.1 HBase303

11.4.2 Oozie303

11.4.3 Whir304

11.4.4 Mahout304

11.4.5 MRUnit305

11.5其他程序设计模式305

11.5.1 Pig305

11.5.2 Cascading305

11.6 AWS资源306

11.6.1在EMR上使用HBase306

11.6.2 SimpleDB306

11.6.3 DynamoDB306

11.7获取信息的渠道307

11.7.1源代码307

11.7.2邮件列表和论坛307

11.7.3 LinkedIn群组307

11.7.4 Hadoop用户群307

11.7.5会议308

11.8小结308

随堂测验答案309

热门推荐