图书介绍
数据科学与大数据技术导论【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

- 陈明编著 著
- 出版社: 北京:北京师范大学出版社
- ISBN:9787303234523
- 出版时间:2018
- 标注页数:351页
- 文件大小:74MB
- 文件页数:363页
- 主题词:数据处理-高等学校-教材
PDF下载
下载说明
数据科学与大数据技术导论PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 概述1
1.1 数据科学2
1.1.1 数据科学的产生与发展2
1.1.2 数据科学的相关术语2
1.1.3 数据科学的主要内容3
1.1.4 数据科学的研究过程与体系框架4
1.1.5 数据科学、数据技术与数据工程7
1.1.6 大数据问题8
1.2 大数据的生态环境8
1.2.1 互联网世界9
1.2.2 物理世界11
1.3 大数据的概念12
1.3.1 数据容量12
1.3.2 数据类型13
1.3.3 价值密度13
1.3.4 速度14
1.3.5 真实性14
1.4 大数据的性质14
1.4.1 非结构性14
1.4.2 不完备性16
1.4.3 时效性16
1.4.4 安全性16
1.4.5 可靠性16
1.5 大数据处理周期16
1.5.1 大数据处理的全过程17
1.5.2 大数据技术的特征19
1.5.3 大数据的几个热点问题20
1.6 科学研究范式21
1.6.1 科学研究范式的产生与发展22
1.6.2 数据密集型科学研究第四范式22
本章小结27
第2章 大数据获取与存储管理技术28
2.1 大数据获取29
2.1.1 大数据获取的挑战29
2.1.2 传统数据获取与大数据获取区别29
2.2 领域数据的获取30
2.2.1 文本数据获取30
2.2.2 语音视频数据获取31
2.2.3 图片数据获取31
2.2.4 摄像头视频数据获取31
2.2.5 图像数字化数据获取31
2.2.6 图形数字化数据获取32
2.2.7 020 LBS数据获取32
2.2.8 空间数据获取32
2.3 网站数据34
2.3.1 网站内部数据获取34
2.3.2 网站外部数据获取35
2.3.3 移动网站数据获取36
2.4 大数据存储37
2.4.1 大数据存储模型37
2.4.2 大数据存储问题37
2.4.3 大数据存储方式38
2.5 大数据的存储管理技术40
2.5.1 数据容量问题40
2.5.2 大图数据40
2.5.3 数据存储管理42
2.6 NewSQL和NoSQL43
2.6.1 NoSQL44
2.6.2 NewSQL48
2.6.3 混合应用模式48
2.7 分布式文件系统49
2.7.1 评价指标49
2.7.2 HDFS文件系统50
2.7.3 NFS文件系统56
2.7.4 FastDFS57
2.8 虚拟存储技术59
2.8.1 虚拟存储特点60
2.8.2 虚拟存储的应用60
2.9 存储技术61
2.9.1 云存储原理61
2.9.2 网络结构61
2.9.3 云的分类62
本章小结63
第3章 大数据抽取技术64
3.1 数据抽取技术概述64
3.1.1 数据抽取的定义65
3.1.2 数据映射与数据迁移66
3.1.3 数据抽取程序66
3.1.4 Kettle数据处理工具67
3.1.5 数据抽取方式71
3.2 增量数据抽取技术72
3.2.1 增量抽取特点与策略72
3.2.2 基于触发器的增量抽取方式72
3.2.3 基于时间戳的增量抽取方式74
3.2.4 全表删除插入方式75
3.2.5 全表比对抽取方式75
3.2.6 日志表方式75
3.2.7 系统日志分析方式76
3.2.8 各种数据抽取机制的比较与分析76
3.3 非结构化数据抽取78
3.3.1 非结构化数据类型78
3.3.2 非结构化数据模型78
3.3.3 非结构化数据组织80
3.3.4 纯文本抽取通用程序库82
本章小结83
第4章 数据清洗技术84
4.1 数据质量与数据清洗84
4.1.1 数据质量85
4.1.2 数据质量提高技术87
4.1.3 数据清洗算法的标准90
4.1.4 数据清洗的过程与模型91
4.2 不完整数据清洗92
4.2.1 基本方法92
4.2.2 基于k-NN近邻缺失数据的填充算法94
4.3 异常数据清洗96
4.3.1 异常值产生的原因96
4.3.2 统计方法97
4.3.3 基于邻近度的离群点检测98
4.4 重复数据清洗99
4.4.1 使用字段相似度识别重复值算法99
4.4.2 搜索引擎快速去重算法100
4.5 文本清洗100
4.5.1 字符串匹配算法101
4.5.2 文本相似度度量103
4.6 数据清洗技术的实现107
4.6.1 数据清洗的步骤107
4.6.2 数据清洗的工具108
本章小结108
第5章 大数据去噪与标准化109
5.1 基本的数据转换方法109
5.1.1 对数转换109
5.1.2 平方根转换110
5.1.3 平方转换110
5.1.4 倒数变换110
5.2 数据平滑技术111
5.2.1 移动平均法111
5.2.2 指数平滑法115
5.2.3 分箱平滑法120
5.3 数据规范化121
5.3.1 最小—最大规范化方法121
5.3.2 z分数规范化方法122
5.3.3 小数定标规范化方法122
5.4 数据泛化处理123
5.4.1 空间数据支配泛化算法123
5.4.2 非空间数据支配泛化方法124
5.4.3 统计信息网格方法124
本章小结125
第6章 大数据约简技术126
6.1 数据约简概述126
6.1.1 数据约简定义126
6.1.2 数据约简策略127
6.2 特征约简127
6.2.1 特征提取128
6.2.2 特征选择128
6.2.3 基于主成分分析的特征约简方法129
6.3 样本约简130
6.3.1 随机抽样130
6.3.2 系统抽样130
6.3.3 分层抽样130
6.4 数据立方体聚集131
6.4.1 多维性131
6.4.2 数据聚集132
6.5 维约简133
6.5.1 维约简的定义133
6.5.2 维约简的分类134
6.6 属性子集选择算法136
6.6.1 逐步向前选择属性136
6.6.2 逐步向后删除属性136
6.6.3 混合式选择137
6.6.4 判定树归纳137
6.7 数据压缩138
6.7.1 离散小波变换方法138
6.7.2 主要成分分析压缩方法139
6.8 数值约简140
6.8.1 有参数值约简140
6.8.2 无参数值约简141
6.9 数值离散化与概念分层142
6.9.1 基于数值属性的概念分层142
6.9.2 数值数据的离散化143
本章小结150
第7章 大数据集成技术151
7.1 数据集成技术概述152
7.1.1 数据集成的概念与相关问题152
7.1.2 数据集成的核心问题155
7.1.3 数据集成的分类156
7.2 数据迁移158
7.2.1 在组织内部移动数据159
7.2.2 非结构化数据集成160
7.2.3 将处理移动到数据端161
7.3 数据集成模式161
7.3.1 联邦数据库集成模式162
7.3.2 中间件集成模式163
7.3.3 数据仓库集成模式164
7.4 数据集成系统165
7.4.1 全局模式166
7.4.2 语义映射166
7.4.3 查询重写167
7.5 数据集成系统的构建167
7.5.1 模式之间映射关系的生成167
7.5.2 适应性查询168
7.5.3 XML168
7.5.4 P2P数据管理168
7.6 数据聚类集成169
7.6.1 数据聚类集成概述169
7.6.2 高维数据聚类集成169
7.7 实时数据集成172
7.7.1 基于中间件层的实时数据集成模式172
7.7.2 基于数据源层和中间件层的实时数据集成模式173
7.7.3 基于数据仓库和中间件层的集成模式174
7.7.4 基于数据网格的实时数据集成模式175
本章小结176
第8章 大数据挖掘技术177
8.1 数据挖掘理论基础177
8.1.1 数据挖掘是面向实际应用的技术178
8.1.2 数据挖掘的理论基础179
8.1.3 基于数据存储方式的数据挖掘180
8.2 关联规则挖掘182
8.2.1 经典的频繁项目集生成算法183
8.2.2 关联规则挖掘质量185
8.3 分类186
8.3.1 分类定义与分类步骤186
8.3.2 基于距离的分类算法187
8.3.3 决策树分类方法188
8.4 聚类方法191
8.4.1 距离与相似性的度量193
8.4.2 划分聚类方法194
8.4.3 层次聚类方法196
8.5 序列模式挖掘196
8.5.1 时间序列预测的常用方法197
8.5.2 序列模式挖掘198
8.6 Web挖掘技术200
8.6.1 Web内容挖掘方法200
8.6.2 Web访问信息挖掘方法202
8.6.3 Web结构挖掘方法204
8.7 非结构化文本数据挖掘206
8.7.1 用户反馈文本206
8.7.2 用户反馈文本挖掘的一般过程207
8.7.3 文本的自然语言处理209
本章小结210
第9章 大数据分析211
9.1 大数据分析定义与方法211
9.1.1 大数据分析的类型212
9.1.2 数字特征214
9.1.3 统计方法论217
9.1.4 模型与构建219
9.1.5 R语言221
9.2 统计分析的基本方法224
9.2.1 指标对比分析224
9.2.2 分组分析225
9.2.3 综合评价分析225
9.2.4 指数分析226
9.2.5 平衡分析226
9.2.6 趋势分析227
9.2.7 显著性检验228
9.2.8 结构分析231
9.2.9 因素分析231
9.2.1 0交叉分析232
9.3 高级数据分析方法232
9.3.1 动态分析法232
9.3.2 相关分析233
9.3.3 回归分析236
9.3.4 判别分析240
9.3.5 对应分析243
9.3.6 主成分分析244
9.3.7 多维尺度分析245
9.3.8 方差分析250
本章小结252
第10章 分析结果的解释253
10.1 分析结果的可视化解释253
10.1.1 解释的目的与主要内容254
10.1.2 检查和验证假设254
10.1.3 追踪分析过程254
10.2 基本展现方式255
10.2.1 基于时间变化的可视化展现256
10.2.2 由大及小的可视化展现256
10.2.3 由小及大的可视化展现256
10.2.4 突出对比的可视化展现256
10.2.5 地域空间可视化展现258
10.2.6 概念可视化展现260
10.2.7 气泡图可视化展现261
10.2.8 注重交叉点的数据可视化展现262
10.2.9 剖析原因的数据可视化展现262
10.2.10 异常值数据可视化展现262
10.3 大数据中的常用可视化展现262
10.3.1 文本可视化263
10.3.2 网络(图)可视化265
10.3.3 时空数据可视化268
10.3.4 多维数据可视化269
10.3.5 基于ECharts.js可视化工具271
10.4 大数据可视分析273
10.4.1 可视分析的理论基础274
10.4.2 大数据可视分析技术279
本章小结282
第11章 大数据机器学习283
11.1 机器学习概述283
11.1.1 机器学习的产生与发展283
11.1.2 机器学习类型286
11.1.3 知识表示形式289
11.1.4 机器学习的典型算法291
11.2 大数据机器学习的特点与算法293
11.2.1 大数据机器学习的特点294
11.2.2 大数据机器学习的评测指标295
11.2.3 大数据机器学习算法296
11.3 大数据机器学习的应用298
11.3.1 大数据的空气质量推断298
11.3.2 人与建筑的关系分析299
11.3.3 针对全球问题的预测模型299
11.3.4 地表可视化与数据分析299
本章小结300
第12章 大数据离线计算技术301
12.1 数据离线计算概述301
12.1.1 大数据离线处理特点301
12.1.2 批量计算302
12.2 MapReduce的体系结构302
12.2.1 MapReduce计算描述302
12.2.2 MapReduce适用的场景304
12.3 Hadoop分布式计算平台304
12.3.1 Hadoop结构与特点305
12.3.2 分布式系统与Hadoop309
12.3.3 SQL数据库系统与H adoop309
12.3.4 基于Hadoop框架的分布计算311
12.4 MapReduce程序设计实例分析316
12.4.1 单词计数316
12.4.2 MapReduce的应用319
本章小结321
第13章 大数据流式计算技术322
13.1 流式数据的概述323
13.1.1 流式数据的概念323
13.1.2 流式数据源324
13.1.3 流式数据的特征325
13.2 大数据的计算模式326
13.2.1 大数据流式计算模型327
13.2.2 流式计算与批量计算的比较327
13.2.3 流式计算与实时计算的比较329
13.3 流式计算技术的应用329
13.3.1 中间计算329
13.3.2 流式查询329
13.3.3 流式抽样330
13.3.4 统计独立元素数331
13.3.5 去重计数332
13.4 流式计算的系统架构335
13.4.1 对称式系统架构335
13.4.2 主从式系统架构336
13.4.3 数据传输方式337
13.4.4 编程接口338
13.5 高可用技术338
13.5.1 被动等待策略338
13.5.2 主动等待策略339
13.5.3 上游备份策略339
13.6 Storm流处理过程340
13.6.1 Storm特点与架构340
13.6.2 topology343
13.6.3 单词计数topology346
13.7 大数据流式计算的应用347
本章小结349
参考文献350
热门推荐
- 3754959.html
- 3017908.html
- 2836258.html
- 3103485.html
- 3333229.html
- 2471851.html
- 372464.html
- 1338032.html
- 2694896.html
- 1089283.html
- http://www.ickdjs.cc/book_893352.html
- http://www.ickdjs.cc/book_2473147.html
- http://www.ickdjs.cc/book_144734.html
- http://www.ickdjs.cc/book_73627.html
- http://www.ickdjs.cc/book_2536027.html
- http://www.ickdjs.cc/book_2157331.html
- http://www.ickdjs.cc/book_1546626.html
- http://www.ickdjs.cc/book_2164615.html
- http://www.ickdjs.cc/book_2904190.html
- http://www.ickdjs.cc/book_2211278.html