图书详情

¥69.8

大数据原理与技术

作者:黄史浩 编著

编辑:张晓芬

浏览:622

推荐:0

收藏:0

详情

内容介绍

本书从大数据的概念和特征开始讲起,首先让读者对大数据有一个感性的认识;然后结合大数据平台的各个模块,详细介绍了大数据的存储、处理、分析、可视化等方面的原理和操作;最后介绍了大数据在各行业中的应用,让读者更加充分地感受到大数据技术的优势,以及大数据应用的价值。 本书适合高等院校相关专业的学生使用,也适合参加大数据技术培训课程的人员使用,还可以作为从事ICT行业相关工作的人员和大数据技术爱好者的参考书。

相关信息

图书名称:大数据原理与技术
ISBN:978-7-115-59736-6
作者:黄史浩 编著
编辑:张晓芬
从书名:ICT认证系列丛书
开本:16开
页数:288
印刷色数:单色
出版状态:已出版
出版日期:2022-01-01
作者简介:黄史浩 1. 多年的Hadoop大数据平台企业业务应用实践,具有丰富的Hadoop平台运维,开发与分析实战经验。 2. 主导过多个大型大数据项目的开发,如维达国际大数据平台、中国商品进出口交易中心ETL日志分析大数据平台。 3. 多年大数据与数据挖掘等IT领域技术培训经验,丰富的课程设计和授课经验。

特别说明

“十三五”国家重点图书出版规划项目;ICT认证系列丛书

本书卖点

1.浅入深出地介绍基础理论,易于读者学习、理解和掌握,保障零基础读者无障碍理解。
2.本书的大纲结构和文字描述由业内专家执笔,且内容经过多方顶级专家反复论证推敲,确保严谨准确。
3.摒弃了以清单罗列知识点的生硬做法,按照大数据处理平台、关键技术、计算框架、使用工具、应用案例的顺序展开,以大数据技术的基本理论为起点,逐渐深入介绍常用技术。
4.内容完整性经过反复推敲,涵盖具有级职称的读者应该掌握的技术知识。
5.以大数据技术、软件、框架为模块,逐步深入,介绍相关理论和应用。
6.结合实际应用,引用大数据在金融、电信、制造业、能源、医疗等行业的应用案例,加深读者的理解。

目录

目 录
第 1 章 大数据概述 0
1.1 大数据的概念与价值 2
1.1.1 大数据的基本概念 . 2
1.1.2 大数据的来源 . 4
1.1.3 大数据的价值 . 5
1.1.4 挖掘企业大数据价值的方式 . 7
1.2 大数据的关键技术 7
1.2.1 大数据采集、预处理、存储与管理 . 8
1.2.2 大数据分析与挖掘 . 8
1.2.3 大数据可视化 . 9
1.3 大数据产业 9
1.3.1 数据提供 . 9
1.3.2 技术提供 . 10
1.3.3 服务提供 . 10
1.4 大数据应用场景 11
1.5 本章总结 11
练习题 12
第 2 章 Hadoop 大数据处理平台 14
2.1 Hadoop 平台概述 16
2.1.1 Hadoop 起源及发展 16
2.1.2 Hadoop 特性 17
2.1.3 Hadoop 应用现状 17
2.1.4 Hadoop 版本及相关平台 18
2.2 Hadoop 生态系统 18
2.2.1 HDFS 和 HBase 18
2.2.2 MapReduce 和 YARN . 19
2.2.3 Hive . 20
2.2.4 Sqoop 和 Flume 20
2.2.5 ZooKeeper 和 Oozie . 20
2.2.6 Kerberos 和 LDAP 21
2.2.7 Impala 和 Solr . 21
2.2.8 Kafka . 21
2.3 Hadoop 安装部署 . 22
2.3.1 Hadoop 规划部署 . 22
2.3.2 Hadoop 的安装方式 . 23
2.4 华为 FusionInsight HD 安装部署 27
2.4.1 FusionInsight HD 简介 . 27
2.4.2 FusionInsight HD 集成设计 . 29
2.4.3 FusionInsight HD 安装部署 . 35
2.4.4 FusionInsight HD 重要参数配置 . 44
2.5 本章总结 . 45
练习题 45
第 3 章 HDFS . 48
3.1 概述 . 50
3.1.1 DFS 的概念与作用 51
3.1.2 HDFS 概述 . 51
3.2 HDFS 的相关概念 52
3.2.1 HDFS 块 . 52
3.2.2 NameNode 53
3.2.3 Secondary NameNode . 54
3.2.4 DataNode 55
3.3 HDFS 体系架构与原理 56
3.3.1 HDFS 体系架构 . 56
3.3.2 HDFS 的高可用机制 . 56
3.3.3 HDFS 的目录结构 . 58
3.3.4 HDFS 的数据读写过程 . 61
3.4 HDFS 接口及其在 FusionInsight HD 编程中的实践 . 63
3.4.1 HDFS 常用的 Shell 命令 . 63
3.4.2 HDFS 的 Web 界面 . 65
3.4.3 HDFS 的 Java API 及应用实例 66
3.5 本章总结 72
练习题 73
第 4 章 MapReduce 和 YARN . 76
4.1 MapReduce 技术原理 . 78
4.1.1 MapReduce 概述 . 79
4.1.2 Map 函数与 Reduce 函数 . 79
4.2 YARN 技术原理 . 80
4.2.1 YARN 的概述与应用 . 80
4.2.2 YARN 的架构 . 81
4.2.3 MapReduce 的计算过程 . 82
4.2.4 YARN 的资源调度 . 84
4.3 FusionInsight HD 中 MapReduce 的应用 . 85
4.3.1 WordCount 实例分析 85
4.3.2 MapReduce 编程实践 . 86
4.4 本章总结 93
练习题 93
第 5 章 HBase 96
5.1 HBase 概述与应用 98
5.1.1 HBase 简介 98
5.1.2 HBase 的特性 99
5.1.3 HBase 与关系数据库的区别 100
5.1.4 HBase 的应用场景 100
5.2 HBase 的架构原理 101
5.2.1 HBase 的数据模型 101
5.2.2 表和 Region . 102
5.2.3 HBase 的系统架构与功能组件 103
5.2.4 HBase 的读写流程 104
5.2.5 HBase 的 Compaction 过程 106
5.3 FusionInsight HD 中 HBase 的编程实践 . 107大数据原理与技术
5.3.1 FusionInsight HD 中 HBase 的常用参数配置 107
5.3.2 HBase 常用的 Shell 命令 . 109
5.3.3 HBase 常用的 Java API 及应用实例 . 112
5.4 本章总结 . 131
练习题 131
第 6 章 Hive 134
6.1 Hive 概述 136
6.1.1 Hive 的基本概念及应用 136
6.1.2 Hive 的特性 137
6.1.3 Hive 与传统数据仓库的区别 138
6.2 Hive 的架构和数据存储 138
6.2.1 Hive 的架构原理 139
6.2.2 Hive 的数据存储模型 141
6.2.3 HiveQL 编程 142
6.3 FusionInsight HD 中 Hive 的应用实践 148
6.3.1 FusionInsight HD 中 Hive 的常用参数配置 . 148
6.3.2 加载数据到 Hive 149
6.3.3 使用 HiveQL 进行数据分析 151
6.4 本章总结 . 156
练习题 156
第 7 章 Sqoop 和 Loader . 158
7.1 Sqoop 概述 160
7.1.1 Sqoop 简介与应用 . 161
7.1.2 Sqoop 的功能与特性 . 161
7.1.3 Sqoop 与传统 ETL 的区别 162
7.2 FusionInsight HD 中 Loader 的应用实践 162
7.2.1 FusionInsight HD 中 Loader 与 Sqoop 的对比 163
7.2.2 FusionInsight HD 中 Loader 的参数配置 164
7.2.3 使用 Loader 进行数据转换 . 165
7.2.4 Loader 常用的 Shell 命令 166
7.2.5 Loader 应用实践 168
7.3 本章总结 170
练习题 170
第 8 章 Flume . 172
8.1 Flume 概述 174
8.1.1 Flume 简介 174
8.1.2 Flume 的功能与特性 177
8.1.3 Flume 与其他主流开源日志收集系统的区别 178
8.2 FusionInsight HD 中 Flume 的应用实践 178
8.2.1 FusionInsight HD 中 Flume 的常用参数配置 . 179
8.2.2 Flume 常用的 Shell 命令 180
8.2.3 Flume 与 Kafka 结合进行日志处理 181
8.3 本章总结 184
练习题 185
第 9 章 Spark . 186
9.1 Spark 概述 . 188
9.1.1 Spark 的概述与应用 . 189
9.1.2 Scala 语言介绍 190
9.1.3 Spark 生态系统组件 . 190
9.1.4 Spark 与 Hadoop 的对比 191
9.2 Spark 技术架构 . 192
9.2.1 Spark 的运行原理 . 192
9.2.2 RDD 概念与原理 194
9.2.3 Spark 的 3 种部署方式 . 196
9.2.4 使用开发工具测试 Spark . 198
9.3 FusionInsight HD 中 Spark 的应用实践 . 199
9.3.1 运行 Spark Shell 199
9.3.2 进行 Spark RDD 操作 200
9.3.3 使用 Spark 客户端工具运行 Spark 程序 . 202
9.4 Spark Streaming . 206
9.4.1 Spark Streaming 的设计思想 206
9.4.2 Spark Streaming 的应用实例 206大数据原理与技术
9.5 Spark SQL . 210
9.5.1 Spark SQL 的功能 210
9.5.2 FusionInsight HD 中 Spark SQL 的应用实例 . 210
9.6 Spark MLlib 212
9.6.1 机器学习简介 . 212
9.6.2 Spark MLlib 的功能 . 213
9.7 Spark GraphX 213
9.7.1 图计算简介 . 213
9.7.2 Spark GraphX 功能简介. 214
9.8 本章总结 . 214
练习题 215
第 10 章 大数据流计算 . 216
10.1 流计算概述 . 218
10.1.1 静态数据和流数据的概念 . 219
10.1.2 流计算的概念 . 219
10.1.3 MapReduce 和流计算 220
10.1.4 流计算框架 . 220
10.2 流计算的处理流程 . 221
10.2.1 数据实时采集 . 221
10.2.2 数据实时计算 . 221
10.2.3 数据实时查询 . 222
10.3 Streaming 流计算 222
10.3.1 Streaming 简介 . 222
10.3.2 Streaming 的特点 . 225
10.3.3 Streaming 中 FusionInsight HD 的应用实践 . 226
10.3.4 Spark Streaming 与 Streaming 的差异 . 231
10.4 本章总结 . 232
练习题 233
第 11 章 数据可视化 234
11.1 可视化概述 . 236
11.1.1 数据可视化简介 . 237
11.1.2 数据可视化的重要性 . 237
11.1.3 可视化的发展历程 . 238
11.1.4 数据可视化的实现过程 . 239
11.2 可视化工具 240
11.2.1 入门级工具(Excel) 240
11.2.2 普通工具(R 语言) 240
11.2.3 高级工具(Tableau 和 QlikView) . 241
11.3 可视化的典型应用 241
11.3.1 可视化在医学上的应用 . 241
11.3.2 可视化在工程中的应用 . 242
11.3.3 可视化在互联网中的应用 . 243
11.4 本章总结 243
练习题 244
第 12 章 大数据行业应用 246
12.1 大数据在金融行业中的应用 248
12.2 大数据在电信行业中的应用 250
12.3 大数据在互联网行业中的应用 253
12.4 本章总结 254
练习题 255
术语表 256
参考文献 268

资源

申请样书

在线试读 立即购买
1 2