图书详情

¥69.0

大数据处理技术基础与应用(Hadoop+Spark)

作者:许桂秋 孙海民 胡贵恒

编辑:张晓芬

浏览:177

推荐:0

收藏:0

详情

内容介绍

本书是一本介绍大数据处理技术的专业图书,力求提高读者对大数据处理的认知水平和动手能力。本书首先介绍大数据技术的相关概念和发展历程,从实践的角度介绍 Hadoop 和 Spark 的安装部署、编程基础和使用方法;然后结合具体案例,重点介绍 Spark RDD、Spark SQL、Spark Streaming、Spark Graph Frame等的应用思路和方法,并通过具体代码,让读者更好地感受大数据处理技术的效果。 本书既可以作为高等院校计算机、大数据等相关专业的教材,也可以作为大数据技术相关从业人员的参考书,还可作为零基础人员学习Hadoop和Spark技术的入门图书。

相关信息

图书名称:大数据处理技术基础与应用(Hadoop+Spark)
ISBN:978-7-115-63768-0
作者:许桂秋 孙海民 胡贵恒
编辑:张晓芬
从书名:大数据技术与应用丛书
开本:16开
页数:300
印刷色数:单色
出版状态:已出版
出版日期:2024-02-01
作者简介:北京中科特瑞科技有限公司(“曙光瑞翼”)是大学云计算、大数据、人工智能等专业群实训方案综合供应商,我国领先的高等教育综合服务商。曙光瑞翼专注于校企合作,即深耕行业,对前沿技术的发展趋势、典型应用、市场前景、人才技能有着深刻的认识,又立足院校,对相关专业的人才培养目标、学生学习规律和特点、课堂难点重点有着贴切的感知,所设计的课程体系能够高度适配行业需要和院校的人才培养目标。作为国内知名的高等教育综合服务商,曙光瑞翼在校企联合培养上积累了丰富经验,凝练了7000余个教学视频、上万个课件资源、70余门专业课,合作院校数百所,每年培养专业人才数万人。 许桂秋,毕业于厦门大学,现为北京中科特瑞科技有限公司运营总监。主要研究方向为专注于大数据、人工智能技术领域的产教融合研究,承担机器学习、计算机视觉、人工智能导论、深度学习原理与TensorFlow实践、样本数据处理、自然语言处理等相关课程的授课任务。已出版专著《大数据导论》《Python编程基础与应用》《NoSQL数据库原理与应用》《数据挖掘与机器学习》等图书。

特别说明

Spark+Hadoop使用教程

本书卖点

1.本书是《大数据》编委会针对校企合作的精心力作。
2.本书凝结了曙光瑞翼多年的教学经验,能够满足校企融合教学的需求。
3.本书旨在介绍Hadoop和Spark的基础知识,为即将学习大数据技术的读者奠定基础。
4.本书采用任务驱动的编写方式,读者可以直接进行实验效果体验,并进行自由调整。
5.本书采用大量的实践案例,结合行业典型应用,编写行业实践。
6.本书提供丰富的教学资源,包括电子课件、实验设计等。

目录

第1章 大数据技术概述 1
1.1 大数据技术简介 1
1.1.1 大数据技术的发展 1
1.1.2 大数据的基本处理流程 4
1.2 大数据的主流处理软件 5
1.2.1 Hadoop 5
1.2.2 Spark 8
1.2.3 Flink 10
1.2.4 Hadoop与Spark的对比 11
1.3 大数据的主流编程语言 12
1.3.1 Python语言 12
1.3.2 Java语言 13
1.3.3 Scala语言 13
1.4 本章小结 13
第2章 Hadoop部署与使用 14
2.1 Linux基本操作 14
2.1.1 Linux简介 14
2.1.2 新建与删除用户 15
2.1.3 目录权限的查看与修改 16
2.1.4 Linux的常用命令 18
2.1.5 任务实现 21
2.2 搭建Hadoop完全分布式集群 21
2.2.1 关闭防火墙 21
2.2.2 安装SSH 22
2.2.3 安装Xshell及Xftp(可选) 22
2.2.4 安装Java 24
2.2.5 安装Hadoop 25
2.2.6 克隆主机 27
2.2.7 安装完全分布式模式 29
2.3 查看Hadoop集群的基本信息 37
2.3.1 查询存储系统信息 37
2.3.2 查询计算资源信息 38
2.4 本章小结 39
第3章 HDFS基本操作 40
3.1 Hadoop Shell命令操作HDFS 40
3.1.1 HDFS简介 40
3.1.2 HDFS Shell命令简介 45
3.1.3 目录操作 47
3.1.4 文件操作 47
3.1.5 利用Web界面管理HDFS 50
3.1.6 任务实现 52
3.2 Java操作HDFS 52
3.2.1 在Eclipse中创建HDFS交互Java项目 53
3.2.2 在Java项目中编写Java应用程序 57
3.2.3 编译运行应用程序与打包文件 59
3.2.4 任务实现 63
3.2.5 文件常用操作的参考代码 65
3.3 本章小结 71
第4章 MapReduce基本原理与编程实现 72
4.1 MapReduce基本原理 72
4.1.1 MapReduce简介 72
4.1.2 MapReduce编程核心思想 73
4.1.3 MapReduce编程规范 74
4.1.4 MapReduce的输入格式 75
4.1.5 MapReduce的输出格式 77
4.1.6 分区 77
4.1.7 合并 78
4.2 编程实现——按访问次数排序 79
4.2.1 编程思路与处理逻辑 79
4.2.2 核心模块代码 81
4.2.3 任务实现 83
4.3 本章小结 86
第5章 Hive部署与编程基础 87
5.1 搭建伪分布式Hive 87
5.1.1 Hive概述 87
5.1.2 Hive安装和配置 89
5.2 Hive基本操作 91
5.2.1 数据库基本操作 92
5.2.2 数据表基本操作 93
5.2.3 数据基本操作 95
5.3 编程实现——部门工资统计 96
5.4 本章小结 98
第6章 Spark部署与编程基础 99
6.1 Spark的运行原理 99
6.1.1 集群架构 99
6.1.2 运行流程 100
6.1.3 核心数据集RDD 101
6.1.4 核心原理 101
6.2 Scala的安装与使用 102
6.2.1 Scala语言概述 102
6.2.2 Scala特性 102
6.2.3 环境设置与安装 103
6.3 Spark的安装与使用 105
6.3.1 环境搭建前的准备 105
6.3.2 Spark的安装与配置 106
6.3.3 在PySpark中运行代码 109
6.3.4 编程实现——Spark独立应用程序 111
6.4 本章小结 112
第7章 Spark RDD:弹性分布式数据集 113
7.1 RDD概述 113
7.2 RDD编程 114
7.2.1 RDD编程基础 114
7.2.2 键值对RDD 136
7.2.3 数据读/写操作 141
7.3 编程实现 145
7.3.1 任务1:取出排名前五的订单支付金额 145
7.3.2 任务2:文件排序 149
7.3.3 任务3:二次排序 153
7.4 本章小结 158
第8章 Spark SQL:结构化数据处理 159
8.1 Spark SQL概述 159
8.1.1 Spark SQL简介 159
8.1.2 Spark SQL CLI配置 160
8.1.3 Spark SQL与Shell交互 161
8.2 DataFrame基础操作 161
8.2.1 创建DataFrame对象 162
8.2.2 DataFrame查看数据 168
8.2.3 DataFrame查询操作 171
8.2.4 DataFrame输出操作 176
8.3 Spark SQL与MySQL的交互 177
8.4 本章小结 180
第9章 Spark Streaming:实时计算框架 181
9.1 Spark Streaming概述 181
9.1.1 Spark Streaming应用场景 181
9.1.2 流计算概述 181
9.1.3 Spark Streaming特性分析 184
9.2 DStream编程模型基础 187
9.2.1 DStream概述 187
9.2.2 基本输入源 188
9.2.3 转换操作 196
9.2.4 输出操作 201
9.3 编程实现——流数据过滤与分析 206
9.4 本章小结 210
第10章 ?Spark GraphFrames:图计算 211
10.1 图计算概述 211
10.1.1 图的基本概念 211
10.1.2 图计算的应用 212
10.1.3 GraphFrames简介 213
10.2 GraphFrames编程模型基础 213
10.2.1 创建实例化图 213
10.2.2 视图和图操作 214
10.2.3 保存和加载图 216
10.3 编程实现——基于GraphFrames的网页排名 216
10.3.1 准备数据集 217
10.3.2 GraphFrames实现算法 218
10.3.3 使用PageRank进行网页排名 220
10.4 本章小结 220
第11章 大数据生态常用工具介绍 221
11.1 Flume的安装与使用 221
11.1.1 安装及配置Flume 221
11.1.2 实例分析 223
11.2 Kafka的安装与使用 225
11.2.1 Kafka相关概念 225
11.2.2 安装Kafka 225
11.2.3 实例分析 225
11.3 Sqoop的安装与使用 226
11.3.1 安装及配置Sqoop 227
11.3.2 添加MySQL驱动程序 229
11.3.3 测试Sqoop与MySQL的连接 229
11.4 编程实现——编写Spark程序使用Kafka数据源 230
11.4.1 Kafka准备工作 230
11.4.2 Spark准备工作 231
11.4.3 编写代码 233
11.5 本章小结 237

申请样书

立即购买
1 2