图书详情

¥79.0

数据采集及预处理基础与应用

作者:陈瑛 许桂秋 周敏

编辑:张晓芬

浏览:435

推荐:0

收藏:0

详情

内容介绍

本书主要介绍如何利用Kettle和Python这两个具有代表性的工具进行数据预处理的相关技术与方法,包括数据抽取、数据清洗、数据集成、数据变换等。全书有9章,内容涉及数据采集、环境部署、Kettle安装及应用、pandas应用,以及数据可视化的基础内容。本书采用任务式编写形式,将大数据预处理技术的理论和实现分解到一个个任务中,融入到一个个典型案例中,让读者在完成各任务的同时掌握和理解相关内容。 本书既有技术的深度,也有行业应用的广度,适合作为高等院校计算机、数据科学与大数据技术等相关专业课程的教材,也适合作为数据处理行业从业人员的参考用书。

相关信息

图书名称:数据采集及预处理基础与应用
ISBN:978-7-115-63525-9
作者:陈瑛 许桂秋 周敏
编辑:张晓芬
从书名:大数据技术与应用丛书
开本:16开
页数:240
印刷色数:单色
出版状态:已出版
出版日期:2024-02-02
作者简介:北京中科特瑞科技有限公司(“曙光瑞翼”)是大学云计算、大数据、人工智能等专业群实训方案综合供应商,我国领先的高等教育综合服务商。曙光瑞翼专注于校企合作,即深耕行业,对前沿技术的发展趋势、典型应用、市场前景、人才技能有着深刻的认识,又立足院校,对相关专业的人才培养目标、学生学习规律和特点、课堂难点重点有着贴切的感知,所设计的课程体系能够高度适配行业需要和院校的人才培养目标。作为国内知名的高等教育综合服务商,曙光瑞翼在校企联合培养上积累了丰富经验,凝练了7000余个教学视频、上万个课件资源、70余门专业课,合作院校数百所,每年培养专业人才数万人。 许桂秋,毕业于厦门大学,现为北京中科特瑞科技有限公司运营总监。主要研究方向为专注于大数据、人工智能技术领域的产教融合研究,承担机器学习、计算机视觉、人工智能导论、深度学习原理与TensorFlow实践、样本数据处理、自然语言处理等相关课程的授课任务。已出版专著《大数据导论》《Python编程基础与应用》《NoSQL数据库原理与应用》《数据挖掘与机器学习》等图书。

特别说明

大数据预处理案例式应用教程

本书卖点

1.本书是《大数据》编委会针对校企合作的精心力作。
2.本书凝结了曙光瑞翼多年的教学经验,能够满足校企融合教学的需求。
3.本书旨在介绍大数据预处理技术的基础知识,为即将学习大数据技术的读者奠定基础。
4.本书采用任务驱动的编写方式,读者可以直接进行实验效果体验,并进行自由调整。
5.本书采用大量的实践案例,结合行业典型应用,编写行业实践。
6.本书提供丰富的教学资源,包括电子课件、实验设计等。

目录

第1章 Scrapy电影评论数据采集 1
任务1.1 数据采集 1
1.1.1 数据采集概述 1
1.1.2 数据采集方法 1
1.1.3 数据采集应用 3
任务1.2 网络爬虫 4
1.2.1 网络爬虫概述 4
1.2.2 常用网络爬虫方法 4
1.2.3 常用网络爬虫工具 5
任务1.3 网络爬虫实战 6
1.3.1 获取网页 7
1.3.2 解析网页 9
1.3.3 应对反爬机制 11
本章习题 12
第2章 数据预处理环境安装 13
任务2.1 数据预处理出现的背景及其目的 13
2.1.1 数据预处理出现的背景 13
2.1.2 数据预处理的目的 14
任务2.2 数据预处理的流程 15
2.2.1 数据清洗 15
2.2.2 数据集成 17
2.2.3 数据归约 18
2.2.4 数据变换与数据离散化 23
2.2.5 数据预处理的注意事项 26
任务2.3 数据预处理的工具 26
2.3.1 Python预处理环境安装 27
2.3.2 Kettle的下载安装与Spoon的启动 30
本章习题 34
第3章 Kettle的初步使用 35
任务3.1 Kettle的特点 36
任务3.2 Kettle的使用 36
3.2.1 转换的基本概念 36
3.2.2 第一个转换案例 39
本章习题 53
第4章 基于Kettle的客户信息数据预处理 54
任务4.1 客户信息数据抽取 54
4.1.1 从文本文件读入性别参照数据 54
4.1.2 从Excel文件读入客户信息数据 56
4.1.3 从MySQL数据库读取城市区号参照数据 60
任务4.2 客户信息数据清洗 65
4.2.1 数据排序 65
4.2.2 去除重复数据 66
4.2.3 处理缺失值 73
4.2.4 字段清洗 75
4.2.5 字符串清洗 78
4.2.6 处理异常数据 82
任务4.3 将客户信息数据加载至MySQL数据库 88
本章习题 91
第5章 基于pandas的学生信息预处理 92
任务5.1 pandas详解 92
5.1.1 pandas的数据结构及基本功能 92
5.1.2 数据加载与存储 130
任务5.2 学生信息预处理 141
5.2.1 数据读取及查看 141
5.2.2 索引对象 144
5.2.3 数据排序 145
本章习题 148
第6章 使用Python对运动员信息进行预处理 149
任务6.1 数据清洗 149
6.1.1 处理缺失数据 149
6.1.2 字符串操作 156
6.1.3 中国篮球运动员的基本信息清洗 163
任务6.2 数据集成 168
6.2.1 数据合并的常用方法 168
6.2.2 中国篮球运动员的基本信息合并 182
任务6.3 数据规约 183
6.3.1 数据规约方法 183
6.3.2 中国篮球运动员的基本信息规约 184
任务6.4 数据变换 185
6.4.1 数据变换常用方法 185
6.4.2 中国篮球运动员的基本信息数据变换 203
本章习题 206
第7章 使用Python对电影人气进行预测(构建特征工程) 207
任务7.1 特征工程简介 207
7.1.1 特征工程的重要性 207
7.1.2 特征工程是什么 208
7.1.3 特征工程的评估 208
任务7.2 电影人气预测 210
7.2.1 scikit-learn简介 210
7.2.2 特征转换 211
7.2.3 特征选择 222
7.2.4 电影人气预测特征工程 236
本章习题 255
第8章 基于Python的销售数据仓库应用案例 256
任务8.1 数据仓库简介 256
8.1.1 数据仓库出现的背景及其特点 256
8.1.2 数据仓库的功能 257
8.1.3 数据仓库与数据库的区别 258
任务8.2 数据仓库模型 259
8.2.1 事实表和维度表 259
8.2.2 数据模型的分类 260
8.2.3 建模阶段划分 260
8.2.4 常用建模方法 261
8.2.5 星形模型和雪花模型 262
任务8.3 数据仓库案例 264
8.3.1 案例目的 264
8.3.2 案例背景 265
8.3.3 案例原理 265
8.3.4 案例环境 265
8.3.5 案例步骤 265
8.3.6 案例总结 273
本章习题 273
第9章 Python数据分析师岗位分析 274
任务9.1 了解项目背景与目标 274
任务9.2 读取与清洗数据分析师岗位数据 276
9.2.1 数据收集 276
9.2.2 数据预处理 278
任务9.3 数据分析与可视化 281
9.3.1 数据分析师岗位的需求趋势 281
9.3.2 数据分析师岗位的热门城市Top10 283
9.3.3 不同城市数据分析师岗位的薪资水平 284
9.3.4 数据分析师岗位的学历要求 286
任务9.4 总结 287
本章习题 287

申请样书

立即购买
1 2