在本书中,您将深入学习 Pandas,这是一个 Python 库,用于处理,转换和分析数据。 这是用于探索性数据可视化的流行框架,这是一种基于数据集和数据管道的属性分析数据的方法。
这本书将是您使用 Pandas 探索数据集的实用指南。 您将首先设置 Python,pandas 和 Jupyter 笔记本。 您将学习如何使用 Jupyter 笔记本运行 Python 代码。 然后,我们将向您展示如何将数据导入 Pandas 并进行一些探索性分析。 您将学习如何使用 pandas 方法操作和重塑数据。 您还将学习如何处理数据集中缺失的数据,如何使用 pandas 和 Matplotlib 绘制图表和图,以及如何为受众创建有效的可视化效果。 最后,我们将教您如何从 Pandas 中获取数据并转换为多种流行的文件格式,从而总结您新获得的 Pandas 知识。
本书适用于希望了解流行的 pandas 库的新兴数据科学家,或希望踏入数据分析领域的 Python 开发人员 -- 如果您属于这两个类别,那么本书是您理想的参考资料。开始吧。
第 1 章,“处理不同类型的数据集”教您有关从 CSV 文件和 Excel 文件读取数据时使用高级选项的知识。
第 2 章,“数据选择”,介绍如何使用 Pandas 序列数据结构选择数据。 您还将学习如何从 Pandas 数据帧中排序和过滤数据,以及如何更改 Pandas 序列中的数据类型。
第 3 章,“操纵,转换和重塑数据”探索如何修改 Pandas 数据帧。 您还将学习如何使用GroupBy
方法,如何处理缺失值以及如何为 Pandas 数据帧中的方法建立索引。 本章还将教您如何使用日期和时间数据,以及如何将函数应用于 Pandas 序列或数据帧。
第 4 章,“像专家一样可视化数据”,将向您展示如何控制的绘图美学,包括如何为绘图选择颜色。 您还将学习如何绘制分类数据并掌握数据感知网格的绘制方法。
一些 Python 编程经验可以帮助您充分利用本课程。
本书中使用了许多文本约定。
CodeInText
:表示文本中的词,数据库表名称,文件夹名称,文件名,文件扩展名,路径名,伪 URL,用户输入和 Twitter 句柄。 这是一个示例:“如何使用read_excel
方法的高级选项。”
代码块设置如下:
df = pd.read_csv('IMDB.csv', encoding = "ISO-8859-1")
df.head()
任何命令行输入或输出的编写方式如下:
conda install sqlite
粗体:表示您在屏幕上看到的新术语,重要单词或顺序。 例如,菜单或对话框中的单词会出现在这样的文本中。 这是一个示例:“从管理面板中选择系统信息”。
警告或重要提示如下所示。 提示和技巧如下所示。