欢迎来到《精通 Pandas》。 本书将教您如何有效使用 pandas,pandas 是当今用于执行数据分析的最受欢迎的 Python 包之一。 本书的前半部分从进行数据分析的原理开始。 然后,它特别介绍了 Python 和 pandas,引导您完成安装步骤,pandas 的全部内容,pandas 的用途,pandas 中的数据结构以及如何在 pandas 中选择,合并和分组数据。 然后介绍处理缺失的数据和时间序列数据,以及为数据可视化作图。
本书的下半部分将向您展示如何使用 pandas 通过经典方法和贝叶斯方法进行推理统计,随后是有关 pandas 架构的一章,然后以机器学习的旋风为结尾,其中介绍了 scikit-learn 库。 本书的目的是通过使用真实数据集上的说明性示例,使您沉迷于 Pandas。
第 1 章,“Pandas 和数据分析简介”解释了进行数据分析的动机,介绍了 Python 语言和 Pandas 库,并讨论了如何将它们用于数据分析。 它还描述了使用 Pandas 进行数据分析的好处。
第 2 章,“Pandas 的安装和支持软件”给出了如何安装 Pandas 的详细说明。 它提供了跨多个操作系统平台的安装说明:Unix,MacOSX 和 Windows。 它还描述了如何安装支持软件,例如 NumPy 和 IPython。
第 3 章,“Pandas 数据结构”介绍了构成 Pandas 库基础的数据结构。 首先介绍并讨论了numpy.ndarray
数据结构,因为它构成了 Pandas 的基础。序列和pandas.DataFrame
数据结构是 Pandas 所使用的基础数据结构。 本章可能是本书中最重要的章节,因为对这些数据结构的知识对于使用 Pandas 进行数据分析是绝对必要的。
第 4 章,“Pandas 的操作,第 I 部分 – 索引和选择”,着重介绍如何从 Pandas 数据结构访问和选择数据。 它讨论了通过“基本”,“标签”,“整数”和“混合索引”选择数据的各种方式。 它解释了更高级的索引概念,例如多重索引,布尔索引和对索引类型的操作。
第 5 章,“Pandas 的操作,第二部分 -- 数据的分组,合并和重塑”解决了在 Pandas 的数据结构中重新排列数据的问题。 通过在实际数据集上利用 Pandas 中允许用户重新排列数据的各种功能,我们对其进行了研究。 本章研究了可以重新排列数据的不同方式:通过聚合/分组,合并,连接和重塑。
第 6 章,“缺失数据,时间序列和 Matplotlib 绘图”,讨论了预处理数据所需的主题,这些数据将用作数据分析,预测的输入和可视化。 这些主题包括如何处理输入数据中的缺失值,如何处理时间序列数据以及如何使用 matplotlib 库为可视化目的绘制数据。
第 7 章,“统计学之旅 -- 经典方法”向您简要介绍经典统计学,并展示如何将 Pandas 与 Python 的统计包一起使用以进行统计分析。 涉及各种统计主题,包括统计推断,中心趋势的度量,假设检验,Z 检验和 T 检验,方差分析,置信区间以及相关性和回归。
第 8 章,“贝叶斯统计简介”讨论了执行统计分析的另一种方法,称为贝叶斯分析。 本章介绍贝叶斯统计,并讨论基本的数学框架。 它检查了贝叶斯分析中使用的各种概率分布,并展示了如何使用 matplotlib 和scipy.stats
生成和可视化它们。 它还介绍了用于执行蒙特卡洛模拟的 PyMC 库,并提供了使用在线数据进行贝叶斯推理的真实示例。
第 9 章,“Pandas 库架构”提供了有关 Pandas 基本代码的相当详细的描述。 它详细介绍了 Pandas 库代码的组织方式,并描述了组成 Pandas 的各种模块,并提供了一些详细信息。 它还有一部分向用户展示如何使用扩展来改善 Python 和 Pandas 的性能。
第 10 章,“R 和 Pandas 比较”着重比较 Pandas 与 R,这是许多 Pandas 功能的基础统计包。 本章比较了 R 数据类型及其对应的 pandas,并说明了两种库中各种操作的比较方式。 比较了切片,选择,算术运算,聚合,分组,匹配,拆分应用合并和熔化等操作。
第 11 章,“机器学习简介”带领您进行机器学习的旋风之旅,重点是使用 pandas 库作为将输入数据预处理为机器学习程序的工具。 它还介绍了 scikit-learn 库,它是 Python 中使用最广泛的机器学习工具包。 通过将各种机器学习技术和算法应用于一个著名的机器学习分类问题:哪些乘客在泰坦尼克号沉没中幸存了下来?
该软件适用于本书的所有章节:
- Windows/MacOS/Linux
- Python 2.7.x
- Pandas
- IPython
- R
- scikit-learn
对于硬件,没有特殊要求,因为 Python 和 pandas 可以在装有 Mac,Linux 或 Windows 的任何 PC 上运行。
本书适用于已经对 Python 有基本了解并希望深入了解其数据分析功能的 Python 程序员,数学家和分析家。 也许在使用 Python 几个月后您的食欲已被削弱,或者您是 R 用户,但希望研究 Python 在数据分析方面所提供的功能。 无论哪种情况,这本书都会帮助您掌握 Pandas 的核心特征和功能,以进行数据分析。 对于用户来说,拥有一些使用 Python 的经验或使用诸如 R 的数据分析包的经验会很有帮助。
在本书中,您将找到许多可以区分不同类型信息的文本样式。 以下是这些样式的一些示例,并解释了其含义。
文本,数据库表名称,文件夹名称,文件名,文件扩展名,路径名,虚拟 URL,用户输入和 Twitter 句柄中的代码字如下所示:“安装后,应将以下文件夹添加到PATH
环境变量中 :C:\Python27\
和C:\Python27\Tools\Scripts
。”
任何命令行输入或输出的编写方式如下:
brew install readline
brew install zeromq
pip install ipython pyzmq tornado pygments
新术语和重要词以粗体显示。 您在屏幕上看到的字词,例如在菜单或对话框中,将像这样显示在文本中:“PYMC Pandas 示例的先前图像摘自这里。”
警告或重要提示会出现在这样的框中。
提示和技巧如下所示。