简单的数据获取和处理流程丨数析学院-如何打开dat文件

课程简介

本节将以婴儿名字数据集为例,向大家介绍 pandas 库数据的读取以及简单的处理和可视化工具。

数据来源 - 自行创建婴儿的名字以及数量数据集。 数据准备 - 从自行创建的数据集中读取所需数据,并进行缺失、异常数据的查看及处理。 分析目标 - 简单地找到在 1880 年最流行的名字。 数据可视化 - 通过表格数据和图表,清晰地展示分析结果。 首先导入 pandas 和 matplotlib 库:

简单的数据获取和处理流程丨数析学院

简单的数据获取和处理流程丨数析学院

创建数据

数据集由1880年出生5个婴儿名字和对应名字数量组成

简单的数据获取和处理流程丨数析学院

为了合并这两条列表,使用 zip 方法

简单的数据获取和处理流程丨数析学院

接下来使用 pandas 库将数据集导出为 csv 文件,首先转换为 dataframe 数据框:

简单的数据获取和处理流程丨数析学院

推荐阅读