课程简介
本节将以婴儿名字数据集为例,向大家介绍 pandas 库数据的读取以及简单的处理和可视化工具。
数据来源 - 自行创建婴儿的名字以及数量数据集。 数据准备 - 从自行创建的数据集中读取所需数据,并进行缺失、异常数据的查看及处理。 分析目标 - 简单地找到在 1880 年最流行的名字。 数据可视化 - 通过表格数据和图表,清晰地展示分析结果。 首先导入 pandas 和 matplotlib 库:
创建数据
数据集由1880年出生5个婴儿名字和对应名字数量组成
为了合并这两条列表,使用 zip 方法
接下来使用 pandas 库将数据集导出为 csv 文件,首先转换为 dataframe 数据框: