使用 Pandas 分析网站访问日志丨数析学院-DAT文件

本节我们将通过一个例子向大家演示如何运用 Pandas 来进行 Apache 访问日志分析。本节内容其实也是原作者对 Pandas 库的一次尝试,对于网站访问日志的分析,如果大家有更好的思路,可以在数析学院进行讨论,也欢迎在 github 上联系 原作者 koldunovn 进行更直接的交流。

载入并解析数据

在解析网站日志时需要用到 apachelog 模块 ,因此我们首先需要了解一下 Apache 配置中的日志相关格式,本节并不打算在这方面详细展开,如果你对此感兴趣的话,可以详细查阅一下 官方提供的格式描述。在此,我们对 Apache 配置格式进行一个简单的说明,其中的所有元素可以被归纳为下述语句:

使用 Pandas 分析网站访问日志丨数析学院

其中,各个符号组合具体含义如下:

使用 Pandas 分析网站访问日志丨数析学院

使用 Pandas 分析网站访问日志丨数析学院

设置格式:

使用 Pandas 分析网站访问日志丨数析学院

创建解析器:

使用 Pandas 分析网站访问日志丨数析学院

示例字符串:

使用 Pandas 分析网站访问日志丨数析学院

使用 Pandas 分析网站访问日志丨数析学院

使用 Pandas 分析网站访问日志丨数析学院

看来我们的解析器工作正常,那么接下来就让我们载入更多的真实数据吧。

未完待续:课程内容较多,请复制链接通过电脑学习,获得最佳学习效果。 http://datacademy.io/lesson/104

使用 Pandas 分析网站访问日志丨数析学院

推荐阅读