python sklearn 画出决策树并保存为PDF的实现过程

目录

利用sklearn画出决策树并保存为PDF

下载Graphviz

python sklearn 决策树运用

数据形式(tree.csv)

利用sklearn画出决策树并保存为PDF 下载Graphviz

进入官网下载并安装:

https://graphviz.gitlab.io/_pages/Download/Download_windows.html

并将下列路径配置为环境变量:

D:\software\Graphviz\bin

在cmd中测试:

dot -version

python代码

import numpy as np import pandas as pd from sklearn import tree import graphviz # x,y是sklearn中需要拟合的数据 x = np.array(exam_train) y = np.array(classes_train) clf = tree.DecisionTreeClassifier(criterion='entropy', class_weight='balanced', max_depth=25) clf = clf.fit(x, y) dot_data = tree.export_graphviz(clf, out_file=None, feature_names=None, filled=True, rounded=True) # 重要参数可定制 graph = graphviz.Source(dot_data) graph.render(view=True, format="pdf", filename="decisiontree_pdf")

可以生成一张贼帅的决策树PDF:

python sklearn 决策树运用 数据形式(tree.csv) age look income orderly target older ugly low yes no young ugly high no no young handsome low no no young handsome high yes yes young handsome medium yes yes young handsome medium no no

python源代码:

# -*- coding:utf-8*- # 将字典 转化为 sklearn 用的数据形式 数据型 矩阵 from sklearn.feature_extraction import DictVectorizer import csv from sklearn import preprocessing from sklearn import tree allElectronicsData = open('c:/pic/data/tree.csv','rb') reader = csv.reader(allElectronicsData) header = reader.next() # print header ## 数据预处理 featureList = [] labelList = [] for row in reader: # print row[-1] labelList.append(row[-1]) # 下面这几步的目的是为了让特征值转化成一种字典的形式,就可以调用sk-learn里面的DictVectorizer,直接将特征的类别值转化成0,1值 rowDict = {} for i in range(1, len(row) - 1): rowDict[header[i]] = row[i] featureList.append(rowDict) for each in featureList: print each # Vectorize features vec = DictVectorizer() dummyX = vec.fit_transform(featureList).toarray() print("dummyX:"+str(dummyX)) print(vec.get_feature_names()) # label的转化,直接用preprocessing的LabelBinarizer方法 lb = preprocessing.LabelBinarizer() dummyY = lb.fit_transform(labelList) print("dummyY:"+str(dummyY)) print("labelList:"+str(labelList)) #criterion是选择决策树节点的 标准 ,这里是按照“熵”为标准,即ID3算法;默认标准是gini index,即CART算法。 clf = tree.DecisionTreeClassifier() clf = clf.fit(dummyX,dummyY) print("clf:"+str(clf)) # 导入相关函数,可视化决策树 # 导出的结果是一个dot文件(在系统默认路劲),需要安装Graphviz才能将它住哪华为PDF或png格式 # 输出的dot文件可以使用graphvize软件转为PDF,graphvize安装目录中的bin目录放入到环境变量的Path中 # 使用如下命令 #cmd # dot -Tpdf c:/tree.dot -o c:/tree.pdf #下载地址:http://www.graphviz.org/Download_windows.php #生成dot文件 with open("c:/tree.dot",'w') as f: f = tree.export_graphviz(clf, feature_names= vec.get_feature_names(),out_file= f)

以上为个人经验,希望能给大家一个参考,也希望大家多多支持易知道(ezd.cc)。

推荐阅读

    学习写字楼新选择6000元主流配置

    学习写字楼新选择6000元主流配置,,这种配置需要考虑双核心的办公和娱乐平台,充分考虑办公室的办公需求和娱乐需求,以约6000元的预算和cost-e

    酷睿I7 配置

    酷睿I7 配置,配置,玩家国度啦华硕 Rampage II Extreme(3800元)如果米不够,也可以把Extreme改为Gene,不过是小板内存推荐金士顿6G DDR3 2000骇

    电脑系统城|电脑系统下载 win7

    电脑系统城|电脑系统下载 win7,电脑系统城,不少朋友在使用电脑时候,有时碰到电脑卡住,不能使用,很多人都会选择装机来解决。那么电脑装机软件

    提高3A四核羿龙II游戏配置的性能

    提高3A四核羿龙II游戏配置的性能,,以节能环保为主题的IT产业,目前3A低端平台处理器、主板芯片组、独立开发卡性能突出,特别是在与AMD的处理

    opporeno8参数配置及价格

    opporeno8参数配置及价格,面部,亿元,Oppo的荣誉2020年1月4日,接近屏幕关闭传感器是否支持双卡:支持oppor11splus什么时候上市的Oppo R11S P

    查看配置:酷睿i3530集展示办公平台

    查看配置:酷睿i3530集展示办公平台,,由于时间和精力的关系,我们不可能对所有的配置进行评论,希望我们能理解,我希望我们的评论能在那些需要帮

    3500元超额值学生娱乐结构的优化配置

    3500元超额值学生娱乐结构的优化配置,,作为一个DIY的主流用户领域的学生,每个用户51学生攒机的高峰。因为学生用户没有稳定的收入来源,攒机