请选择 进入手机版 | 继续访问电脑版
查看: 121|回复: 0

python sklearn 画出决策树并生存为PDF的实现过程

[复制链接]

2198

主题

0

回帖

7027

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
7027
发表于 2022-10-9 01:06:31 | 显示全部楼层 |阅读模式
利用sklearn画出决策树并生存为PDF


下载Graphviz

进入官网下载并安装:
https://graphviz.gitlab.io/_pages/Download/Download_windows.html
并将下列路径配置为环境变量:

  • D:\software\Graphviz\bin
在cmd中测试:

    1. dot -version
    复制代码

python代码
  1. import numpy as np
  2. import pandas as pd
  3. from sklearn import tree
  4. import graphviz
  5. # x,y是sklearn中需要拟合的数据
  6. x = np.array(exam_train)
  7. y = np.array(classes_train)
  8. clf = tree.DecisionTreeClassifier(criterion='entropy', class_weight='balanced', max_depth=25)
  9. clf = clf.fit(x, y)
  10. dot_data = tree.export_graphviz(clf, out_file=None, feature_names=None, filled=True, rounded=True)  # 重要参数可定制
  11. graph = graphviz.Source(dot_data)
  12. graph.render(view=True, format="pdf", filename="decisiontree_pdf")
复制代码
可以生成一张贼帅的决策树PDF:


python sklearn 决策树运用


数据形式(tree.csv)
  1. age look income orderly target
  2. older ugly low yes no
  3. young ugly high no no
  4. young handsome low no no
  5. young handsome high yes yes
  6. young handsome medium yes yes
  7. young handsome medium no no
复制代码

python源代码:
  1. # -*- coding:utf-8*-
  2. # 将字典 转化为 sklearn 用的数据形式 数据型 矩阵
  3. from sklearn.feature_extraction import DictVectorizer
  4. import csv
  5. from sklearn import preprocessing
  6. from sklearn import tree

  7. allElectronicsData = open('c:/pic/data/tree.csv','rb')
  8. reader = csv.reader(allElectronicsData)
  9. header = reader.next()
  10. # print header
  11. ## 数据预处理
  12. featureList = []
  13. labelList = []
  14. for row in reader:
  15.     # print row[-1]
  16.     labelList.append(row[-1])
  17.     # 下面这几步的目的是为了让特征值转化成一种字典的形式,就可以调用sk-learn里面的DictVectorizer,直接将特征的类别值转化成0,1值
  18.     rowDict = {}
  19.     for i in range(1, len(row) - 1):
  20.         rowDict[header[i]] = row[i]
  21.     featureList.append(rowDict)

  22. for each in featureList:
  23.     print each

  24. # Vectorize features
  25. vec = DictVectorizer()
  26. dummyX = vec.fit_transform(featureList).toarray()
  27. print("dummyX:"+str(dummyX))
  28. print(vec.get_feature_names())

  29. # label的转化,直接用preprocessing的LabelBinarizer方法
  30. lb = preprocessing.LabelBinarizer()
  31. dummyY = lb.fit_transform(labelList)
  32. print("dummyY:"+str(dummyY))
  33. print("labelList:"+str(labelList))

  34. #criterion是选择决策树节点的 标准 ,这里是按照“熵”为标准,即ID3算法;默认标准是gini index,即CART算法。
  35. clf = tree.DecisionTreeClassifier()
  36. clf = clf.fit(dummyX,dummyY)
  37. print("clf:"+str(clf))
  38. # 导入相关函数,可视化决策树
  39. # 导出的结果是一个dot文件(在系统默认路劲),需要安装Graphviz才能将它住哪华为PDF或png格式
  40. # 输出的dot文件可以使用graphvize软件转为PDF,graphvize安装目录中的bin目录放入到环境变量的Path中
  41. # 使用如下命令
  42. #cmd
  43. # dot -Tpdf  c:/tree.dot -o c:/tree.pdf
  44. #下载地址:http://www.graphviz.org/Download_windows.php
  45. #生成dot文件
  46. with open("c:/tree.dot",'w') as f:
  47.     f = tree.export_graphviz(clf, feature_names= vec.get_feature_names(),out_file= f)
复制代码
以上为个人经验,希望能给大家一个参考,也希望大家多多支持趣UU。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
打赏作者
  • 0
  • 0
  • 0
  • 0
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表