Der folgende Code liest in aufgeräumte titanic Daten, alle Funktionen und Partituren ausdrucktWie kann ich die Top 20% Feature-Namen und Scores speichern und drucken?
import csv
import numpy as np
data = np.genfromtxt('titanic.csv',dtype=float, delimiter=',', names=True)
feature_names = np.array(data.dtype.names)
feature_names = feature_names[[ 0,1,2,3,4]]
data = np.genfromtxt('plants.csv',dtype=float, delimiter=',', skip_header=1)
_X = data[:, [0,1,2,3,4]]
#Return a flattened array required by scikit-learn fit for 2nd argument
_y = np.ravel(data[:,[5]])
from sklearn import feature_selection
fs = feature_selection.SelectPercentile(feature_selection.chi2, percentile=20)
X_train_fs = fs.fit_transform(_X, _y)
print feature_names, '\n', fs.scores_
Ergebnis:
['A' 'B' 'C' 'D' 'E']
[ 4.7324711 89.1428574 70.23474577 7.02447375 52.42447817]
Was ich tun möchte, ist die Top 20% der Funktionen zu erfassen , und speichern Sie die Namen und Noten in einem Array, das ich dann nach Noten sortieren kann. Dies wird mir bei größeren Features helfen, die Dimensionsreduktion zu reduzieren. Warum bekomme ich alle 5 Funktionen, wie kann ich das beheben, und wie kann ich die Top 20% Feature-Namen und Scores speichern und drucken?
Genau das, was Ich bedanke mich sehr für deine Hilfe! –