Pracuję z biblioteką scikit-learn w Pythonie. W poniższym kodzie przewiduję prawdopodobieństwo, ale nie wiem, jak odczytać wynik.
Testowanie danych
from sklearn.ensemble import RandomForestClassifier as RF
from sklearn import cross_validation
X = np.array([[5,5,5,5],[10,10,10,10],[1,1,1,1],[6,6,6,6],[13,13,13,13],[2,2,2,2]])
y = np.array([0,1,1,0,1,2])
Podziel zestaw danych
X_train, X_test, y_train, y_test = cross_validation.train_test_split(X, y, test_size=0.5, random_state=0)
Oblicz prawdopodobieństwo
clf = RF()
clf.fit(X_train,y_train)
pred_pro = clf.predict_proba(X_test)
print pred_pro
Wyjście
[[ 1. 0.]
[ 1. 0.]
[ 0. 1.]]
Lista X_test zawiera 3 tablice (mam 6 próbek i rozmiar_testu = 0,5), więc dane wyjściowe również mają 3.
Ale przewiduję 3 wartości (0,1,2), więc dlaczego otrzymuję tylko 2 elementy w każdej tablicy?
Jak mam odczytać wynik?
Zauważyłem również, że kiedy modyfikuję liczbę różnych wartości w y, liczba kolumn w danych wyjściowych jest zawsze różną liczbą y -1.
python
scikit-learn
HonzaB
źródło
źródło
Odpowiedzi:
Spójrz na
y_train
. Jestarray([0, 0, 1])
. Oznacza to, że twój podział nie wziął próbki, gdzie y = 2. Twój model nie ma pojęcia, że istnieje klasa y = 2.Potrzebujesz więcej próbek, aby zwrócić coś znaczącego.
Sprawdź także dokumentację, aby zrozumieć, jak interpretować dane wyjściowe.
źródło
y = np.array([0,2,1,0,1,2])
irandom_state=2
zobaczysz teraz 3 kolumny wynikówclf.classes_
. Kolumny będą w tej kolejności.clf.fit(X_train,y_train).classes_
?clf.classes_
po bieguclf.fit(X_train,y_train)