Zestaw pociągu / testu / walidacji Podział w Sklearn

59

Jak mogę losowo podzielić macierz danych i odpowiadający wektor etykiety na X_train, X_test, X_val, y_train, y_test, y_val za pomocą Sklearn? O ile mi wiadomo, sklearn.cross_validation.train_test_splitjest zdolny do podziału na dwie części, a nie na trzy ...

Hendrik
źródło

Odpowiedzi:

81

Możesz po prostu użyć sklearn.model_selection.train_test_splitdwa razy. Najpierw podziel się, aby trenować, przetestuj, a następnie ponownie podziel pociąg na walidację i trenuj. Coś takiego:

 X_train, X_test, y_train, y_test 
    = train_test_split(X, y, test_size=0.2, random_state=1)

 X_train, X_val, y_train, y_val 
    = train_test_split(X_train, y_train, test_size=0.2, random_state=1)
hh32
źródło
1
Tak, to działa, ale liczyłem na coś bardziej eleganckiego;) Nieważne, akceptuję tę odpowiedź.
Hendrik,
1
Chciałem dodać, że jeśli chcesz użyć zestawu sprawdzania poprawności do wyszukiwania najlepszych hiperparametrów
skd
12
Jaka jest końcowa proporcja pociągu, testu i walidacji w tym przykładzie? Ponieważ po drugie train_test_split , robisz to w stosunku do poprzedniego podziału 80/20. Więc twoja wartość wynosi 20% z 80%. Podziały proporcji nie są w ten sposób bardzo proste.
Monica Heddneck
1
Zgadzam się z @Monica Heddneck, że 64% pociągu, 16% walidacji i 20% splitu testowego może być jaśniejsze. To irytujące wnioski, które musisz wyciągnąć z tego rozwiązania.
Perry
32

Istnieje świetna odpowiedź na to pytanie dotyczące SO, które używa numpy i pand.

Polecenie (patrz odpowiedź do dyskusji):

train, validate, test = np.split(df.sample(frac=1), [int(.6*len(df)), int(.8*len(df))])

tworzy podział 60%, 20%, 20% na zestawy szkoleniowe, walidacyjne i testowe.

0_0
źródło
2
Widzę .6znaczenie 60% ... ale co to .8znaczy?
Tom Hale
1
@ TomHale np.splitpodzieli się na 60% długości przetasowanej tablicy, a następnie na 80% długości (co stanowi dodatkowe 20% danych), pozostawiając w ten sposób pozostałe 20% danych. Wynika to z definicji funkcji. Możesz testować / grać z x = np.arange(10.0)np.split(x, [ int(len(x)*0.6), int(len(x)*0.8)])
:,
3

Najczęściej okazuje się, że nie dzielisz go ani razu, ale w pierwszym kroku podzielisz swoje dane na zestaw szkoleniowy i testowy. Następnie wykonasz wyszukiwanie parametrów obejmujące bardziej złożone rozdzielenia, takie jak walidacja krzyżowa z algorytmem „split k-fold” lub „Leave-One-Out (LOO)”.

JLT
źródło
3

Możesz użyć train_test_splitdwa razy. Myślę, że jest to najprostsze.

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=1)
X_train, X_val, y_train, y_val = train_test_split(
    X_train, y_train, test_size=0.25, random_state=1)

W ten sposób train, val, testzestaw będzie 60%, 20%, 20% zbioru danych odpowiednio.

David Jung
źródło
2

Najlepsza odpowiedź powyżej nie wspomina, że ​​oddzielenie dwa razy przy użyciu train_test_splitniezmiennych rozmiarów partycji nie daje początkowo zamierzonej partycji:

x_train, x_remain = train_test_split(x, test_size=(val_size + test_size))

Następnie część zestawów sprawdzania poprawności i testów w x_remain zmienia się i może być liczona jako

new_test_size = np.around(test_size / (val_size + test_size), 2)
# To preserve (new_test_size + new_val_size) = 1.0 
new_val_size = 1.0 - new_test_size

x_val, x_test = train_test_split(x_remain, test_size=new_test_size)

Przy tej okazji wszystkie początkowe partycje są zapisywane.

A.Ametov
źródło
1

Oto inne podejście (zakłada równy podział trójstronny):

# randomly shuffle the dataframe
df = df.reindex(np.random.permutation(df.index))

# how many records is one-third of the entire dataframe
third = int(len(df) / 3)

# Training set (the top third from the entire dataframe)
train = df[:third]

# Testing set (top half of the remainder two third of the dataframe)
test = df[third:][:third]

# Validation set (bottom one third)
valid = df[-third:]

Można to uczynić bardziej zwięzłym, ale trzymałem się tego w celu wyjaśnienia.

Vishal
źródło
0

Biorąc pod uwagę train_frac=0.8, ta funkcja tworzy podział 80% / 10% / 10%:

import sklearn

def data_split(examples, labels, train_frac, random_state=None):
    ''' https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
    param data:       Data to be split
    param train_frac: Ratio of train set to whole dataset

    Randomly split dataset, based on these ratios:
        'train': train_frac
        'valid': (1-train_frac) / 2
        'test':  (1-train_frac) / 2

    Eg: passing train_frac=0.8 gives a 80% / 10% / 10% split
    '''

    assert train_frac >= 0 and train_frac <= 1, "Invalid training set fraction"

    X_train, X_tmp, Y_train, Y_tmp = sklearn.model_selection.train_test_split(
                                        examples, labels, train_size=train_frac, random_state=random_state)

    X_val, X_test, Y_val, Y_test   = sklearn.model_selection.train_test_split(
                                        X_tmp, Y_tmp, train_size=0.5, random_state=random_state)

    return X_train, X_val, X_test,  Y_train, Y_val, Y_test
Tom Hale
źródło
0

Dodanie do odpowiedzi @ hh32 , przy jednoczesnym zachowaniu dowolnych predefiniowanych proporcji, takich jak (75, 15, 10):

train_ratio = 0.75
validation_ratio = 0.15
test_ratio = 0.10

# train is now 75% of the entire data set
# the _junk suffix means that we drop that variable completely
x_train, x_test, y_train, y_test = train_test_split(dataX, dataY, test_size=1 - train_ratio)

# test is now 10% of the initial data set
# validation is now 15% of the initial data set
x_val, x_test, y_val, y_test = train_test_split(x_test, y_test, test_size=test_ratio/(test_ratio + validation_ratio)) 

print(x_train, x_val, x_test)
Andrei Florea
źródło
0

Rozszerzenie odpowiedzi @ hh32 o zachowane proporcje.

# Defines ratios, w.r.t. whole dataset.
ratio_train = 0.8
ratio_val = 0.1
ratio_test = 0.1

# Produces test split.
x_remaining, x_test, y_remaining, y_test = train_test_split(
    x, y, test_size=test_ratio)

# Adjusts val ratio, w.r.t. remaining dataset.
ratio_remaining = 1 - ratio_test
ratio_val_adjusted = ratio_val / ratio_remaining

# Produces train and val splits.
x_train, x_val, y_train, y_val = train_test_split(
    x_remaining, y_remaining, test_size=ratio_val_adjusted)

Ponieważ pozostały zestaw danych jest zmniejszony po pierwszym podziale, nowe współczynniki w stosunku do zredukowanego zestawu danych należy obliczyć, rozwiązując równanie:

RremainingRnew=Rold

Jorge Barrios
źródło