Klasyfikacja z głośnymi etykietami?

14

Próbuję wytrenować sieć neuronową do klasyfikacji, ale etykiety, które mam, są raczej hałaśliwe (około 30% etykiet jest błędnych).

Strata między entropią rzeczywiście działa, ale zastanawiałem się, czy są jakieś alternatywy bardziej skuteczne w tym przypadku? czy utrata przez entropię jest optymalna?

Nie jestem pewien, ale myślę o pewnym „przycięciu” utraty entropii krzyżowej, tak że utrata jednego punktu danych nie będzie większa niż górna granica, czy to zadziała?

Dzięki!

Aktualizacja
Zgodnie z odpowiedzią Lucasa, otrzymałem następujące dane dla pochodnych dla wyjściowej prognozy i wejścia funkcji softmax . Sądzę więc, że w zasadzie dodaje się termin wygładzający $y$ $z$ do instrumentów pochodnych. $\frac{3}{7N}$

p_{i} = 0.3 / N + 0.7 y_{i}

$p_i=0.3/N+0.7y_i$

l = - \sum t_{i} \log (p_{i})

$l=-\sum t_i\log(p_i)$

\frac{\partial l}{\partial y_{i}} = - t_{i} \frac{\partial \log (p_{i})}{\partial p_{i}} \frac{\partial p_{i}}{\partial y_{i}} = - 0.7 \frac{t_{i}}{p_{i}} = - \frac{t_{i}}{\frac{3}{7 N} + y_{i}}

$\frac{\partial l}{\partial y_i}=-t_i\frac{\partial\log(p_i)}{\partial p_i}\frac{\partial p_i}{\partial y_i}=-0.7\frac{t_i}{p_i}=-\frac{t_i}{\frac{3}{7N}+y_i}$

Pochodne dla pierwotnej utraty entropii krzyżowej:

\frac{\partial l}{\partial z_{i}} = 0.7 \sum_{j} \frac{t_{j}}{p_{j}} \frac{\partial y_{j}}{\partial z_{i}} = y_{i} \sum_{j} t_{j} \frac{y_{j}}{\frac{3}{7 N} + y_{j}} - t_{i} \frac{y_{i}}{\frac{3}{7 N} + y_{i}}

$\frac{\partial l}{\partial z_i}=0.7\sum_j\frac{t_j}{p_j}\frac{\partial y_j}{\partial z_i}=y_i\sum_jt_j\frac{y_j}{\frac{3}{7N}+y_j}-t_i\frac{y_i}{\frac{3}{7N}+y_i}$

\frac{\partial l}{\partial y_{i}} = - \frac{t_{i}}{y_{i}}

$\frac{\partial l}{\partial y_i}=-\frac{t_i}{y_i}$

Daj mi znać, jeśli się mylę. Dzięki!

\frac{\partial l}{\partial z_{i}} = y_{i} - t_{i}

$\frac{\partial l}{\partial z_i}=y_i-t_i$

Aktualizacja
Właśnie zdarzyło mi się przeczytać artykuł Google, który stosuje tę samą formułę jak w odpowiedzi Lucasa, ale z różnymi interpretacjami.

W rozdziale 7 Regularyzacja modelu poprzez wygładzanie etykiet

$∂l/∂z_k$

Ale zamiast dodać termin wygładzający do prognoz, dodali go do podstawowej prawdy , która okazała się pomocna.

$\epsilon$

machine-learning neural-networks loss-functions noise dontloo
źródło

3

Istnieje wiele prac na ten temat - github.com/subeeshvasu/Awesome-Learning-with-Label-Noise

guest_anonym

10

Właściwą rzeczą do zrobienia jest zmiana modelu, a nie strata. Twoim celem jest nadal poprawna klasyfikacja jak największej liczby punktów danych (co determinuje utratę), ale twoje założenia dotyczące danych uległy zmianie (które są zakodowane w modelu statystycznym , w tym przypadku sieci neuronowej).

$\mathbf{p}_t$ $\ell(y_t, \mathbf{p}_t)$ $y_t$

{\tilde{p}}_{t} = 0.3 / N + 0.7 p_{t}

$\mathbf{\tilde p}_t = 0.3/N + 0.7 \mathbf{p}_t$

zamiast tego i zoptymalizować

\sum_{t} ℓ (y_{t}, 0.3 / N + 0.7 p_{t}),

$\sum_t \ell(y_t, 0.3/N + 0.7 \mathbf{p}_t),$

$N$

Lucas
źródło

{\tilde{p}}_{t}

$\tilde{p}_t$

0.3 / N + 0.7 p_{t}

$0.3/N +0.7p_t$

{\tilde{p}}_{t}

$\tilde{p}_t$

P r o b (\tilde{y} = + 1 | t) = 0.7 P r o b (y = + 1 | t) + 0.3 P r o b (y = - 1 | t)

$Prob(\tilde{y} = +1|t) = 0.7Prob(y=+1|t) + 0.3Prob(y = -1|t)$

P r o b (\tilde{y} = - 1 | t) = 0.7 P r o b (y = - 1 | t) + 0.3 P r o b (y = + 1 | t)

$Prob(\tilde{y} = -1|t) = 0.7Prob(y=-1|t) + 0.3Prob(y = +1|t)$

1 / N

$1/N$

0

Zdaję sobie sprawę, że jest to forum statystyk i oczekiwanie dotyczy głównie pochodnych matematycznych, ale jeśli może być pomocne i używasz języka Python, istnieje pakiet do klasyfikacji z głośnymi etykietami o nazwie cleanlab: https://github.com/ cgnorthcutt / cleanlab / .

cleanlabPakiet Python, pip install cleanlabdla którego jestem autorem, znaleziska oznakować błędy w zestawów danych i obsługuje klasyfikacji / uczenia się z głośnym etykiet. Działa z scikit-learn, PyTorch, Tensorflow, FastText itp.

Do nauki z głośnymi etykietami.

# Code taken from https://github.com/cgnorthcutt/cleanlab
from cleanlab.classification import LearningWithNoisyLabels
from sklearn.linear_model import LogisticRegression

# Learning with noisy labels in 3 lines of code.

# Wrap around any classifier. Works with sklearn/pyTorch/Tensorflow/FastText/etc.
lnl = LearningWithNoisyLabels(clf=LogisticRegression())
lnl.fit(X = X_train_data, s = train_noisy_labels)
# Estimate the predictions you would have gotten by training with *no* label errors.
predicted_test_labels = lnl.predict(X_test)

Aby znaleźć błędy etykiet w zestawie danych.

from cleanlab.latent_estimation import estimate_cv_predicted_probabilities

# Find the indices of label errors in 2 lines of code.

probabilities = estimate_cv_predicted_probabilities(
    X_train_data, 
    train_noisy_labels, 
    clf=LogisticRegression(),
)
label_error_indices = get_noise_indices(
    s = train_noisy_labels, 
    psx = probabilities, 
)

Kilka przykładów z FastText (NLP) i PyTorch (MNIST AlexNet).

Dokumentacja: https://l7.curtisnorthcutt.com/cleanlab-python-package

cgnorthcutt
źródło

Klasyfikacja z głośnymi etykietami?

Odpowiedzi: