Jaka jest różnica między jednym kodowaniem na gorąco a pominięciem jednego kodowania?

13

Czytam prezentację i zaleca się, aby nie używać pomijania jednego kodu, ale w przypadku jednego kodowania na gorąco jest to w porządku. Myślałem, że oba są takie same. Czy ktoś może opisać, jakie są między nimi różnice?

icm
źródło
1
Z samego pytania nie jest jasne, czym jest nawet pominięcie. Powinieneś to zmienić, aby dać wskaźnik i krótko wyjaśnić twoje zrozumienie tych dwóch i dlaczego uważasz, że są one takie same.
Sean Owen

Odpowiedzi:

15

Prawdopodobnie używają „pomiń kodowanie”, aby odnieść się do strategii Owena Zhanga.

Od: https://www.kaggle.com/c/caterpillar-tube-pricing/forums/t/15748/strategies-to-encode-categorical-variables-with-main-categories

Zakodowana kolumna nie jest konwencjonalną zmienną fikcyjną, lecz jest średnią odpowiedzią dla wszystkich wierszy dla tego kategorycznego poziomu, z wyłączeniem samego wiersza. Daje to tę zaletę, że ma jednokolumnową reprezentację kategorii, a jednocześnie pozwala uniknąć bezpośredniego wycieku odpowiedzi

To zdjęcie dobrze wyraża ten pomysł. wprowadź opis zdjęcia tutaj

Dex Groves
źródło
Twoje wyjaśnienie jest lepsze niż wacax w odnośniku, dziękuję
Allan Ruin
Cześć @Dex Groves, więc kodowanie testu_zakończenia dla testu wynosi zawsze .5?
user7117436
3
Cześć! Jak widać na zdjęciu, ten szczególny przykład dotyczy problemu klasyfikacji. Czy ktoś ma doświadczenie w kodowaniu LOO w ramach problemu regresji? Główne pytanie dotyczy sposobu agregacji zmiennej docelowej. Teraz przeprowadzam eksperymenty i mam ogromne przeregulowanie ze średnim (y).
Alexey Trofimov
1
czy w przypadku problemu klastrowania (nienadzorowanego) można użyć tego rodzaju kodowania?
enneppi
@AlexeyTrofimov - spróbuj agregacji z mniejszą wariancją. Zaczynam od różnych grupowań (takich jak 1K, 2K, 2M, .. dla dużych wartości int lub lub zaokrąglanie do miejsca dziesiętnego dla wartości y zmiennoprzecinkowych) => średnia (bin_f (y))
mork