Czytam prezentację i zaleca się, aby nie używać pomijania jednego kodu, ale w przypadku jednego kodowania na gorąco jest to w porządku. Myślałem, że oba są takie same. Czy ktoś może opisać, jakie są między nimi różnice?
13
Czytam prezentację i zaleca się, aby nie używać pomijania jednego kodu, ale w przypadku jednego kodowania na gorąco jest to w porządku. Myślałem, że oba są takie same. Czy ktoś może opisać, jakie są między nimi różnice?
Odpowiedzi:
Prawdopodobnie używają „pomiń kodowanie”, aby odnieść się do strategii Owena Zhanga.
Od: https://www.kaggle.com/c/caterpillar-tube-pricing/forums/t/15748/strategies-to-encode-categorical-variables-with-main-categories
Zakodowana kolumna nie jest konwencjonalną zmienną fikcyjną, lecz jest średnią odpowiedzią dla wszystkich wierszy dla tego kategorycznego poziomu, z wyłączeniem samego wiersza. Daje to tę zaletę, że ma jednokolumnową reprezentację kategorii, a jednocześnie pozwala uniknąć bezpośredniego wycieku odpowiedzi
To zdjęcie dobrze wyraża ten pomysł.
źródło