Wiem, że dla każdej pary klas obiektów wartość statystyki chi-kwadrat jest obliczana i porównywana z wartością progową.
Jestem trochę zmieszany. Jeśli istnieje cech i klas , jak buduje się tabelę awaryjną? Jak decydować, które funkcje zachować, a które usunąć?
Wszelkie wyjaśnienia będą mile widziane. Z góry dziękuję
chi-squared
feature-selection
użytkownik721975
źródło
źródło
Odpowiedzi:
Test chi-kwadrat jest statystycznym testem niezależności w celu określenia zależności między dwiema zmiennymi. Dzieli podobieństwa ze współczynnikiem determinacji, R². Jednak test chi-kwadrat ma zastosowanie tylko do danych jakościowych lub nominalnych, podczas gdy R2 ma zastosowanie tylko do danych liczbowych.
Z definicji chi-kwadrat możemy łatwo wywnioskować zastosowanie techniki chi-kwadrat przy wyborze cech. Załóżmy, że masz zmienną docelową (tj. Etykietę klasy) i kilka innych funkcji (zmiennych funkcji), które opisują każdą próbkę danych. Teraz obliczamy statystyki chi-kwadrat między każdą zmienną cechową a zmienną docelową i obserwujemy istnienie związku między zmiennymi a celem. Jeśli zmienna docelowa jest niezależna od zmiennej cechy, możemy ją odrzucić. Jeśli są zależne, zmienna funkcji jest bardzo ważna.
Szczegóły matematyczne opisano tutaj: http://nlp.stanford.edu/IR-book/html/htmledition/feature-selectionchi2-feature-selection-1.html
W przypadku zmiennych ciągłych chi-kwadrat można zastosować po „binowaniu” zmiennych.
Przykład w R, bezwstydnie skopiowany z FSelectora
Nie jest związany z tak dużym wyborem funkcji, ale poniższy film szczegółowo omawia chisquare https://www.youtube.com/watch?time_continue=5&v=IrZOKSGShC8
źródło