Tutaj pytam o to, co inni często robią, aby użyć testu chi-kwadrat do wyboru funkcji w wyniku uczenia się nadzorowanego. Jeśli dobrze rozumiem, czy testują niezależność między każdą cechą a wynikiem i porównują wartości p między testami dla każdej cechy?
W http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test ,
Test chi-kwadrat Pearsona jest testem statystycznym stosowanym do zbiorów danych kategorycznych w celu oceny prawdopodobieństwa, że wszelkie zaobserwowane różnice między zbiorami powstały przypadkowo.
...
Test niezależności ocenia, czy sparowane obserwacje dwóch zmiennych, wyrażone w tabeli awaryjnej , są od siebie niezależne (np. Odpowiedzi ankietowe od osób różnych narodowości, aby sprawdzić, czy narodowość jest związana z odpowiedzią).
Czy zatem dwie zmienne, których niezależność jest testowana w teście, muszą być kategoryczne lub dyskretne (pozwalając uporządkować oprócz kategorii), ale nie ciągłe?
Od http://scikit-learn.org/stable/modules/feature_selection.html oni
wykonaj test w zestawie danych tęczówki, aby pobrać tylko dwie najlepsze funkcje.
W zestawie danych tęczówki wszystkie funkcje mają wartości liczbowe i ciągłe, a wynikiem są etykiety klas (kategoryczne). W jaki sposób test niezależności chi-kwadrat stosuje się do ciągłych elementów?
Aby zastosować test niezależności chi-kwadrat do zestawu danych, najpierw przekształcamy funkcje ciągłe w funkcje dyskretne, dzieląc (tj. Najpierw dyskretyzując ciągłe domeny funkcji na przedziały, a następnie zastępując je wystąpieniami wartości funkcji w przedziałach )?
Wystąpienia w kilku przedziałach tworzą cechę wielomianową (występują albo nie w każdym z przedziałów), więc test niezależności chi-kwadrat może mieć do nich zastosowanie, prawda?
Przy okazji, czy możemy zastosować test niezależności chi-kwadrat do cech i wyników dowolnego rodzaju , prawda?
W części wynikowej możemy wybrać cechy nie tylko do klasyfikacji, ale także do regresji, za pomocą testu niezależności chi-kwadrat, poprzez binowanie wyniku ciągłego, prawda?
Witryna scikit learn również mówi
Oblicz statystyki chi-kwadrat między każdą nieujemną cechą i klasą.
Ten wynik może być użyty do wybrania cech n_funkcji o najwyższych wartościach testowej statystyki chi-kwadrat z X, które muszą zawierać tylko nieujemne cechy, takie jak booleany lub częstotliwości (np. Liczba terminów w klasyfikacji dokumentu), względem zajęcia
Dlaczego test wymaga nieujemnych funkcji?
Jeśli funkcje nie mają znaków, ale są kategoryczne lub dyskretne, czy test może nadal ich dotyczyć? (Zobacz moją część 1)
Jeśli cechy są negatywne, zawsze możemy binować ich domeny i zastępować je ich wystąpieniami (dokładnie tak, jak sądzę przy zastosowaniu testu do zestawu danych tęczówki, patrz część 2), prawda?
Uwaga: Myślę, że Scikit Learn przestrzega ogólnych zasad i właśnie o to tutaj proszę. Jeśli nie, to nadal jest w porządku.