Jestem zdezorientowany co do analizy permutacji przy wyborze funkcji w kontekście regresji logistycznej.
Czy możesz podać jasne wyjaśnienie losowego testu permutacji i jak ma on zastosowanie do wyboru funkcji? Prawdopodobnie z dokładnym algorytmem i przykładami.
Wreszcie, jak to porównać z innymi metodami skurczu, takimi jak Lasso lub LAR?
Odpowiedzi:
(Nie mam teraz dużo czasu, więc odpowiem krótko, a potem rozwinię później)
Powiedzmy, że rozważamy problem z klasyfikacją binarną i mamy zestaw szkoleniowym próbki klasy 1 i n próbki klasy 2. Test permutacji dla wyboru funkcji sprawdza każdą funkcję osobno. Statystyka testowaθ , takie jak zysk informacji lub znormalizowana różnica między średnimi, jest obliczana dla cechy. Dane funkcji są następnie losowo permutowane i dzielone na dwa zestawy, jeden o rozmiarzem i jeden rozmiar n . Statystyka testowaθp jest następnie obliczany na podstawie tej nowej partycji p . W zależności od złożoności obliczeniowej problemu jest on następnie powtarzany na wszystkich możliwych partycjach funkcji w dwóch zestawach kolejnościm i n lub ich losowy podzbiór.
Teraz, gdy ustaliliśmy dystrybucjęθp , obliczamy wartość p, którą zaobserwowała statystyka testowa θ powstały z losowej partycji obiektu. Hipotezą zerową jest to, że próbki z każdej klasy pochodzą z tego samego podstawowego rozkładu (cecha nie ma znaczenia).
Proces ten powtarza się dla wszystkich funkcji, a następnie podzbiór funkcji używanych do klasyfikacji można wybrać na dwa sposoby:
źródło