Losowy test permutacji do wyboru funkcji

9

Jestem zdezorientowany co do analizy permutacji przy wyborze funkcji w kontekście regresji logistycznej.
Czy możesz podać jasne wyjaśnienie losowego testu permutacji i jak ma on zastosowanie do wyboru funkcji? Prawdopodobnie z dokładnym algorytmem i przykładami.

Wreszcie, jak to porównać z innymi metodami skurczu, takimi jak Lasso lub LAR?

Ugo
źródło
5
Czy masz na myśli coś takiego, np. Gdzie wpisy pojedynczej kolumny macierzy projektowej są permutowane, utrzymując odpowiedź i inne zmienne towarzyszące? Jeśli masz określone odniesienie, którego używasz, warto je wymienić.
kardynał
Myślę, że ten link citeseerx.ist.psu.edu/viewdoc/… odnosi się do właściwej techniki. Obecnie próbuję nawiązać kontakt z wykładowcą, który powiedział mi o tej metodzie ...
Ugo
Nie udało się nawiązać z nim kontaktu (Donald Geman)
Ugo
2
w twoim pytaniu są niejasne punkty, które możesz chcieć wyjaśnić. W powiązanym dokumencie jest dość jasny opis algorytmu. Czy chcesz zapytać o konkretny algorytm? Czy to pomysł dokonywania wyboru funkcji przez obliczanie marginalnychp-wartości, które chcesz wyjaśnić? Ponadto należy zakwestionować definicję 2 w artykule. Jest to nieuzasadnione twierdzenie, które może być działającym założeniem, ale niewielkiep-wartości ogólnie nie oznaczają znaczenia. Nawiasem mówiąc, LAR robi regresję liniową i nie jest tak naprawdę dla odpowiedzi binarnych.
NRH

Odpowiedzi:

10

(Nie mam teraz dużo czasu, więc odpowiem krótko, a potem rozwinię później)

Powiedzmy, że rozważamy problem z klasyfikacją binarną i mamy zestaw szkoleniowy m próbki klasy 1 i npróbki klasy 2. Test permutacji dla wyboru funkcji sprawdza każdą funkcję osobno. Statystyka testowaθ, takie jak zysk informacji lub znormalizowana różnica między średnimi, jest obliczana dla cechy. Dane funkcji są następnie losowo permutowane i dzielone na dwa zestawy, jeden o rozmiarzem i jeden rozmiar n. Statystyka testowaθp jest następnie obliczany na podstawie tej nowej partycji p. W zależności od złożoności obliczeniowej problemu jest on następnie powtarzany na wszystkich możliwych partycjach funkcji w dwóch zestawach kolejnościm i nlub ich losowy podzbiór.

Teraz, gdy ustaliliśmy dystrybucję θp, obliczamy wartość p, którą zaobserwowała statystyka testowa θpowstały z losowej partycji obiektu. Hipotezą zerową jest to, że próbki z każdej klasy pochodzą z tego samego podstawowego rozkładu (cecha nie ma znaczenia).

Proces ten powtarza się dla wszystkich funkcji, a następnie podzbiór funkcji używanych do klasyfikacji można wybrać na dwa sposoby:

  • The N cechy o najniższych wartościach p
  • Wszystkie funkcje o wartości p<ϵ
benhamner
źródło