Badanie różnic między populacjami

9

Powiedzmy, że mamy próbkę z dwóch populacji: Ai B. Załóżmy, że te populacje składają się z pojedynczych osób i wybieramy opisywanie poszczególnych osób pod względem cech. Niektóre z tych funkcji są jakościowe (np. Czy jeżdżą do pracy?), A niektóre są liczbowe (np. Ich wysokość). Nazwijmy te funkcje: . Zbieramy setki tych funkcji (np. N = 200), załóżmy dla uproszczenia, bez błędów i hałasu wśród wszystkich osób.X1Xn

Przypuszczamy, że dwie populacje są różne. Naszym celem jest udzielenie odpowiedzi na następujące dwa pytania:

  1. Czy faktycznie różnią się znacznie?
  2. Co różni się między nimi znacząco?

Pomocne mogą być metody takie jak drzewa decyzyjne (np. Losowe lasy) i analiza regresji liniowej. Na przykład, można przyjrzeć się znaczeniu cech w losowych lasach lub dopasowanych współczynników w regresji liniowej, aby zrozumieć, co może wyróżnić te grupy i zbadać związki między cechami a populacjami.

Zanim pójdę tą trasą, chcę poznać moje opcje, co jest dobre i nowoczesne a złe praktyki. Pamiętaj, że moim celem nie jest samo przewidywanie, ale testowanie i znajdowanie znaczących różnic między grupami.

Jakie są podstawowe podejścia do rozwiązania tego problemu?

Oto kilka moich obaw:

  • Metody takie jak analiza regresji liniowej mogą nie w pełni odpowiedzieć (2), prawda? Np. Pojedyncze dopasowanie może pomóc znaleźć pewne różnice, ale nie wszystkie znaczące różnice. Na przykład wielokoliniowość może uniemożliwić nam stwierdzenie, jak wszystkie cechy różnią się w poszczególnych grupach (przynajmniej w jednym dopasowaniu). Z tego samego powodu oczekiwałbym, że ANOVA nie może również podać pełnej odpowiedzi na (2).

  • Nie jest do końca jasne, jak zareaguje podejście predykcyjne (1). Na przykład, jaką funkcję utraty klasyfikacji / predykcji powinniśmy zminimalizować? I w jaki sposób sprawdzamy, czy grupy różnią się znacznie, gdy mamy dopasowanie? Wreszcie martwię się, że odpowiedź, którą otrzymuję (1), może zależeć od konkretnego zestawu modeli klasyfikacji, z których korzystam.

Amelio Vazquez-Reina
źródło

Odpowiedzi:

5

Pomyślmy o problemie w następujący sposób.

Powiedz a jest zmienną binarną oznaczającą populację: oznacza pierwszą populację, oznacza drugą populację. Hipotezę zerową można wyrazić na kilka równoważnych sposobów:X=(X1,X2,..Xn)YY=0Y=1

  • H0 : populacje są takie same
  • H0 : rozkład dla jest taki sam jak rozkład dlaXY=0XY=1
  • H0 : i są niezależneXY
  • H0 : dla dowolnej funkcji do , i są niezależnef{0,1}f(X)Y

Nie wiem wiele o losowych lasach, ale można je uważać za uniwersalny predyktor, który pozwala uniknąć nadmiernego dopasowania. Jeśli trochę je idealizujemy: jest to coś zdolnego do wykrycia jakiegokolwiek związku między i dowolną cechą bez nadmiernego dopasowania.YX

Na tej podstawie można spróbować czegoś. Podziel oryginalny zestaw danych na zestaw szkoleniowy i zestaw testowy. Następnie:

  • wytrenuj losowy las który przewiduje od na zestawie treningowym.fYX
  • wykonać prosty test niezależności chi-kwadrat (z ryzykiem ) między a na zestawie testowymαf(X)Y

Ten test jest dość konserwatywny. Jeśli losowy las jest słabą metodą, w najgorszym przypadku wydaje głupi , to i tak odrzuci z prawdopodobieństwem mniejszym niż (gdy jest prawdą). Przeregulowanie nie byłoby nawet problemem, ponieważ używamy testu i zestawu treningowego. Jednak moc testu zależy bezpośrednio od inteligencji losowej metody leśnej (lub dowolnego zastosowanego predyktora).f(X)H0αH0

Pamiętaj, że możesz użyć kilku możliwych predyktorów: najpierw zwykłej starej regresji logistycznej, potem regresji logistycznej z pewnymi cechami krzyżowymi, następnie kilku drzew decyzyjnych, a następnie losowego lasu ... Ale jeśli to zrobisz, powinieneś dopasować do liczby testów, aby uniknąć „fałszywych odkryć”. Zobacz: Korekta alfa dla wielu testówα

Benoit Sanchez
źródło
Dzięki Benoit (+1). Wygląda na to, że dotyczy pytania (1). Wszelkie pomysły na rozwiązanie (2) przy użyciu tego lub alternatywnego podejścia?
Amelio Vazquez-Reina,
Jak wskazał DJohnson, RF nie można interpretować. Regresja logistyczna może być (przynajmniej z pojedynczymi funkcjami). To zależy od predyktora. Zgodnie z ideą zbliżoną do RF możliwe jest użycie wielu (losowych) drzew decyzyjnych (z dobrze dopasowanym ) i wyświetlanie drzewa o najmniejszej (= najlepszej) wartości p. α
Benoit Sanchez,
Dzięki. Podoba mi się propozycja dopasowania losowych ID i znalezienia tych o najbardziej znaczącym wyniku w teście chi-kwadrat. Zakładam, że odwołujesz się do poprawek Bonferroniego, kiedy wspomniałeś o dobrze dopasowanym . Czym by to się różniło od używania RF i testowania każdego drzewa? α
Amelio Vazquez-Reina,
Mam również nadzieję, że w przypadku fal radiowych zidentyfikuję cechy, które wychwytują różnice (tj. Uzyskam przynajmniej częściową odpowiedź na (2)). Nie są one idealne do interpretacji (choć zakładam, że można to zrobić, ograniczając ich wysokość). W obu przypadkach to samo można powiedzieć o ID, prawda? Tylko upewniam się, że dobrze rozumiem twój komentarz.
Amelio Vazquez-Reina,
Tak, odnoszę się do Bonferroni. Za pomocą RF tworzysz pojedynczy predyktor, uśredniając wiele ID. Następnie wykonujesz pojedynczy test z tą średnią, a nie z każdym ID, co powoduje ryzyko . Za pomocą kilku ID wykonujesz testów, co powoduje ryzyko (chyba że używasz Bonferroni). Musi to być traktowane jako test wielokrotny, podczas gdy (pojedyncze) uśrednianie RF wielu DT jest pojedynczym testem. αn1(1α)n
Benoit Sanchez,
3

Nie podajesz, ile funkcji jest dostępnych w danych. Mało, wielu, masywnych? Czy możemy założyć, że są to te same cechy między populacjami, wszystkie zmierzone przy użyciu tych samych narzędzi, metod i modalności? Jeśli nie, to masz większy problem, w którym może działać model pomiaru błędów zmiennych .

@benoitsanchez wydaje się odpowiadać na pytanie nr 1).

Wrt # 2), nie jestem pewien, czy RF mogą pomóc. Dzięki zastosowaniu bardziej formalnego modelu, takiego jak jednokierunkowa ANOVA zastosowana do jednej cechy na raz, można opracować test różnicy między populacjami dla cech. Podsumowując wyniki tych testów, w oparciu o wielkość testu oraz jego znaczenie, można opisać profil różnic między populacjami w zależności od cech. Jest to z pewnością rozwiązanie ad hoc i heurystyczne, które może nie być wystarczająco rygorystyczne dla twoich gustów, preferencji i treningu.

Nie jestem dobry w notacji lateksowej, pozwól mi po prostu opisać, jak te testy mogą działać: po pierwsze, zbuduj jakąś pętlę makro, która przepuszcza wszystkie funkcje, jedna funkcja na raz. Z każdym przejściem pętli nowa funkcja staje się celem lub DV z X składającym się ze zmiennej zastępczej dla populacji, a także wszelkich odpowiednich zmiennych kontrolnych. Upewnij się, że te same elementy sterujące są używane dla każdej cechy, a także, że dane bazowe są dokładnie takie same dla wszystkich ANOVA, eliminując zmienność związaną z kolejekami skończonych próbek danych. Agreguj wartości testu F dla zmiennej zastępczej dla każdej operacji. Zapewni to znormalizowaną charakterystykę umożliwiającą porównanie różnych funkcji. Testy F są lepsze niż bety dopasowane od betynie są znormalizowane, wyrażone w jednostkach i standardowych std dla każdej indywidualnej cechy.

Twój ostatni komentarz: „Martwię się, że odpowiedź, którą otrzymuję (1), może zależeć od konkretnego zestawu modeli klasyfikacji / regresji, którego używam”, jest zawsze prawdą. Odpowiedzi mogą się różnić w zależności od zastosowanego modelu (modeli). Jest to również wyraz powszechnie obserwowanego złego samopoczucia wśród silniej teoretycznych i klasycznie wyszkolonych statystyków, którzy nie czują się komfortowo lub mają trudności z uznaniem niedeterministycznego charakteru stosowanego modelowania statystycznego. Doskonałym antidotum na te objawy jest najnowsza książka Efron and Hastie Computer Age Statistics Inference . Wprowadzają modelowanie statystyczne w XXI wiek, erę informatyki i uczenia maszynowego, szczerze uznając iteracyjną, aproksymacyjną, heurystyczną naturę wszystkichmodele posiadające termin błędu. Nie trzeba być Bayesianinem, aby rozpoznać prawdę związaną z tą obserwacją. Ich perspektywa jest odświeżająca, która różni się od sztywnego determinizmu klasycznej praktyki statystycznej XX wieku, która rzuciła ręce w górę, gdy np. Matryca produktów krzyżowych nie odwróciłaby się i / lub pewne założenia modelu pedantycznego nie zostały spełnione.

Mike Hunter
źródło
Dzięki @DJohnson. Kiedy powiedziałeś „Agreguj wartości testu F dla zmiennej fikcyjnej dla każdej funkcji”, co dokładnie masz na myśli? tj. co dokładnie zrobiłbyś z tym wynikiem? Co również rozumiesz przez betas w tym kontekście? Wreszcie czy to iteracyjne podejście nie będzie ograniczone do żadnych interakcji? Np. Korzystając z oryginalnego przykładu, co zrobić, jeśli istnieje znacząca różnica w „wzroście osób, które jeżdżą do pracy?”
Amelio Vazquez-Reina
Ponadto, dlaczego miałbyś wykonywać sekwencję jednokierunkowych testów ANOVA w przeciwieństwie do wykonywania wielokierunkowej ANOVA?
Amelio Vazquez-Reina
2
Dobre pytania Jeśli chodzi o wynikowy profil opisowy, miałem na myśli po prostu zapisanie testu F i związanego z nim znaczenia lub wartości p dla każdej cechy, a następnie uszeregowanie ich od wysokiego do niskiego. Ponieważ test F jest stosunkiem kwadratów chi, a zatem nie jest symetryczny, do raportu można dodać średnie populacyjne, aby pomóc w zrozumieniu kierunkowości wyników. Alternatywnie test t mógłby pomóc w tym zrozumieniu. Ten profil pomógłby w zrozumieniu zarówno wielkości, jak i siły cech w zależności od populacji.
Mike Hunter,
Jak wspomniano, zmienne kontrolne należy dodać odpowiednio. Mogą to być interakcje, o ile są one konsekwentnie stosowane we wszystkich modelach. Wprowadzenie dodatkowych czynników z definicji rozszerzyłoby model z regresji jednokierunkowej na regresję wielokrotną lub ANOVA.
Mike Hunter,