Powiedzmy, że mamy próbkę z dwóch populacji: A
i B
. Załóżmy, że te populacje składają się z pojedynczych osób i wybieramy opisywanie poszczególnych osób pod względem cech. Niektóre z tych funkcji są jakościowe (np. Czy jeżdżą do pracy?), A niektóre są liczbowe (np. Ich wysokość). Nazwijmy te funkcje: . Zbieramy setki tych funkcji (np. N = 200), załóżmy dla uproszczenia, bez błędów i hałasu wśród wszystkich osób.
Przypuszczamy, że dwie populacje są różne. Naszym celem jest udzielenie odpowiedzi na następujące dwa pytania:
- Czy faktycznie różnią się znacznie?
- Co różni się między nimi znacząco?
Pomocne mogą być metody takie jak drzewa decyzyjne (np. Losowe lasy) i analiza regresji liniowej. Na przykład, można przyjrzeć się znaczeniu cech w losowych lasach lub dopasowanych współczynników w regresji liniowej, aby zrozumieć, co może wyróżnić te grupy i zbadać związki między cechami a populacjami.
Zanim pójdę tą trasą, chcę poznać moje opcje, co jest dobre i nowoczesne a złe praktyki. Pamiętaj, że moim celem nie jest samo przewidywanie, ale testowanie i znajdowanie znaczących różnic między grupami.
Jakie są podstawowe podejścia do rozwiązania tego problemu?
Oto kilka moich obaw:
Metody takie jak analiza regresji liniowej mogą nie w pełni odpowiedzieć (2), prawda? Np. Pojedyncze dopasowanie może pomóc znaleźć pewne różnice, ale nie wszystkie znaczące różnice. Na przykład wielokoliniowość może uniemożliwić nam stwierdzenie, jak wszystkie cechy różnią się w poszczególnych grupach (przynajmniej w jednym dopasowaniu). Z tego samego powodu oczekiwałbym, że ANOVA nie może również podać pełnej odpowiedzi na (2).
Nie jest do końca jasne, jak zareaguje podejście predykcyjne (1). Na przykład, jaką funkcję utraty klasyfikacji / predykcji powinniśmy zminimalizować? I w jaki sposób sprawdzamy, czy grupy różnią się znacznie, gdy mamy dopasowanie? Wreszcie martwię się, że odpowiedź, którą otrzymuję (1), może zależeć od konkretnego zestawu modeli klasyfikacji, z których korzystam.
źródło
Nie podajesz, ile funkcji jest dostępnych w danych. Mało, wielu, masywnych? Czy możemy założyć, że są to te same cechy między populacjami, wszystkie zmierzone przy użyciu tych samych narzędzi, metod i modalności? Jeśli nie, to masz większy problem, w którym może działać model pomiaru błędów zmiennych .
@benoitsanchez wydaje się odpowiadać na pytanie nr 1).
Wrt # 2), nie jestem pewien, czy RF mogą pomóc. Dzięki zastosowaniu bardziej formalnego modelu, takiego jak jednokierunkowa ANOVA zastosowana do jednej cechy na raz, można opracować test różnicy między populacjami dla cech. Podsumowując wyniki tych testów, w oparciu o wielkość testu oraz jego znaczenie, można opisać profil różnic między populacjami w zależności od cech. Jest to z pewnością rozwiązanie ad hoc i heurystyczne, które może nie być wystarczająco rygorystyczne dla twoich gustów, preferencji i treningu.
Nie jestem dobry w notacji lateksowej, pozwól mi po prostu opisać, jak te testy mogą działać: po pierwsze, zbuduj jakąś pętlę makro, która przepuszcza wszystkie funkcje, jedna funkcja na raz. Z każdym przejściem pętli nowa funkcja staje się celem lub DV z X składającym się ze zmiennej zastępczej dla populacji, a także wszelkich odpowiednich zmiennych kontrolnych. Upewnij się, że te same elementy sterujące są używane dla każdej cechy, a także, że dane bazowe są dokładnie takie same dla wszystkich ANOVA, eliminując zmienność związaną z kolejekami skończonych próbek danych. Agreguj wartości testu F dla zmiennej zastępczej dla każdej operacji. Zapewni to znormalizowaną charakterystykę umożliwiającą porównanie różnych funkcji. Testy F są lepsze niż bety dopasowane od betynie są znormalizowane, wyrażone w jednostkach i standardowych std dla każdej indywidualnej cechy.
Twój ostatni komentarz: „Martwię się, że odpowiedź, którą otrzymuję (1), może zależeć od konkretnego zestawu modeli klasyfikacji / regresji, którego używam”, jest zawsze prawdą. Odpowiedzi mogą się różnić w zależności od zastosowanego modelu (modeli). Jest to również wyraz powszechnie obserwowanego złego samopoczucia wśród silniej teoretycznych i klasycznie wyszkolonych statystyków, którzy nie czują się komfortowo lub mają trudności z uznaniem niedeterministycznego charakteru stosowanego modelowania statystycznego. Doskonałym antidotum na te objawy jest najnowsza książka Efron and Hastie Computer Age Statistics Inference . Wprowadzają modelowanie statystyczne w XXI wiek, erę informatyki i uczenia maszynowego, szczerze uznając iteracyjną, aproksymacyjną, heurystyczną naturę wszystkichmodele posiadające termin błędu. Nie trzeba być Bayesianinem, aby rozpoznać prawdę związaną z tą obserwacją. Ich perspektywa jest odświeżająca, która różni się od sztywnego determinizmu klasycznej praktyki statystycznej XX wieku, która rzuciła ręce w górę, gdy np. Matryca produktów krzyżowych nie odwróciłaby się i / lub pewne założenia modelu pedantycznego nie zostały spełnione.
źródło