Powiadomienie po tabeli ANOVA po analizie K-średnich wskazuje, że poziomy istotności nie powinny być traktowane jako test równych średnich, ponieważ rozwiązanie klastrowe zostało wyprowadzone na podstawie odległości euklidesowej w celu maksymalizacji odległości. Jakiego testu należy użyć, aby pokazać, czy średnie zmiennych klastrowych różnią się między klastrami? Widziałem to ostrzeżenie w tabeli ANOVA podanej w wynikach k-średnich, ale w niektórych źródłach widzę, że przeprowadzane są testy ANOVA post-hoc. Czy powinienem zignorować dane wyjściowe ANOVA typu k-mean i uruchomić jednokierunkową analizę ANOVA z testami post-hoc i interpretować je w tradycyjny sposób? Czy mogę jedynie sugerować wielkość F i które zmienne przyczyniły się bardziej do różnicy? Innym nieporozumieniem jest to, że zmienne grupujące nie są zwykle dystrybuowane, co narusza założenie ANOVA, wtedy mógłbym zastosować test nieparametryczny Kruskala-Wallisa, ale ma on założenie o tych samych rozkładach. Rozkłady międzyklastrowe dla określonych zmiennych nie wydają się takie same, niektóre są dodatnio wypaczone, niektóre są negatywne ... Mam 1275 dużych próbek, 5 klastrów, 10 zmiennych klastrowych mierzonych w wynikach PCA.
14
Odpowiedzi:
Nie!
Nie wolno używać tych samych danych do 1) przeprowadzania grupowania i 2) poszukiwania znaczących różnic między punktami w klastrach. Nawet jeśli w danych nie ma faktycznej struktury, grupowanie narzuci ją, grupując punkty znajdujące się w pobliżu. Zmniejsza to wariancję wewnątrz grupy i zwiększa wariancję między grupami, co powoduje tendencję do fałszywych trafień.
W ANOVA nie ma nic specjalnego - można by zobaczyć podobne efekty przy użyciu testów nieparametrycznych, regresji logistycznej, czegokolwiek. Zasadniczo sprawdzanie poprawności działania algorytmu klastrowania jest trudne, szczególnie jeśli dane nie są oznaczone. Istnieje jednak kilka podejść do „wewnętrznej weryfikacji” lub pomiaru jakości klastrów bez korzystania z zewnętrznych źródeł danych. Zazwyczaj koncentrują się na zwartości i możliwości rozdzielania klastrów. Ta recenzja autorstwa Lui i in. (2010) może być dobrym miejscem do rozpoczęcia.
źródło
Twoim prawdziwym problemem jest szpiegowanie danych. Nie można zastosować ANOVA lub KW, jeśli obserwacje zostały przypisane do grup (klastrów) na podstawie samego zestawu danych wejściowych. Możesz użyć czegoś takiego jak statystyka szczelin, aby oszacować liczbę klastrów.
Z drugiej strony, snoopedowane wartości p są tendencyjne w dół, więc jeśli wynik testu ANOVA lub KW jest nieznaczny, wówczas „prawdziwa” wartość p jest jeszcze większa i możesz zdecydować o połączeniu klastrów.
źródło
Myślę, że możesz zastosować takie podejście (tj. Używając statystyk, takich jak statystyka F lub statystyka t lub cokolwiek innego), jeśli wyrzucisz zwykłe rozkłady zerowe .
To, co musisz zrobić, to zasymulować sytuację, w której wartość null jest prawdziwa, zastosować całą procedurę (grupowanie itp.), A następnie obliczyć dowolną statystykę za każdym razem. Zastosowany w wielu symulacjach, uzyskasz rozkład statystyki poniżej zera, z którym można porównać wartość twojej próbki. Włączając szpiegowanie danych do obliczeń, bierzesz pod uwagę jego efekt.
[Alternatywnie można opracować test oparty na ponownym próbkowaniu (oparty na permutacji / randomizacji lub ładowaniu początkowym).]
źródło