Jakie jest uzasadnienie, jeśli w ogóle, zastosowania analizy dyskryminacyjnej (DA) w odniesieniu do wyników algorytmu grupowania, takiego jak k-średnie, co widzę od czasu do czasu w literaturze (zasadniczo na temat klinicznego podtypu zaburzeń psychicznych)?
Zasadniczo nie zaleca się testowania różnic grupowych w zmiennych, które zostały użyte podczas budowy klastra, ponieważ obsługują one maksymalizację (lub minimalizację) bezwładności między klasami (lub wewnątrz klasy). Nie jestem więc pewien, czy w pełni docenię wartość dodaną predykcyjnego DA, chyba że staramy się osadzić jednostki w przestrzeni czynnikowej niższego wymiaru i uzyskać pojęcie o „uogólnianiu” takiej partycji. Ale nawet w tym przypadku analiza skupień pozostaje zasadniczo narzędziem eksploracyjnym, więc użycie członkostwa w klasie obliczonego w ten sposób w celu dalszego uzyskania reguły punktacji wydaje się dziwne na pierwszy rzut oka.
Jakieś rekomendacje, pomysły lub wskazówki do odpowiednich dokumentów?
R
: cran.r-project.org/web/packages/adegenet/vignettes/...Odpowiedzi:
Nie znam żadnych dokumentów na ten temat. Zastosowałem to podejście do celów opisowych. DFA stanowi dobry sposób na podsumowanie różnic w grupach i wymiarów względem oryginalnych zmiennych. Łatwiej można po prostu profilować grupy na oryginalnych zmiennych, jednak traci to z natury wielowymiarowy charakter problemu klastrowania. DFA pozwala opisać grupy, zachowując nienaruszony wielowymiarowy charakter problemu. Może więc pomóc w interpretacji klastrów, gdzie jest to celem. Jest to szczególnie idealne, gdy istnieje ścisły związek między metodą grupowania a metodą klasyfikacji - np. DFA i metoda Warda.
Masz rację co do problemu testowania. Opublikowałem artykuł wykorzystujący analizę skupień z kontynuacją DFA, aby opisać rozwiązanie klastrowania. Przedstawiłem wyniki DFA bez statystyk testowych. Recenzent miał z tym problem. Uznałem i umieściłem tam statystyki testowe i wartości p, z zastrzeżeniem, że tych wartości p nie należy interpretować w tradycyjny sposób.
źródło