Mam ponad 3000 wektorów na dwuwymiarowej siatce o mniej więcej jednolitym dyskretnym rozkładzie. Niektóre pary wektorów spełniają określony warunek. Uwaga: warunek dotyczy tylko par wektorów, a nie pojedynczych wektorów. Mam listę około 1500 takich par, nazwijmy to grupą 1. Grupa 2 zawiera wszystkie inne pary wektorów. Chcę dowiedzieć się, czy odległość między wektorami w parze w grupie 1 jest znacznie mniejsza niż średnia odległość między dwoma wektorami. Jak mogę to zrobić?
Test statystyczny : czy centralne twierdzenie graniczne ma zastosowanie w moim przypadku? Czy mogę pobrać środki odległości i użyć testu t-Studenta do porównania średnich próbek spełniających warunek ze średnimi próbek niespełniających warunku? W przeciwnym razie jaki test statystyczny byłby tutaj odpowiedni?
Wielkość próbki i liczba próbek : Rozumiem, że istnieją tutaj dwie zmienne, dla każdej z dwóch grup muszę pobrać n próbek o wielkości m i pobrać średnią z każdej próbki. Czy istnieje jakiś zasadniczy sposób wybrać n oraz m ? Czy powinny być tak duże, jak to możliwe? A może powinny być tak małe, jak to możliwe, o ile wykazują istotność statystyczną? Czy powinny być takie same dla każdej z dwóch grup? A może powinny być większe dla grupy 2, która zawiera znacznie więcej par wektorów?
Odpowiedzi:
Pytanie „znacząco” różne zawsze, zawsze zakłada model statystyczny danych. Ta odpowiedź proponuje jeden z najbardziej ogólnych modeli, który jest zgodny z minimalną ilością informacji zawartych w pytaniu. Krótko mówiąc, będzie działać w wielu różnych przypadkach, ale nie zawsze może być najskuteczniejszym sposobem wykrycia różnicy.
Trzy aspekty danych naprawdę mają znaczenie: kształt przestrzeni zajmowanej przez punkty; rozkład punktów w tej przestrzeni; oraz wykres utworzony przez pary punktowe posiadające „warunek” - który nazywam grupą „leczenia”. Przez „wykres” rozumiem wzór punktów i wzajemnych powiązań sugerowany przez pary punktów w grupie leczenia. Na przykład dziesięć par punktowych („krawędzi”) wykresu może obejmować do 20 różnych punktów lub zaledwie pięć punktów. W pierwszym przypadku żadne dwie krawędzie nie mają wspólnego punktu, podczas gdy w drugim przypadku krawędzie składają się ze wszystkich możliwych par między pięcioma punktami.
Aby ustalić, czy średnia odległość między krawędziami w grupie leczenia jest „znacząca”, możemy rozważyć losowy proces, w którym wszystkie punktów są losowo permutowane przez permutację . To także permutuje krawędzie: krawędź zostaje zastąpiona przez . Hipotezą zerową jest to, że grupa leczenia krawędzi powstaje jako jedna z tych permutacji . Jeśli tak, jego średnia odległość powinna być porównywalna ze średnimi odległościami występującymi w tych permutacjach. Możemy dość łatwo oszacować rozkład tych losowych średnich odległości, próbkując kilka tysięcy wszystkich tych permutacji.σ ( v i , v j ) ( v σ ( i ) , v σ ( j ) ) 3000 ! ≈ 10 21024n = 3000 σ ( vja, vjot) ( vσ( i ), vσ( j )) 3000 ! ≈ 1021024
(Warto zauważyć, że to podejście będzie działać, z niewielkimi modyfikacjami, z dowolną odległością, a nawet dowolną ilością związaną z każdą możliwą parą punktów. Będzie również działało dla każdego podsumowania odległości, a nie tylko średniej).
Aby to zilustrować, oto dwie sytuacje obejmujące punktów i krawędzi w grupie leczenia. W górnym rzędzie pierwsze punkty na każdej krawędzi zostały losowo wybrane ze punktów, a następnie drugie punkty każdej krawędzi zostały niezależnie i losowo wybrane ze punktów różnych od ich pierwszego punktu. Wszyscy razem punktów są zaangażowane w te krawędzi.28 100 100 - 1 39 28n = 100 28 100 100 - 1 39 28
W dolnym rzędzie osiem ze punktów zostało wybranych losowo. W krawędzie składa się ze wszystkich możliwych par nich.28100 28
Histogramy po prawej stronie przedstawiają rozkłady próbkowania dla losowych permutacji konfiguracji. Rzeczywiste średnie odległości dla danych są oznaczone pionowymi przerywanymi czerwonymi liniami. Oba sposoby są zgodne z rozkładami próbkowania: żadne nie leży daleko w prawo ani w lewo.dziesięć tysięcy
Rozkłady próbkowania różnią się: chociaż średnio średnie odległości są takie same, zmiana średniej odległości jest większa w drugim przypadku ze względu na graficzne zależności między krawędziami. Jest to jeden z powodów, dla których nie można zastosować prostej wersji Centralnego Twierdzenia Granicznego: obliczenie standardowego odchylenia tego rozkładu jest trudne.
Zasadniczo odsetek średnich odległości zarówno od symulacji, jak i grupy leczonej, które są równe lub większe niż średnia odległość w grupie leczonej, można przyjąć jako wartość p tego nieparametrycznego testu permutacyjnego.
To jest
R
kod używany do tworzenia ilustracji.źródło
mean(c(sim, stat) <= stat)
lubmean(c(sim, stat) >= stat)
odpowiednio.stat
od środka rozkładu, w obu kierunkach? Coś jakp.value <- mean(abs(c(sim, stat)-mean(sim)) >= abs(stat-mean(sim)))
.