W „wycięcie” dokument pomocy ( lub tekst oryginalny ) z wykresu pudełkowego w „R” daje następujące elementy:
Jeżeli wycięcia dwóch wykresów nie pokrywają się, jest to „mocny dowód”, że dwie mediany różnią się (Chambers i in., 1983, s. 62). Zastosowane obliczenia znajdują się w boxplot.stats.
a „ boxplot.stats ” podaje:
Nacięcia (na żądanie) rozciągają się do +/- 1,58 IQR / sqrt (n). Wydaje się, że opiera się to na tych samych obliczeniach, co wzór na 1,57 w Chambers i wsp. (1983, s. 62), podany w McGill i wsp. (1978, s. 16). Opierają się one na asymptotycznej normalności mediany i w przybliżeniu równych wielkościach próbek dla dwóch porównywanych median, i mówi się, że są raczej niewrażliwe na podstawowe rozkłady próbek. Wydaje się, że chodzi o podanie około 95% przedziału ufności dla różnicy między dwoma medianami.
Teraz jestem bardziej zaznajomiony z używaniem wersji JMP testu Tukey-Kramer do porównywania średnich kolumn. Dokumentacja dla JMP daje to:
Pokazuje test, który jest dopasowany do wszystkich różnic między średnimi. Jest to test HSD Tukeya lub Tukeya-Kramera (różnica naprawdę istotna). (Tukey 1953, Kramer 1956). Ten test jest dokładnym testem na poziomie alfa, jeśli rozmiary próbek są takie same, i zachowawcze, jeśli rozmiary próbek są różne (Hayter 1984).
Pytanie: Jaki jest charakter związku między tymi dwoma podejściami? Czy istnieje sposób na przekształcenie jednego w drugi?
Wygląda na to, że szuka się w przybliżeniu 95% CI dla mediany i określa się, czy zachodzi ona na siebie; a drugi to „dokładny test alfa” (moje próbki są tego samego rozmiaru) w celu ustalenia, czy mediany dwóch zestawów próbek znajdują się w rozsądnym zakresie od siebie.
Odnoszę się do pakietów, ale interesuje mnie matematyka stojąca za logiką.
źródło