Znalezienie kwartyli w R.

33

Pracuję nad podręcznikiem statystyk, ucząc się języka R, i natknąłem się na przeszkodę na następującym przykładzie:

wprowadź opis zdjęcia tutaj

Po obejrzeniu ?quantilepróbowałem odtworzyć to w R z następującymi elementami:

> nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104)
> quantile(nuclear)
   0%   25%   50%   75%  100% 
  6.0   9.5  16.0  28.0 104.0 

Biorąc pod uwagę, że tekst i R mają różne wyniki, rozumiem, że R wykorzystuje medianę w obliczeniach pierwszego i trzeciego kwartylu.

Pytanie:

Czy powinienem uwzględnić medianę przy obliczaniu pierwszego i trzeciego kwartylu?

Mówiąc dokładniej, czy podręcznik lub R mają to poprawnie? Jeśli w podręczniku jest to poprawne, czy istnieje sposób, aby poprawnie to osiągnąć w R?

Z góry dziękuję.


źródło
6
Kilka wątków tutaj omawia wiele sposobów obliczania lub szacowania kwantyli. Oto jedna z wiarygodną odpowiedzią , ale inne są dostępne, przeszukując naszą stronę. Krótko mówiąc, wydaje się, że twój podręcznik przedstawia niestandardową metodę obliczania kwartyli, ale quantiletypy 1, 2 i 6 odtworzą je dla zestawu danych o tym konkretnym rozmiarze . Żadna z Rmetod nie odpowiada twojemu podręcznikowi. (Można się zastanawiać nad jakością tego tekstu ...)
whuber
@whuber Dzięki za ten komentarz bardzo pomógł, ponieważ obawiam się, że nie mam jeszcze zaplecza technicznego, aby dokładnie rozróżnić, co robią różne typy quantile.
@ whuber: jest wyraźnie niestandardowy (o czym pewnie wspomniano gdzieś w książce), ale nie jest nieintuicyjny. Czy uważasz, że jest to matematycznie złe?
Michael M.
6
n
1
R używa dziewięciu różnych definicji kwantyli (domyślnie używa definicji 7). Zobacz?quantile
Glen_b

Odpowiedzi:

43

Twój podręcznik jest zdezorientowany. Bardzo niewiele osób lub oprogramowania definiuje kwartyle w ten sposób. (Zwykle pierwszy kwartyl jest zbyt mały, a trzeci kwartyl zbyt duży).

Ta quantilefunkcja Rimplementuje dziewięć różnych sposobów obliczania kwantyli! Aby zobaczyć, który z nich, jeśli w ogóle, odpowiada tej metodzie, zacznijmy od jej wdrożenia. Z opisu możemy napisać algorytm, najpierw matematycznie, a następnie w R:

  1. x1x2xn

  2. Dla każdego zestawu danych mediana jest jego wartością środkową, gdy występuje nieparzysta liczba wartości; w przeciwnym razie jest to średnia z dwóch średnich wartości, gdy występuje parzysta liczba wartości. R„S medianoblicza tego.

    m=(n+1)/2(xl+xu)/2lummxml=m1u=m+1lu

  3. xiil(xi)jau

Oto implementacja. Pomoże ci to wykonywać ćwiczenia w tym podręczniku.

quart <- function(x) {
  x <- sort(x)
  n <- length(x)
  m <- (n+1)/2
  if (floor(m) != m) {
    l <- m-1/2; u <- m+1/2
  } else {
    l <- m-1; u <- m+1
  }
  c(Q1=median(x[1:l]), Q3=median(x[u:n]))
}

Na przykład dane wyjściowe są quart(c(6,7,8,9,10,15,16,16,20,20,23,33,50,58,104))zgodne z tekstem:

Q1 Q3 
 9 33 

Obliczmy kwartyle dla niektórych małych zestawów danych, używając wszystkich dziesięciu metod: dziewięciu w Ri podręcznika:

y <- matrix(NA, 2, 10)
rownames(y) <- c("Q1", "Q3")
colnames(y) <- c(1:9, "Quart")
for (n in 3:5) {
  j <- 1
  for (i in 1:9) {
    y[, i] <- quantile(1:n, probs=c(1/4, 3/4), type=i)
  }
  y[, 10] <- quart(1:n)
  cat("\n", n, ":\n")
  print(y, digits=2)
}

Po uruchomieniu i sprawdzeniu okaże się, że wartości podręcznika nie zgadzają się z żadnym z Rwyników dla wszystkich trzech wielkości próbek. (Schemat nieporozumień trwa w cyklach trzeciego okresu, co pokazuje, że problem utrzymuje się bez względu na to, jak duża może być próbka.)

9.528

Whuber
źródło
3
Ogromne podziękowania za tak szczegółową odpowiedź wraz z udostępnieniem mi narzędzi do samodzielnej pracy i oceny różnych metod. Teraz je zwolnię i przejrzę bardziej szczegółowo.
2

W dziedzinie statystyki (której uczę, ale w której nie jestem badaczem), obliczenia kwartylowe są szczególnie niejednoznaczne (w sposób niekoniecznie prawdziwy dla kwantyli, bardziej ogólnie). Ma za sobą wiele historii, częściowo ze względu na wykorzystanie (i być może nadużycie) zakresu międzykwartylowego (IQR), który jest niewrażliwy na wartości odstające, jako czek lub alternatywa dla odchylenia standardowego. Pozostaje otwarty konkurs, a trzy charakterystyczne metody obliczania Q1 i Q3 są współkanoniczne.

Jak to często bywa, artykuł w Wikipedii ma rozsądne streszczenie: https://en.m.wikipedia.org/wiki/Quartile Tekst Larsona i Farbera, podobnie jak większość tekstów podstawowych statystyk, używa tego, co opisano w artykule Wikipedii jako „ Metoda 1. ” Jeśli postępuję zgodnie z powyższymi opisami, r używa „Metody 3”. Będziesz musiał sam zdecydować, co jest kanonicznie odpowiednie w twojej dziedzinie.

James Klock
źródło
Robisz dobre punkty (+1). Ale biorąc pod uwagę, że odniesienia do „Metody 1” to kalkulator TI-83 i Excel (których brak wiarygodności jest dobrze znany), że metoda ta jest wyraźnie tendencyjna i że obliczenie nie jest trudniejsze niż zawiasy Tukeya, wydaje się trudne do uzasadnienia lub zalecić jego użycie.
whuber