Pracuję nad podręcznikiem statystyk, ucząc się języka R, i natknąłem się na przeszkodę na następującym przykładzie:
Po obejrzeniu ?quantile
próbowałem odtworzyć to w R z następującymi elementami:
> nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104)
> quantile(nuclear)
0% 25% 50% 75% 100%
6.0 9.5 16.0 28.0 104.0
Biorąc pod uwagę, że tekst i R mają różne wyniki, rozumiem, że R wykorzystuje medianę w obliczeniach pierwszego i trzeciego kwartylu.
Pytanie:
Czy powinienem uwzględnić medianę przy obliczaniu pierwszego i trzeciego kwartylu?
Mówiąc dokładniej, czy podręcznik lub R mają to poprawnie? Jeśli w podręczniku jest to poprawne, czy istnieje sposób, aby poprawnie to osiągnąć w R?
Z góry dziękuję.
quantile
typy 1, 2 i 6 odtworzą je dla zestawu danych o tym konkretnym rozmiarze . Żadna zR
metod nie odpowiada twojemu podręcznikowi. (Można się zastanawiać nad jakością tego tekstu ...)quantile
.?quantile
Odpowiedzi:
Twój podręcznik jest zdezorientowany. Bardzo niewiele osób lub oprogramowania definiuje kwartyle w ten sposób. (Zwykle pierwszy kwartyl jest zbyt mały, a trzeci kwartyl zbyt duży).
Ta
quantile
funkcjaR
implementuje dziewięć różnych sposobów obliczania kwantyli! Aby zobaczyć, który z nich, jeśli w ogóle, odpowiada tej metodzie, zacznijmy od jej wdrożenia. Z opisu możemy napisać algorytm, najpierw matematycznie, a następnie wR
:Dla każdego zestawu danych mediana jest jego wartością środkową, gdy występuje nieparzysta liczba wartości; w przeciwnym razie jest to średnia z dwóch średnich wartości, gdy występuje parzysta liczba wartości.
R
„Smedian
oblicza tego.Oto implementacja. Pomoże ci to wykonywać ćwiczenia w tym podręczniku.
Na przykład dane wyjściowe są
quart(c(6,7,8,9,10,15,16,16,20,20,23,33,50,58,104))
zgodne z tekstem:Obliczmy kwartyle dla niektórych małych zestawów danych, używając wszystkich dziesięciu metod: dziewięciu w
R
i podręcznika:Po uruchomieniu i sprawdzeniu okaże się, że wartości podręcznika nie zgadzają się z żadnym z
R
wyników dla wszystkich trzech wielkości próbek. (Schemat nieporozumień trwa w cyklach trzeciego okresu, co pokazuje, że problem utrzymuje się bez względu na to, jak duża może być próbka.)źródło
W dziedzinie statystyki (której uczę, ale w której nie jestem badaczem), obliczenia kwartylowe są szczególnie niejednoznaczne (w sposób niekoniecznie prawdziwy dla kwantyli, bardziej ogólnie). Ma za sobą wiele historii, częściowo ze względu na wykorzystanie (i być może nadużycie) zakresu międzykwartylowego (IQR), który jest niewrażliwy na wartości odstające, jako czek lub alternatywa dla odchylenia standardowego. Pozostaje otwarty konkurs, a trzy charakterystyczne metody obliczania Q1 i Q3 są współkanoniczne.
Jak to często bywa, artykuł w Wikipedii ma rozsądne streszczenie: https://en.m.wikipedia.org/wiki/Quartile Tekst Larsona i Farbera, podobnie jak większość tekstów podstawowych statystyk, używa tego, co opisano w artykule Wikipedii jako „ Metoda 1. ” Jeśli postępuję zgodnie z powyższymi opisami, r używa „Metody 3”. Będziesz musiał sam zdecydować, co jest kanonicznie odpowiednie w twojej dziedzinie.
źródło