Interesuje mnie definicja kwartylu, która jest zwykle używana, gdy jesteś w podstawowych statystykach. Mam książkę typu Stat 101, która daje intuicyjną definicję. „Około jedna czwarta danych przypada na pierwszy kwartyl lub poniżej ...”, ale daje przykład, w którym oblicza Q1, Q2 i Q3 dla zestawu danych
5, 7, 9, 10, 11, 13, 14, 15, 16, 17, 18, 18, 20, 21, 37
Ponieważ jest 15 danych, wybiera 15 jako medianę Q2. Następnie dzieli pozostałe dane na dwie połowy, od 5 do 14 i od 16 do 37. Każda z nich zawiera 7 części danych i znajduje medianę każdego z tych zbiorów, odpowiednio 10 i 18, odpowiednio jako Q1 i Q3. Tak bym to sam obliczył.
Przejrzałem artykuł Wikipedii, który podaje 2 metody. Jeden zgadza się z powyższym, a drugi mówi, że możesz również zawrzeć medianę 15 w obu zestawach (ale nie uwzględniłbyś mediany, gdyby była to średnia z dwóch środkowych liczb w przypadku parzystej liczby punktów danych). To wszystko ma dla mnie sens.
Ale potem sprawdziłem Excela, aby zobaczyć, jak Excel go oblicza. Korzystam z programu Excel 2010, który ma 3 różne funkcje. Kwartyl był dostępny w 2007 roku i poprzednich wersjach. Wygląda na to, że chcą, abyś przestał używać tego w 2010 roku, ale nadal jest dostępny. Kwartyl.Inc jest nowy, ale o ile wiem, zgadza się dokładnie z Kwartylem. I jest też Kwartyl. Exc. Wydaje mi się, że oba ostatnie 2 są nowe w 2010 roku. Tym razem po prostu spróbowałem użyć liczb całkowitych 1, 2, 3, ..., 10. Oczekuję, że Excel poda medianę 5,5, Q1 3 i Q3 8. Metoda z księgi statystycznej również ponieważ obie metody na Wikipedii dałyby te odpowiedzi, ponieważ mediana jest średnią z dwóch środkowych liczb. Excel daje
quartile number, Quartile.Inc, Quartile.Exc
1, 3.25, 2.75
2, 5.5, 5.5
3, 7.75, 8.25
Żadne z nich nie zgadza się z tym, o czym wcześniej mówiłem.
Opisy w pliku pomocy dla programu Excel to:
Quartile.Inc - Zwraca kwartyl zestawu danych na podstawie wartości percentyla od 0..1 włącznie.
Quartile.Exc - Zwraca kwartyl zestawu danych na podstawie wartości percentyli od 0..1, wyłączne.
Czy ktoś może mi pomóc zrozumieć tę definicję, z której korzysta Excel?
Odpowiedzi:
Zazwyczaj ranga (od 1 do n dla n danych) jest konwertowana na procent pr 1 n n p za pomocą wzoru
dla pewnej z góry określonej „pozycji kreślenia” między 0 a 1 włącznie. Rozwiązanie dla rw kategoriach p dajeα 0 1 r p
Excel historycznie używał dla swoich i funkcjiα=1
PERCENTILE
QUARTILE
. Dokumentacja online dlaQUARTILE.INC
iQUARTILE.EXC
jest bezużyteczna, dlatego musimy dokonać inżynierii wstecznej, co robią te funkcje.Na przykład dla danych mamy n = 10, a p ∈ { 25 , 50 , 75 } dla trzech kwartylów. Zastosowanie α = 1 w poprzednim wzorze daje rangę 9 ( 0,25 ) + 1 = 3,25 , 9 ((1,2,3,4,5,6,7,8,9,10) n=10 p∈{25,50,75} α=1 9(0.25)+1=3.25 i 9 ( 0,75 ) + 1 = 7,75 , powielając wyniki dla.9(0.50)+1=5.5 9(0.75)+1=7.75
QUARTILE.INC
Jeśli zamiast tego ustawimy odpowiednie rangi to 11 ( 0,25 ) = 2,75 , 11 ( 0,50 ) = 5,5 i 11 ( 0,75 ) = 8,25 , powielając wyniki .α=0 11(0.25)=2.75 11(0.50)=5.5 11(0.75)=8.25
QUARTILE.EXC
Dalsze testy z twojej strony (nie mam najnowszej wersji programu Excel) mogą ustalić słuszność mojego przypuszczenia, że te dwie wersje funkcji kwartylu są określone przez te dwie (ekstremalne) wartościα .
Nawiasem mówiąc, szeregi ułamkowe są przekształcane w wartości danych za pomocą interpolacji liniowej. Proces ten został wyjaśniony i zilustrowany w moich notatkach z kursu pod adresem wykresach Percentiles i EDF wykresach Percentiles patrz u dołu tej strony. Istnieje również łącze do arkusza kalkulacyjnego Excel ilustrującego obliczenia.
Jeśli chcesz zaimplementować ogólną funkcję percentyla w programie Excel , oto makro VBA, aby to zrobić:
Konwertuje nominalny procent (np. 25/100) na procent, który spowodowałby, że
PERCENTILE
funkcja Excel zwrócił pożądaną wartość. Jest przeznaczony do stosowania w formułach komórkowych, jak w=PERCENTILE(Data, PercentileA(0.25, Count(Data), 0.5))
.źródło
Wydaje mi się, że Excel
quartile.inc
zgadza się z oryginałemquartile
, który zgadza się z domyślnymi i innymi definicjami R.Korzystając z pomocnej wskazówki od whubera, stwierdziłem, że Excel
quartile.exc
wydaje się zgadzać (w przypadku 1..10) ztype=6
definicją kwantylu przez R :Co najwyraźniej stanowi odpowiedź na twoje pytanie: „Tak, robią to Minitab i SPSS”.
źródło
Myślę, że doskonałym smakiem kwartylu jest po prostu ignorowanie 5 i 37 (min i maks w oryginalnych danych).
W wersji Stata zarówno wersja domyślna, jak i wersja alternatywna dają wartości quartile.exc z tymi danymi.
źródło
QUARTILE.EXC
.#NUM!
, więc wydaje się, że twoja charakterystyka jest lepsza (ale moja charakterystyka zapewnia twoje). Zastanawiam się, jaka jest obecnaPERCENTILE
funkcja programu Excel ? :-)Wiele interesujących szczegółów, ale wracając do pierwotnego pytania, nie widzę dwóch naprawdę różnych sposobów, które mogą nie dać dokładnie tej samej odpowiedzi. Pierwszym kwartalnym jest punkt, w którym 25% obserwacji znajduje się poniżej lub poniżej niego. W zależności od wielkości próbki, która może, ale nie musi być dokładnym punktem w danych. Więc jeśli jeden punkt znajduje się poniżej, a następny powyżej, ten pierwszy kwartyl nie jest tak naprawdę dobrze zdefiniowany, a jakikolwiek punkt między tymi dwoma może służyć równie dobrze. To samo dotyczy mediany, gdy wielkość próbki jest parzysta. Reguła wybiera punkt środkowy między punktami danych poniżej i powyżej. Ale tak naprawdę nic nie mówi, że wybór podany przez regułę jest naprawdę lepszy niż jakikolwiek inny punkt.
źródło
Dla tych, którzy używają Excela, istnieje całkiem dobry podział różnych metod wersji tutaj http://peltiertech.com/WordPress/comparison/
źródło
w programie Excel 2016 zauważyłem, że można uzyskać prawidłowe wartości kwartyli, jeśli:
źródło