Niedawno zdałem sobie sprawę, że istnieją różnice w wartościach kurtozy dostarczanych przez SPSS i Stata.
Zobacz http://www.ats.ucla.edu/stat/mult_pkg/faq/general/kurtosis.htm
Rozumiem, że interpretacja tego samego byłaby zatem inna.
Wszelkie porady, jak sobie z tym poradzić?
spss
stata
interpretation
kurtosis
Cesare Camestre
źródło
źródło
Odpowiedzi:
Trzy formuły
Trzy formuły kurtozy są na ogół używane przez różne programy. wszystkie trzy formuły ( , i ) oraz programy, które ich używają. G 2 b 2g2 G2 b2
Pierwszy wzór i typową definicję stosuje się w wielu podręcznikach jest (jest to drugi wzór w łączu przesłanymi) , gdzie oznacza przykładowe momenty : mr
Czasami do tej formuły dodawany jest składnik korekcyjny równy -3, tak że rozkład normalny ma kurtozę równą 0. Wzór kurtozowy z terminem -3 nazywa się kurtozą nadmierną (pierwsza formuła w podanym linku).
Drugi wzór jest (używany przez SAS, SPSS i MS Excel, jest to trzecia formuła w linku przez Ciebie)
gdzie to kurtoza zdefiniowana w pierwszej formule.sol2)
Trzeci wzór jest (używany przez MINITAB i BMDP)
gdzie to obiektywna wariancja próbki :s2)
Wg2−3 G2 b2
R
kurtozie można obliczyć za pomocąkurtosis
funkcji ze1071
pakietu (link tutaj ). Opcjatype
określa, która z trzech formuł jest używana do obliczeń (1 = , 2 = , 3 = ).Te dwa artykuły omawiają i porównują wszystkie trzy formuły: pierwszy , drugi .
Podsumowanie różnic między formułami
Zobacz także stronę Wikipedii i stronę MathWorld na temat kurtozy.
źródło
Link, o którym mowa, mówi również o SAS. Ale w rzeczywistości nic w tym pytaniu, z wyjątkiem być może uwagi autora, nie ogranicza go do tych nazwanych programów.
Myślę, że musimy tutaj wyodrębnić całkiem różne rodzaje problemów, z których niektóre są iluzoryczne, a niektóre autentyczne.
Niektóre programy robią, a niektóre nie, odejmują 3, tak że zgłaszana miara kurtozy wynosi 3 dla zmiennych Gaussa / normalnych bez odejmowania i 0 z odejmowaniem. Widziałem ludzi zdziwionych tym, często, gdy okazuje się, że różnica wynosi 2.999, a nie dokładnie 3.
Niektóre programy wykorzystują współczynniki korekcyjne zaprojektowane w celu zapewnienia, że kurtoza jest szacowana bez uprzedzeń. Te współczynniki korekcyjne zbliżają się do 1, gdy wielkość próbki staje się większa. Ponieważ kurtoza nie jest dobrze oszacowana w małych próbkach, nie powinno to stanowić większego problemu.n
Tak więc istnieje niewielki problem z formułami, numer 1 jest znacznie większy niż numer 2, ale oba są drobne, jeśli są zrozumiane. Zaleca się, aby przejrzeć dokumentację używanego programu, a jeśli nie ma dokumentacji wyjaśniającej tego rodzaju szczegóły, należy natychmiast porzucić program. Ale przypadek testowy tak prosty jak zmienna (1, 2) daje kurtozę 1 lub 4 w zależności od samego # 1 (bez współczynnika korekcji).
Pytanie dotyczy zatem interpretacji, ale jest to kwestia o wiele bardziej otwarta i sporna.
Zanim przejdziemy do głównego obszaru dyskusji, często zgłaszaną, ale mało znaną trudnością jest to, że szacunki kurtozy są ograniczone jako funkcja wielkości próby. Napisałem recenzję w Cox, NJ 2010. Granice skośności próbki i kurtozy. Stata Journal 10 (3): 482–495. http://www.stata-journal.com/article.html?article=st0204
Streszczenie: Skośność próbki i kurtoza są ograniczone funkcjami wielkości próby. Ograniczenia lub ich przybliżenia były wielokrotnie odkrywane w ciągu ostatnich kilku dziesięcioleci, ale mimo to wydają się być jedynie mało znane. Granice nadają szacunek szacunkowi, aw skrajnych przypadkach sugerują, że żadna próbka nie mogłaby dokładnie świadczyć o swoim rozkładzie macierzystym. Główne wyniki wyjaśniono w tutorialu i pokazano, jak Stata i Mata mogą być użyte do potwierdzenia i zbadania ich konsekwencji.
Teraz, co jest powszechnie uważane za sedno sprawy:
Wiele osób tłumaczy kurtozę jako szczytowość, ale inni podkreślają, że często służy ona jako miara wagi ogona. W rzeczywistości obie interpretacje mogą być rozsądnym sformułowaniem dla niektórych dystrybucji. Jest prawie nieuniknione, że nie ma prostej werbalnej interpretacji kurtozy: nasz język nie jest wystarczająco bogaty w porównaniu sum czwartych potęg odchyleń od średniej i sum ich drugich potęg.
W niewielkim i często pomijanym klasyku Irving Kaplansky (1945a) zwrócił uwagę na cztery przykłady rozkładów o różnych wartościach kurtozy i zachowaniu niezgodnym z niektórymi dyskusjami na temat kurtozy.
Rozkłady wszystkie są symetryczne średniej 0 i wariancji 1, i funkcji gęstości, o zmiennej i ,x c=π−−√
Kurtoza (bez odejmowania) wynosi (1) 2,75 (2) 3,125 (3) 4,5 (4) 8/3 2,667: porównaj wartość Gaussa lub normalną wynoszącą 3. Gęstość przy średniej wynosi (1) 0,423 (2 ) 0,387 (3) 0,470 (4) 0,366: porównaj wartość Gaussa wynoszącą 0,399.≈
Wykreślanie tych gęstości jest pouczające. Użytkownicy Stata mogą pobrać mój
kaplansky
program z SSC. Pomocne może być użycie skali logarytmicznej dla gęstości.Nie ujawniając pełnych szczegółów, przykłady podważają każdą prostą historię, że niska lub wysoka kurtoza ma jasną interpretację pod względem szczytowości, a nawet jakiegokolwiek innego pojedynczego kontrastu.
Jeśli imię Irvinga Kaplansky'ego dzwoni, to prawdopodobnie dlatego, że znasz jego pracę we współczesnej algebrze. On (1917-2006) był kanadyjskim (później amerykańskim) matematykiem, wykładał i badał w Harvard, Chicago i Berkeley, podczas wojny w Applied Mathematics Group National Defense Council na Columbia University. Kaplanski wniósł znaczący wkład w teorię grup, teorię pierścieni, teorię algebry operatorów i teorię pola. Był wybitnym pianistą i autorem tekstów oraz entuzjastycznym i świadomym wykładowcą matematyki. Zwróć także uwagę na inne wkłady w prawdopodobieństwo i statystyki Kaplansky'ego (1943, 1945b) oraz Kaplansky'ego i Riordana (1945).
Kaplansky, I. 1943. Charakterystyka rozkładu normalnego. Annals of Mathematical Statistics 14: 197-198.
Kaplansky, I. 1945a. Częsty błąd dotyczący kurtozy. Journal, American Statistics Association 40: 259 tylko.
Kaplansky, I. 1945b. Asymptotyczny rozkład przebiegów kolejnych elementów. Annals of Mathematical Statistics 16: 200-203.
Kaplansky, I. i Riordan, J. 1945. Wielokrotne dopasowanie i przebiega metodą symboliczną. Annals of Mathematical Statistics 16: 272-277.
źródło