Chcę wiedzieć, jaki jest zakres wartości skośności i kurtozy, dla których dane są uważane za normalnie rozłożone.
Przeczytałem wiele argumentów i przeważnie miałem pomieszane odpowiedzi. Niektórzy mówią, że skośność i dla kurtozy jest dopuszczalnym zakresem normalnego rozkładu. Niektórzy mówią że skośność jest dopuszczalnym zakresem. Znalazłem tutaj szczegółową dyskusję: Jaki jest dopuszczalny zakres skośności i kurtozy dla normalnego rozkładu danych dotyczących tego problemu. Ale nie mogłem znaleźć żadnego decydującego stwierdzenia.
Jaka jest podstawa do podjęcia decyzji o takim odstępie czasu? Czy to subiektywny wybór? A może kryje się za tym matematyczne wytłumaczenie?
normal-distribution
skewness
kurtosis
Mroczny rycerz
źródło
źródło
Odpowiedzi:
Oryginalny post pomija kilka głównych punktów: (1) Żadne „dane” nigdy nie mogą być normalnie rozpowszechniane. Dane są z konieczności dyskretne. Prawidłowe pytanie brzmi: „czy proces, który wytworzył dane, jest procesem normalnie rozproszonym?” Ale (2) odpowiedź na drugie pytanie brzmi zawsze „nie”, niezależnie od tego, co daje ci test statystyczny lub inna ocena oparta na danych. Normalnie rozproszone procesy wytwarzają dane z nieskończoną ciągłością, idealną symetrią i precyzyjnie określonymi prawdopodobieństwami w standardowych zakresach odchyleń (np. 68-95-99,7), z których żaden nie jest nigdy dokładnie zgodny z procesami, które dają podstawę do danych, które możemy zmierzyć czymkolwiek urządzenie pomiarowe, którego ludzie mogą używać.
Tak więc nigdy nie można uznać, że dane są normalnie dystrybuowane, i nigdy nie można uważać procesu, który wytworzył dane, za dokładnie precyzyjnie rozproszony proces. Ale, jak wskazał Glen_b, może to nie mieć większego znaczenia, w zależności od tego, co próbujesz zrobić z danymi.
Statystyki skośności i kurtozy mogą pomóc ocenić pewne rodzaje odchyleń od normalności procesu generowania danych. Są to jednak bardzo zmienne statystyki. Podane powyżej standardowe błędy są nieprzydatne, ponieważ są prawidłowe tylko w normalności, co oznacza, że są użyteczne jedynie jako test normalności, ćwiczenie zasadniczo bezużyteczne. Lepiej byłoby użyć bootstrapu, aby znaleźć se, chociaż duże próbki byłyby potrzebne, aby uzyskać dokładne se.
Również kurtoza jest bardzo łatwa do interpretacji, w przeciwieństwie do powyższego postu. Jest to średnia (lub oczekiwana wartość) wartości Z, każda wzięta do czwartej potęgi. Large | Z | wartości są wartościami odstającymi i w znacznym stopniu przyczyniają się do kurtozy. Small | Z | wartości, gdzie „szczyt” rozkładu, daje wartości Z ^ 4, które są małe i nie przyczyniają się zasadniczo do kurtozy. W moim artykule https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/ udowodniłem, że kurtoza jest bardzo dobrze przybliżona przez średnią wartości Z ^ 4 * I (| Z |> 1). Dlatego kurtoza mierzy skłonność procesu generowania danych do generowania wartości odstających.
źródło
Wydaje się, że o to pytasz, to standardowy błąd skośności i kurtozy próbki pobranej z normalnej populacji. Zauważ, że istnieją różne sposoby szacowania rzeczy, takie jak skośność lub tłuszczowanie ( kurtoza ), co oczywiście wpłynie na to, jaki będzie standardowy błąd. Najczęstsze środki, o których ludzie myślą, są bardziej znane jako trzecia i czwarta znormalizowana chwila.
Za to, co jest warte, standardowe błędy to:
Dobry wstępny opis skośności i kurtozy można znaleźć tutaj .
źródło
[W dalszej części zakładam, że proponujesz coś w rodzaju „sprawdź skośność próbki i kurtozę, jeśli oba mieszczą się w określonych wcześniej zakresach, użyj normalnej procedury teoretycznej, w przeciwnym razie użyj czegoś innego”.]
Jest w tym wiele aspektów, z których będziemy mieli miejsce tylko na kilka uwag. Zacznę od przedstawienia, jak uważam, ważnych kwestii, na które warto zwrócić uwagę, zanim przejdę do zastosowania takiego kryterium. Spróbuję później wrócić i napisać trochę o każdym elemencie:
Zagadnienia do rozważenia
Jak bardzo różne rodzaje nienormalności mają znaczenie dla tego, co robimy?
Jak trudno jest wychwycić te odchylenia za pomocą zakresów skośności próbki i kurtozy?
Jedna rzecz, z którą zgadzam się we wniosku - dotyczy pary miar związanych z rozmiarem efektu ( o ile odchylenie od normalności), a nie o znaczeniu. W tym sensie zbliży się do rozwiązania czegoś pożytecznego, co zrobiłby test formalnej hipotezy, który będzie miał tendencję do odrzucania nawet błahych odchyleń przy dużych rozmiarach próby, oferując jednocześnie fałszywe pocieszenie braku odrzucenia znacznie większych (i bardziej wpływowych) odchyleń przy małe rozmiary próbek. (Testy hipotez rozwiązują tutaj niewłaściwe pytanie).
Oczywiście przy małych próbkach jest to nadal problematyczne w tym sensie, że pomiary są bardzo „hałaśliwe”, więc nadal możemy zostać wprowadzeni w błąd (przedział ufności pomoże nam zobaczyć, jak źle może być).
Nie mówi nam, w jaki sposób odchylenie skośności lub kurtozy odnosi się do problemów z czymkolwiek, od czego chcemy normalności - a różne procedury mogą być zupełnie różne w swoich reakcjach na nienormalność.
Nie pomaga nam to, gdy nasze odstępstwo od normalności jest na tyle, że skośność i kurtoza będą ślepe.
Jeśli wykorzystujesz te przykładowe statystyki jako podstawę do podjęcia decyzji między dwiema procedurami, jaki jest wpływ na właściwości wynikowego wnioskowania (np. W przypadku testu hipotez, jak wygląda twój poziom istotności i moc?)
Istnieje nieskończona liczba rozkładów, które mają dokładnie taką samą skośność i kurtozę jak rozkład normalny, ale są wyraźnie nienormalne. Nie muszą nawet być symetryczne! Jak istnienie takich rzeczy wpływa na stosowanie takich procedur? Czy przedsiębiorstwo jest skazane od samego początku?
Jaką zmienność skosu próbki i kurtozy można zobaczyć w próbkach pobranych z rozkładów normalnych? (Jaką część normalnych próbek ostatecznie wyrzucilibyśmy według jakiejś reguły?)
[Częściowo ten problem jest związany z niektórymi rozważaniami Gunga w jego odpowiedzi.]
Czy może być coś lepszego do zrobienia zamiast tego?
Wreszcie, jeśli po rozważeniu wszystkich tych kwestii zdecydujemy, że powinniśmy zastosować to podejście, dochodzimy do rozważań wynikających z twojego pytania:
jakie są dobre warunki dla skośności i kurtozy dla różnych procedur? O jakie zmienne musimy się martwić, w których procedurach?
(np. jeśli wykonujemy regresję, zwróć uwagę, że niewłaściwe jest radzenie sobie z dowolnym IV, a nawet surowym DV w ten sposób - zakłada się, że żaden z nich nie został pobrany ze zwykłego rozkładu normalnego)
Wrócę i dodam kilka przemyśleń, ale wszelkie komentarze / pytania, które masz w międzyczasie, mogą być przydatne.
źródło