Mam nadzieję uzyskać lepszy wgląd w cztery rodzaje przekrzywienia tej społeczności.
Typy, o których mówię, są wymienione na stronie pomocy http://www.inside-r.org/packages/cran/e1071/docs/skewness .
Stara metoda nie została wymieniona na stronie pomocy, ale mimo to ją uwzględniam.
require(moments)
require(e1071)
x=rnorm(100)
n=length(x)
hist(x)
###############type=1
e1071::skewness(x,type=1)
sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source
m_r=function(x,r) {n=length(x); sum((x - mean(x))^r/n);} ##from e1071::skewness help
g_1=function(x) m_r(x,3)/m_r(x,2)^(3/2)
g_1(x) ##from e1071::skewness help
moments::skewness(x) ##from e1071::skewness help
(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) ##from moments::skewness code, exactly as skewness help page
###############type=2
e1071::skewness(x,type=2)
e1071::skewness(x,type=1) * sqrt(n * (n - 1))/(n - 2) #from e1071::skewness source
G_1=function(x) {n=length(x); g_1(x)*sqrt(n*(n-1))/(n-2);} #from e1071::help
G_1(x)
excel.skew=function(x) { n=length(x); return(n/((n-1)*(n-2))*sum(((x-mean(x))/sd(x))^3));}
excel.skew(x)
###############type=3
e1071::skewness(x,type=3)
e1071::skewness(x,type=1) * ((1 - 1/n))^(3/2) #from e1071::skewness source
b_1=function(x) {n=length(x); g_1(x)*((n-1)/n)^(3/2); } #from e1071::skewness help page
b_1(x);
prof.skew=function(x) sum((x-mean(x))^3)/(length(x)*sd(x)^3);
prof.skew(x)
###############very old method that fails in weird cases
(3*mean(x)-median(x))/sd(x)
#I found this to fail on certain data sets as well...
Oto artykuł, do którego nawiązuje autor e1071: http://onlinelibrary.wiley.com/doi/10.1111/1467-9884.00122/pdf Joanes i CA Gill (1998), Porównując miary skośności próbki i kurtozy.
Z mojego czytania tego artykułu wynika, że typ 3 ma najmniejszy błąd.
Oto przykłady skosu z powyższego kodu:
e1071::skewness(x,type=1)
-0.1620332
e1071::skewness(x,type=2)
-0.1645113
e1071::skewness(x,type=3)
-0.1596088
#old type:
0.2694532
Zauważyłem również, że autor e1071 napisał funkcję pochylenia inną niż uwagi na stronie pomocy. Zwróć uwagę na sqrt:
sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source
(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) #from moments and e1071 help page
Wszelkie pomysły, dlaczego sqrt (n) jest w pierwszym równaniu? Które równanie lepiej obsługuje przepełnienie / niedopełnienie? Wszelkie inne pomysły, dlaczego są one różne (ale dają takie same wyniki)?
Odpowiedzi:
Zacznijmy od tej, którą opisujesz jako „starą metodę”; jest to druga skośność Pearsona lub skośność środkowa ; w rzeczywistości skośność momentu i te są zasadniczo tego samego rocznika (skośność środkowa jest w rzeczywistości nieco młodsza, ponieważ skośność ta poprzedza wysiłki Pearsona).
Trochę dyskusji na temat niektórych historii można znaleźć tutaj ; ten post może również rzucić nieco światła na kilka innych pytań.
Jeśli przeszukasz naszą stronę za pomocą drugiego skosu Pearsona , trafisz na kilka postów, które zawierają dyskusję na temat zachowania tego środka.
Nie jest to nic dziwniejszego niż moment skośności w moim umyśle; oboje czasami robią dziwne rzeczy, które nie odpowiadają oczekiwaniom ludzi co do pomiaru skośności.
Zwykła formab1 jest omówione w Wikipedii tutaj ; jak mówi, jest to metoda estymatora momentów i jest rzeczą naturalną do zastosowania, biorąc pod uwagę obliczenia populacji w kategoriach znormalizowanego trzeciego momentu.
Jeśli ktoś używasn dla sn - 1 (tzn. bez korekcji Bessela) otrzymujesz sol1 wpisz, o którym wspominasz; oba są tak zwane „metodą chwil”. Nie jest dla mnie jasne, czy warto rozdzielić mianownik, ponieważ niekoniecznie rozkłada to proporcje; warto to zrobić, aby obliczenia odpowiadały temu, czego ludzie mogą oczekiwać od ręki.
Istnieje jednak drugi (równoważny) sposób zdefiniowania skośności populacji pod względem kumulantów (patrz powyższy link w Wikipedii), a jeśli dla skośności próbki użyto obiektywnych oszacowań tych, otrzymujeszsol1 .
[Zauważ, że pomnożenie licznikab1 przez n2(n−1)(n−2) usuwa to, więc może to być kolejny powód, dla którego ludzie patrzą na tę formę. Jeśli spróbujemy rozdzielić zarówno obliczenia trzeciego, jak i drugiego momentu, uzyskujemy nieco inny czynnikn,(n−1) i (n−2) wychodzi z przodu.]
Wszystkie trzy są po prostu nieco odmiennymi odmianami skosu w trzeciej chwili. W bardzo dużych próbkach naprawdę nie ma różnicy, której używasz. W mniejszych próbkach wszystkie mają nieco inne tendencje i wariancję.
Omówione tutaj formy nie wyczerpują definicji skośności (myślę, że widziałem ich kilkanaście - artykuł w Wikipedii wymienia sporo, ale nawet to nie obejmuje gamy), ani nawet definicje związane z trzecim -mom skosu, którego widziałem więcej niż trzy, które tu wychowałeś.
Dlaczego istnieje wiele miar skośności?
Tak więc (traktując te skośności w trzeciej chwili jako jedną przez chwilę), dlaczego tak wiele różnych skośności? Częściowo dzieje się tak , ponieważ skośność jako pojęcie jest w rzeczywistości dość trudne do określenia. To śliska rzecz, której tak naprawdę nie można przypisać do jednego numeru. W rezultacie wszystkie definicje są w pewnym sensie mniej niż wystarczające, ale zwykle są zgodne z naszym szerokim rozumieniem tego, co naszym zdaniem powinien zrobić miernik skośności. Ludzie próbują wymyślić lepsze definicje, ale stare miary, takie jak klawiatury QWERTY, nigdzie nie idą.
Dlaczego istnieje kilka miar skośności opartych na 3. momencie?
Jeśli chodzi o to, dlaczego tak wiele pochyłości w trzeciej chwili, to po prostu dlatego, że istnieje więcej niż jeden sposób na przekształcenie pomiaru populacji w miarę próby. Widzieliśmy dwie trasy oparte na momentach i jedną opartą na kumulacjach. Moglibyśmy zbudować jeszcze więcej; możemy na przykład spróbować uzyskać obiektywną miarę (małej próby) przy pewnych założeniach dystrybucyjnych lub miarę błędu minimalnego średniego kwadratu lub inną taką wielkość.
Możesz znaleźć niektóre posty na stronie dotyczące oświecenia skośności; są takie, które pokazują przykłady rozkładów, które nie są symetryczne, ale mają skośność zerową w trzecim momencie. Są takie, które pokazują medianę skośności Pearsona, a skośność w trzeciej chwili może mieć przeciwne znaki.
Oto linki do kilku postów związanych ze skośnością:
Czy średnia = mediana oznacza, że rozkład unimodalny jest symetryczny?
W danych skośnych po lewej stronie jaki jest związek między średnią a medianą?
jak określić skośność z histogramu z wartościami odstającymi?
W odniesieniu do twojego ostatniego pytania dotyczącego obliczeniab1 :
Te dwie formy są algebraicznie identyczne; drugi jest wyraźnie napisany w formie „trzeci moment do drugiego momentu do władzy32 , podczas gdy pierwszy po prostu anuluje warunki w n i usuwa resztki z przodu. Nie sądzę, że zrobiono to z powodów unikania przepełnienia / niedopełnienia; Wyobrażam sobie, że zostało to zrobione, ponieważ uważano, że było trochę szybsze. [Jeśli problemem jest przepełnienie lub niedopełnienie, prawdopodobnie ułożysz obliczenia inaczej.]
źródło