Jakich metod mogę użyć do wnioskowania o rozkładzie, jeśli znam tylko trzy percentyle?
Na przykład wiem, że w pewnym zbiorze danych piąty percentyl wynosi 8,135, 50 percentyl to 11 259, a 95 percentyl to 23 611. Chcę móc przejść z dowolnej innej liczby do jej percentyla.
To nie są moje dane, a to wszystkie statystyki, które mam. Oczywiste jest, że rozkład nie jest normalny. Jedyne inne informacje, jakie posiadam, to to, że dane te reprezentują rządowe fundusze na mieszkańca dla różnych okręgów szkolnych.
Wiem wystarczająco dużo na temat statystyki, aby wiedzieć, że ten problem nie ma określonego rozwiązania, ale nie na tyle, aby wiedzieć, jak znaleźć właściwe domysły.
Czy rozkład logarytmiczny byłby odpowiedni? Jakich narzędzi mogę użyć do przeprowadzenia regresji (lub czy muszę to zrobić samodzielnie)?
źródło
Odpowiedzi:
Zastosowanie metody czysto statystycznej do wykonania tej pracy nie dostarczy absolutnie żadnych dodatkowych informacji na temat podziału wydatków szkolnych: wynik będzie jedynie odzwierciedlał arbitralny wybór algorytmu.
Potrzebujesz więcej danych .
Łatwo to osiągnąć: wykorzystuj dane z poprzednich lat, z porównywalnych dzielnic, cokolwiek. Na przykład federalne wydatki na 14866 okręgów szkolnych w 2008 r. Są dostępne na stronie spisu ludności . Pokazuje, że w całym kraju łączne dochody federalne na osobę (zarejestrowane) były w przybliżeniu logarytmicznie podzielone, ale podział według stanu wykazuje znaczne różnice ( np. Wydatki na kłody na Alasce mają ujemne przekrzywienie, podczas gdy wydatki na kłody w Kolorado mają silne dodatnie pochylenie) . Użyj tych danych, aby scharakteryzować prawdopodobną formę dystrybucji, a następnie dopasuj kwantyle do tej postaci.
Jeśli jesteś nawet blisko właściwej formy dystrybucyjnej, powinieneś być w stanie dokładnie odtworzyć kwantyle, dopasowując jeden lub co najwyżej dwa parametry. Najlepsza technika znajdowania dopasowania będzie zależeć od używanej formy dystrybucyjnej, ale - co ważniejsze - będzie zależeć od tego, do czego zamierzasz użyć wyników. Czy potrzebujesz oszacować średnią kwotę wydatków? Górne i dolne limity wydatków? Cokolwiek to jest, chcesz przyjąć pewną miarę dobroci dopasowania, która da ci najlepszą szansę na podejmowanie dobrych decyzji na podstawie wyników. Na przykład, jeśli twoje zainteresowanie koncentruje się na górnych 10% wszystkich wydatków, będziesz chciał dokładnie dopasować 95. percentyl i możesz nie dbać o dopasowanie 5. percentyla. Żadna wyrafinowana technika dopasowania nie sprawi, że te rozważania będą dla Ciebie.
Oczywiście nikt nie może w uzasadniony sposób zagwarantować, że ta oparta na danych, zorientowana na decyzje metoda będzie działała lepiej (lub gorzej) niż jakikolwiek przepis statystyczny, ale - w przeciwieństwie do podejścia czysto statystycznego - metoda ta ma podstawy oparte na rzeczywistości, koncentrując się na twoich potrzebach, nadając mu pewną wiarygodność i obronę przed krytyką.
źródło
Jak zauważył @whuber, metody statystyczne nie działają tutaj dokładnie. Musisz wywnioskować dystrybucję z innych źródeł. Kiedy znasz rozkład, masz ćwiczenie nieliniowego rozwiązywania równań. Oznacz przez funkcję kwantylową wybranego rozkładu prawdopodobieństwa za pomocą wektora parametru θ . Masz następujący nieliniowy układ równań:f θ
gdzie to twoje kwantyle. Musisz rozwiązać ten system, aby znaleźć θ . Teraz praktycznie dla każdego rozkładu 3-parametrowego znajdziesz wartości parametrów spełniających to równanie. W przypadku rozkładów 2-parametrowych i 1-parametrowych ten system jest zawyżony, więc nie ma dokładnych rozwiązań. W takim przypadku możesz wyszukać zestaw parametrów, który minimalizuje rozbieżność:q θ
Tutaj wybrałem funkcję kwadratową, ale możesz wybrać, co chcesz. Zgodnie z komentarzami @whuber można przypisywać wagi, dzięki czemu ważniejsze kwantyle można dopasować dokładniej.
Dla czterech i więcej parametrów system jest niedookreślony, więc istnieje nieskończona liczba rozwiązań.
Oto przykładowy kod R ilustrujący to podejście. Dla celów demonstracyjnych generuję kwantyle z dystrybucji Singh-Maddala z pakietu VGAM . Ten rozkład ma 3 parametry i jest wykorzystywany w modelowaniu rozkładu dochodu.
Teraz utwórz funkcję, która ocenia nieliniowy układ równań:
Sprawdź, czy prawdziwe wartości spełniają równanie:
Do rozwiązania układu równań nieliniowych używam funkcji
nleqslv
z pakietu nlqeslv .Jak widzimy, otrzymujemy dokładne rozwiązanie. Spróbujmy teraz dopasować rozkład logarytmiczno-normalny do tych kwantyli. W tym celu użyjemy
optim
funkcji.Teraz wykreśl wynik
Z tego natychmiast widzimy, że funkcja kwadratowa nie jest tak dobra.
Mam nadzieję że to pomoże.
źródło
ofn <- function(x,q) sum(abs(q-qlnorm(c(0.05,0.5,0.95),x[1],x[2]))^2)
. Proponuję,ofn <- function(x) sum(abs(q-qlnorm(c(0.05,0.5,0.95),x[1],x[2],x[3]))^2)
ponieważq
nie jest wkłademofn
iX[3]
brakuje. PozdrawiamWypróbuj pakiet rriskDistribution i - jeśli masz pewność co do lognormalnej rodziny dystrybucji - użyj polecenia
co powinno rozwiązać twój problem. Użyj
fit.perc
zamiast tego, jeśli nie chcesz ograniczać się do jednego znanego pliku pdf.źródło
Dla logarytmu normalnego stosunek 95 percentyla do mediany jest taki sam, jak stosunek mediany do 5 percentyla. To nawet nie jest prawie prawda, więc lognormal nie byłby dobrym pomysłem.
Masz wystarczająco dużo informacji, aby dopasować rozkład z trzema parametrami, i wyraźnie potrzebujesz rozkładu pochylenia. Dla analitycznej prostoty sugerowałbym przesunięty rozkład log-logistyczny jako jego funkcję kwantylową (tj. Odwrotność funkcji rozkładu skumulowanego) może być zapisana w dość prostej formie zamkniętej, więc powinieneś być w stanie uzyskać wyrażenia w postaci zamkniętej dla jego trzy parametry w kategoriach trzech kwantyli z odrobiną algebry (zostawię to jako ćwiczenie!). Ten rozkład jest wykorzystywany w analizie częstotliwości powodzi.
To jednak nie da ci żadnych wskazówek co do niepewności w szacunkach innych kwantyli. Nie wiem, czy jest to potrzebne, ale jako statystyk uważam, że powinienem móc to zapewnić, więc nie jestem zadowolony z tej odpowiedzi. Na pewno nie użyłbym tej metody lub prawdopodobnie żadnej metody do ekstrapolacji (znacznie) poza zakresem od 5 do 95 percentyli.
źródło
Jedyne, co można wywnioskować z danych, to to, że rozkład jest niesymetryczny. Nie można nawet stwierdzić, czy te kwantyle pochodzą z dopasowanej dystrybucji, czy tylko z pliku ecdf.
Jeśli pochodzą one z dopasowanej dystrybucji, możesz wypróbować wszystkie dystrybucje, o których możesz pomyśleć i sprawdzić, czy pasują do siebie. Jeśli nie, nie ma prawie wystarczających informacji. Mógłbyś interpolować wielomian 2-go stopnia lub splajn 3-go stopnia dla funkcji kwantyli i użyć tego, lub wymyślić teorię dotyczącą rodziny rozkładów i dopasować kwantyle, ale wszelkie wnioski, jakie można by wyciągnąć za pomocą tych metod, byłyby głęboko podejrzane.
źródło
Wykorzystanie kwantyli do oszacowania parametrów rozkładów a priori jest omówione w literaturze dotyczącej pomiaru czasu odpowiedzi człowieka jako „kwantylowe oszacowanie maksymalnego prawdopodobieństwa” (QMPE, choć pierwotnie błędnie nazwane „kwantylowym oszacowaniem maksymalnego prawdopodobieństwa”, QMLE), szczegółowo omówione przez Heathcote i koledzy . Możesz dopasować wiele różnych rozkładów a priori (wcześniej Gaussa, przesunięty Lognormal, Wald i Weibull), a następnie porównać prawdopodobieństwa logarytmu sumy wynikowych najlepszych dopasowań dla każdej dystrybucji, aby znaleźć smak dystrybucji, który wydaje się dawać najlepsze dopasowanie.
źródło
Możesz użyć informacji o percentylach, aby w pewien sposób zasymulować dane, a także użyć pakietu „logspline” pakietu R, aby oszacować rozkład nieparametryczny. Poniżej moja funkcja, która wykorzystuje taką metodę.
źródło