Chciałbym sprawdzić, R
czy moje dane są zgodne z log-normal lub z dystrybucjami Pareto. Jak mogłem to zrobić? Być może ks.test
może mi to pomóc, ale jak mogę uzyskać parametry i dla rozkładu Pareto dla moich danych?
r
regression
distributions
lognormal
pareto-distribution
zdecydowany
źródło
źródło
Odpowiedzi:
... Właśnie zauważyłem, że masz tam tag „regresji”. Jeśli masz problem z regresją, nie możesz spojrzeć na jednoczynnikowy rozkład odpowiedzi w celu oceny kształtu rozkładu, ponieważ zależy to od wzoru x. Jeśli pytasz o sprawdzenie, czy zmienna odpowiedzi (y) w jakiejś regresji lub GLM ma logarytmiczny lub rozkład Pareto, w którym średnie różnią się w zależności od obserwacji, to jest zupełnie inne pytanie (ale w zasadzie sprowadza się do podobnych rodzajów analizy na resztkach). Czy możesz wyjaśnić, czy jest to problem regresji. Moja odpowiedź w tej chwili dotyczy oceny logarytmu jednoznacznego lub Pareto
Masz tam całkiem inne pytania.
Weź dzienniki i wykonaj normalny wykres QQ. Sprawdź, czy dystrybucja jest wystarczająco bliska dla twoich celów.
Zaakceptuj od samego początku, że żadna z rozważanych dystrybucji nie będzie dokładnym opisem. Szukasz rozsądnego modelu. Oznacza to, że przy małych rozmiarach próbek nie odrzucisz żadnej rozsądnej opcji, ale przy wystarczającej wielkości próbki odrzucisz je wszystkie. Co gorsza, przy dużej wielkości próbki odrzucasz idealnie przyzwoite modele, podczas gdy przy małych rozmiarach próbek nie odrzucasz złych.
Takie testy nie są tak naprawdę użyteczną podstawą do wyboru modelu.
Krótko mówiąc, twoje pytanie dotyczące zainteresowania - coś w rodzaju „jaki jest dobry model dla tych danych, który jest wystarczająco blisko, aby uczynić późniejszym wnioskowanie przydatnym?” po prostu nie odpowiada na to test dobroci dopasowania. Jednak w niektórych przypadkach statystyki trafności dopasowania (zamiast decyzji opartych na regułach odrzucania na ich podstawie) mogą w niektórych przypadkach stanowić przydatne podsumowanie poszczególnych rodzajów braku dopasowania.
Nie. Po pierwsze, jest problem, o którym właśnie wspomniałem, a po drugie, test Kołmogorowa-Smirnowa jest testem dla całkowicie określonego rozkładu. Nie masz jednego z nich.
W wielu przypadkach polecam wykresy QQ i podobne wyświetlacze. W przypadku takich przypadków skośnych, zwykle pracuję z logami (lognormal będzie wtedy wyglądał normalnie, a Pareto będzie wykładniczy). Przy rozsądnych rozmiarach próby nie jest trudno wizualnie rozróżnić, czy dane wyglądają bardziej normalnie niż wykładniczo lub odwrotnie. Najpierw uzyskaj z nich kilka rzeczywistych danych i wykreśl je - powiedz przynajmniej pół tuzina próbek, abyś wiedział, jak wyglądają.
Zobacz przykład poniżej
Jeśli chcesz oszacować parametry, użyj MLE ... ale nie rób tego, aby wybrać między Pareto a lognormal.
Czy możesz powiedzieć, który z nich jest logarytmiczny, a który Pareto?
Zauważ, że przy normalnych wykresach QQ (lewa kolumna) widzimy, że logi zestawu danych 1 dają dość prostą linię, podczas gdy zestaw danych 2 pokazuje prawą skośność. W przypadku wykresów wykładniczych dzienniki zestawu danych 1 pokazują jaśniejszy prawy ogon niż wykładniczy, natomiast zestaw danych 2 pokazuje dość prostą linię (wartości w prawym ogonie mają tendencję do kołysania się nieco, nawet gdy model jest poprawny; jest to nie jest niczym niezwykłym w przypadku ciężkich ogonów; jest to jeden z powodów, dla których musisz wykreślić kilka próbek o podobnej wielkości do tej, na którą patrzysz, aby zobaczyć, jak zwykle wyglądają wykresy)
Kod użyty do wykonania tych czterech wykresów:
Jeśli masz problem z typem regresji - taki, w którym średnie zmieniają się wraz z innymi zmiennymi, możesz naprawdę ocenić przydatność każdego z założeń dystrybucyjnych tylko w obecności odpowiedniego modelu dla średniej.
źródło
Jest to oczywiście kwestia wyboru modelu , zakładając, że chcesz po prostu sprawdzić, czy twoje dane pochodzą z jednego lub drugiego modelu i że twoim celem nie jest znalezienie odpowiedniego modelu wśród nieskończonego wymiaru oceanu rozkładów. Tak więc jedną z opcji jest użycie AIC (co faworyzuje modele o najniższej wartości AIC i nie będę tutaj próbował opisywać). Spójrz na następujący przykład z danymi symulowanymi:
źródło
Może fitdistr ()?
źródło