Pracuję z małym zestawem danych (21 obserwacji) i mam następujący normalny wykres QQ w R:
Widząc, że fabuła nie obsługuje normalności, co mogę wnioskować o rozkładzie podstawowym? Wydaje mi się, że rozkład bardziej przesunięty w prawo byłby lepszym rozwiązaniem, prawda? Jakie inne wnioski możemy wyciągnąć z danych?
Odpowiedzi:
Jeśli wartości leżą wzdłuż linii, rozkład ma ten sam kształt (do położenia i skali), co przypuszczalny rozkład teoretyczny.
Zachowanie lokalne : patrząc na posortowane wartości próbek na osi y i (przybliżone) oczekiwane kwantyle na osi x, możemy stwierdzić, w jaki sposób wartości w niektórych częściach wykresu różnią się lokalnie od ogólnego trendu liniowego, sprawdzając, czy wartości są bardziej lub mniej skoncentrowane niż teoretyczny rozkład przypuszczałby w tej części wykresu:
Jak widzimy, punkty mniej skoncentrowane wzrastają coraz bardziej punkty skoncentrowane, niż przypuszcza wzrost mniej gwałtownie, niż sugerowałaby ogólna relacja liniowa, aw skrajnych przypadkach odpowiadają luce w gęstości próbki (pokazuje skok prawie pionowy) lub skok stałych wartości (wartości wyrównane poziomo). To pozwala nam dostrzec ciężki ogon lub lekki ogon, a zatem skośność większą lub mniejszą niż rozkład teoretyczny i tak dalej.
Ogólny wygląd:
Oto co QQ-Działki wyglądać (dla poszczególnych wyborów dystrybucja) średnio :
Ale przypadkowość ma tendencję do zaciemniania rzeczy, szczególnie w przypadku małych próbek:
Zauważ, że przy wyniki mogą być znacznie bardziej zmienne niż tam pokazane - wygenerowałem kilka takich zestawów sześciu wykresów i wybrałem „ładny” zestaw, w którym można było zobaczyć kształt na wszystkich sześciu wykresach jednocześnie. Czasami proste relacje wyglądają na zakrzywione, relacje zakrzywione wyglądają prosto, ciężkie ogony po prostu wyglądają krzywo i tak dalej - przy tak małych próbkach często sytuacja może być znacznie mniej wyraźna:n=21
Można rozpoznać więcej funkcji niż te (na przykład dyskrecja, na przykład), ale przy nawet takie podstawowe cechy mogą być trudne do wykrycia; nie powinniśmy próbować „nadinterpretować” co najmniejszego poruszenia. Ponieważ rozmiary próbek stają się większe, ogólnie wykresy „stabilizują się”, a cechy stają się bardziej zrozumiałe niż reprezentujące hałas. [W przypadku niektórych bardzo ciężkich rozkładów rzadka duża wartość odstająca może uniemożliwić ładną stabilizację obrazu nawet przy dość dużych próbkach.]n=21
Można również znaleźć sugestię tu przydatne, gdy stara się zdecydować, ile należy się martwić o określonej wysokości krzywizny lub wiggliness.
Bardziej odpowiedni przewodnik dla interpretacji ogólnie obejmowałby również wyświetlacze przy mniejszych i większych rozmiarach próbek.
źródło
Zrobiłem błyszczącą aplikację, aby pomóc interpretować normalny wykres QQ. Wypróbuj ten link.
W tej aplikacji możesz dostosować skośność, ogonowość (kurtoza) i modalność danych, a także zobaczyć, jak zmienia się histogram i wykres QQ. I odwrotnie, możesz użyć go w sposób uwzględniający wzorzec wykresu QQ, a następnie sprawdź, jak powinna wyglądać skośność itp.
Więcej informacji znajduje się w dokumentacji w nim zawartej.
Zdałem sobie sprawę, że nie mam wystarczającej ilości wolnego miejsca, aby zapewnić tę aplikację online. Jako wniosek, podam wszystkie trzy kawałki kodu:
sample.R
,server.R
iui.R
tu. Osoby zainteresowane uruchomieniem tej aplikacji mogą po prostu załadować te pliki do Rstudio, a następnie uruchomić je na własnym komputerze.sample.R
Pliku:server.R
Pliku:Wreszcie
ui.R
plik:źródło
Bardzo pomocne (i intuicyjne) wyjaśnienie podaje prof. Philippe Rigollet na kursie MIT MOOC: 18.650 Statystyka aplikacji, jesień 2016 - zobacz wideo po 45 minutach
https://www.youtube.com/watch?v=vMaKx9fmJHE
Skrupulatnie skopiowałem jego schemat, który przechowuję w swoich notatkach, ponieważ uważam go za bardzo przydatny.
W przykładzie 1, na lewym górnym diagramie widzimy, że w prawym ogonie kwantyl empiryczny (lub próbka) jest mniejszy niż kwantyl teoretyczny
Qe <Qt
Można to zinterpretować za pomocą funkcji gęstości prawdopodobieństwa. W przypadku tej samej wartości , kwantyl empiryczny znajduje się na lewo od kwantyla teoretycznego, co oznacza, że prawy ogon rozkładu empirycznego jest „lżejszy” niż prawy ogon rozkładu teoretycznego, tj. Spada szybciej do wartości zbliżonych do zero.α
źródło
Ponieważ wątek ten został uznany za definitywny post na StackExchange „jak interpretować normalny wykres qq”, chciałbym wskazać czytelnikom ładny, precyzyjny związek matematyczny między normalnym wykresem qq a statystyką nadmiaru kurtozy.
Oto on:
https://stats.stackexchange.com/a/354076/102879
Krótkie (i zbyt uproszczone) podsumowanie podano w następujący sposób (patrz link, aby uzyskać bardziej precyzyjne stwierdzenia matematyczne): W rzeczywistości można zobaczyć nadmiar kurtozy na normalnym wykresie qq jako średnią odległość między kwantylami danych a odpowiadającymi im teoretycznymi kwantami normalnymi, ważonymi według odległości od danych do średniej. Tak więc, gdy wartości bezwzględne w ogonach wykresu qq zasadniczo odbiegają od oczekiwanych wartości normalnych znacznie w skrajnych kierunkach, masz dodatnią nadwyżkę kurtozy.
Ponieważ kurtoza jest średnią tych odchyleń ważoną odległościami od średniej, wartości w pobliżu środka wykresu qq mają niewielki wpływ na kurtozę. Stąd nadmiar kurtozy nie jest związany ze środkiem rozkładu, w którym znajduje się „szczyt”. Nadmiar kurtozy jest raczej prawie całkowicie determinowany przez porównanie ogonów rozkładu danych do rozkładu normalnego.
źródło