Interpretacja wykresu QQ

11

Rozważ następujący kod i wynik:

  par(mfrow=c(3,2))
  # generate random data from weibull distribution
  x = rweibull(20, 8, 2)
  # Quantile-Quantile Plot for different distributions
  qqPlot(x, "log-normal")
  qqPlot(x, "normal")
  qqPlot(x, "exponential", DB = TRUE)
  qqPlot(x, "cauchy")
  qqPlot(x, "weibull")
  qqPlot(x, "logistic")

wprowadź opis zdjęcia tutaj

Wydaje się, że wykres QQ dla log-normal jest prawie taki sam jak wykres QQ dla weibulla. Jak możemy je odróżnić? Również jeśli punkty znajdują się w obszarze zdefiniowanym przez dwie zewnętrzne czarne linie, czy oznacza to, że mają one określony rozkład?

proton
źródło
Myślę, że korzystasz z pakietu samochodowego , prawda? Jeśli tak, należy dołączyć oświadczenie library(car)do kodu, aby ułatwić śledzenie. Ogólnie rzecz biorąc, możesz również ustawić ziarno (np. set.seed(1)), Aby przykład był odtwarzalny, aby każdy mógł uzyskać dokładnie te same punkty danych, które uzyskałeś, chociaż prawdopodobnie nie jest to tutaj tak ważne.
gung - Przywróć Monikę
2
To nie będzie działać na moim komputerze, jak napisano. Na przykład qqPlot z pakietu samochodowego chce norm dla normalnej i lnorm dla log-normal. czego mi brakuje?
Tom
2
@Tom, pomyliłem się co do pakietu. Najwyraźniej jest to pakiet qualityTools . Co więcej, wydaje się, że przykład został wzięty stąd .
gung - Przywróć Monikę
Interesującym rozwiązaniem jest wykresem Cullen i Frey patrz stats.stackexchange.com/questions/243973/... na przykład
Kjetil b HALVORSEN

Odpowiedzi:

12

Jest tu kilka rzeczy do powiedzenia:

  1. kształt CDF dla logarytmicznej normalności jest wystarczająco podobny do kształtu CDF Weibulla, aby uczynić je trudniejszymi do odróżnienia niż poziom podobieństwa między Weibullem a innymi.
  2. zewnętrzne czarne linie tworzą pasmo pewności . Wykorzystanie przedziału ufności do wnioskowania jest takie samo, jak każdej innej standardowej formy częstościowego wnioskowania statystycznego. Oznacza to, że gdy wartości mieszczą się w paśmie, nie możemy odrzucić hipotezy zerowej, że ustalony rozkład jest prawidłowy. To nie to samo, co stwierdzenie, że wiemy, że rozkład pozycyjny jest prawidłowy. (Zauważ, że jest to świetny przykład tego, co omówiłem w innej odpowiedzi tutaj, o sytuacji, w której fisheryjska perspektywa testowania hipotez byłaby lepsza niż Neyman-Pearson.)
  3. N.
gung - Przywróć Monikę
źródło
Czy istnieją sposoby badania rozkładów dla małych próbek?
proton
w rzeczywistości wydaje się, że punkty leżą w pasmach ufności dla wszystkich dystrybucji. Więc nie możemy rozróżnić dystrybucji?
proton
1
n=205%
2
+1 na małej próbce. Użycie 300 próbek pomogłoby w rozróżnieniu wielu rzeczy. Proton: Nie, tak naprawdę nie można odróżnić dystrybucji za pomocą małej próbki. Jak mogłeś? To tak, jakby próbować zidentyfikować twarz o 20 pikselach.
Wayne
3

Wydaje się, że wykres QQ dla log-normal jest prawie taki sam jak wykres QQ dla weibulla.

Tak.

Jak możemy je odróżnić?

Przy tej wielkości próbki prawdopodobnie nie możesz.

Również jeśli punkty znajdują się w obszarze zdefiniowanym przez dwie zewnętrzne czarne linie, czy oznacza to, że mają one określony rozkład?

Nie. To tylko wskazuje, że nie można odróżnić rozkładu danych od tego, który różni się od tego rozkładu. To brak dowodu różnicy, a nie dowód braku różnicy.

Możesz być prawie pewien, że dane pochodzą z dystrybucji, która nie jest żadną z tych, które rozważałeś (dlaczego miałoby to być dokładnie z którejkolwiek z nich?).

Glen_b - Przywróć Monikę
źródło
Jak frazowanie: „To brak dowodów na różnicę, a nie dowód braku różnicy”.
jlandercy