Mam oczywiście bimodalny rozkład wartości, który staram się dopasować. Dane mogą być dobrze dopasowane do 2 normalnych funkcji (bimodalnych) lub 3 normalnych funkcji. Ponadto istnieje prawdopodobny fizyczny powód dopasowania danych do 3.
Im więcej parametrów zostanie wprowadzonych, tym lepsze będzie dopasowanie, ponieważ przy wystarczającej liczbie stałych można „ dopasować słonia ”.
Oto rozkład dopasowany do sumy 3 normalnych (gaussowskich) krzywych:
Są to dane dla każdego dopasowania. Nie jestem pewien, jaki test powinienem tutaj zastosować, aby określić dopasowanie. Dane składają się z 91 punktów.
1 normalna funkcja:
- RSS: 1.06231
- X ^ 2: 3,1674
- F.Test: 0,3092
2 normalne funkcje:
- RSS: 0,010939
- X ^ 2: 0,053896
- F.Test: 0,97101
3 normalne funkcje:
- RSS: 0,00536
- X ^ 2: 0,02794
- F.Test: 0,99249
Jaki test statystyczny można zastosować, aby ustalić, które z tych 3 pasowań jest najlepsze? Oczywiście, 1 normalne dopasowanie funkcji jest nieodpowiednie. Jak więc rozróżnić między 2 a 3?
Aby dodać, robię to głównie za pomocą Excela i małego Pythona; Nie znam jeszcze języka R ani innych języków statystycznych.
R
trasę). Niektóre kryteria wyboru modelu są wymienione w tej odpowiedzi . Na koniec możesz rozważyć metody zespołowe , które pokrótce omówiłem w tej odpowiedzi , która zawiera również link do informacji skoncentrowanych na Pythonie. Więcej informacji na temat wyboru modelu i uśredniania można znaleźć w tej odpowiedzi .Odpowiedzi:
Oto dwa sposoby rozwiązania problemu wyboru dystrybucji:
Do porównania modelu użyj miary, która karze model w zależności od liczby parametrów. Kryteria informacyjne to robią. Użyj kryterium informacyjnego, aby wybrać model, który chcesz zachować, wybierz model o najniższym kryterium informacyjnym (na przykład AIC). Ogólna zasada porównywania, czy różnica w AIC jest znacząca, polega na tym, że różnica w AIC jest większa niż 2 (nie jest to formalny test hipotez, patrz Testowanie różnicy w AIC dwóch nie zagnieżdżonych modeli ).
Jeśli chcesz formalnego testu hipotez, możesz postępować na co najmniej dwa sposoby. Prawdopodobnie łatwiej jest dopasować swoje rozkłady przy użyciu części próbki, a następnie sprawdzić, czy rozkłady reszt są znacząco różne przy użyciu testu Chi-kwadrat lub Kolgomorov-Smirnov na pozostałych danych. W ten sposób nie używasz tych samych danych do dopasowania i przetestowania modelu, jak wspomniano w komentarzach AndrewM.
Można również wykonać test współczynnika wiarygodności z korektą rozkładu zerowego. Wersja tego jest opisana w Lo Y. i in. (2013) „Testowanie liczby składników w normalnej mieszaninie”. Biometrika, ale nie mam dostępu do tego artykułu, więc nie mogę podać więcej szczegółów, jak dokładnie to zrobić.
Tak czy inaczej, jeśli test nie jest znaczący, zachowaj rozkład o mniejszej liczbie parametrów, jeśli jest znaczący, wybierz ten o wyższej liczbie parametrów.
źródło