Jak ocenić dobroć dopasowania konkretnego modelu nieliniowego? [Zamknięte]

10

Mam model nieliniowy , gdzie jest cdf standardowego rozkładu normalnego if jest nieliniowe (patrz poniżej). Chcę przetestować poprawność dopasowania tego modelu za pomocą parametru do moich danych , po użyciu oszacowania maksymalnego prawdopodobieństwa, aby znaleźć . Jaki byłby odpowiedni test? Chciałbym użyć tego testu do oznaczenia złego dopasowania jako złego i ustalenia, czy należy zgromadzić więcej danych.y=Φ(f(x,a))+εΦa(x1,y1),(x2,y2),,(xn,yn)a

Spojrzałem na użycie dewiacji, która porównuje ten model z modelem nasyconym, z odpowiadającym mu testem dobroci dopasowania przy użyciu . Czy byłoby to właściwe? Większość tego, co przeczytałem o dewiacji, stosuje ją do GLM, co nie jest tym, co mam. Jeśli test dewiacji jest odpowiedni, jakie założenia należy przyjąć, aby test był ważny?χn12

Aktualizacja: dla na wypadek, gdyby to pomogło.f=x1ax2+1x>1,a>0

spadequack
źródło
1
Odpowiedź zależy od celu analizy i zastosowanego podstawowego modelu prawdopodobieństwa; nie ma unikalnej ani najlepszej odpowiedzi matematycznej. Na przykład mierzymy dobroć dopasowania inaczej dla modelu postaci niż dla jednej postaci (z błędami iid ). y=Φ(f(x,a)+ε)y=Φ(f(x,a))+εε
whuber
Dzięki. Wyjaśniłem moje pytanie. Wiem, że nie ma najlepszej odpowiedzi, jednak nadal chciałbym wiedzieć, czy dewiacja jest odpowiednia do testowania dobroci dopasowania, a jeśli nie, jaki jest inny test, który byłby odpowiedni do oznaczenia dopasowania jako bardzo słaba i mówiąc, że należy zebrać więcej danych (zakładając, że model jest poprawny) lub mówiąc, że model nie opisuje danych.
spadequack,
1
Czy twoja zmienna docelowa czy jest ciągła? W pierwszym przypadku, a następnie można wrobić modelu jako zamiast dodatku uchybu i porównywać przewidzieć z rzeczywistą i , aby uzyskać prawdziwe i fałszywie dodatnie wskaźniki lub porównaj z modelem podstawowym, w którym , lub odchylenie lub kilka innych alternatyw. Jeśli to drugie, jaki rozkład przyjmujesz za resztę? y0,1p(y=1)=Φ(f(x,a))y=0y=1p(y=1)=y¯
jbowman
1
Głosowanie na zakończenie, ponieważ prośba o wyjaśnienia pozostała bez odpowiedzi.
whuber

Odpowiedzi:

1

Jeśli używasz platformy R., użyj pakietu „npcmstest” w bibliotece „NP”. Ostrzeżenie: Ta funkcja może potrwać kilka minut, aby ocenić model.

Można również rozważyć teoretyczne porównanie rozkładu odpowiedzi i rozkładu predykcyjnego (tj. Rozbieżność KL, entropia krzyżowa itp.)

Ram Ahluwalia
źródło
Wygląda na to, że metoda wymaga modelu z jednego lmlub glm. Jak to by działało w przypadku modelu nieliniowego? (Tak, używam R.) Dodałem do mojego pytania na wypadek, gdyby to pomogło. f
spadequack,
@ czy używasz gamlub jak ( mgcvpakiet)? Jeśli nie, powinieneś to sprawdzić.
suncoolsu,
1

Oto jak bym to zrobił, w zasadzie test współczynnika prawdopodobieństwa. Pamiętaj jednak, że „kluczem” do zrozumienia dobroci testu dopasowania jest zrozumienie klasy alternatyw, na których testujesz. Teraz mamy prawdopodobieństwo dla każdego pojedynczego punktu danych jako:

p(yi|xi,a,I)=g(ϵi)=g(yifi)

Gdzie jest prawdopodobieństwem terminu błędu w twoim modelu, a jest prognozą modelu dla i-tego punktu danych, biorąc pod uwagę oraz . Teraz dla każdego punktu danych możemy wybrać takie, że - ten „nasycony model” jak to nazwać. Więc test jest odpowiedni tutaj, jeśli chcesz przetestować tylko alternatywy w klasie tych z tym samym prawdopodobieństwem błędu, , i masz niezależność od każdego z prawdopodobieństw (tj. Wiedząc inny nie byłby pomocny w przewidywaniug(ϵ)fi=xi1axi2+1xia(xi,yi)afi=yiχ2g(ϵ)xj,yjyi, dane ). a

prawdopodobieństwo prawdopodobieństwa
źródło
1
To nie zadziała, ponieważ test stopni prawdopodobieństwa rośnie jako dla modelu nasyconego. O(n)
StasK
0

W kontekście regresji liniowej testowanie dopasowania jest często przeprowadzane w porównaniu z bardziej skomplikowaną alternatywą. Masz regresję liniową - rzuć kilkoma terminami wielomianowymi, aby sprawdzić, czy forma liniowa jest wystarczająca. Ponieważ masz już nieliniową formę funkcjonalną, skomplikowaną alternatywą, którą musisz rozważyć, musiałaby być regresja nieparametryczna . Nie będę próbował przedstawiać tego tematu, ponieważ wymaga on własnego sposobu myślenia i warto go osobno wprowadzić. W przypadku testu regresji parametrycznej vs. nieparametrycznej, Wooldridge (1992) lub Hardle i Mammen (1993) , robią bardzo podobne rzeczy. Hardle napisał także świetną książkę na ten temat.

StasK
źródło