Znam pojęcie zmiennych kategorialnych i odpowiednie kodowanie zmiennych zastępczych, które pozwalają nam dopasować jeden poziom jako poziom podstawowy, aby uniknąć kolinearności. Znam również sposób interpretacji oszacowań parametrów z takich modeli: Przewidywana zmiana wyniku dla danego dopasowanego poziomu predyktora jakościowego w stosunku do kategorii podstawowej.
Nie jestem pewien, jak interpretować zestaw niezależnych zmiennych, które są proporcjami, które sumują się do jednego . Ponownie mamy kolinearność, jeśli dopasujemy wszystkie proporcje w modelu, więc prawdopodobnie musielibyśmy pominąć jedną kategorię jako linię bazową. Zakładam również, że spojrzałbym na SS typu III dla ogólnego testu istotności tej zmiennej. Jak jednak interpretujemy oszacowania parametrów dla tych poziomów pasujących do modelu w porównaniu z wartościami uznanymi za wyjściowe?
Przykład : na poziomie kodu pocztowego zmienną niezależną jest proporcja skał metamorficznych, magmowych i osadowych. Jak zapewne wiesz, są to trzy główne rodzaje skał, a wszystkie skały są sklasyfikowane jako jeden z nich. W związku z tym proporcje wszystkich trzech sumują się do 1. Wynikiem jest średni poziom radonu w odpowiednim kodzie pocztowym.
Gdybym dopasował, powiedzmy, proporcje metamorficzne i magmowe jako predyktory w modelu, pozostawiając osad jako linię bazową, ogólny test SS F typu III z dwóch dopasowanych poziomów oznaczałby, czy rodzaj skały jako całości jest ważny predyktor wyniku (średni poziom radonu). Następnie mogłem spojrzeć na poszczególne wartości p (w oparciu o rozkład t ), aby ustalić, czy jeden lub oba rodzaje skał różniły się znacząco od linii podstawowej.
Jednak jeśli chodzi o oszacowania parametrów, mój mózg wciąż chce interpretować je wyłącznie jako przewidywaną zmianę wyniku między grupami (rodzaje skał) i nie rozumiem, jak uwzględnić fakt, że są one odpowiednie jako proporcje .
Jeśli oszacowanie dla metamorfizmu wynosi , powiedzmy, 0,43, interpretacja nie polega po prostu na tym, że przewidywany średni poziom radonu wzrasta o 0,43 jednostki, gdy skała jest metamorficzna w porównaniu z osadową. Jednak interpretacja ta nie dotyczy tylko pewnego rodzaju wzrostu jednostki (powiedzmy 0,1) w proporcji rodzaju skały metamorficznej, ponieważ nie odzwierciedla to faktu, że jest ona również zależna od linii podstawowej ( osadowej ), a ponadto zmiany proporcja metamorficzna z natury zmienia proporcję dopasowania drugiego poziomu skały w modelu, magmowa .
Czy ktoś ma źródło, które zapewnia interpretację takiego modelu, czy mógłbyś podać tutaj krótki przykład, jeśli nie?
Odpowiedzi:
Jako kontynuacja i, moim zdaniem, prawidłowa odpowiedź (wydaje mi się rozsądna): wysłałem to pytanie do usługi list ASA Connect i otrzymałem następującą odpowiedź od Thomasa Sextona z Stony Brook:
„Twój szacowany model regresji liniowej wygląda następująco:
ln (Radon) = (wyrażenie liniowe w innych zmiennych) + 0,43 M + 0,92 I
gdzie M i ja reprezentują odpowiednio procent skał metamorficznych i magmowych w kodzie pocztowym. Jesteś ograniczony przez:
M + I + S = 100
gdzie S oznacza procent skał osadowych w kodzie pocztowym.
Interpretacja 0,43 jest taka, że wzrost M o jeden punkt procentowy jest związany ze wzrostem o 0,43 in ln (Radon), w którym wszystkie pozostałe zmienne w modelu są ustalone . Zatem wartość I nie może się zmienić, a jedynym sposobem na zwiększenie M o jeden punkt procentowy przy spełnieniu tego ograniczenia jest zmniejszenie S o jeden punkt procentowy, kategorii pominiętej.
Oczywiście zmiana ta nie może wystąpić w kodach pocztowych, w których S = 0, ale w takich kodach pocztowych możliwy byłby spadek M i odpowiedni wzrost S ”.
Oto link do wątku ASA: http://community.amstat.org/communities/community-home/digestviewer/viewthread?GroupId=2653&MID=29924&tab=digestviewer&UserKey=5adc7e8b-ae4f-43f9-b561-4427476dambfsff
Podaję to jako przyjętą poprawną odpowiedź, ale nadal jestem otwarty na dalszą dyskusję, jeśli ktoś ma coś do dodania.
źródło