Uwzględnianie bardziej szczegółowych zmiennych objaśniających w czasie

9

Próbuję zrozumieć, jak najlepiej modelować zmienną, w której z czasem uzyskiwałem coraz bardziej szczegółowe predyktory. Na przykład rozważ modelowanie stóp odzysku niespłaconych pożyczek. Załóżmy, że mamy zestaw danych z 20-letnimi danymi, a przez pierwsze 15 z tych lat wiemy tylko, czy pożyczka została zabezpieczona, czy nie, ale nic o cechach tego zabezpieczenia. Przez ostatnie pięć lat możemy jednak rozbić zabezpieczenia na szereg kategorii, które powinny być dobrym prognostykiem stopy odzysku.

Biorąc pod uwagę tę konfigurację, chcę dopasować model do danych, określić miary, takie jak istotność statystyczna predyktorów, a następnie prognozować za pomocą modelu.

Do jakiej brakującej struktury danych to pasuje? Czy są jakieś specjalne względy związane z faktem, że bardziej szczegółowe zmienne objaśniające stają się dostępne dopiero po określonym czasie, a nie rozproszone po całej próbie historycznej?

regression missing-data Abiel
źródło

1

OK, z doświadczenia w korzystaniu z danych historycznych wynika, że więcej historii może sprawić, że dopasowanie regresji będzie wyglądać lepiej, ale jeśli przewidywanie jest punktem ćwiczeń, ogólna odpowiedź jest ostrzegana. W przypadku, gdy dane odzwierciedlają okresy, w których „świat” był bardzo różny, stabilność korelacji jest wątpliwa. Dzieje się tak zwłaszcza w ekonomii, gdzie rynki i regulacje stale się zmieniają.

Dotyczy to także rynku nieruchomości, który ponadto może mieć długi cykl. Wynalazek papierów wartościowych zabezpieczonych hipoteką, na przykład, przekształcił rynek hipoteczny i otworzył wrota powodziowe do zaciągnięcia kredytu hipotecznego, a także, niestety, spekulacji (w rzeczywistości istniała cała klasa pożyczek bez dokumentów o niskiej wartości, zwanych pożyczkami typu lier).

Metody, które sprawdzają zmiany w reżimie, mogą być szczególnie cenne w podejmowaniu w nie subiektywny sposób decyzji o wykluczeniu historii.

AJKOER
źródło

1

Zazwyczaj może to być postrzegane jako problem związany z ograniczoną wartością parametru. Jak rozumiem twoje pytanie, masz mniej informacyjny parametr (zabezpieczenie o nieznanej jakości [Cu]) na początku danych i bardziej informacyjny (zabezpieczenie o wysokiej [Ch], średnim [Cm] lub niskiej [Cl] jakości w swoim późniejsze dane.

Jeśli uważasz, że nieobserwowane parametry modelu nie zmieniają się w czasie, wówczas metoda może być prosta, zakładając, że estymatory punktowe każdego z nich to Cl <Cm <Ch i Cl <= Cu <= Ch. Logika jest taka, że Cl jest najgorszy, a Ch jest najlepszy, więc gdy dane są nieznane, musi być między nimi lub równe. Jeśli chcesz być nieco restrykcyjny i zakładasz, że nie wszystkie zabezpieczenia były wysokiej lub niskiej jakości w ciągu pierwszych 15 lat, możesz założyć, że Cl <Cu <Ch, co znacznie ułatwia oszacowanie.

Matematycznie można je oszacować za pomocą czegoś takiego:

\begin{array}{lcl} C_{l} & = & \exp (β_{1}) \\ C_{m} & = & \exp (β_{1}) + \exp (β_{2}) \\ C_{u} & = & \exp (β_{1}) + \frac{\exp (β_{3})}{1 + \exp (- β_{4})} \\ C_{h} & = & \exp (β_{1}) + \exp (β_{2}) + \exp (β_{3}) \end{array}

$\begin{array}{lcl} C_l &=& \exp(\beta_1) \\ C_m &=& \exp(\beta_1) + \exp(\beta_2) \\ C_u &=& \exp(\beta_1) + \frac{\exp(\beta_3)}{1+\exp(-\beta_4)} \\ C_h &=& \exp(\beta_1) + \exp(\beta_2) + \exp(\beta_3) \end{array}$

Gdzie funkcja logit w Cu ogranicza wartość między Cl i Ch bez ograniczania jej względem Cm. (Można również użyć innych funkcji między 0 a 1).

Inną różnicą w modelu powinno być to, że wariancja powinna być tak skonstruowana, aby rezydualna wariancja była zależna od okresu, ponieważ informacje w każdym okresie są różne.

Bill Denney
źródło

Uwzględnianie bardziej szczegółowych zmiennych objaśniających w czasie

Odpowiedzi: