80% brakujących danych w jednej zmiennej

12

W moich danych jest jedna zmienna, w której brakuje 80% danych. Brak danych z powodu nieistnienia (tj. Ile pożyczka bankowa jest winna firmie). Natknąłem się na artykuł, w którym wyjaśniono, że metoda dopasowania zmiennej zastępczej jest rozwiązaniem tego problemu. Czyli muszę przekształcić tę zmienną ciągłą w jakościową?

Czy to jedyne rozwiązanie? Nie chcę upuszczać tej zmiennej, ponieważ myślę teoretycznie, ważne jest moje pytanie badawcze.

lcl23
źródło

Odpowiedzi:

21

Czy dane są „brakujące” w sensie bycia nieznanym, czy to tylko oznacza, że ​​nie ma pożyczki (więc kwota pożyczki wynosi zero)? Brzmi jak ten drugi, w którym to przypadku potrzebujesz dodatkowego binarnego manekina, aby wskazać, czy jest pożyczka. Nie jest wymagana transformacja kwoty pożyczki (być może poza ciągłym ponownym wyrażaniem, takim jak root lub rozpoczęty dziennik, co może być wskazane na podstawie innych względów).

Działa to dobrze w regresji. Prostym przykładem jest koncepcyjny model formy

dependent variable (Y) = loan amount (X) + constant.

Po dodaniu wskaźnika pożyczki ( ) modelem regresji jestI

Y=βII+βXX+β0+ϵ

z reprezentuje losowe błędy z zerowymi oczekiwaniami. Współczynniki są interpretowane jako:ϵ

Y X = 0 I = 0β0 jest oczekiwaniem dla sytuacji braku pożyczki, ponieważ charakteryzują się one i .YX=0I=0

Y XβX jest marginalną zmianą w odniesieniu do kwoty pożyczki ( ).YX

βI+β0 jest przechwytywaniem dla spraw z pożyczkami.

Whuber
źródło
2
Nie zostaną potraktowani jako brakujący, przystąpią do oszacowania wartości braku pożyczki. Może zrobiłeś żadnego kredytu „NA” w takim przypadku trzeba przekodować te 0.
John
2
@John Dziękuję, właśnie to polecam. Chodzi o to, aby wyrazić wartości pożyczki ( ) w dowolny odpowiedni sposób (np. Log (kwota + 1)) i ustawić i dla każdego przypadku bez pożyczki. Jest to standardowa technika regresji, w tym regresja logistyczna. X = 0 I = 1XX=0I=1
whuber
3
@ lcl23 Jeśli poprawnie zrozumiałem sytuację, imputacja nie ma sensu: twoich „brakujących” danych nie brakuje; wskazują, że nie zaciągnięto żadnej pożyczki.
whuber
1
@ Bakaburg Myślę, że mógłbyś to zrobić wstecz, ale to nie ma znaczenia - dwa modele (używając kontra ) będą równoważne. Prognozowane wartości w modelach z takim wskaźnikiem i bez niego będą się różnić, więc nie rozumiem, o co próbujesz zapytać. Zauważ, że „niewykrycie” różni się głęboko od „nie istnieje”! Jeśli twoje granice wykrywalności są wystarczająco małe, nie powinno być potrzeby wprowadzania dla nich manekina; a jeśli zajdzie taka potrzeba, wprowadzenie manekina może być trochę zbyt surowe. W takim przypadku rozważ zamiast tego metody analizy danych ocenzurowanych lub interwałowych. I ( X = 0 )I(X=1)I(X=0)
whuber
1
Odpowiedź jest tutaj. Gdy manekin ma wartość , do dodawana jest wartość . Gdy manekin ma wartośćβ I 01βI0 wartość , wartość ta spada. To wszystko.
whuber
1

Myślę, że źle zrozumiałeś sugestię tego artykułu: głównie dlatego, że ta sugestia nie ma sensu. Miałbyś wtedy dwa problemy: jak przekodować zmienną, a jej wartości wciąż brakuje. Prawdopodobnie zasugerowano stworzenie wskaźnika braków .

Nieco właściwym podejściem do obsługi brakujących danych, które luźno pasują do tego opisu, jest dostosowanie do wskaźnika braków . Jest to z pewnością proste i łatwe podejście, ale ogólnie jest tendencyjne. Odchylenie może być nieograniczone w jego złu. To, co to efektywnie robi, pasuje do dwóch modeli i uśrednia ich efekty razem: pierwszy model to model w pełni warunkowy , drugi to kompletny model czynnikowy. W pełni warunkowy model jest kompletnym modelem przypadku, w którym każda obserwacja jest usuwana i ma brakujące wartości. Jest więc dopasowany do 20% podzbioru danych. Drugi jest dopasowany do pozostałych 80%, nie korygując w ogóle brakującej wartości. Ten model krańcowy ocenia te same efekty, co pełny model, gdy nie występuje żadna niezmierzona interakcja, gdy funkcja połączenia jest zwijana, a dane brakuje losowo (MAR). Efekty te są następnie łączone przez średnią ważoną. Nawet w idealnych warunkach, bez niezmierzonych interakcji i całkowicie brakujących danych losowych (MCAR), podejście z brakującym wskaźnikiem prowadzi do stronniczych efektów, ponieważ model brzeżny i model warunkowy szacują różne efekty. W tym przypadku nawet prognozy są stronnicze.

O wiele lepszą alternatywą jest po prostu wielokrotne przypisanie. Nawet gdy czynnik najczęściej brakujący jest mierzony przy bardzo niskiej częstości występowania, MI wykonuje stosunkowo dobrą robotę, generując wyrafinowane uświadomienia sobie, jakie mogły być możliwe wartości. Jedynym niezbędnym założeniem jest tutaj MAR.

AdamO
źródło
Co oznacza „funkcja łączenia jest zwijana”?
Matthew Drury
1
@MatthewDrury w zasadzie „zwijalność” oznacza, że ​​dostosowanie do zmiennych, które przewidują wynik, ale nie główny (e) efekt (y), zwiększy precyzję, ale nie zmieni szacowanego efektu.
AdamO
Fajnie, dzięki Adam. Nie słyszałem wcześniej tej terminologii.
Matthew Drury