Czy predyktor o większej wariancji jest „lepszy”?

13

Mam pytanie dotyczące koncepcji „podstawowych statystyk”. Jako student chciałbym wiedzieć, czy myślę o tym całkowicie źle i dlaczego, jeśli tak:

Powiedzmy, że próbuję hipotetycznie spojrzeć na związek między „problemami zarządzania gniewem” i powiedzieć rozwód (tak / nie) w regresji logistycznej i mam możliwość zastosowania dwóch różnych wyników zarządzania gniewem - oba na 100.
Ocena 1 pochodzi z instrumentu oceny kwestionariusza 1 i mojego innego wyboru; wynik 2 pochodzi z innego kwestionariusza. Hipotetycznie mamy powody, by sądzić z poprzednich prac, że problemy zarządzania gniewem prowadzą do rozwodu.
Jeśli w mojej próbie 500 osób wariancja wyniku 1 jest znacznie wyższa niż ocena 2, to czy istnieje jakikolwiek powód, by sądzić, że wynik 1 byłby lepszym wynikiem do zastosowania jako predyktor rozwodu na podstawie jego wariancji?

Dla mnie to instynktownie wydaje się słuszne, ale czy tak jest?

N26
źródło
Ciekawe pytanie, uważam, że odpowiedź Whubera doskonale to wyjaśnia. Moja pierwsza odpowiedź na to pytanie brzmiała: „większa wariancja nie pociąga za sobą informacji o wyższym poziomie dyskryminacji”.
Zhubarb,

Odpowiedzi:

11

Kilka szybkich punktów:

  • Odchylenie można dowolnie zwiększać lub zmniejszać, przyjmując inną skalę dla zmiennej. Pomnożenie skali przez stałą większą niż jeden zwiększyłoby wariancję, ale nie zmieniło mocy predykcyjnej zmiennej.
  • Być może mylisz wariancję z niezawodnością. Wszystkie pozostałe są równe (i zakładając, że istnieje co najmniej pewna prawdziwa prognoza wyników), zwiększenie niezawodności, z jaką mierzysz konstrukcję, powinno zwiększyć jej moc predykcyjną. Sprawdź omówienie korekty tłumienia .
  • Zakładając, że obie skale składały się z dwudziestu 5-punktowych pozycji, a zatem miały łączne wyniki w zakresie od 20 do 100, wówczas wersja z większą wariancją byłaby również bardziej niezawodna (przynajmniej pod względem spójności wewnętrznej).
  • Wiarygodność wewnętrznej spójności nie jest jedynym standardem oceny testu psychologicznego i nie jest jedynym czynnikiem, który odróżnia moc predykcyjną jednej skali od drugiej dla danego konstruktu.
Jeromy Anglim
źródło
9

Prosty przykład pomaga nam określić, co jest niezbędne.

Niech

Y=C+γX1+ε

CγX1ε

X1=αX2+β.

X1=2X250X1α2X2

Y=C+γ(αX2+β)=(C+βγ)+(γα)X2+ε=C+γX2+ε.

Zmieniają się parametry i zmienia się wariancja zmiennej niezależnej , ale zdolność prognostyczna modelu pozostaje niezmieniona .

X1X2YYXi

X1X2YYX1X2X2

Whuber
źródło
1

Zawsze sprawdzaj założenia testu statystycznego, którego używasz!

Jednym z założeń regresji logistycznej jest niezależność błędów, co oznacza, że ​​przypadki danych nie powinny być powiązane. Na przykład. nie możesz mierzyć tych samych ludzi w różnych punktach czasowych, co obawiam się, że mogłeś zrobić z ankietami zarządzania gniewem.

Martwiłbym się również, że dzięki 2 ankietom dotyczącym zarządzania gniewem zasadniczo mierzysz to samo, a twoja analiza może cierpieć z powodu wielokoliniowości.

Parbury
źródło
1
Myślę, że N26 sugeruje eksperyment myślowy. To znaczy, jeśli projektując badanie, masz wybór między dwiema skalami, czy wolisz, prima facie, tę o większej wariancji. Również posiadanie dwóch predyktorów reprezentujących ten sam konstrukt, ale mierzonych inaczej, nie narusza założenia niezależności obserwacji.
Jeromy Anglim