Mam pytanie dotyczące koncepcji „podstawowych statystyk”. Jako student chciałbym wiedzieć, czy myślę o tym całkowicie źle i dlaczego, jeśli tak:
Powiedzmy, że próbuję hipotetycznie spojrzeć na związek między „problemami zarządzania gniewem” i powiedzieć rozwód (tak / nie) w regresji logistycznej i mam możliwość zastosowania dwóch różnych wyników zarządzania gniewem - oba na 100.
Ocena 1 pochodzi z instrumentu oceny kwestionariusza 1 i mojego innego wyboru; wynik 2 pochodzi z innego kwestionariusza. Hipotetycznie mamy powody, by sądzić z poprzednich prac, że problemy zarządzania gniewem prowadzą do rozwodu.
Jeśli w mojej próbie 500 osób wariancja wyniku 1 jest znacznie wyższa niż ocena 2, to czy istnieje jakikolwiek powód, by sądzić, że wynik 1 byłby lepszym wynikiem do zastosowania jako predyktor rozwodu na podstawie jego wariancji?
Dla mnie to instynktownie wydaje się słuszne, ale czy tak jest?
źródło
Odpowiedzi:
Kilka szybkich punktów:
źródło
Prosty przykład pomaga nam określić, co jest niezbędne.
Niech
Zmieniają się parametry i zmienia się wariancja zmiennej niezależnej , ale zdolność prognostyczna modelu pozostaje niezmieniona .
źródło
Zawsze sprawdzaj założenia testu statystycznego, którego używasz!
Jednym z założeń regresji logistycznej jest niezależność błędów, co oznacza, że przypadki danych nie powinny być powiązane. Na przykład. nie możesz mierzyć tych samych ludzi w różnych punktach czasowych, co obawiam się, że mogłeś zrobić z ankietami zarządzania gniewem.
Martwiłbym się również, że dzięki 2 ankietom dotyczącym zarządzania gniewem zasadniczo mierzysz to samo, a twoja analiza może cierpieć z powodu wielokoliniowości.
źródło