Mam tabelę z czterema grupami (4 grupy BMI) jako zmienną niezależną (czynnik). Mam zmienną zależną, którą jest „procent matek palących w ciąży”.
Czy do tego celu można używać ANOVA, czy muszę używać chi-kwadrat lub innego testu?
Istnieje różnica między posiadaniem zmiennej binarnej jako zmiennej zależnej a proporcją jako zmiennej zależnej.
Binarna zmienna zależna :
Proporcja jako zmienna zależna :
Zależy to od tego, jak blisko są odpowiedzi w różnych grupach do 0 lub 100%. Jeśli istnieje wiele skrajnych wartości (tj. Wiele wartości zebranych w 0 lub 100%), będzie to trudne. (Jeśli nie znasz „mianowników”, tj. Liczby podmiotów, na podstawie których obliczane są procenty, to i tak nie możesz użyć podejść do tabeli awaryjnej.) Jeśli wartości w grupach są bardziej rozsądne, możesz przekształcić zmienna odpowiedzi (np. klasyczna pierwiastek kwadratowy z arcus sinus lub transformata logit). Istnieje wiele podejść graficznych (preferowane) i testowania zerowej hipotezy (mniej preferowane) w celu podjęcia decyzji, czy przekształcone dane odpowiednio spełniają założenia ANOVA (jednorodność wariancji i normalności, ta pierwsza jest ważniejsza od drugiej). Testy graficzne: wykresy pudełkowe (jednorodność wariancji) i wykresy QQ (normalność) [te ostatnie należy wykonać w grupach lub na resztach]. Testy zerowej hipotezy: np. Test Bartletta lub Flignera (jednorodność wariancji), Shapiro-Wilk, Jarque-Bera itp.
źródło
Musisz mieć nieprzetworzone dane, aby zmienna odpowiedzi wynosiła 0/1 (nie pali, nie pali). Następnie możesz użyć binarnej regresji logistycznej. Niepoprawne jest grupowanie BMI w interwałach. Punkty odcięcia są nieprawidłowe, prawdopodobnie nie istnieją i oficjalnie nie testujesz, czy BMI jest związany z paleniem. Obecnie testujesz, czy BMI z odrzuconymi znacznymi informacjami wiąże się z paleniem. Przekonasz się, że szczególnie zewnętrzne przedziały BMI są dość niejednorodne.
źródło
Jeśli zdecydujesz się wykonać zwykłą ANOVA na danych proporcjonalnych, bardzo ważne jest zweryfikowanie założenia jednorodnych wariancji błędów. Jeśli (jak to jest często w przypadku danych procentowych) wariancje błędów nie są stałe, bardziej realistyczną alternatywą jest wypróbowanie regresji beta, która może uwzględniać tę heteroscedastyczność w modelu. Oto artykuł omawiający różne alternatywne sposoby radzenia sobie ze zmienną odpowiedzi, która jest procentem lub proporcją: http://www.ime.usp.br/~sferrari/beta.pdf
Jeśli użyjesz R, pakiet betareg może być przydatny.
źródło