Używasz ANOVA na procentach?

13

Mam tabelę z czterema grupami (4 grupy BMI) jako zmienną niezależną (czynnik). Mam zmienną zależną, którą jest „procent matek palących w ciąży”.

Czy do tego celu można używać ANOVA, czy muszę używać chi-kwadrat lub innego testu?

rysował
źródło

Odpowiedzi:

21

Istnieje różnica między posiadaniem zmiennej binarnej jako zmiennej zależnej a proporcją jako zmiennej zależnej.

  • Binarna zmienna zależna :

    • To brzmi jak masz. (tj. każda matka albo paliła, albo nie paliła)
    • W tym przypadku nie użyłbym ANOVA. Regresja logistyczna z jakąś formą kodowania (być może kodowaniem pozorowanym) dla jakościowej zmiennej predykcyjnej jest oczywistym wyborem, jeśli konceptualizujesz zmienną binarną jako zmienną zależną (w przeciwnym razie możesz zrobić chi-kwadrat).
  • Proporcja jako zmienna zależna :

    • To nie brzmi jak masz. (tj. nie masz danych dotyczących odsetka całkowitego czasu przebudzenia, że ​​matka paliła podczas ciąży w próbce palącej kobiety w ciąży).
    • W takim przypadku ANOVA i standardowe podejścia do modelu liniowego mogą, ale nie muszą być uzasadnione dla twoich celów. Zobacz odpowiedź @Ben Bolker na omówienie problemów.
Jeromy Anglim
źródło
Dla binarnej zmiennej zależnej, w przypadku gdy mam tylko dane podsumowujące dla proporcji binarnych (tj. # W grupach A, B i C oraz # sukcesów w grupie A, B i C), a nie rzeczywiste surowe dane, jak możemy przejść przez regresję logistyczną? Znam się tylko na tym z surowymi danymi.
Bryan,
15

Zależy to od tego, jak blisko są odpowiedzi w różnych grupach do 0 lub 100%. Jeśli istnieje wiele skrajnych wartości (tj. Wiele wartości zebranych w 0 lub 100%), będzie to trudne. (Jeśli nie znasz „mianowników”, tj. Liczby podmiotów, na podstawie których obliczane są procenty, to i tak nie możesz użyć podejść do tabeli awaryjnej.) Jeśli wartości w grupach są bardziej rozsądne, możesz przekształcić zmienna odpowiedzi (np. klasyczna pierwiastek kwadratowy z arcus sinus lub transformata logit). Istnieje wiele podejść graficznych (preferowane) i testowania zerowej hipotezy (mniej preferowane) w celu podjęcia decyzji, czy przekształcone dane odpowiednio spełniają założenia ANOVA (jednorodność wariancji i normalności, ta pierwsza jest ważniejsza od drugiej). Testy graficzne: wykresy pudełkowe (jednorodność wariancji) i wykresy QQ (normalność) [te ostatnie należy wykonać w grupach lub na resztach]. Testy zerowej hipotezy: np. Test Bartletta lub Flignera (jednorodność wariancji), Shapiro-Wilk, Jarque-Bera itp.

Ben Bolker
źródło
11

Musisz mieć nieprzetworzone dane, aby zmienna odpowiedzi wynosiła 0/1 (nie pali, nie pali). Następnie możesz użyć binarnej regresji logistycznej. Niepoprawne jest grupowanie BMI w interwałach. Punkty odcięcia są nieprawidłowe, prawdopodobnie nie istnieją i oficjalnie nie testujesz, czy BMI jest związany z paleniem. Obecnie testujesz, czy BMI z odrzuconymi znacznymi informacjami wiąże się z paleniem. Przekonasz się, że szczególnie zewnętrzne przedziały BMI są dość niejednorodne.

Frank Harrell
źródło
2
@Frank - dlaczego „niepoprawne” jest grupowanie BMI? wydaje się to całkowicie uzasadnione, o ile wyniki są odpowiednio interpretowane. Możesz na przykład sprawdzać, czy bycie „niedowagą”, „zdrową wagą”, „nadwagą” i „otyłością” wiąże się z paleniem tytoniu, gdy te terminy są zdefiniowane przez zakresy BMI. Nie widzę tutaj „złego”.
probabilislogiczny
Uważam, że PO działa ze wspólnym zestawem danych instruktażowych i może nie mieć surowego BMI. Chociaż dyskretowanie ciągłych regresorów nie jest na ogół idealne, nie jest to jednak „niepoprawne”. Pomocne może być nawet skorzystanie z tego, gdy podejrzewamy, że pomiary są hałaśliwe i nie ma innego wyjścia. Rzeczywiście, prawdziwą hipotezą, którą chcielibyśmy sprawdzić, jest to, czy otyłość jest związana z paleniem; BMI jest tylko jednym ze sposobów pomiaru otyłości (i ma swoje problemy z tego, co rozumiem).
JMS
4
Nawet gdy pomiary są hałaśliwe, analiza zmiennych jako ciągłych jest lepsza. Kategoryzacja BMI stwarza więcej problemów, niż mogą rozwiązać różne wybory analizy. W rzeczywistości szacunki przy kategoryzacji nie mają już naukowej interpretacji. Wielkość naukowa to taka, która ma znaczenie poza bieżącym eksperymentem. Przekonasz się, że oszacowania grupowe (np. Logarytmiczne szanse, że Y = 1 dla wysokich i niskich przedziałów X) są funkcjami całego zestawu obserwowanych BMI. Na przykład, jeśli dodasz do próbki więcej wyjątkowo wysokich lub bardzo niskich BMI, „efekty” będą silniejsze.
Frank Harrell,
Dla tych, którzy zainstalowali R i RStudio, interaktywną demonstrację można znaleźć na stronie biostat.mc. vanderbilt.edu/BioMod - patrz zielone NOWY znak. Musisz załadować skrypt do RStudio, a także zainstalować pakiet Hmisc.
Frank Harrell
„Nawet gdy pomiary są hałaśliwe, analiza zmiennych jako ciągłych jest lepsza” Jest to po prostu niepoprawne (ogólnie rzecz biorąc, to znaczy - zwykle jest to prawda). Wyobraź sobie, że masz ciągłą zmienną towarzyszącą, w której na przykład błąd w pomiarze rośnie wraz ze swoją wielkością. Oczywiście najlepszą rzeczą do zrobienia jest modelowanie błędu lub uzyskanie lepszych pomiarów itp. Ale stwierdzenie, że jest to niepoprawne, jest po prostu zbyt mocnym stwierdzeniem.
JMS
3

Jeśli zdecydujesz się wykonać zwykłą ANOVA na danych proporcjonalnych, bardzo ważne jest zweryfikowanie założenia jednorodnych wariancji błędów. Jeśli (jak to jest często w przypadku danych procentowych) wariancje błędów nie są stałe, bardziej realistyczną alternatywą jest wypróbowanie regresji beta, która może uwzględniać tę heteroscedastyczność w modelu. Oto artykuł omawiający różne alternatywne sposoby radzenia sobie ze zmienną odpowiedzi, która jest procentem lub proporcją: http://www.ime.usp.br/~sferrari/beta.pdf

Jeśli użyjesz R, pakiet betareg może być przydatny.

Will Townes
źródło