W tym artykule (bezpłatnie dostępnym za pośrednictwem centralnej PubMed) autorzy wykorzystują ujemną regresję dwumianową do modelowania wyniku na 10-elementowym instrumencie przesiewowym z wynikiem 0–40. Ta procedura zakłada dane zliczania, co oczywiście nie ma miejsca w tym przypadku. Chciałbym poznać twoje opinie na temat tego, czy takie podejście jest dopuszczalne, ponieważ czasami używam tego samego lub podobnych instrumentów w mojej pracy. Jeśli nie, chciałbym wiedzieć, czy istnieją jakieś akceptowalne alternatywy. Więcej szczegółów poniżej:
Zastosowaną skalą jest Test Identyfikujący Zaburzenia Alkoholu (AUDIT), 10-elementowy kwestionariusz zaprojektowany jako narzędzie sprawdzające pod kątem zaburzeń spożywania alkoholu i picia niebezpiecznego / szkodliwego. Instrument jest oceniany od 0 do 40, a wyniki są zwykle mocno pochylone w lewo.
Według mojego zrozumienia, użycie danych zliczania zakłada, że wszystkie „zliczone” wartości są od siebie niezależne - pacjenci przychodzą na oddział ratunkowy każdego dnia, liczba ofiar śmiertelnych w określonej grupie itp. - wszyscy są od siebie niezależni, choć zależy od zmiennych podstawowych. Co więcej, myślę, że nie może istnieć maksymalna dozwolona liczba przy użyciu danych zliczania, chociaż uważam, że to założenie może zostać złagodzone, gdy teoretyczne maksimum jest bardzo wysokie w porównaniu do obserwowanego maksimum w danych?
Korzystając ze skali AUDIT, nie mamy prawdziwej liczby. Mamy 10 pozycji z maksymalnym łącznym wynikiem 40, chociaż te wysokie wyniki rzadko są widoczne w praktyce. Punkty na przedmiotach są naturalnie skorelowane ze sobą.
Założenia wymagane do korzystania z danych zliczanych są zatem naruszane. Ale czy jest to nadal akceptowalne podejście? Jak poważne są naruszenia założeń? Czy istnieją pewne okoliczności, w których takie podejście można uznać za bardziej akceptowalne? Czy są jakieś alternatywy dla tego podejścia, które nie obejmują sprowadzania zmiennej skalowanej do kategorii?
Ogólnie rzecz biorąc, różne smaki regresji mają różne priorytety parametrów (tj. Regularyzacji) i różne modele hałasu. Standardowa regresja najmniejszych kwadratów ma model szumu Gaussa, ujemna regresja dwumianowa ma ujemny model szumu dwumianowego i tak dalej. Prawdziwym testem, czy model regresji jest odpowiedni, jest to, czy hałas resztkowy ma oczekiwany rozkład.
Możesz więc zastosować ujemną regresję dwumianową do swoich danych, obliczyć resztki, a następnie wykreślić je na ujemnym dwumianowym wykresie prawdopodobieństwa i dowiedzieć się, czy model jest odpowiedni. Jeśli szum jest skonstruowany w inny sposób, musimy poszukać modelu szumu, który bardziej pasuje do tej struktury.
Rozumowanie od modelu generatywnego do struktury szumu jest pomocne - jeśli wiemy, że dane są multiplikatywne zamiast addytywne, na przykład sięgamy do logarytmu normalnego zamiast normalnego - ale jeśli oczekiwany model generatywny i struktura szumu się nie zgadzają, idź z danymi, a nie oczekiwaniami.
źródło