Testowanie hipotez na ciągłych danych o zerowym napompowaniu

10

Byłbym bardzo wdzięczny za twoje porady dotyczące następującego problemu:

Mam duży ciągły zestaw danych z dużą ilością zer (~ 95%) i muszę znaleźć najlepszy sposób, aby sprawdzić, czy niektóre jego podzbiory są „interesujące”, tj. Nie wydają się pochodzić z tego samego rozkładu co reszta. Zero inflacji wynika z faktu, że każdy punkt danych opiera się na pomiarze zliczenia zarówno z zerami rzeczywistymi, jak i zerowymi próbkowania, ale wynik jest ciągły, ponieważ uwzględnia pewne inne parametry ważone przez liczbę (a więc jeśli liczba wynosi zero, wynik jest również zerowy).

Jaki byłby najlepszy sposób to zrobić? Mam wrażenie, że testy permutacji Wilcoxona, a nawet brutalnej siły, są nieodpowiednie, ponieważ są one wypaczane przez te zera. Koncentrowanie się na pomiarach niezerowych powoduje również usunięcie prawdziwych zer, które są niezwykle ważne. Modele z zerowym napompowaniem danych zliczania są dobrze rozwinięte, ale w moim przypadku nie są odpowiednie.

Rozważałem dopasowanie dystrybucji Tweedie do danych, a następnie dopasowanie glm przy odpowiedzi = f (subset_label). Teoretycznie wydaje się to wykonalne, ale zastanawiam się, czy (a) to przesada i (b) nadal domyślnie zakładałby, że wszystkie zera są zerami próbki, tj. Czy byłby stronniczy w ten sam sposób (w najlepszym wypadku) jak permutacja?

Intuicyjnie wygląda na to, że ma jakiś projekt hierarchiczny, który łączy statystyki dwumianowe oparte na proporcji zer i, powiedzmy, statystyki Wilcoxona obliczone na wartościach niezerowych (lub, co więcej, wartości niezerowych uzupełnione ułamkiem zera na podstawie niektórych wcześniejszych). Brzmi jak sieć bayesowska ...

Mam nadzieję, że nie jestem pierwszym, który ma ten problem, więc byłbym bardzo wdzięczny, gdybyś mógł wskazać mi odpowiednie istniejące techniki ...

Wielkie dzięki!

a11msp
źródło
Aktualizacja. Do tej pory znalazłem ten artykuł dotyczący problemu podobnego do mojego: maths.otago.ac.nz/home/downloads/david_fletcher/…
a11msp
Zastanawiam się, czy to bardzo uproszczone przybliżenie miałoby sens, biorąc pod uwagę, że zera stanowią absolutną większość: 1) znajdź proporcję zer w każdym podzbiorze. 2) załóżmy, że w podzbiorze z najmniejszą liczbą zer wszystkie zera są prawdziwe. 3) z każdego podzbioru usuń proporcję zer równą proporcji zer w najbardziej „bogatym w zero” zestawie danych. 4) uruchom standardowe nieparametryczne statystyki dla tego zmodyfikowanego zestawu danych.
a11msp
Hiperłącze do artykułu w pierwszym komentarzu wydaje się być martwe. Czy możesz zamiast tego podać cytat?
coip
1
Dzięki za zwrócenie na to uwagi: doi.org/10.1007/s10651-005-6817-1
a11msp

Odpowiedzi:

9

@msp, myślę, że patrzysz na dwustopniowy model w tym załączniku (nie miałem czasu go przeczytać), ale ciągłe dane o zerowym napełnieniu to typ, z którym dużo pracuję. Aby dopasować model parametryczny do tych danych (aby umożliwić testy hipotez), możesz dopasować dwustopniowy, ale masz dwa modele (Y to cel, a X to zmienne towarzyszące): P (Y = 0 | X) i P (Y | X; Y> 0). Musisz użyć symulacji, aby „połączyć” je razem. Książka Gelmansa (i pakiet ramienia w R) pokazuje ten proces dla tego dokładnego modelu (przy użyciu regresji logistycznej i zwykłej regresji liniowej z łączem logarytmicznym).

Inną opcją, którą widziałem i lubię lepiej, jest dopasowanie regresji napompowanej zerowo gamma, która jest taka sama jak powyżej (ale gamma jako błąd zamiast guassiana) i można je połączyć w celu przetestowania hipotez na P (Y | X) . Nie wiem jak to zrobić w R, ale możesz to zrobić w SAS NLMIXED. Zobacz ten post , działa dobrze.

B_Miner
źródło
@B_Miner, bardzo dziękuję za odpowiedź, przepraszam, nie mam wystarczającej oceny, aby zagłosować ... Spojrzę na linki! Martwię się tylko o modele warunkowe, ponieważ postulują, że zera nie mogą należeć do drugiego (ciągłego) składnika, prawda? Czy moje ustawienie nie przypomina trochę modelu mieszanego? Co myślisz?
a11msp
Powtórzyłem teraz dwustopniowe podejście zaproponowane w książce Gelmana. Jeśli subset_factor (z 25 poziomami) służy jako etykieta podzestawu, pierwszym krokiem jest fit1 = glm (odpowiedź ~ subset_factor, family = dwumianowy); a drugim krokiem jest fit2 = lm (odpowiedź ~ współczynnik_ podzbioru, podzbiór = odpowiedź> 0). Następnie mogę uruchomić symulacje, które opisują, aby uzyskać rozkład dopasowanych wartości odpowiedzi dla każdego poziomu współczynnika. Nadal jednak nie jestem pewien, jak przełożyć to na to, czego potrzebuję, a mianowicie (a) prawdopodobieństwo, że współczynniki nie są zerowe, oraz (b) istotność różnicy między współczynnikami na różnych poziomach czynników.
a11msp
Podejście dwustopniowe (metoda Gelmana dwóch oddzielnych modeli) zakłada dwie populacje, te o zerowej i te powyżej.
B_Miner
... więc czy właściwe byłoby po prostu powiedzieć, że jeśli wpływ jakiegoś poziomu czynników jest znaczący (i znacząco różny od wpływu innego poziomu czynników) w którymkolwiek z dwóch modeli metody Gelmana, to jest ogólnie znaczący?
a11msp
1
Tak, podejście dwustopniowe (metoda Gelmana dwóch oddzielnych modeli) zakłada dwie populacje, te o zerowej i te> 0. Jeśli chodzi o testy hipotez, czy można je ująć w zakresie przewidywanych wartości dla różnych poziomów danych wejściowych i skonstruować empirycznie przedziały ufności związane z symulacjami dla każdego? W przypadku testów hipotez dla współczynnika! = 0 należy to sprawdzić osobno dla obu modeli.
B_Miner
2

Podobne podejście do papieru Fletchera stosuje się w testach marketingowych, w których możemy arbitralnie podzielić efekty interwencji (takich jak reklama) na (a) zmianę liczby nabywającej markę (tj. Odsetek zer) i (b) a zmiana częstotliwości zakupu zespołu (sprzedaż przy danej sprzedaży występuje w ogóle). Jest to solidne podejście i koncepcyjnie znaczące w kontekście marketingowym i ekologicznym, o którym mówi Fletcher. W rzeczywistości można to rozszerzyć na (c) zmianę wielkości każdego zakupu.

zbicyclist
źródło
Dzięki! Zastanawiam się, czy zdajesz sobie sprawę z istniejącej implementacji tego?
a11msp 30.03.11
1

Możesz traktować dokładną liczbę zer nieznaną, ale ograniczoną między 0 a obserwowaną liczbą zer. Można to z pewnością rozwiązać za pomocą bayesowskiego sformułowania modelu. Być może można również zmodyfikować metodę wielokrotnej imputacji, aby odpowiednio zmienić wagi (od 0 do 1) zerowych obserwacji…

GaBorgulya
źródło