Byłbym bardzo wdzięczny za twoje porady dotyczące następującego problemu:
Mam duży ciągły zestaw danych z dużą ilością zer (~ 95%) i muszę znaleźć najlepszy sposób, aby sprawdzić, czy niektóre jego podzbiory są „interesujące”, tj. Nie wydają się pochodzić z tego samego rozkładu co reszta. Zero inflacji wynika z faktu, że każdy punkt danych opiera się na pomiarze zliczenia zarówno z zerami rzeczywistymi, jak i zerowymi próbkowania, ale wynik jest ciągły, ponieważ uwzględnia pewne inne parametry ważone przez liczbę (a więc jeśli liczba wynosi zero, wynik jest również zerowy).
Jaki byłby najlepszy sposób to zrobić? Mam wrażenie, że testy permutacji Wilcoxona, a nawet brutalnej siły, są nieodpowiednie, ponieważ są one wypaczane przez te zera. Koncentrowanie się na pomiarach niezerowych powoduje również usunięcie prawdziwych zer, które są niezwykle ważne. Modele z zerowym napompowaniem danych zliczania są dobrze rozwinięte, ale w moim przypadku nie są odpowiednie.
Rozważałem dopasowanie dystrybucji Tweedie do danych, a następnie dopasowanie glm przy odpowiedzi = f (subset_label). Teoretycznie wydaje się to wykonalne, ale zastanawiam się, czy (a) to przesada i (b) nadal domyślnie zakładałby, że wszystkie zera są zerami próbki, tj. Czy byłby stronniczy w ten sam sposób (w najlepszym wypadku) jak permutacja?
Intuicyjnie wygląda na to, że ma jakiś projekt hierarchiczny, który łączy statystyki dwumianowe oparte na proporcji zer i, powiedzmy, statystyki Wilcoxona obliczone na wartościach niezerowych (lub, co więcej, wartości niezerowych uzupełnione ułamkiem zera na podstawie niektórych wcześniejszych). Brzmi jak sieć bayesowska ...
Mam nadzieję, że nie jestem pierwszym, który ma ten problem, więc byłbym bardzo wdzięczny, gdybyś mógł wskazać mi odpowiednie istniejące techniki ...
Wielkie dzięki!
źródło
Odpowiedzi:
@msp, myślę, że patrzysz na dwustopniowy model w tym załączniku (nie miałem czasu go przeczytać), ale ciągłe dane o zerowym napełnieniu to typ, z którym dużo pracuję. Aby dopasować model parametryczny do tych danych (aby umożliwić testy hipotez), możesz dopasować dwustopniowy, ale masz dwa modele (Y to cel, a X to zmienne towarzyszące): P (Y = 0 | X) i P (Y | X; Y> 0). Musisz użyć symulacji, aby „połączyć” je razem. Książka Gelmansa (i pakiet ramienia w R) pokazuje ten proces dla tego dokładnego modelu (przy użyciu regresji logistycznej i zwykłej regresji liniowej z łączem logarytmicznym).
Inną opcją, którą widziałem i lubię lepiej, jest dopasowanie regresji napompowanej zerowo gamma, która jest taka sama jak powyżej (ale gamma jako błąd zamiast guassiana) i można je połączyć w celu przetestowania hipotez na P (Y | X) . Nie wiem jak to zrobić w R, ale możesz to zrobić w SAS NLMIXED. Zobacz ten post , działa dobrze.
źródło
Podobne podejście do papieru Fletchera stosuje się w testach marketingowych, w których możemy arbitralnie podzielić efekty interwencji (takich jak reklama) na (a) zmianę liczby nabywającej markę (tj. Odsetek zer) i (b) a zmiana częstotliwości zakupu zespołu (sprzedaż przy danej sprzedaży występuje w ogóle). Jest to solidne podejście i koncepcyjnie znaczące w kontekście marketingowym i ekologicznym, o którym mówi Fletcher. W rzeczywistości można to rozszerzyć na (c) zmianę wielkości każdego zakupu.
źródło
Możesz traktować dokładną liczbę zer nieznaną, ale ograniczoną między 0 a obserwowaną liczbą zer. Można to z pewnością rozwiązać za pomocą bayesowskiego sformułowania modelu. Być może można również zmodyfikować metodę wielokrotnej imputacji, aby odpowiednio zmienić wagi (od 0 do 1) zerowych obserwacji…
źródło