Przeprowadziliśmy test podziału nowej funkcji produktu i chcemy sprawdzić, czy wzrost przychodów jest znaczący. Nasze obserwacje zdecydowanie nie są normalnie rozpowszechniane (większość naszych użytkowników nie wydaje, a wśród tych, którzy to robią, jest mocno wypaczona w kierunku wielu małych wydawców i kilku bardzo dużych wydawców).
Zdecydowaliśmy się na użycie ładowania początkowego w celu porównania środków, aby obejść problem normalnej dystrybucji danych (pytanie poboczne: czy jest to uzasadnione użycie ładowania początkowego?)
Moje pytanie brzmi: czy muszę wyciąć wartości odstające z zestawu danych (np. Kilka bardzo dużych wydatków) przed uruchomieniem ładowania, czy to nie ma znaczenia?
Odpowiedzi:
Przed zajęciem się tym należy zauważyć, że błąd statystyczny polegający na „usuwaniu wartości odstających” został nieprawidłowo ogłoszony w dużej części stosowanej pedagogiki statystycznej. Tradycyjnie wartości odstające definiuje się jako obserwacje o dużej dźwigni i dużym wpływie. Można i należy zidentyfikować takie obserwacje w analizie danych, ale same te warunki nie uzasadniają usunięcia tych obserwacji. „Prawdziwa wartość odstająca” to obserwacja o dużej dźwigni / dużym wpływie, która jest niezgodna z replikacją projektu eksperymentalnego. Uznanie obserwacji za taką wymaga specjalistycznej wiedzy na temat tej populacji i nauki stojącej za „mechanizmem generowania danych”. Najważniejszym aspektem jest to, że powinieneś być w stanie zidentyfikować potencjalne wartości odstające apriori .
Jeśli chodzi o aspekt ładowania początkowego rzeczy, pasek startowy ma symulować niezależne, powtarzane losowania z populacji próbkowania. Jeśli wcześniej określisz kryteria wykluczenia w swoim planie analizy, nadal powinieneś pozostawić wykluczone wartości w referencyjnym rozkładzie próbkowania bootstrap . Wynika to z utraty mocy z powodu zastosowania wykluczeń po próbkowaniu danych. Jeśli jednak nie ma wcześniej określonych kryteriów wykluczenia, a wartości odstające są usuwane za pomocą orzeczenia post hoc , ponieważ oczywiście jestem przeciwny, usunięcie tych wartości spowoduje propagowanie tych samych błędów wnioskowania, które są spowodowane przez usunięcie wartości odstających.
Rozważ badanie bogactwa i szczęścia w niestratyfikowanej prostej losowej próbie 100 osób. Gdybyśmy przyjęli stwierdzenie, że „1% populacji ma dosłownie 90% światowego bogactwa”, wówczas zaobserwowalibyśmy średnio jedną bardzo wysoce wpływową wartość. Załóżmy ponadto, że poza zapewnieniem podstawowej jakości życia, nie było nadmiernego szczęścia przypisywanego większemu dochodowi (niekonsekwentny trend liniowy). Więc ta osoba ma również dużą dźwignię.
Współczynnik regresji najmniejszych kwadratów dopasowany do nieskażonych danych szacuje uśredniony w populacji trend pierwszego rzędu w tych danych. Jest silnie osłabiony przez naszą 1 osobę w próbie, której szczęście jest zgodne z bliskimi mediany poziomów dochodu. Jeśli usuniemy tę osobę, nachylenie regresji metodą najmniejszych kwadratów będzie znacznie większe, ale wariancja regresora zostanie zmniejszona, stąd wnioskowanie o powiązaniu jest w przybliżeniu takie samo. Trudność polega na tym, że nie określiłem wcześniej warunków, w których osoby byłyby wykluczone. Gdyby inny badacz powtórzył ten plan badania, pobrałby próbkę przeciętnie jednej osoby o wysokim dochodzie, osoby umiarkowanie szczęśliwej i uzyskałby wyniki niezgodne z moimi „przyciętymi” wynikami.
Gdybyśmy byli apriori zainteresowany umiarkowanym stowarzyszenia szczęścia dochód, wówczas powinien Autorzy przyjęli, że będzie, na przykład „porównać osoby zarabiają mniej niż $ 100,000 roczny dochód gospodarstwa domowego”. Usunięcie wartości odstającej powoduje więc oszacowanie związku, którego nie możemy opisać, dlatego wartości p są bez znaczenia.
Z drugiej strony źle skalibrowany sprzęt medyczny i żałosne ankiety, które można zgłosić, mogą zostać usunięte. Im dokładniej kryteria wykluczenia można opisać przed faktyczną analizą, tym bardziej wiarygodne i spójne będą wyniki, jakie przyniesie taka analiza.
źródło
Uważanie tego za problem odstający wydaje mi się błędne. Jeśli „<10% użytkowników wydaje”, musisz wymodelować ten aspekt. Regresja Tobita lub Heckmana byłaby dwiema możliwościami.
źródło