Codziennie zbieram bardzo duże próbki (> 1 000 000) danych kategorycznych i chcę, aby dane wyglądały „znacząco” różnie między poszczególnymi dniami w celu wykrycia błędów w gromadzeniu danych.
Myślałem, że użycie testu dobrego dopasowania (w szczególności testu G) byłoby dobrym dopasowaniem (gra słów). Oczekiwany rozkład wynika z rozkładu z poprzedniego dnia.
Ale ponieważ moje rozmiary próbek są tak duże, test ma bardzo dużą moc i daje wiele fałszywych wyników dodatnich. To znaczy, nawet bardzo niewielka dzienna fluktuacja da prawie zerową wartość p.
Ostatecznie pomnożyłem moją statystykę testową przez pewną stałą (0,001), co ma niezłą interpretację próbkowania danych z tą szybkością. Ten artykuł wydaje się zgadzać z tym podejściem. Mówią, że:
Chi kwadrat jest najbardziej niezawodny z próbkami od około 100 do 2500 osób
Szukam bardziej autorytatywnych komentarzy na ten temat. A może jakieś alternatywne rozwiązania dla fałszywych trafień podczas przeprowadzania testów statystycznych na dużych zestawach danych.
źródło
Odpowiedzi:
Test zwraca poprawny wynik. Rozkłady nie są takie same z dnia na dzień. Nie ma to dla ciebie oczywiście sensu. Problem, z którym się zmagasz, jest od dawna znany. Patrz: Karl Pearson i RA Fisher o badaniach statystycznych: Wymiana z natury w 1935 r
Zamiast tego możesz spojrzeć wstecz na poprzednie dane (swoje lub skądinąd) i uzyskać rozkład codziennych zmian dla każdej kategorii. Następnie sprawdzasz, czy przy tej dystrybucji prawdopodobne jest wystąpienie bieżącej zmiany. Trudno jest udzielić dokładniejszej odpowiedzi bez wiedzy o danych i rodzajach błędów, ale takie podejście wydaje się bardziej dostosowane do Twojego problemu.
źródło
Dalej, zabijmy świętą krowę w wysokości 5%.
(Prawidłowo) wskazałeś, że problemem jest żywiołowa moc testu. Możesz ponownie skalibrować go w celu uzyskania bardziej odpowiedniej mocy, na przykład bardziej tradycyjnej wartości 80%:
Załóżmy, że masz 5 kategorii z jednakowymi prawdopodobieństwami, , a twoją alternatywą jest p + δ / √p1= p2)= p3)= p4= p5= 0,2 . Tak więc dlan=106,δ=(-2,+2,0,0,p + δ/ n--√= ( 0,198 , 0,202 , 0,2 , 0,2 , 0,2 ) n = 106 δ= ( - 2 , + 2 , 0 , 0 , 0 ) k =
Przy tej dużej wartości λ jest to wystarczająco blisko N ( μ = λ + k = 44 , σ + 2 λ ) = 168 ) . Płytka 80% wynosi 44 + 13 ⋅ Φ - 1 ( 0,8 ) = 44 + 13 ⋅ 0,84 = 54,91
(Sprawdź moją matematykę, to jest absurdalny poziom testu, ale tego właśnie chciałeś z Big Data, prawda? Z drugiej strony, jeśli rutynowo widzisz Pearson w zakresie kilkuset, może to być całkowicie znacząca wartość krytyczna do rozrywki.)χ2)
Pamiętaj jednak, że przybliżenia, zarówno zerowe, jak i alternatywne, mogą źle działać na ogonach, zobacz tę dyskusję .
źródło
W tych przypadkach mój profesor zasugerował, aby obliczyć V Craméra, który jest miarą asocjacji opartej na statystyce chi-kwadrat. To powinno dać ci siłę i pomóc ci zdecydować, czy test jest nadwrażliwy. Ale nie jestem pewien, czy można użyć V z rodzajem statystyki, którą zwracają testy G2.
Powinien to być wzór na V:
gdzien k k
źródło
Jednym z podejść byłoby uczynienie testów dopasowania dobrymi bardziej znaczącymi, wykonując je na mniejszych blokach danych.
źródło