Idea adaptacyjnej analizy danych polega na tym, że zmieniasz swój plan analizowania danych, gdy dowiadujesz się więcej na ten temat. W przypadku eksploracyjnej analizy danych (EDA) jest to ogólnie dobry pomysł (często szukasz nieprzewidzianych wzorców w danych), ale w przypadku badania potwierdzającego jest to powszechnie akceptowane jako bardzo błędna metoda analizy (chyba że wszystkie kroki są jasno określone i odpowiednio zaplanowane w zaawansowany sposób).
To powiedziawszy, analiza danych adaptacyjnych jest zwykle liczbą badaczy, którzy faktycznie przeprowadzają swoje analizy, ku przerażeniu statystyk. Jako taki, jeśli można to zrobić w sposób prawidłowy statystycznie, zrewolucjonizuje to praktykę statystyczną.
Poniższy artykuł naukowy twierdzi, że znalazł metodę takiego postępowania (przepraszam za zapłatę, ale jeśli jesteś na uniwersytecie, prawdopodobnie masz dostęp): Dwork i in., 2015, The wielokrotnego użytku utrapienie: Zachowanie ważności w adaptacyjnej analizie danych .
Osobiście zawsze byłem sceptyczny wobec artykułów statystycznych publikowanych w Science , a ten nie jest inny. W rzeczywistości po dwukrotnym przeczytaniu artykułu, w tym materiału uzupełniającego, nie rozumiem (wcale), dlaczego autorzy twierdzą, że ich metoda zapobiega nadmiernemu dopasowaniu.
Rozumiem, że mają zbiór danych wstrzymania, którego użyją ponownie. Wydaje się, że twierdzą oni, że „zniekształcają” wyniki analizy potwierdzającej w zbiorze danych wstrzymania, zapobiegnie się nadmiernemu dopasowywaniu (warto zauważyć, że wydaje się, że zakłócenia powodują tylko szum, jeśli obliczona statystyka danych treningowych jest wystarczająco daleko z obliczonej statystyki na podstawie danych wstrzymania ). O ile mi wiadomo, nie ma żadnego prawdziwego powodu, aby zapobiec nadmiernemu dopasowaniu.
Czy mylę się co do tego, co proponują autorzy? Czy przeoczam jakiś subtelny efekt? Czy też Science poparł najgorszą jak dotąd praktykę statystyczną?
Odpowiedzi:
Istnieje blog autorów, który opisuje to na wysokim poziomie.
Cytując od początku tego postu:
W ogóle nie widzę, jak ich technika rozwiązuje ten problem. W odpowiedzi na twoje pytanie wierzę, że nie odnoszą się one do Ogrodu Rozwidlających Ścieżek iw tym sensie ich technika wprowadzi ludzi w fałszywe poczucie bezpieczeństwa. Niewiele różni się od powiedzenia „użyłem weryfikacji krzyżowej” uśpienia wielu - którzy używali nie zagnieżdżonego CV - w fałszywym poczuciu bezpieczeństwa.
Wydaje mi się, że większość postów na blogu wskazuje na ich technikę jako lepszą odpowiedź na to, jak powstrzymać uczestników konkursu w stylu Kaggle od wspinania się na gradient zestawu testów. Co jest przydatne, ale nie odnosi się bezpośrednio do Ścieżek Rozwidlania. Wygląda na to, że ma smak Wolfram i nowej nauki Google, w której przejmie ogromne ilości danych. Ta narracja ma mieszaną historię i zawsze jestem sceptyczny wobec automatycznej magii.
źródło
Jestem pewien, że nadmiernie upraszczam tę różnicową technikę prywatności, ale pomysł ma sens na wysokim poziomie.
Kiedy dostajesz algorytm do wyplucia dobrego wyniku (wow, dokładność mojego zestawu testów naprawdę się poprawiła), nie chcesz od razu wyciągać wniosków. Chcesz to zaakceptować tylko wtedy, gdy poprawa jest znacznie większa niż w poprzednim algorytmie. To jest powód dodawania hałasu.
EDYCJA: Ten blog ma dobre objaśnienia i kody R do demonstrowania skuteczności dodatku szumu, http://www.win-vector.com/blog/2015/10/a-simpler-explanation-of-differential-privacy/
źródło
Twierdzenie, że dodanie hałasu pomaga zapobiegać nadmiernemu dopasowaniu, naprawdę trzyma tutaj wodę, ponieważ tak naprawdę robią to ograniczanie sposobu ponownego wykorzystania blokady . Ich metoda faktycznie robi dwie rzeczy: ogranicza liczbę pytań, które można zadać w związku z wstrzymaniem, oraz to, ile z każdej odpowiedzi ujawnia dane dotyczące wstrzymania.
Sercem ich metody jest związek między stabilnością algorytmu a nadmiernym dopasowaniem, który sięga końca lat 70. (Devroye i Wagner 1978). Z grubsza mówi
Istnieje obecnie sporo artykułów analizujących, w jaki sposób różne procedury dodawania hałasu kontrolują nadmierne dopasowanie. Względnie czytelny jest Russo i Zou ( https://arxiv.org/abs/1511.05219 ). Niektóre nowsze prace uzupełniające na temat początkowej pracy Dwork i in. może być również pomocne. (Zastrzeżenie: Mam dwa artykuły na ten temat, ostatni z nich wyjaśnia związek z testowaniem adaptacyjnej hipotezy: https://arxiv.org/abs/1604.03924 .)
Mam nadzieję, że to wszystko pomaga.
źródło
Sprzeciwiam się twojemu drugiemu zdaniu. Pomysł, że kompletny plan analizy danych powinien zostać ustalony z góry, jest nieuzasadniony, nawet w sytuacji, w której próbujesz potwierdzić istniejącą hipotezę naukową. Przeciwnie, każda przyzwoita analiza danych będzie wymagała zwrócenia uwagi na rzeczywiste dane, które zostały uzyskane. Naukowcy, którzy wierzą inaczej, są na ogół badaczami, którzy uważają, że testowanie istotności jest początkiem i końcem analizy danych, przy niewielkiej lub zerowej roli w statystyce opisowej, wykresach, szacunkach, prognozach, wyborze modelu itp. W tym kontekście wymóg wcześniejsze ustalenie planów analitycznych ma większy sens, ponieważ konwencjonalne sposoby, w jakie p- wartości obliczane wymagają, aby wielkość próby i testy, które należy przeprowadzić, były ustalane przed wyświetleniem jakichkolwiek danych. To wymaganie utrudnia analitykowi, a zatem jest jednym z wielu dobrych powodów, aby nie stosować testów istotności.
Możesz sprzeciwić się temu, że pozwolenie analitykowi na wybór czynności po obejrzeniu danych pozwala na przeregulowanie. Tak, ale dobry analityk pokaże wszystkie przeprowadzone analizy, wyraźnie powie, jakie informacje w danych wykorzystano do podjęcia decyzji analitycznych, i odpowiednio wykorzysta metody takie jak walidacja krzyżowa. Na przykład generalnie dobrze jest przekodować zmienne w oparciu o uzyskany rozkład wartości, ale wybranie do niektórych analiz 3 ze 100 predyktorów, które mają najbliższe zaobserwowane powiązanie ze zmienną zależną, oznacza, że oszacowania powiązania będą dodatnie stronniczy, przez regresję do średniej. Jeśli chcesz dokonać wyboru zmiennych w kontekście predykcyjnym, musisz wybrać zmienne w zakładkach cross-validation lub użyć tylko danych treningowych.
źródło