Czy czasopismo Science poparło analizę Garden of Forking Pathes Analyzes?

29

Idea adaptacyjnej analizy danych polega na tym, że zmieniasz swój plan analizowania danych, gdy dowiadujesz się więcej na ten temat. W przypadku eksploracyjnej analizy danych (EDA) jest to ogólnie dobry pomysł (często szukasz nieprzewidzianych wzorców w danych), ale w przypadku badania potwierdzającego jest to powszechnie akceptowane jako bardzo błędna metoda analizy (chyba że wszystkie kroki są jasno określone i odpowiednio zaplanowane w zaawansowany sposób).

To powiedziawszy, analiza danych adaptacyjnych jest zwykle liczbą badaczy, którzy faktycznie przeprowadzają swoje analizy, ku przerażeniu statystyk. Jako taki, jeśli można to zrobić w sposób prawidłowy statystycznie, zrewolucjonizuje to praktykę statystyczną.

Poniższy artykuł naukowy twierdzi, że znalazł metodę takiego postępowania (przepraszam za zapłatę, ale jeśli jesteś na uniwersytecie, prawdopodobnie masz dostęp): Dwork i in., 2015, The wielokrotnego użytku utrapienie: Zachowanie ważności w adaptacyjnej analizie danych .

Osobiście zawsze byłem sceptyczny wobec artykułów statystycznych publikowanych w Science , a ten nie jest inny. W rzeczywistości po dwukrotnym przeczytaniu artykułu, w tym materiału uzupełniającego, nie rozumiem (wcale), dlaczego autorzy twierdzą, że ich metoda zapobiega nadmiernemu dopasowaniu.

Rozumiem, że mają zbiór danych wstrzymania, którego użyją ponownie. Wydaje się, że twierdzą oni, że „zniekształcają” wyniki analizy potwierdzającej w zbiorze danych wstrzymania, zapobiegnie się nadmiernemu dopasowywaniu (warto zauważyć, że wydaje się, że zakłócenia powodują tylko szum, jeśli obliczona statystyka danych treningowych jest wystarczająco daleko z obliczonej statystyki na podstawie danych wstrzymania ). O ile mi wiadomo, nie ma żadnego prawdziwego powodu, aby zapobiec nadmiernemu dopasowaniu.

Czy mylę się co do tego, co proponują autorzy? Czy przeoczam jakiś subtelny efekt? Czy też Science poparł najgorszą jak dotąd praktykę statystyczną?

Cliff AB
źródło
2
Ci, którzy nie mają dostępu do Science, mogą chcieć zapoznać się z najnowszym artykułem naukowym Science, w jaki sposób można uzyskać dostęp do płatnych dokumentów.
ameba mówi Przywróć Monikę
1
Czy to może być przedruk: arxiv.org/pdf/1411.2664.pdf ?
Tim
1
@Tim: artykuł Science cytuje opublikowany przedruk. Również sekcja Laplacian Noise Addiction wydaje się bardzo podobna, ale nie identyczna, z metodami opublikowanymi w artykule.
Cliff AB,
1
@CliffAB, więc prawdopodobnie wykorzystali różnicową prywatność, aby je odróżnić;)
Tim
4
Ten temat to tak naprawdę samouczek w ICML w zeszłym miesiącu. „Rigorous Data Dredging: Theory and Tools for Adaptive Data Analysis” autorstwa jednego z pracowników Google. icml.cc/2016/?page_id=97
horaceT

Odpowiedzi:

7

Istnieje blog autorów, który opisuje to na wysokim poziomie.

Cytując od początku tego postu:

Aby zmniejszyć liczbę zmiennych i uprościć nasze zadanie, najpierw wybieramy niektóre obiecujące zmienne, na przykład te, które mają dodatnią korelację ze zmienną odpowiedzi (skurczowe ciśnienie krwi). Następnie dopasowujemy model regresji liniowej do wybranych zmiennych. Aby zmierzyć dobro dopasowania naszego modelu, wykonujemy standardowy test F z naszego ulubionego podręcznika statystycznego i podajemy wynikową wartość p.

Freedman wykazał, że zgłoszona wartość p jest bardzo myląca - nawet jeśli dane byłyby całkowicie losowe, bez żadnej korelacji między zmienną odpowiedzi a punktami danych, prawdopodobnie zaobserwowalibyśmy znaczną wartość p! Taki błąd wynika z faktu, że wybraliśmy podzbiór zmiennych adaptacyjnie w oparciu o dane, ale nigdy nie uwzględniamy tego faktu. Istnieje ogromna liczba możliwych podzbiorów zmiennych, z których wybraliśmy. Sam fakt, że wybraliśmy jeden test nad drugim, zerkając na dane, powoduje błąd selekcji, który unieważnia założenia leżące u podstaw testu F.

Paradoks Freedmana zawiera ważną lekcję. Poziomy istotności standardowych procedur nie odzwierciedlają ogromnej liczby analiz, które można przeprowadzić lub pominąć. Z tego powodu adaptacja jest jednym z głównych wyjaśnień, dlaczego wyniki badań są często fałszywe, jak argumentowali Gelman i Loken, którzy trafnie określają adaptację jako „ogród ścieżek rozwidlenia”.

W ogóle nie widzę, jak ich technika rozwiązuje ten problem. W odpowiedzi na twoje pytanie wierzę, że nie odnoszą się one do Ogrodu Rozwidlających Ścieżek iw tym sensie ich technika wprowadzi ludzi w fałszywe poczucie bezpieczeństwa. Niewiele różni się od powiedzenia „użyłem weryfikacji krzyżowej” uśpienia wielu - którzy używali nie zagnieżdżonego CV - w fałszywym poczuciu bezpieczeństwa.

Wydaje mi się, że większość postów na blogu wskazuje na ich technikę jako lepszą odpowiedź na to, jak powstrzymać uczestników konkursu w stylu Kaggle od wspinania się na gradient zestawu testów. Co jest przydatne, ale nie odnosi się bezpośrednio do Ścieżek Rozwidlania. Wygląda na to, że ma smak Wolfram i nowej nauki Google, w której przejmie ogromne ilości danych. Ta narracja ma mieszaną historię i zawsze jestem sceptyczny wobec automatycznej magii.

Wayne
źródło
3

Jestem pewien, że nadmiernie upraszczam tę różnicową technikę prywatności, ale pomysł ma sens na wysokim poziomie.

Kiedy dostajesz algorytm do wyplucia dobrego wyniku (wow, dokładność mojego zestawu testów naprawdę się poprawiła), nie chcesz od razu wyciągać wniosków. Chcesz to zaakceptować tylko wtedy, gdy poprawa jest znacznie większa niż w poprzednim algorytmie. To jest powód dodawania hałasu.

EDYCJA: Ten blog ma dobre objaśnienia i kody R do demonstrowania skuteczności dodatku szumu, http://www.win-vector.com/blog/2015/10/a-simpler-explanation-of-differential-privacy/

horaceT
źródło
>τ
1
@CliffAB Mam to samo dokuczliwe uczucie, dlaczego działa to lepiej niż zwykły próg. Ale mają dowody!
horaceT
>τ
@CliffAB Czy potrafisz opracować? gdzie? To intrygująca możliwość ....
horaceT
Korzystając ze slajdów z wcześniejszego linku ( icml.cc/2016/?page_id=97 ), na slajdach 72 i 73, nawet przy użyciu metody „Thresholdout”, dokładność wstrzymania jest większa niż świeże dane przy każdej symulacji, chociaż robi to lepiej niż „standardowe wstrzymanie” (co tak naprawdę jest „standardowym nadużyciem zestawu danych do walidacji”, a nie faktyczną prawidłową procedurą statystyczną). Do Twojej wiadomości, fabuła pojawia się na slajdach, aby była taka sama w artykule naukowym (na wypadek, gdybyś nie miał dostępu).
Cliff AB
3

Twierdzenie, że dodanie hałasu pomaga zapobiegać nadmiernemu dopasowaniu, naprawdę trzyma tutaj wodę, ponieważ tak naprawdę robią to ograniczanie sposobu ponownego wykorzystania blokady . Ich metoda faktycznie robi dwie rzeczy: ogranicza liczbę pytań, które można zadać w związku z wstrzymaniem, oraz to, ile z każdej odpowiedzi ujawnia dane dotyczące wstrzymania.

kknn/k

n/kk

Sercem ich metody jest związek między stabilnością algorytmu a nadmiernym dopasowaniem, który sięga końca lat 70. (Devroye i Wagner 1978). Z grubsza mówi

AXq=A(X)AXPqxqP

A()f(A())fqAA

Istnieje obecnie sporo artykułów analizujących, w jaki sposób różne procedury dodawania hałasu kontrolują nadmierne dopasowanie. Względnie czytelny jest Russo i Zou ( https://arxiv.org/abs/1511.05219 ). Niektóre nowsze prace uzupełniające na temat początkowej pracy Dwork i in. może być również pomocne. (Zastrzeżenie: Mam dwa artykuły na ten temat, ostatni z nich wyjaśnia związek z testowaniem adaptacyjnej hipotezy: https://arxiv.org/abs/1604.03924 .)

Mam nadzieję, że to wszystko pomaga.

Adam Smith
źródło
0

Sprzeciwiam się twojemu drugiemu zdaniu. Pomysł, że kompletny plan analizy danych powinien zostać ustalony z góry, jest nieuzasadniony, nawet w sytuacji, w której próbujesz potwierdzić istniejącą hipotezę naukową. Przeciwnie, każda przyzwoita analiza danych będzie wymagała zwrócenia uwagi na rzeczywiste dane, które zostały uzyskane. Naukowcy, którzy wierzą inaczej, są na ogół badaczami, którzy uważają, że testowanie istotności jest początkiem i końcem analizy danych, przy niewielkiej lub zerowej roli w statystyce opisowej, wykresach, szacunkach, prognozach, wyborze modelu itp. W tym kontekście wymóg wcześniejsze ustalenie planów analitycznych ma większy sens, ponieważ konwencjonalne sposoby, w jakie p- wartości obliczane wymagają, aby wielkość próby i testy, które należy przeprowadzić, były ustalane przed wyświetleniem jakichkolwiek danych. To wymaganie utrudnia analitykowi, a zatem jest jednym z wielu dobrych powodów, aby nie stosować testów istotności.

Możesz sprzeciwić się temu, że pozwolenie analitykowi na wybór czynności po obejrzeniu danych pozwala na przeregulowanie. Tak, ale dobry analityk pokaże wszystkie przeprowadzone analizy, wyraźnie powie, jakie informacje w danych wykorzystano do podjęcia decyzji analitycznych, i odpowiednio wykorzysta metody takie jak walidacja krzyżowa. Na przykład generalnie dobrze jest przekodować zmienne w oparciu o uzyskany rozkład wartości, ale wybranie do niektórych analiz 3 ze 100 predyktorów, które mają najbliższe zaobserwowane powiązanie ze zmienną zależną, oznacza, że ​​oszacowania powiązania będą dodatnie stronniczy, przez regresję do średniej. Jeśli chcesz dokonać wyboru zmiennych w kontekście predykcyjnym, musisz wybrać zmienne w zakładkach cross-validation lub użyć tylko danych treningowych.

Kodiolog
źródło
2
Uważam, że wiele z tego, co sugerujesz, pasuje do dziedziny eksploracyjnej analizy danych (EDA), dla której poparłem adaptacyjne metody analizy danych. Uważam również, że EDA jest niedoceniana i należy jej przypisać więcej uznania. Ale wszystko to jest ortogonalne w stosunku do pytania, które brzmi: „Czy ci autorzy naprawdę pozwolili nam wielokrotnie wykorzystywać dane walidacyjne do wyboru modelu w statystycznie prawidłowej metodzie?”. Twoje ostatnie zdanie sugeruje, że podobnie jak ja jesteś nieco sceptyczny wobec takich ustaleń.
Cliff AB
Nie sądzę, że np. Szacowanie jest z natury eksploracyjne, nie. Jeśli masz hipotezę naukową, która mówi, że maksymalna długość krokodyla musi wynosić 12 stóp i próbujesz oszacować maksymalną długość krokodyla, aby to sprawdzić, przeprowadzasz analizę potwierdzającą.
Kodiolog,
2
+1, pomimo trzech istniejących głosów negatywnych. Zgadzam się z głównym punktem tej odpowiedzi (twoje drugie zdanie), mimo że jestem w pełni świadomy, że jest ona dość kontrowersyjna. Ogólnie uważam, że różnica między analizą eksploracyjną a potwierdzającą jest przereklamowana; rzeczywiste analizy są często gdzieś pośrodku. To powiedziawszy, nie sądzę, abyś odpowiedział (lub nawet próbował odpowiedzieć) na pytanie OP, które dotyczyło Dworka i in. papier.
ameba mówi Przywróć Monikę
@amoeba „Nie sądzę, abyś odpowiedział (lub nawet próbował odpowiedzieć) na pytanie OP dotyczące Dwork i wsp. papieru” - Prawda, choć nadal wydawało się to warte opublikowania jako odpowiedzi, ponieważ podważa to, co wydaje się być przesłanka pytania.
Kodiolog,
2
+1 do komentarza @ amoeba. Byłby to świetny komentarz do pytania, ale nie jest to odpowiedź.
S. Kolassa - Przywróć Monikę