Co oznacza „Niech dane mówią same za siebie”?

10

Czytając następujący artykuł , natknąłem się na następujące oświadczenie:

Jak wspomniano, często jest przedstawiany bez odniesienia do modeli probabilistycznych, zgodnie z pomysłem Benzecri [1973], aby „pozwolić, aby dane mówiły same za siebie”.

(cytat z JP Benzécri. L'analyse des données. Tome II: L'analyse des korespondencji. Dunod, 1973).

Z tego, jak czytam ten artykuł, brzmi to: „pozwól, aby dane mówiły same za siebie”, oznacza coś w rodzaju rozważania różnych miar w danych bez względu na funkcję prawdopodobieństwa lub proces generowania danych .

Chociaż słyszałem już cytat „pozwól, aby dane mówiły same za siebie”, nie zastanawiałem się nad tym, co to sugeruje. Czy powyższa interpretacja sugeruje kanonicznie ten cytat?

Cliff AB
źródło
9
Niech cytat mówi sam za siebie.
Mark L. Stone,
@ MarkL.Stone: Podobnie jak dane, cytaty są lepiej rozumiane w kontekście
Cliff AB

Odpowiedzi:

8

Interpretacja zależy od kontekstu, ale istnieją pewne wspólne konteksty, w których się pojawia. Stwierdzenie to jest często używane w analizie bayesowskiej, aby podkreślić fakt, że idealnie chcielibyśmy, aby rozkład a posteriori w analizie był odporny na wcześniejsze założenia, aby efekt danych „dominował” a posteriori. Mówiąc bardziej ogólnie, cytat zwykle oznacza, że ​​chcemy, aby nasz model statystyczny był zgodny ze strukturą danych, zamiast zmuszać dane do interpretacji, która jest niemożliwym do zweryfikowania założeniem strukturalnym modelu.

Konkretny cytat, do którego się odwołujesz, uzupełniony jest dodatkowym cytatem: „Model musi podążać za danymi, a nie na odwrót” (przetłumaczone z Benzécri J (1973) L'Analyse des Données. Tome II: L'Analyse des Correspondances . Dunod, str. 6). Benzécri argumentował, że modele statystyczne powinny wyodrębniać strukturę z danych, a nie narzucać strukturę. Uważał, że zastosowanie eksploracyjnych metod graficznych jest bardzo ważne, aby pozwolić analitykowi „pozwolić, by dane przemawiały”.

Ben - Przywróć Monikę
źródło
(+1) Mając to na uwadze, przypuszczam, że cytat w pierwszym powiązanym dokumencie sugeruje, że metody te analizują empiryczną strukturę kowariancji, a nie strukturę zależności opartą na modelu.
Cliff AB
1
Tak, myślę, że to prawda. Warto zauważyć, że Benzécri twierdził, że analiza danych była zasadniczo równoważna z rozkładem własnego w PCA. Cytuje się go, mówiąc: „w sumie, analiza danych, w dobrej matematyce, po prostu szuka wektorów własnych; cała jej nauka (lub sztuka) polega na znalezieniu właściwej macierzy do przekątnej”. (patrz Husson i in. 2016 , s. 2)
Ben - Przywróć Monikę
2
Ha, to bardzo interesujące roszczenie dla niego. Ten kontekst sprawia, że ​​cytat w artykule ma znacznie większy sens.
Cliff AB
Tak, to dość ekstremalne!
Ben - Przywróć Monikę
(+1). Podczas gdy na pierwszy rzut oka cytat wydaje się trudny do pogodzenia (dlaczego w końcu „narzucanie” czegoś byłoby dobre?), Przekleństwo wymiarowości w statystyce nieparametrycznej pokazuje na przykład, że można powiedzieć, że łatwiej słuchać danych mówiących same za siebie, gdy słuchamy ich za pomocą modelu parametrycznego.
Christoph Hanck
1

Mniej więcej w 2005 roku, kiedy „Data Mining” było najnowszym zagrożeniem dla zawodu statystycznego, pamiętam plakat z „Zasadami Data Mining”, z których jednym z nich było „pozwól danym mówić” (nie pamiętam, czy „dla siebie” był zawarty). Jeśli myślisz o algorytmach, które można uznać za „eksplorację danych”, przychodzą na myśl apriori i partycjonowanie rekurencyjne, dwa algorytmy, które można motywować bez założeń statystycznych i dają dość proste podsumowania bazowego zestawu danych.

@Ben rozumie więcej historii tego zdania niż ja, ale myślę o cytacie cytowanym w artykule:

MCA może być postrzegane jako odpowiednik PCA dla danych kategorycznych i obejmuje zmniejszenie wymiarów danych w celu zapewnienia podprzestrzeni, która najlepiej reprezentuje dane w sensie maksymalizacji zmienności rzutowanych punktów. Jak wspomniano, często jest przedstawiany bez odniesienia do modeli probabilistycznych, zgodnie z pomysłem Benz´ecri [1973], aby „pozwolić, aby dane mówiły same za siebie”.

wydaje mi się, że procedura MCA przypomina apriori lub rekurencyjne partycjonowanie (lub piekło, średnia arytmetyczna w tym przypadku), ponieważ może być motywowana bez żadnego modelowania i jest mechaniczną operacją na zbiorze danych, który ma sens na podstawie na kilku pierwszych zasadach.

Widmo pozwala mówić. Modele w pełni bayesowskie z silnymi priorami byłyby z jednej strony. Częste nieparametryczne modele byłyby bliżej drugiego końca.

Ben Ogorek
źródło