Czytając następujący artykuł , natknąłem się na następujące oświadczenie:
Jak wspomniano, często jest przedstawiany bez odniesienia do modeli probabilistycznych, zgodnie z pomysłem Benzecri [1973], aby „pozwolić, aby dane mówiły same za siebie”.
(cytat z JP Benzécri. L'analyse des données. Tome II: L'analyse des korespondencji. Dunod, 1973).
Z tego, jak czytam ten artykuł, brzmi to: „pozwól, aby dane mówiły same za siebie”, oznacza coś w rodzaju rozważania różnych miar w danych bez względu na funkcję prawdopodobieństwa lub proces generowania danych .
Chociaż słyszałem już cytat „pozwól, aby dane mówiły same za siebie”, nie zastanawiałem się nad tym, co to sugeruje. Czy powyższa interpretacja sugeruje kanonicznie ten cytat?
Odpowiedzi:
Interpretacja zależy od kontekstu, ale istnieją pewne wspólne konteksty, w których się pojawia. Stwierdzenie to jest często używane w analizie bayesowskiej, aby podkreślić fakt, że idealnie chcielibyśmy, aby rozkład a posteriori w analizie był odporny na wcześniejsze założenia, aby efekt danych „dominował” a posteriori. Mówiąc bardziej ogólnie, cytat zwykle oznacza, że chcemy, aby nasz model statystyczny był zgodny ze strukturą danych, zamiast zmuszać dane do interpretacji, która jest niemożliwym do zweryfikowania założeniem strukturalnym modelu.
Konkretny cytat, do którego się odwołujesz, uzupełniony jest dodatkowym cytatem: „Model musi podążać za danymi, a nie na odwrót” (przetłumaczone z Benzécri J (1973) L'Analyse des Données. Tome II: L'Analyse des Correspondances . Dunod, str. 6). Benzécri argumentował, że modele statystyczne powinny wyodrębniać strukturę z danych, a nie narzucać strukturę. Uważał, że zastosowanie eksploracyjnych metod graficznych jest bardzo ważne, aby pozwolić analitykowi „pozwolić, by dane przemawiały”.
źródło
Mniej więcej w 2005 roku, kiedy „Data Mining” było najnowszym zagrożeniem dla zawodu statystycznego, pamiętam plakat z „Zasadami Data Mining”, z których jednym z nich było „pozwól danym mówić” (nie pamiętam, czy „dla siebie” był zawarty). Jeśli myślisz o algorytmach, które można uznać za „eksplorację danych”, przychodzą na myśl apriori i partycjonowanie rekurencyjne, dwa algorytmy, które można motywować bez założeń statystycznych i dają dość proste podsumowania bazowego zestawu danych.
@Ben rozumie więcej historii tego zdania niż ja, ale myślę o cytacie cytowanym w artykule:
wydaje mi się, że procedura MCA przypomina apriori lub rekurencyjne partycjonowanie (lub piekło, średnia arytmetyczna w tym przypadku), ponieważ może być motywowana bez żadnego modelowania i jest mechaniczną operacją na zbiorze danych, który ma sens na podstawie na kilku pierwszych zasadach.
Widmo pozwala mówić. Modele w pełni bayesowskie z silnymi priorami byłyby z jednej strony. Częste nieparametryczne modele byłyby bliżej drugiego końca.
źródło