Statystyki i duże zbiory danych

79
The Book of Why autorstwa Judei Pearl: Dlaczego niszczy statystyki?

Czytam The Book of Why Judei Pearl i zaczyna się ona pod moją skórą 1 . W szczególności wydaje mi się, że bezwarunkowo krytykuje „klasyczne” statystyki, wysuwając argument słaby, że statystyki nigdy nie są w stanie zbadać związków przyczynowych, że nigdy nie są zainteresowane relacjami...

79
Obliczanie optymalnej liczby pojemników na histogramie

Interesuje mnie znalezienie możliwie optymalnej metody określania, ile pojemników powinienem użyć na histogramie. Moje dane powinny mieścić się w przedziale od 30 do 350 obiektów, a w szczególności staram się stosować próg (taki jak metoda Otsu), w którym „dobre” obiekty, których powinienem mieć...

77
Grupowanie na wyjściu t-SNE

Mam aplikację, w której przydałoby się skupić hałaśliwy zestaw danych przed wyszukaniem efektów podgrup w klastrach. Najpierw spojrzałem na PCA, ale potrzeba około 30 komponentów, aby uzyskać 90% zmienności, więc grupowanie tylko na kilku komputerach PC wyrzuci wiele informacji. Następnie...

77
Test T na nietypowy, gdy N> 50?

Dawno temu dowiedziałem się, że rozkład normalny jest konieczny, aby zastosować test T z dwoma próbkami. Dzisiaj koleżanka powiedziała mi, że dowiedziała się, że dla N> 50 rozkład normalny nie był konieczny. Czy to prawda? Jeśli prawda jest taka ze względu na centralne twierdzenie...