Statystyki i duże zbiory danych

77
Jakie są „duże problemy” w statystyce?

Matematyka ma swoje słynne problemy milenijne (i historycznie Hilberta 23 ), pytania, które pomogły kształtować kierunek w tej dziedzinie. Nie mam jednak pojęcia, jakie byłyby hipotezy Riemanna i P vs. NP statystyki. Więc jakie są nadrzędne otwarte pytania w statystyce? Zredagowano, aby dodać:...

77
Grupowanie na wyjściu t-SNE

Mam aplikację, w której przydałoby się skupić hałaśliwy zestaw danych przed wyszukaniem efektów podgrup w klastrach. Najpierw spojrzałem na PCA, ale potrzeba około 30 komponentów, aby uzyskać 90% zmienności, więc grupowanie tylko na kilku komputerach PC wyrzuci wiele informacji. Następnie...

77
Przykład: regresja LASSO z użyciem glmnet dla wyniku binarnego

Zaczynam bawić sięglmnet za pomocą regresji LASSO, gdzie moje wyniki zainteresowania są dychotomiczne. Poniżej utworzyłem małą próbną ramkę danych: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29,...

76
Wybór funkcji i walidacja krzyżowa

Ostatnio dużo czytałem na tej stronie (@Aniko, @Dikran Marsupial, @Erik) i gdzie indziej na temat problemu nadmiaru występującego przy krzyżowej walidacji - (Smialowski i in. 2010 Bioinformatics, Hastie, Elementy uczenia statystycznego). Sugeruje się, że każdy nadzorowany wybór funkcji (przy użyciu...

75
Proszę wyjaśnić paradoks oczekiwania

Kilka lat temu zaprojektowałem detektor promieniowania, który działa na podstawie pomiaru odstępu między zdarzeniami, a nie ich liczenia. Moje założenie było takie, że mierząc niesąsiadujące próbki, średnio mierzyłbym połowę rzeczywistego przedziału. Jednak kiedy testowałem obwód ze skalibrowanym...

74
Co to jest regularyzacja zwykłym angielskim?

W przeciwieństwie do innych artykułów, znalazłem wpis w Wikipedii dla tego tematu nieczytelny dla osoby niebędącej matematyką (jak ja). Zrozumiałem podstawową ideę, że faworyzujesz modele o mniejszej liczbie zasad. Nie rozumiem, jak przejść z zestawu reguł do „wyniku regularyzacji”, którego można...

74
Diagnostyka regresji logistycznej?

W przypadku regresji liniowej możemy sprawdzić wykresy diagnostyczne (wykresy resztek, normalne wykresy QQ itp.), Aby sprawdzić, czy naruszone są założenia regresji liniowej. W przypadku regresji logistycznej mam problem ze znalezieniem zasobów wyjaśniających, jak zdiagnozować dopasowanie modelu...