Gdybyś mógł cofnąć się w czasie i powiedzieć sobie, że na początku swojej kariery statystycznej chciałbyś przeczytać konkretną książkę, która to
Gdybyś mógł cofnąć się w czasie i powiedzieć sobie, że na początku swojej kariery statystycznej chciałbyś przeczytać konkretną książkę, która to
Matematyka ma swoje słynne problemy milenijne (i historycznie Hilberta 23 ), pytania, które pomogły kształtować kierunek w tej dziedzinie. Nie mam jednak pojęcia, jakie byłyby hipotezy Riemanna i P vs. NP statystyki. Więc jakie są nadrzędne otwarte pytania w statystyce? Zredagowano, aby dodać:...
Wiem, że ludzie uwielbiają zamknąć duplikaty, więc jestem nie z prośbą o odniesienie się rozpocząć statystyki nauki (jak tutaj ). Mam doktorat z matematyki, ale nigdy nie uczyłem się statystyki. Jaka jest najkrótsza droga do równoważnej wiedzy do najwyższego stopnia statystyki BS i jak mam...
Używam R, aby wykonać grupowanie K-oznacza. Używam 14 zmiennych do uruchomienia K-średnich Jaki jest ładny sposób na wykreślenie wyników K-średnich? Czy są jakieś istniejące wdrożenia? Czy posiadanie 14 zmiennych komplikuje wykreślanie wyników? Znalazłem coś o nazwie GGcluster, które wygląda...
Mam aplikację, w której przydałoby się skupić hałaśliwy zestaw danych przed wyszukaniem efektów podgrup w klastrach. Najpierw spojrzałem na PCA, ale potrzeba około 30 komponentów, aby uzyskać 90% zmienności, więc grupowanie tylko na kilku komputerach PC wyrzuci wiele informacji. Następnie...
Zaczynam bawić sięglmnet za pomocą regresji LASSO, gdzie moje wyniki zainteresowania są dychotomiczne. Poniżej utworzyłem małą próbną ramkę danych: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29,...
Jak opisałbyś walidację krzyżową komuś bez doświadczenia w analizie
„Zasadniczo wszystkie modele są błędne, ale niektóre są przydatne”. --- Box, George EP; Norman R. Draper (1987). Empiryczne budowanie modeli i powierzchnie reakcji, str. 424, Wiley. ISBN 0471810339. Jakie jest dokładnie znaczenie powyższej frazy?
Rozumiem podstawy tego, czym jest cel Maszyn Wektorów Wsparcia w zakresie klasyfikacji zestawu danych wejściowych na kilka różnych klas, ale nie rozumiem niektórych drobiazgowych szczegółów. Po pierwsze, jestem nieco zdezorientowany użyciem Zmiennych Slack. Jaki jest ich cel? Robię problem z...
Ostatnio dużo czytałem na tej stronie (@Aniko, @Dikran Marsupial, @Erik) i gdzie indziej na temat problemu nadmiaru występującego przy krzyżowej walidacji - (Smialowski i in. 2010 Bioinformatics, Hastie, Elementy uczenia statystycznego). Sugeruje się, że każdy nadzorowany wybór funkcji (przy użyciu...
Mam zestaw danych z około 30 zmiennymi niezależnymi i chciałbym zbudować uogólniony model liniowy (GLM) w celu zbadania zależności między nimi a zmienną zależną. Wiem, że metoda, której nauczono mnie w tej sytuacji, stopniowa regresja, jest obecnie uważana za grzech statystyczny . Jakie...
Trochę się mylę co do wyboru funkcji i uczenia maszynowego i zastanawiałem się, czy możesz mi pomóc. Mam zestaw danych mikromacierzy, który jest podzielony na dwie grupy i ma tysiące funkcji. Moim celem jest uzyskanie niewielkiej liczby genów (moich cech) (10–20) w sygnaturze, którą teoretycznie...
Czytałem Elementy uczenia statystycznego i chciałbym wiedzieć, dlaczego Lasso zapewnia wybór zmiennych, a regresja grzbietu nie. Obie metody minimalizują resztkową sumę kwadratów i ograniczają możliwe wartości parametrów . W przypadku Lasso ograniczenie wynosi , podczas gdy dla kalenicy jest to ,...
Kilka lat temu zaprojektowałem detektor promieniowania, który działa na podstawie pomiaru odstępu między zdarzeniami, a nie ich liczenia. Moje założenie było takie, że mierząc niesąsiadujące próbki, średnio mierzyłbym połowę rzeczywistego przedziału. Jednak kiedy testowałem obwód ze skalibrowanym...
Używam algorytmu losowego lasu jako solidnego klasyfikatora dwóch grup w badaniu mikromacierzy z tysiącami funkcji. Jaki jest najlepszy sposób przedstawienia losowego lasu, aby było wystarczająco dużo informacji, aby można go było odtworzyć w formie papierowej? Czy istnieje metoda kreślenia w R,...
Ponieważ regresja logistyczna jest statystycznym modelem klasyfikacji zajmującym się zmiennymi zależnymi kategorycznie, dlaczego nie nazywa się to klasyfikacją logistyczną ? Czy nazwa „regresji” nie powinna być zarezerwowana dla modeli zajmujących się ciągłymi zmiennymi...
Istnieje stare powiedzenie: „Korelacja nie oznacza związku przyczynowego”. Kiedy uczę, zwykle ilustruję ten punkt w następujących standardowych przykładach: liczba bocianów i wskaźnik urodzeń w Danii; liczba księży w Ameryce i alkoholizm; na początku XX wieku zauważono silną korelację między...
W przeciwieństwie do innych artykułów, znalazłem wpis w Wikipedii dla tego tematu nieczytelny dla osoby niebędącej matematyką (jak ja). Zrozumiałem podstawową ideę, że faworyzujesz modele o mniejszej liczbie zasad. Nie rozumiem, jak przejść z zestawu reguł do „wyniku regularyzacji”, którego można...
W przypadku regresji liniowej możemy sprawdzić wykresy diagnostyczne (wykresy resztek, normalne wykresy QQ itp.), Aby sprawdzić, czy naruszone są założenia regresji liniowej. W przypadku regresji logistycznej mam problem ze znalezieniem zasobów wyjaśniających, jak zdiagnozować dopasowanie modelu...
Ostatnio dużo czytałem o różnicach między metodą testowania hipotez Fishera a szkołą myślenia Neymana-Pearsona. Moje pytanie brzmi, ignorując na chwilę obiekcje filozoficzne; kiedy powinniśmy zastosować podejście Fishera do modelowania statystycznego, a kiedy należy zastosować metodę poziomów...