Statystyki i duże zbiory danych

73

Jak należy sobie radzić z wartościami odstającymi w analizie regresji liniowej?

Często analityk statystyczny otrzymuje zestaw danych i jest proszony o dopasowanie modelu przy użyciu techniki takiej jak regresja liniowa. Bardzo często do zestawu danych dołączone jest oświadczenie podobne do „Och tak, pomieszaliśmy zbieranie niektórych z tych punktów danych - rób co możesz”. Ta...

regression outliers

73

Czy żadna korelacja nie oznacza związku przyczynowego?

Wiem, że korelacja nie implikuje przyczynowości, ale czy brak korelacji implikuje brak

correlation causality

73

Dziennik psychologiczny zakazał wartości p i przedziałów ufności; czy rzeczywiście mądrze jest przestać ich używać?

W dniu 25 lutego 2015 r. Czasopismo Basic and Applied Social Psychology opublikowało artykuł wstępny zakazujący wartości i przedziałów ufności we wszystkich przyszłych artykułach.ppp Mówią w szczególności (formatowanie i podkreślanie są moje): [...] przed publikacją autorzy będą musieli...

hypothesis-testing confidence-interval p-value effect-size psychology

73

Metody ponownego próbkowania / symulacji: monte carlo, bootstrapping, jackknifing, cross-validation, testy randomizacji i testy permutacji

Próbuję zrozumieć różnicę między różnymi metodami ponownego próbkowania (symulacja Monte Carlo, ładowanie parametryczne, ładowanie nieparametryczne, podnoszenie, walidacja krzyżowa, testy randomizacji i testy permutacji) i ich implementacja w moim kontekście przy użyciu R. Powiedzmy, że mam...

r bootstrap resampling jackknife permutation-test

73

Po co używać opadania gradientu do regresji liniowej, gdy dostępne jest rozwiązanie matematyczne w formie zamkniętej?

Biorę kursy uczenia maszynowego online i dowiedziałem się o spadku gradientu do obliczania optymalnych wartości w hipotezie. h(x) = B0 + B1X dlaczego musimy używać zejścia gradientu, jeśli możemy łatwo znaleźć wartości za pomocą poniższej formuły? To też wygląda na proste i łatwe. ale GD...

regression machine-learning gradient-descent

73

Co to jest „ograniczone maksymalne prawdopodobieństwo” i kiedy należy go stosować?

W streszczeniu tego artykułu przeczytałem, że: „Procedura maksymalnego prawdopodobieństwa (ML) Hartley aud Rao zostaje zmodyfikowana poprzez dostosowanie transformacji z Patterson i Thompson, która dzieli prawdopodobieństwo na normalność na dwie części, z których jedna jest wolna od ustalonych...

mixed-model maximum-likelihood reml

73

Co to jest „jądro” w prostym języku angielskim?

Istnieje kilka różnych zastosowań: Szacowanie gęstości jądra sztuczka jądra wygładzanie jądra Wyjaśnij, co znaczy „jądro” w nich, zwykłym angielskim, własnymi

kernel-trick kernel-smoothing

73

Praca w eksploracji danych bez doktoratu

Od dłuższego czasu interesuję się eksploracją danych i uczeniem maszynowym , częściowo dlatego, że specjalizowałem się w tej dziedzinie w szkole, ale także dlatego, że jestem o wiele bardziej podekscytowany próbą rozwiązania problemów, które wymagają więcej przemyślenia niż tylko programowania...

machine-learning data-mining careers phd

73

Kiedy używać frameworka Fisher i Neyman-Pearson?

Ostatnio dużo czytałem o różnicach między metodą testowania hipotez Fishera a szkołą myślenia Neymana-Pearsona. Moje pytanie brzmi, ignorując na chwilę obiekcje filozoficzne; kiedy powinniśmy zastosować podejście Fishera do modelowania statystycznego, a kiedy należy zastosować metodę poziomów...

hypothesis-testing p-value methodology

73

Wybór metody grupowania

Używając analizy skupień w zbiorze danych do grupowania podobnych przypadków, należy wybierać spośród wielu metod grupowania i miar odległości. Czasami jeden wybór może wpływać na drugi, ale istnieje wiele możliwych kombinacji metod. Czy ktoś ma jakieś zalecenia dotyczące wyboru różnych...

clustering distance-functions methodology

73

Dobry GUI dla R odpowiedni dla początkujących, którzy chcą nauczyć się programowania w R?

Czy jest jakiś GUI dla R, który ułatwia początkującym rozpoczęcie nauki i programowania w tym

r

73

Model do przewidywania liczby wyświetleń Youtube stylu Gangnam

Teledysk PSY „Gangnam style” jest popularny, po nieco ponad 2 miesiącach ma około 540 milionów widzów. Nauczyłem się tego od moich czternastu dzieci podczas obiadu w zeszłym tygodniu i wkrótce dyskusja poszła w kierunku, czy można było przewidzieć, ilu widzów będzie za 10-12 dni i kiedy (/ jeśli)...

modeling web

73

Co to jest „nieinformacyjny przeor”? Czy możemy kiedykolwiek mieć taki bez żadnych informacji?

Inspirowany komentarzem do tego pytania : Co uważamy za „nieinformacyjne” z góry - i jakie informacje są nadal zawarte w rzekomo pozbawionym informacji przeorze? Zasadniczo widzę przeora w analizie, w której jest to analiza typu częstokrzyskiego, która próbuje pożyczyć kilka fajnych części z...

bayesian prior

72

Praktyczne zasady dotyczące minimalnej wielkości próby dla regresji wielokrotnej

W kontekście propozycji badań w naukach społecznych zadano mi następujące pytanie: Zawsze ustalałem minimalną wielkość próby dla regresji wielokrotnej o 100 + m (gdzie m jest liczbą predyktorów). Czy to jest właściwe? Często otrzymuję podobne pytania, często o różnych regułach. Często czytałem...

regression sample-size power-analysis rule-of-thumb

72

Kiedy (jeśli w ogóle) podejście częstokroć jest istotnie lepsze od bayesowskiego?

Kontekst : Nie mam formalnego szkolenia w zakresie statystyki bayesowskiej (choć bardzo chcę dowiedzieć się więcej), ale wiem wystarczająco dużo - myślę - aby zrozumieć, dlaczego wielu uważa, że są lepsi od statystyk częstych. Nawet studenci studiów wprowadzających (w naukach społecznych), które...

bayesian frequentist philosophical

72

Odległość euklidesowa zwykle nie jest dobra dla rzadkich danych?

Widziałem gdzieś, że klasyczne odległości (takie jak odległość euklidesowa) stają się słabo dyskryminujące, gdy mamy wielowymiarowe i rzadkie dane. Dlaczego? Czy masz przykład dwóch rzadkich wektorów danych, w których odległość euklidesowa nie działa dobrze? W takim przypadku, jakiego podobieństwa...

machine-learning clustering data-mining sparse euclidean

72

Jak obliczyć precyzję / przywołanie dla klasyfikacji wieloklasowej-wielowarstwowej?

Zastanawiam się, jak obliczyć dokładność i przywołać miary dla wieloklasowej klasyfikacji wielopłaszczyznowej, tj. Klasyfikacji, w której występują więcej niż dwie etykiety i gdzie każde wystąpienie może mieć wiele

machine-learning classification precision-recall multi-class

72

Jaka jest pełna lista typowych założeń regresji liniowej?

Jakie są typowe założenia regresji liniowej? Czy obejmują one: liniowa zależność między zmienną niezależną i zależną niezależne błędy normalny rozkład błędów homoscedastyczność Czy są jeszcze

regression assumptions

72

Jaka jest rola logarytmu w entropii Shannona?

Entropia Shannona jest ujemną z sumy prawdopodobieństw każdego wyniku pomnożonej przez logarytm prawdopodobieństwa każdego wyniku. Jaki cel służy logarytmowi w tym równaniu? Intuicyjna lub wizualna odpowiedź (w przeciwieństwie do głęboko matematycznej odpowiedzi) otrzyma dodatkowe...

entropy intuition sequence-analysis

72

Zależność między rozkładem Poissona a rozkładem wykładniczym

Czasy oczekiwania na rozkład Poissona są rozkładem wykładniczym z parametrem lambda. Ale ja tego nie rozumiem. Na przykład Poisson modeluje liczbę przyjazdów na jednostkę czasu. Jak to się ma do rozkładu wykładniczego? Powiedzmy, że prawdopodobieństwo przybycia k w jednostce czasu wynosi P (k)...

distributions poisson-distribution exponential