Statystyki i duże zbiory danych

36

Widziałem formułę normalizacji min-max, ale normalizuje ona wartości od 0 do 1. W jaki sposób normalizowałbym moje dane od -1 do 1? Mam zarówno ujemne, jak i dodatnie wartości w mojej macierzy

dataset normalization

36

Jaka jest różnica między próbkowaniem Metropolis Hastings, Gibbs, Znaczenie i odrzuceniem?

Próbowałem nauczyć się metod MCMC i natknąłem się na próbkowanie Metropolis Hastings, Gibbs, Ważność i Odrzucenie. Chociaż niektóre z tych różnic są oczywiste, tj. Jak Gibbs jest szczególnym przypadkiem Metropolis Hastings, gdy mamy pełne warunki warunkowe, inne są mniej oczywiste, na przykład gdy...

mcmc monte-carlo gibbs metropolis-hastings importance-sampling

36

Jak naukowcy odkryli kształt funkcji gęstości prawdopodobieństwa rozkładu normalnego?

To prawdopodobnie pytanie amatorskie, ale interesuje mnie, w jaki sposób naukowcy wymyślili kształt funkcji gęstości prawdopodobieństwa rozkładu normalnego? Zasadniczo to, co mnie wkurza, to fakt, że dla kogoś może być bardziej intuicyjne, że funkcja prawdopodobieństwa normalnie rozłożonych danych...

normal-distribution history

36

Uczenie maszynowe: czy powinienem stosować kategoryczną utratę entropii krzyżowej lub utratę entropii krzyżowej binarnej do prognoz binarnych?

Przede wszystkim zdałem sobie sprawę, że jeśli muszę wykonać przewidywania binarne, muszę utworzyć co najmniej dwie klasy, wykonując kodowanie „na gorąco”. Czy to jest poprawne? Czy jednak binarna entropia krzyżowa dotyczy tylko predykcji z tylko jedną klasą? Gdybym miał zastosować kategoryczną...

machine-learning neural-networks loss-functions tensorflow cross-entropy

36

Dlaczego zakłada się, że czasy przeżycia rozkładają się wykładniczo?

Uczę się analizy przeżycia z tego postu na UCLA IDRE i potknąłem się w sekcji 1.2.1. Samouczek mówi: ... jeśli wiadomo, że czasy przeżycia są rozkładane wykładniczo , to prawdopodobieństwo zaobserwowania czasu przeżycia ... Dlaczego zakłada się, że czasy przeżycia rozkładają się wykładniczo?...

distributions survival assumptions exponential

36

Dlaczego widzimy tylko regularyzację

Jestem tylko ciekawy, dlaczego zwykle norm i . Czy istnieją dowody, dlaczego są one

lasso regularization ridge-regression

36

Wnioskowanie wariacyjne a MCMC: kiedy wybrać jedną z drugiej?

Wydaje mi się, że mam ogólne pojęcie zarówno o VI, jak i MCMC, w tym o różnych smakach MCMC, takich jak próbkowanie Gibbs, Metropolis Hastings itp. Ten artykuł stanowi wspaniałą prezentację obu metod. Mam następujące pytania: Jeśli chcę robić wnioskowanie bayesowskie, dlaczego miałbym wybierać...

machine-learning bayesian mcmc variational-bayes approximate-inference

36

Kto wynalazł stochastyczne zejście gradientu?

Staram się zrozumieć historię zejścia gradientowego i stochastycznego . Gradientowe zejście zostało wynalezione w Cauchy w 1847 roku. Méthode générale pour la résolution des systèmes d'équations symultanes . str. 536–538 Więcej informacji na ten temat można znaleźć tutaj . Od tego czasu metody...

references gradient-descent history sgd

36

Jak poradzić sobie z modelem prognostycznym „samobójczym”?

Oglądałem prezentację specjalisty ds. ML od jednego z głównych sprzedawców detalicznych, gdzie opracowali model pozwalający przewidywać zdarzenia z magazynu. Załóżmy przez chwilę, że z czasem ich model staje się bardzo dokładny, czy nie byłoby to w jakiś sposób „samobójcze”? Oznacza to, że jeśli...

machine-learning predictive-models

35

Jakie blogi statystyczne poleciłbyś?

Jakie blogi z zakresu badań statystycznych poleciłbyś i

references

35

Darmowy zestaw danych do bardzo wysokiej klasyfikacji wymiarowej [zamknięty]

Jaki jest swobodnie dostępny zestaw danych do klasyfikacji z ponad 1000 cech (lub punktów próbkowania, jeśli zawiera krzywe)? Istnieje już wiki społeczności o wolnych zestawach danych: Lokalizowanie swobodnie dostępnych próbek danych Ale tutaj byłoby miło mieć bardziej szczegółową listę, z...

machine-learning classification dataset large-data

35

Jakie jest dobre zastosowanie funkcji „komentowania” w języku R?

Właśnie odkryłem commentfunkcję w R. Przykład: x <- matrix(1:12, 3,4) comment(x) <- c("This is my very important data from experiment #0234", "Jun 5, 1998") x comment(x) Po raz pierwszy przyszedłem przez tę funkcję i zastanawiałem się, jakie są jej typowe / użyteczne zastosowania. Ponieważ...

r

35

Jakie są najlepsze praktyki w identyfikowaniu efektów interakcji?

Inne niż dosłowne testowanie każdej możliwej kombinacji zmiennych w modelu ( x1:x2lub x1*x2 ... xn-1 * xn). Jak rozpoznać, czy interakcja POWINNA lub MOŻE istnieć między zmiennymi niezależnymi (miejmy nadzieję)? Jakie są najlepsze praktyki w próbach identyfikacji interakcji? Czy istnieje technika...

regression modeling interaction

35

Różnica między konstrukcją podłużną a szeregami czasowymi

Jaka jest / są różnice między konstrukcją podłużną a szeregiem

time-series panel-data

35

Uzasadnienie jednostronnego testowania hipotez

Rozumiem dwustronne testowanie hipotez. Masz (vs. H 1 = ¬ H 0 : θ ≠ θ 0 ). Wartość p jest prawdopodobieństwem, że θ generuje dane co najmniej tak ekstremalne, jak zaobserwowano.H0:θ=θ0H0:θ=θ0H_0 : \theta = \theta_0H1=¬H0:θ≠θ0H1=¬H0:θ≠θ0H_1 = \neg H_0 : \theta \ne \theta_0pppθθ\theta Nie rozumiem...

hypothesis-testing

35

Co to jest symetria złożona w języku angielskim?

I ostatnio sobie sprawę , że model mieszany tylko z przedmiotu jako przypadkowy czynnik i inne czynniki, jak czynniki stałe po ustawieniu korelacyjnej struktury mieszanego modelu do związku symetrii równoważna ANOVA. Dlatego chciałbym wiedzieć, co oznacza symetria złożona w kontekście mieszanej...

correlation anova mixed-model lme4-nlme

35

Wybór zmiennych do uwzględnienia w modelu wielokrotnej regresji liniowej

Obecnie pracuję nad zbudowaniem modelu przy użyciu wielokrotnej regresji liniowej. Po manipulowaniu moim modelem nie jestem pewien, jak najlepiej określić, które zmienne zachować, a które usunąć. Mój model zaczął się od 10 predyktorów dla DV. Przy zastosowaniu wszystkich 10 predyktorów cztery...

regression multiple-regression feature-selection modeling model-selection

35

Sprzeczność istotności w regresji liniowej: istotny test t dla współczynnika vs nieistotna ogólna statystyka F

Dopasowuję model wielokrotnej regresji liniowej między 4 zmiennymi kategorialnymi (z 4 poziomami każda) i danymi liczbowymi. Mój zestaw danych ma 43 obserwacje. Regresja daje mi następujące wartości z testu dla każdego współczynnika nachylenia: . Tak więc współczynnik dla 4. predyktora jest...

regression hypothesis-testing multiple-comparisons multiple-regression t-test

35

Jak pobrać pochodną wielowymiarowej gęstości normalnej?

Powiedzmy, że mam wielowymiarową normalną gęstość . Chcę uzyskać drugą (częściową) pochodną wrt . Nie wiem, jak pobrać pochodną macierzy.N(μ,Σ)N(μ,Σ)N(\mu, \Sigma)μμ\mu Wiki mówi, że weź pochodną element po elemencie do matrycy. Pracuję z aproksymacją Laplace'a Tryb to .Θ =...

self-study normal-distribution matrix

35

Jak interpretować macierz OOB i zamieszanie dla losowego lasu?

Mam od kogoś skrypt R do uruchomienia losowego modelu lasu. Zmodyfikowałem i uruchomiłem go z niektórymi danymi pracowników. Staramy się przewidzieć dobrowolne separacje. Oto kilka dodatkowych informacji: jest to model klasyfikacji, w którym 0 = pracownik został, 1 = pracownik został zakończony,...

r classification error random-forest