Statystyki i duże zbiory danych

20

Co oznacza superskrypt 2 indeks dolny 2 w kontekście norm?

Jestem nowy w optymalizacji. Ciągle widzę równania, które mają indeks górny 2 i indeks dolny 2 po prawej stronie normy. Na przykład tutaj jest równanie najmniejszych kwadratów min||Ax−b||22||Ax−b||22 ||Ax-b||^2_2 Wydaje mi się, że rozumiem indeks górny 2: oznacza to wyprostowanie wartości normy....

regression optimization notation

20

Jeśli LASSO jest równoważne regresji liniowej z Laplace'em wcześniej, to jak może być masa na zbiorach ze składowymi zerowymi?

Wszyscy dobrze znamy dobrze udokumentowane w literaturze pojęcie, że optymalizacja LASSO (dla uproszczenia ogranicza tu uwagę na przypadek regresji liniowej) jest równoważny modelowi liniowemu z błędami Gaussa, w którym parametrom nadawany jest Laplace przed \ exp (- \ lambda \ | \ beta \ |...

lasso laplace-distribution

20

Dowód zbieżności średnich k

W przypadku zadania poproszono mnie o przedstawienie dowodu, że k-średnie zbiega się w skończonej liczbie kroków. Oto co napisałem: CCCE(C)=∑xmini=1k∥x−ci∥2E(C)=∑xmini=1k‖x−ci‖2E(C)=\sum_{\mathbf{x}}\min_{i=1}^{k}\left\Vert \mathbf{x}-\mathbf{c}_{i}\right\Vert ^{2}E(C)E(C)E(C) Krok 2 odnosi...

mathematical-statistics k-means

20

Czy splajny mogą być używane do przewidywania?

Nie mogę sprecyzować charakteru danych, ponieważ są one zastrzeżone, ale załóżmy, że mamy takie dane: Każdego miesiąca niektóre osoby zapisują się na usługi. Następnie w każdym kolejnym miesiącu osoby te mogą uaktualnić usługę, przerwać usługę lub odmówić usługi (np. Z powodu braku zapłaty). Dla...

panel-data splines mars

20

Dlaczego w uczeniu maszynowym stosowane są indeksy górne zamiast indeksów dolnych?

Biorę kurs Andrew Ng na Machine Learning poprzez Coursera . W przypadku równań zamiast indeksów dolnych stosuje się indeks górny. Na przykład w poniższym równaniu użyto zamiast : x ix(i)x(i)x^{(i)}xixix_i J(θ0,θ1)=12m∑i=1m(hθ(x(i))−y(i))2J(θ0,θ1)=12m∑i=1m(hθ(x(i))−y(i))2J(\theta_0, \theta_1) =...

machine-learning notation

20

Dlaczego AUC = 1 nawet klasyfikator błędnie zaklasyfikował połowę próbek?

Używam klasyfikatora, który zwraca prawdopodobieństwa. Aby obliczyć AUC, używam pakietu pROC R. Prawdopodobieństwa wyjściowe z klasyfikatora są następujące: probs=c(0.9865780, 0.9996340, 0.9516880, 0.9337157, 0.9778576, 0.8140116, 0.8971550, 0.8967585, 0.6322902, 0.7497237) probspokazuje...

machine-learning auc

20

Jak możemy symulować geometryczną mieszaninę?

Jeśli f1,…,fkf1,…,fkf_1,\ldots,f_k są znanymi gęstościami, z których mogę symulować, tj. Dla których dostępny jest algorytm. a jeśli iloczyn ∏i=1kfi(x)αiα1,…,αk>0∏i=1kfi(x)αiα1,…,αk>0\prod_{i=1}^k f_i(x)^{\alpha_i}\qquad \alpha_1,\ldots,\alpha_k>0 jest do zabudowy, istnieje ogólne podejście...

simulation monte-carlo geometric-mean scalability finite-mixture-model

20

Zrozumienie pochodnej kompromisowej wariancji odchylenia

Czytam rozdział dotyczący kompromisu wariancji odchylenia w elementach statystycznego uczenia się i mam wątpliwości co do wzoru na stronie 29. Niech dane pochodzą z modelu takiego, że gdzie jest losowy liczba o oczekiwanej wartości i wariancja . Niech oczekiwana wartość błędu modelu wynosi gdzie...

machine-learning unbiased-estimator mse bias-variance-tradeoff

20

Dyskusja na temat overfit w xgboost

Moja konfiguracja jest następująca: Postępuję zgodnie z wytycznymi w „Applied Predictive Modeling”. W związku z tym odfiltrowałem skorelowane funkcje i kończę na następujących: 4900 punktów danych w zestawie treningowym i 1600 punktów danych w zestawie testowym. Mam 26 cech, a celem jest zmienna...

machine-learning boosting overfitting

20

Jaka jest różnica między uczeniem się a wnioskowaniem?

Prace naukowe dotyczące uczenia maszynowego często traktują uczenie się i wnioskowanie jako dwa oddzielne zadania, ale nie jest dla mnie jasne, co to za rozróżnienie. Na przykład w tej książce wykorzystują statystyki bayesowskie do obu rodzajów zadań, ale nie stanowią motywacji do takiego...

machine-learning terminology

20

Po co w sieciach neuronowych używać metod gradientowych zamiast innych metaheurystyk?

Dlaczego podczas treningu głębokich i płytkich sieci neuronowych powszechnie stosuje się metody gradientowe (np. Opadanie gradientu, Niestierow, Newton-Raphson), w przeciwieństwie do innych metaheurystyk? Przez metaheurystykę rozumiem metody takie jak symulowane wyżarzanie, optymalizacja kolonii...

neural-networks optimization deep-learning gradient-descent backpropagation

20

Co w nazwie: Precyzja (odwrotność wariancji)

Intuicyjnie średnia to tylko średnia z obserwacji. Wariancja polega na tym, jak bardzo te obserwacje różnią się od średniej. Chciałbym wiedzieć, dlaczego odwrotność wariancji jest znana jako precyzja. Jaką intuicję możemy z tego zrobić? I dlaczego macierz precyzji jest tak przydatna jak macierz...

normal-distribution multivariate-analysis terminology intuition

20

Czy w celu maksymalizacji szansy na prawidłowe odgadnięcie wyniku rzutu monetą zawsze powinienem wybierać najbardziej prawdopodobny wynik?

To nie jest praca domowa. Chciałbym zrozumieć, czy moja logika jest poprawna w przypadku tego prostego problemu dotyczącego statystyk. Powiedzmy, że mam dwustronną monetę, w której prawdopodobieństwo przewrócenia głowy wynosi a prawdopodobieństwo przewrócenia ogona wynosi . Załóżmy, że wszystkie...

probability

20

Procesy gaussowskie w domenie falkowej: czym jest kowariancja?

Czytałem Maraun i wsp. , „Niestacjonarne procesy gaussowskie w domenie falkowej: synteza, szacowanie i znaczące testowanie” (2007), która definiuje klasę niestacjonarnych GP, które mogą być określone przez multiplikatory w domenie falkowej. Realizacja jednego takiego GP to: gdzie jest białym...

normal-distribution stochastic-processes gaussian-process fourier-transform wavelet

20

Kodowanie danych kąta dla sieci neuronowej

Uczę sieci neuronowej (szczegóły nieważne), gdzie dane docelowe to wektor kątów (od 0 do 2 * pi). Szukam porady, jak zakodować te dane. Oto, co obecnie próbuję (z ograniczonym sukcesem): 1) Kodowanie 1-of-C: I bin ustawiam możliwe kąty na około 1000 dyskretnych kątów, a następnie wskazuję...

neural-networks circular-statistics

20

Dowód kurczenia się współczynników za pomocą regresji kalenicowej poprzez „rozkład widmowy”

Zrozumiałem, w jaki sposób regresja kalenicy zmniejsza geometrycznie współczynniki do zera. Co więcej, wiem, jak to udowodnić w specjalnym „przypadku ortonormalnym”, ale jestem zdezorientowany, jak to działa w przypadku ogólnym poprzez „rozkład

regression multiple-regression regularization ridge-regression svd

20

Dlaczego wagi sieci RNN / LSTM są dzielone w czasie?

Ostatnio zainteresowałem się LSTM i byłem zaskoczony, gdy dowiedziałem się, że wagi są dzielone w czasie. Wiem, że jeśli dzielisz wagi w czasie, to twoje wejściowe sekwencje czasowe mogą mieć zmienną długość. Dzielone ciężary pozwalają trenować o wiele mniej parametrów. Z mojego zrozumienia,...

machine-learning lstm rnn

20

Różnica między sprzężeniem zwrotnym RNN i LSTM / GRU

Próbuję zrozumieć różne architektury RNN (Recurrent Neural Network), które mają być zastosowane do danych szeregów czasowych, i zaczynam się mylić z różnymi nazwami, które są często używane przy opisywaniu RNN. Czy struktura Długiej pamięci krótkoterminowej (LSTM) i Gated Recurrent Unit (GRU) jest...

neural-networks lstm rnn

20

Dlaczego macierze symetryczne z dodatnim określeniem (SPD) są tak ważne?

Znam definicję macierzy symetrycznej dodatniej określonej (SPD), ale chcę zrozumieć więcej. Dlaczego są tak ważne, intuicyjnie? Oto co wiem. Co jeszcze? Dla danych danych macierzą współwariancji jest SPD. Macierz współwariancji jest ważnym miernikiem, zobacz ten doskonały post dla intuicyjnego...

mathematical-statistics optimization covariance-matrix intuition linear-algebra

20

Skąd wiemy, że prawdopodobieństwo rzutu 1 i 2 wynosi 1/18?

Od pierwszej klasy prawdopodobieństwa zastanawiałem się nad następującymi kwestiami. Obliczanie prawdopodobieństw zwykle wprowadza się poprzez stosunek „wydarzeń uprzywilejowanych” do wszystkich możliwych zdarzeń. W przypadku rzutu dwiema 6-stronnymi kostkami ilość możliwych zdarzeń wynosi , jak...

probability dice