Dlaczego nazywane są „maszynami”? Czy w tym kontekście jest używane słowo „maszyna”? (Jak nazwa „programowanie liniowe” może być myląca, ale wiemy, dlaczego nazywa się to
Dlaczego nazywane są „maszynami”? Czy w tym kontekście jest używane słowo „maszyna”? (Jak nazwa „programowanie liniowe” może być myląca, ale wiemy, dlaczego nazywa się to
W „Analizie danych” DS Sivii istnieje pochodna rozkładu Poissona z rozkładu dwumianowego. Twierdzą, że rozkład Poissona jest ograniczającym przypadkiem rozkładu dwumianowego, gdy M→∞M→∞M\rightarrow\infty , gdzie MMM jest liczbą prób. Pytanie 1: Jak intuicyjnie zrozumieć ten argument? Pytanie 2:...
Mam zestaw danych zawierający 34 kolumny wejściowe i 8 kolumn wyjściowych. Jednym ze sposobów rozwiązania tego problemu jest pobranie 34 danych wejściowych i zbudowanie indywidualnego modelu regresji dla każdej kolumny wyjściowej. Zastanawiam się, czy ten problem można rozwiązać za pomocą tylko...
Dlaczego regresja liniowa i model uogólniony mają niespójne założenia? W regresji liniowej zakładamy, że reszta pochodzi z gaussowskiego W innych regresjach (regresja logistyczna, regresja trucizny) zakładamy, że odpowiedź pochodzi z pewnego rozkładu (dwumianowy, pozycyjny itp.). Dlaczego...
Czytałem FaceNet papier i w 3. akapicie wprowadzenia mówi: Wcześniejsze podejścia do rozpoznawania twarzy oparte na głębokich sieciach wykorzystywały warstwę klasyfikacyjną przeszkoloną w oparciu o zestaw znanych tożsamości twarzy, a następnie przyjmowały pośrednią warstwę wąskiego gardła jako...
Po udzieleniu odpowiedzi na pytanie ( Wyodrębnianie znaczenia wagi z jednowarstwowej sieci feed-forward ) szukam wnioskowania na temat znaczenia danych wejściowych w sieciach neuronowych. Biorąc pod uwagę głęboką sieć, w której rekonstrukcja znaczenia wejściowego poprzez przejście wstecz przez...
Zastanawiam się, czy oszacowanie maksymalnego prawdopodobieństwa kiedykolwiek użyte w statystykach. Uczymy się jego koncepcji, ale zastanawiam się, kiedy jest faktycznie używana. Jeśli przyjmiemy rozkład danych, znajdziemy dwa parametry, jeden dla średniej i jeden dla wariancji, ale czy...
W splotowych sieciach neuronowych (CNN) matryca wag na każdym kroku zostaje odwrócona w celu uzyskania macierzy jądra przed przystąpieniem do splotu. Wyjaśnia to seria filmów Hugo Larochelle tutaj : Obliczenie ukrytych map odpowiadałoby wykonaniu dyskretnego splotu z kanałem z poprzedniej...
Rozumiem, że oznacza to, że model źle prognozuje poszczególne punkty danych, ale ustanowił silny trend (np. Y rośnie, gdy x
Czy istnieje prosty sposób wyjaśnienia, dlaczego procedura Benjaminiego i Hochberga (1995) faktycznie kontroluje współczynnik fałszywych odkryć (FDR)? Ta procedura jest tak elegancka i zwarta, a jednak dowód na to, dlaczego działa ona niezależnie (pojawiający się w załączniku do ich artykułu z 1995...
Obecnie jestem nieco zdziwiony tym, w jaki sposób opadanie gradientu mini-partii może być uwięzione w punkcie siodłowym. Rozwiązanie może być zbyt trywialne, że go nie rozumiem. Masz nową próbkę każda epoka, i oblicza nową błędów oparty na nowej partii, więc funkcja kosztu jest statyczne tylko...
Staram się uzyskać intuicyjne zrozumienie i wyczuć różnicę i praktyczną różnicę między terminem spójnym a asymptotycznie bezstronnym. Znam ich matematyczne / statystyczne definicje, ale szukam czegoś intuicyjnego. Dla mnie, patrząc na ich indywidualne definicje, prawie wydają się być tym samym....
Odnosi się to do artykułu Efektywna lokalizacja obiektu za pomocą sieci konwergentnych i z tego, co rozumiem, rezygnacja jest realizowana w 2D. Po odczytaniu kodu z Keras o tym, jak zaimplementowano Upadek przestrzenny 2D, w zasadzie implementowana jest losowa binarna maska kształtu [batch_size,...
Zdefiniuj oszacowanie lasso gdzie i ^ {th} wiersz x_i \ in \ mathbb {R} ^ p macierzy projektowej X \ in \ mathbb {R} ^ {n \ times p} jest wektorem zmiennych towarzyszących dla wyjaśnienia odpowiedzi stochastycznej y_i (dla i = 1, \ kropki n
Wydaje się, że istnieją sprzeczne porady na temat tego, jak radzić sobie z porównywaniem błędu pociągu z błędem testu, szczególnie gdy istnieje między nimi różnica. Wydaje mi się, że istnieją dwie szkoły myślenia, które wydają mi się sprzeczne. Chcę zrozumieć, jak pogodzić te dwie rzeczy (lub...
(aa byłby jednym z wielu, bb nie) Myślałem, że to będzie 10! / 8! Ale najwyraźniej robię coś złego. Czy ktoś może mi pomóc, bo jestem
Duży nacisk kładzie się na poleganie i zgłaszanie wielkości efektów zamiast wartości p w badaniach stosowanych (np. Cytaty poniżej). Ale czy nie jest tak, że wielkość efektu, podobnie jak wartość p, jest zmienną losową i jako taka może różnić się w zależności od próbki, gdy powtórzy się ten sam...
Wydaje się, że istnieje wiele zamieszania w porównaniu używania glmnetwewnątrz w caretcelu znalezienia optymalnej lambdy i korzystania cv.glmnetz tego samego zadania. Zadano wiele pytań, np .: Model klasyfikacji train.glmnet vs. cv.glmnet? Jaki jest właściwy sposób używania glmnet z...
Wiemy zatem, że wyszukiwanie losowe działa lepiej niż wyszukiwanie siatki, ale nowszym podejściem jest optymalizacja Bayesa (przy użyciu procesów gaussowskich). Sprawdziłem porównanie między nimi i nic nie znalazłem. Wiem, że w cs231n Stanforda wspominają tylko o losowym wyszukiwaniu, ale możliwe...
To może być częste pytanie, ale nigdy nie znalazłem satysfakcjonującej odpowiedzi. Jak określić prawdopodobieństwo, że hipoteza zerowa jest prawdziwa (lub fałszywa)? Powiedzmy, że dajesz uczniom dwie różne wersje testu i chcesz sprawdzić, czy wersje były równoważne. Wykonujesz test t, który daje...