Chcę poznać różnicę między regresją liniową w regularnej analizie uczenia maszynowego a regresją liniową w ustawieniu „głębokiego uczenia”. Jakie algorytmy są stosowane do regresji liniowej w ustawieniach głębokiego uczenia
Chcę poznać różnicę między regresją liniową w regularnej analizie uczenia maszynowego a regresją liniową w ustawieniu „głębokiego uczenia”. Jakie algorytmy są stosowane do regresji liniowej w ustawieniach głębokiego uczenia
Coraz częściej słyszę te słowa, ucząc się uczenia maszynowego. W rzeczywistości niektórzy ludzie zdobyli medal Fieldsa, pracując nad prawidłowością równań. Sądzę więc, że jest to termin, który przenosi się z fizyki statystycznej / matematyki na uczenie maszynowe. Oczywiście wiele osób, o które...
Podczas gdy ja studiuję oszacowanie maksymalnego prawdopodobieństwa, aby wnioskować w oszacowaniu maksymalnego prawdopodobieństwa, musimy znać wariancję. Aby dowiedzieć się o wariancji, muszę poznać Dolną Granicę Kramera, która wygląda jak matryca Hesji z Drugim Pochyleniem krzywizny. Jestem trochę...
Na kursie uczenia maszynowego dowiedziałem się, że jednym z powszechnych zastosowań PCA ( Principal Component Analysis ) jest przyspieszenie innych algorytmów uczenia maszynowego. Na przykład wyobraź sobie, że trenujesz model regresji logistycznej. Jeśli masz zestaw treningowy dla i od 1 do n i...
Nigdy nie jestem pewien, kiedy zastosować kodowanie „na gorąco” w przypadku niez uporządkowanych zmiennych kategorialnych, a kiedy nie. Używam go, ilekroć algorytm używa metryki odległości do obliczenia podobieństwa. Czy ktokolwiek może podać ogólną ogólną zasadę, jakie typy algorytmów wymagają,...
Zawody Kaggle określają końcowe rankingi na podstawie ustalonego zestawu testów. Wyciągnięty zestaw testowy jest próbką; może nie być reprezentatywny dla modelowanej populacji. Ponieważ każde zgłoszenie jest jak hipoteza, algorytm, który wygrał konkurencję, może po prostu przypadkiem dopasować...
Zamknięte . To pytanie jest oparte na opiniach . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby można było na nie odpowiedzieć faktami i cytatami, edytując ten post . Zamknięte 2 lata temu . Obecnie uczęszczam na...
Przeprowadzam eksperymenty na zestawie walidacyjnym EMNIST przy użyciu sieci z RMSProp, Adamem i SGD. Osiągam 87% dokładności dzięki SGD (współczynnik uczenia się 0,1) i porzucaniu (0,1 porzuceniu prob), a także regularyzacji L2 (kara 1e-05). Podczas testowania tej samej dokładnej konfiguracji z...
Zastanawiam się, jaka jest wewnętrzna wartość stosowania średniej harmonicznej (na przykład do obliczania miar F), a nie ważonej średniej arytmetycznej w łączeniu precyzji i przypominania? Myślę, że ważona średnia arytmetyczna może odgrywać rolę średniej harmonicznej, czy coś mi...
Normalizacji partii przypisano znaczną poprawę wydajności w głębokich sieciach neuronowych. Wiele materiałów w Internecie pokazuje, jak wdrożyć je na zasadzie aktywacja po aktywacji. Zaimplementowałem już backprop za pomocą algebry macierzy i biorąc pod uwagę, że pracuję w językach wysokiego...
Czy użycie „wariacyjnego” zawsze odnosi się do optymalizacji poprzez wnioskowanie wariacyjne? Przykłady: „Automatyczny enkoder wariacyjny” „Wariacyjne metody bayesowskie” „Grupa renormalizacji
Funkcja softmax, powszechnie stosowana w sieciach neuronowych do przekształcania liczb rzeczywistych na prawdopodobieństwa, jest taką samą funkcją jak rozkład Boltzmanna, rozkład prawdopodobieństwa nad energiami dla zespołu cząstek w równowadze termicznej w danej temperaturze T w...
Obecnie próbuję owinąć głowę wokół matematyki t-SNE . Niestety, wciąż jest jedno pytanie, na które nie potrafię odpowiedzieć zadowalająco: Jakie jest rzeczywiste znaczenie osi na wykresie t-SNE? Gdybym miał przedstawić prezentację na ten temat lub zamieścić ją w jakiejkolwiek publikacji: Jak...
Patrzyłem na teoretyczne ramy wyboru metod (uwaga: nie wybór modelu) i znalazłem bardzo mało systematycznej, motywowanej matematycznie pracy. Pod pojęciem „wybór metody” rozumiem strukturę umożliwiającą rozróżnienie odpowiedniej (lub lepszej, optymalnej) metody w odniesieniu do problemu lub rodzaju...
Czy istnieje jakaś standardowa metoda określania „optymalnego” punktu pracy na krzywej dokładnego przywołania ? (tj. określenie punktu na krzywej, który zapewnia dobry kompromis między precyzją a
Powiedzmy, że mam predykcyjny model klasyfikacji oparty na losowym lesie (używając pakietu randomForest w R). Chciałbym to skonfigurować, aby użytkownicy końcowi mogli określić element, dla którego ma zostać wygenerowana prognoza, i wyświetli prawdopodobieństwo klasyfikacji. Jak dotąd nie ma...
Jakie są zalety podania pewnych wartości początkowych prawdopodobieństwom przejścia w Ukrytym Modelu Markowa? W końcu system się ich nauczy, więc po co podawać wartości inne niż losowe? Czy algorytm bazowy robi różnicę, taką jak Baum – Welch? Jeśli bardzo dokładnie znam prawdopodobieństwa...
Pracuję z niektórymi dużymi zestawami danych przy użyciu pakietu gbm w R. Zarówno moja macierz predykcyjna, jak i mój wektor odpowiedzi są dość rzadkie (tzn. Większość wpisów ma wartość zero). Miałem nadzieję zbudować drzewa decyzyjne przy użyciu algorytmu, który korzysta z tej rzadkości, jak to...
To było w mojej głowie przez co najmniej kilka godzin. Próbowałem znaleźć optymalne k dla danych wyjściowych z algorytmu k-średnich (z metryką podobieństwa kosinusowego ), więc skończyłem na wykreślaniu zniekształcenia w funkcji liczby klastrów. Mój zestaw danych to zbiór 800 dokumentów w...
Ten artykuł na temat Adaboost zawiera pewne sugestie i kod (strona 17) dotyczący rozszerzenia modeli 2-klasowych na problemy klasy K. Chciałbym uogólnić ten kod, tak że mogę łatwo podłączyć różne modele 2-klasowe i porównać wyniki. Ponieważ większość modeli klasyfikacji ma interfejs formuły i...