Statystyki i duże zbiory danych

15
Dlaczego ważne jest uwzględnienie terminu korekty odchylenia dla optymalizatora Adama w przypadku głębokiego uczenia się?

Czytałem o optymalizatorze Adama do głębokiego uczenia się i natknąłem się na następujące zdanie w nowej książce Głębokie uczenie się autorstwa Begnio, Goodfellow i Courtville: Adam wprowadza korekty błędu wstępnego w szacunkach zarówno momentów pierwszego rzędu (okres pędu), jak i...

15
Typowa koncepcja zestawu

Pomyślałem, że koncepcja typowego zestawu jest dość intuicyjna: sekwencja długości należałaby do typowego zestawu jeśli prawdopodobieństwo wystąpienia sekwencji byłoby wysokie. Tak więc każda sekwencja, która prawdopodobnie byłaby w . (Unikam formalnej definicji związanej z entropią, ponieważ...

15
Jaka jest różnica między zwykłym PCA a probabilistycznym PCA?

Wiem, że zwykłe PCA nie stosuje probabilistycznego modelu obserwowanych danych. Jaka jest więc podstawowa różnica między PCA a PPCA ? W modelu PPCA utajona zmienna zawiera na przykład zmienne obserwowane , utajone (zmienne nieobserwowane x ) i macierz W , która nie musi być ortonormalna jak w...

15
Jak interpretować entropię różnicową?

Niedawno przeczytałem ten artykuł na temat entropii dyskretnego rozkładu prawdopodobieństwa. Opisuje ładny sposób myślenia o entropii jako oczekiwanej liczbie bitów (przynajmniej przy użyciu w definicji entropii) potrzebnej do zakodowania wiadomości, gdy kodowanie jest optymalne, biorąc pod uwagę...

15
Dobra dokładność pomimo wysokiej wartości strat

Podczas szkolenia prostego klasyfikatora binarnego sieci neuronowej uzyskuję wysoką wartość stratności, używając entropii krzyżowej. Mimo to wartość dokładności zestawu sprawdzania poprawności jest całkiem dobra. Czy to ma jakieś znaczenie? Nie ma ścisłej korelacji między stratą a...

15
Czy oszustwo polega na usuwaniu wartości odstających na podstawie wykresu średniego błędu bezwzględnego w celu ulepszenia modelu regresji

Mam model predykcyjny przetestowany czterema metodami, jak widać na poniższym rysunku. Atrybut prognozowany przez model mieści się w zakresie 0–8. Możesz zauważyć, że istnieje jedna górna granica i trzy dolne granice wskazane przez wszystkie metody. Zastanawiam się, czy właściwe jest usunięcie...