Statystyki i duże zbiory danych

43

Małe (prawdziwe) zbiory danych do dawania przykładów w klasie?

Nauczając klasę wprowadzającą, znani nauczyciele mają tendencję do wymyślania pewnych liczb i historii w celu zilustrowania metody, której nauczają. Wolałbym opowiedzieć prawdziwą historię z prawdziwymi liczbami. Historie te muszą jednak odnosić się do bardzo małego zestawu danych, który...

dataset references teaching

43

Kompendium technik walidacji krzyżowej

Zastanawiam się, czy ktoś wie o kompendium technik walidacji krzyżowej z dyskusją na temat różnic między nimi i wskazówką, kiedy stosować każdą z nich. Wikipedia ma listę najpopularniejszych technik, ale jestem ciekawy, czy istnieją inne techniki i czy istnieją dla nich taksonomie. Na przykład po...

cross-validation

43

Jak porównać statystycznie dwie serie czasowe?

Mam dwie serie czasowe pokazane na poniższym wykresie: Fabuła pokazuje pełny szczegół obu serii czasowych, ale w razie potrzeby mogę łatwo sprowadzić je do obserwacji zbieżnych. Moje pytanie brzmi: jakich metod statystycznych mogę użyć do oceny różnic między szeregami czasowymi? Wiem, że jest...

r time-series

43

Szkolenie drzewa decyzyjnego względem niezrównoważonych danych

Jestem nowy w eksploracji danych i staram się trenować drzewo decyzyjne względem zestawu danych, który jest wysoce niezrównoważony. Mam jednak problemy ze słabą dokładnością predykcyjną. Dane obejmują studentów studiujących kursy, a zmienną klasową jest status kursu, który ma dwie wartości -...

classification cart unbalanced-classes accuracy

43

Regresja, gdy reszty OLS nie są zwykle rozkładane

Na tej stronie jest kilka wątków omawiających, jak ustalić, czy reszty OLS są asymptotycznie normalnie rozłożone. Inny sposób oceny normalności reszt za pomocą kodu R znajduje się w tej doskonałej odpowiedzi . To kolejna dyskusja na temat praktycznej różnicy między znormalizowanymi a...

regression least-squares residuals assumptions normality-assumption

43

Fałszywe jednolite liczby losowe: bardziej równomiernie rozłożone niż prawdziwe jednolite dane

Szukam sposobu generowania liczb losowych, które wydają się być jednolicie rozmieszczone - a każdy test wykaże, że są one jednolite - z tym wyjątkiem, że są one bardziej równomiernie rozłożone niż prawdziwe jednolite dane . Problem, jaki mam z „prawdziwymi” losowymi mundurami, polega na tym, że...

distributions random-generation uniform quasi-monte-carlo

43

Funkcje klasyfikacji szeregów czasowych

Rozważam problem klasyfikacji (wieloklasowej) na podstawie szeregów czasowych o zmiennej długości , to znaczy znaleźć funkcję poprzez globalną reprezentację serii czasowej przez zestaw wybranych cech o stałym rozmiarze niezależnym od , a następnie użyj standardowych metod klasyfikacji w tym...

time-series classification feature-selection signal-processing

43

Dlaczego modele szeregów czasowych MA (q) nazywane są „średnimi ruchomymi”?

Kiedy czytam „średnią ruchomą” w odniesieniu do szeregu czasowego, myślę, że coś takiego jak , a może ważone średnia jak . (Zdaję sobie sprawę, że tak naprawdę są to modele AR (3), ale do tego skacze mój mózg.) Dlaczego modele MA (q) zawierają formuły terminów błędów lub „innowacji”? Co ma...

time-series arima terminology moving-average

43

Losowe założenia lasu

Jestem trochę nowym przypadkowym lasem, więc wciąż mam problemy z podstawowymi pojęciami. W regresji liniowej zakładamy niezależne obserwacje, stałą wariancję… Jakie są podstawowe założenia / hipotezy, kiedy korzystamy z losowego lasu? Jakie są kluczowe różnice między losowymi lasami a...

regression classification random-forest

43

Co znaczą „endogeniczność” i „egzogeniczność”?

Rozumiem, że podstawowa definicja endogeniczności jest taka, że nie jest spełniony, ale co to oznacza w sensie realnym? Czytam artykuł z Wikipedii, na przykład podaży i popytu, próbując to zrozumieć, ale to naprawdę nie pomogło. Słyszałem inny opis endogennego i egzogennego jako bycia w systemie...

regression causality instrumental-variables

43

Czy można interpretować bootstrap z perspektywy Bayesa?

Ok, to pytanie podtrzymuje mnie w nocy. Czy procedurę ładowania początkowego można interpretować jako przybliżenie niektórych procedur bayesowskich (z wyjątkiem ładowania początkowego bayesowskiego)? Bardzo podoba mi się „interpretacja” statystyki bayesowskiej, którą uważam za całkiem spójną i...

bayesian bootstrap

43

Warstwa Softmax w sieci neuronowej

Próbuję dodać warstwę softmax do sieci neuronowej wyuczonej z propagacji wstecznej, więc próbuję obliczyć jej gradient. Wyjście softmax to gdzie jest wyjściowym numerem neuronu.hj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}}jjj Jeśli to uzyskam, to

neural-networks

43

Uogólnienie Prawa Iterowanych Oczekiwań

self-study conditional-probability conditional-expectation

43

Co możemy powiedzieć o populacji w próbie 1?

Zastanawiam się, co możemy powiedzieć, jeśli w ogóle, o średniej populacji, kiedy wszystko, co mam, to jeden pomiar, (wielkość próby 1). Oczywiście chcielibyśmy mieć więcej pomiarów, ale nie możemy ich uzyskać.y 1μμ\muy1y1y_1 Wydaje mi się, że skoro średnia próbki, , jest trywialnie równa , to ....

mean sample-size small-sample unbiased-estimator

43

Czy CDF są bardziej fundamentalne niż pliki PDF?

Moja stat prof w zasadzie powiedziała, że jeśli otrzyma się jedną z następujących trzech, można znaleźć dwie pozostałe: Funkcja rozkładu skumulowanego Funkcja generowania momentu Funkcja gęstości prawdopodobieństwa Ale mój profesor ekonometrii powiedział, że CDF są bardziej fundamentalne...

probability pdf cdf mgf

43

Zrozumienie roli czynnika dyskontowego w uczeniu się wzmacniającym

Uczę się o uczeniu się przez wzmocnienie i staram się zrozumieć koncepcję nagrody dyskontowej. Zatem nagroda jest konieczna, aby powiedzieć systemowi, które pary stan-działanie są dobre, a które złe. Ale nie rozumiem, dlaczego zniżka jest konieczna. Dlaczego miałoby mieć znaczenie, czy dobry stan...

machine-learning reinforcement-learning

43

Referencje sieci neuronowej (podręczniki, kursy online) dla początkujących

Chcę nauczyć się sieci neuronowych. Jestem lingwistą komputerowym. Znam statystyczne metody uczenia maszynowego i potrafię kodować w Pythonie. Chciałbym zacząć od jego koncepcji i znam jeden lub dwa popularne modele, które mogą być przydatne z perspektywy językoznawstwa...

neural-networks deep-learning references natural-language computer-vision

43

Dlaczego naturalne zmiany dziennika są zmianami procentowymi? Co takiego sprawia, że logi?

Czy ktoś może wyjaśnić, w jaki sposób sprawiają to logi, aby można było wykonać logiczne regresje, w których współczynniki są interpretowane jako zmiany

regression logarithm mathematical-statistics

43

Czy uczenie maszynowe może dekodować skróty SHA256?

Mam 64-znakowy skrót SHA256. Mam nadzieję wytrenować model, który może przewidzieć, czy tekst jawny użyty do wygenerowania skrótu zaczyna się od 1, czy nie. Niezależnie od tego, czy jest to „możliwe”, jaki algorytm byłby najlepszy? Moje początkowe przemyślenia: Wygeneruj dużą próbkę skrótów...

machine-learning logistic

42

Pozyskiwanie priorów od ekspertów

Jak powinienem uzyskać wcześniejsze informacje od ekspertów przy dopasowaniu modelu

bayesian prior elicitation