Statystyki i duże zbiory danych

17

Jeśli model automatycznej regresji szeregów czasowych jest nieliniowy, czy nadal wymaga stacjonarności?

Myślenie o wykorzystaniu rekurencyjnych sieci neuronowych do prognozowania szeregów czasowych. Zasadniczo wdrażają rodzaj uogólnionej nieliniowej auto-regresji, w porównaniu do modeli ARMA i ARIMA, które wykorzystują liniową auto-regresję. Jeśli wykonujemy nieliniową autoregresję, czy nadal...

17

Dlaczego nie skorzystać z „równań normalnych”, aby znaleźć proste współczynniki najmniejszych kwadratów?

Widziałem tę listę tutaj i nie mogłem uwierzyć, że istnieje tak wiele sposobów rozwiązania najmniejszych kwadratów. „Normalne równania” na Wikipedii wydawał się być dość prosty sposób do α^β^=y¯−β^x¯,=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2α^=y¯−β^x¯,β^=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2 {\displaystyle...

regression least-squares scikit-learn

17

Zrozumienie testu t dla regresji liniowej

Próbuję wypracować sposób przeprowadzenia testu hipotez regresji liniowej (hipoteza zerowa nie koreluje). Wydaje się, że każdy przewodnik i strona na temat, na które natrafiam, używa testu t-testowego. Ale nie rozumiem, co tak naprawdę oznacza test t dla regresji liniowej. Test t, o ile nie mam...

regression t-test

17

Dlaczego wybrano literę Q w Q-learningu?

Dlaczego litera Q została wybrana w imieniu Q-learningu? Większość liter jest wybieranych jako skrót, na przykład oznacza ππ\pistrategię, a vvv oznacza wartość. Ale nie sądzę, że Q jest skrótem dowolnego

terminology reinforcement-learning history q-learning

17

Jak można uzyskać dobry model regresji liniowej, gdy nie ma istotnej korelacji między wynikiem a predyktorami?

Przeszkoliłem model regresji liniowej, używając zestawu zmiennych / cech. A model ma dobrą wydajność. Zrozumiałem jednak, że nie ma zmiennej o dobrej korelacji z przewidywaną zmienną. Jak to jest

regression machine-learning correlation multiple-regression linear-model

17

Czy „rozkład normalny” musi mieć średnią = medianę = tryb?

Dyskutowałem z moim profesorem statystycznym na temat „normalnych rozkładów”. Uważam, że aby naprawdę uzyskać rozkład normalny, trzeba mieć średnią = mediana = tryb, wszystkie dane muszą być zawarte pod krzywą dzwonową i idealnie symetryczne wokół średniej. Dlatego technicznie praktycznie nie ma...

mathematical-statistics descriptive-statistics

17

LASSO i grzbiet z perspektywy Bayesa: co z parametrem strojenia?

Mówi się, że estymatory regresji karnej, takie jak LASSO i kalenica, odpowiadają estymatorom bayesowskim z pewnymi priorytetami. Wydaje mi się (ponieważ nie wiem wystarczająco dużo na temat statystyki bayesowskiej), że dla ustalonego parametru strojenia istnieje konkretny wcześniejszy...

bayesian lasso ridge-regression

17

Wzmacnianie i pakowanie drzew (XGBoost, LightGBM)

Istnieje wiele postów na blogach, filmów na YouTube itp. O pomysłach spakowania lub ulepszenia drzew. Z mojego ogólnego zrozumienia wynika, że pseudo kod dla każdego z nich to: Parcianka: Weź N losowych próbek x% próbek i y% funkcji Dopasuj swój model (np. Drzewo decyzyjne) do każdego z...

cart boosting xgboost bagging

17

Czy potrafisz wywnioskować związek przyczynowy z korelacji w tym przykładzie gry dyktatorskiej?

Właśnie miałem egzamin, w którym przedstawiono nam dwie zmienne. W grze dyktatorskiej, w której dyktator otrzymuje 100 USD i może sam zdecydować, ile wysłać lub zatrzymać dla siebie, istniała dodatnia korelacja między wiekiem a ilością pieniędzy, które uczestnicy postanowili zatrzymać. Uważam, że...

correlation causality

17

Krokowy AIC - czy wokół tego tematu istnieją kontrowersje?

Przeczytałem niezliczoną liczbę postów na tej stronie, które są niezwykle przeciwne stosowaniu stopniowego wyboru zmiennych przy użyciu dowolnego kryterium, niezależnie od tego, czy będzie to oparte na wartościach p, AIC, BIC itp. Rozumiem, dlaczego te procedury są ogólnie dość kiepskie w doborze...

forecasting predictive-models arima aic stepwise-regression

17

Czy można zautomatyzować prognozowanie szeregów czasowych?

Chciałbym zbudować algorytm, który byłby w stanie analizować dowolne szeregi czasowe i „automatycznie” wybierać najlepszą tradycyjną / statystyczną metodę prognozowania (i jej parametry) dla analizowanych danych szeregów czasowych. Czy można by zrobić coś takiego? Jeśli tak, czy możesz dać mi...

time-series forecasting python

17

Dlaczego w 8 szkolnym przykładzie Gelmana znany jest błąd standardowy szacunku indywidualnego?

Kontekst: W 8-szkolnym przykładzie Gelmana (analiza danych bayesowskich, wydanie 3, rozdz. 5.5) istnieje osiem równoległych eksperymentów w 8 szkołach testujących efekt coachingu. Każdy eksperyment daje oszacowanie skuteczności coachingu i związanego z nim błędu standardowego. Następnie autorzy...

bayesian hierarchical-bayesian

17

Czy można podawać obrazy o zmiennej wielkości jako dane wejściowe do splotowej sieci neuronowej?

Czy możemy podać obrazy o zmiennej wielkości jako dane wejściowe do splotowej sieci neuronowej w celu wykrywania obiektów? Jeśli to możliwe, jak możemy to zrobić? Ale jeśli spróbujemy przyciąć obraz, stracimy część obrazu i jeśli spróbujemy zmienić jego rozmiar, wówczas jasność obrazu zostanie...

deep-learning tensorflow keras computer-vision object-detection

17

kategoryzacja zmiennej zmienia ją z nieznacznej na znaczącą

Mam zmienną numeryczną, która okazuje się nieistotna w wielowymiarowym modelu regresji logistycznej. Kiedy jednak podzielę go na grupy, nagle staje się znaczący. Jest to dla mnie bardzo sprzeczne z intuicją: kategoryzując zmienną, podajemy pewne informacje. Jak to może...

regression logistic statistical-significance multivariate-analysis

17

Przegląd literatury na temat regresji nieliniowej

Czy ktoś zna dobry artykuł przeglądowy do literatury statystycznej na temat regresji nieliniowej? Interesują mnie przede wszystkim wyniki spójności i asymptotyki. Szczególnie interesujący jest model yit=m(xit,θ)+ϵit,yit=m(xit,θ)+ϵit,y_{it} = m(x_{it},\theta) + \epsilon_{it}, dla danych...

regression references nonlinear-regression

16

Jakie metody można zastosować do ustalenia kolejności integracji szeregów czasowych?

Ekonometrycy często mówią o integracji szeregów czasowych z porządkiem k, I (k) . k oznacza minimalną liczbę różnic wymaganych do uzyskania stacjonarnego szeregu czasowego. Jakich metod lub testów statystycznych można użyć do ustalenia, przy danym poziomie ufności, kolejności całkowania szeregów...

time-series

16

Kompleksowy przegląd funkcji strat?

Próbuję uzyskać globalną perspektywę na niektóre z podstawowych pomysłów w uczeniu maszynowym i zastanawiałem się, czy istnieje kompleksowe podejście do różnych pojęć utraty (kwadrat, log, zawias, proxy itp.). Zastanawiałem się nad bardziej kompleksową, formalną prezentacją doskonałego postu Johna...

references loss-functions

16

EM, czy istnieje intuicyjne wyjaśnienie?

Dla niewtajemniczonych procedura EM wydaje się mniej więcej czarną magią. Oszacuj parametry HMM (na przykład) przy użyciu nadzorowanych danych. Następnie zdekoduj nieoznaczone dane, używając „wstecz” do „zliczania” zdarzeń tak, jakby dane były oznaczone mniej więcej. Dlaczego to sprawia, że model...

expectation-maximization intuition

16

Porównanie wariancji sparowanych obserwacji

Mam sparowanych obserwacji ( , ) zaczerpniętych ze wspólnego nieznanego rozkładu, który ma skończony pierwszy i drugi moment i jest symetryczny wokół średniej.NNNXiXiX_iYiYiY_i Niech odchylenie standardowe (bezwarunkowe dla ), a to samo dla Y. Chciałbym przetestować hipotezę...

distributions hypothesis-testing standard-deviation normal-distribution

16

Niezawodne wykrywanie wartości odstających w okresach finansowych

Szukam pewnych niezawodnych technik usuwania wartości odstających i błędów (bez względu na przyczynę) z danych finansowych szeregów czasowych (tj. Tickdata). Dane finansowe szeregów czasowych od tyknięcia do tyka są bardzo nieporządne. Zawiera ogromne przerwy (czasowe), gdy giełda jest zamknięta,...

time-series outliers