Statystyki i duże zbiory danych

15

Regresja błędów w zmiennych: czy poprawne jest łączenie danych z trzech witryn?

Niedawno przyszedł do mnie klient, aby przeprowadzić analizę ładowania początkowego, ponieważ recenzent FDA stwierdził, że ich regresja błędów w zmiennych była nieprawidłowa, ponieważ podczas łączenia danych z witryn analiza obejmuje łączenie danych z trzech witryn, w których dwie witryny zawierały...

15

Kilka pytań na temat losowości statystycznej

Ze statystycznej randonessy Wikipedii : Losowość globalna i losowość lokalna są różne. Większość filozoficznych koncepcji losowości ma charakter globalny, ponieważ opierają się na założeniu, że „na dłuższą metę” sekwencja wygląda naprawdę losowo, nawet jeśli pewne podsekwencje nie wyglądałyby...

mathematical-statistics random-generation

15

Jak interpretować macierz kowariancji z dopasowania krzywej?

Nie jestem zbyt dobry w statystyce, więc przepraszam, jeśli to proste pytanie. Dopasowuję krzywą do niektórych danych, a czasami moje dane najlepiej pasują do ujemnego wykładniczego w postaci * e( - b ∗ x )+ cza∗mi(-b∗x)+doa * e^{(-b * x)} + c , a czasami dopasowanie jest bliższe . Czasami jednak...

variance model-selection python curve-fitting covariance-matrix

15

Wizualizacja wyników modeli mieszanych

Jednym z problemów, które zawsze miałem z modelami mieszanymi, jest wymyślanie wizualizacji danych - takich, które mogłyby skończyć się na papierze lub plakacie - gdy tylko uzyska się wyniki. Obecnie pracuję nad modelem efektów mieszanych Poissona z formułą, która wygląda mniej więcej tak: a...

r data-visualization mixed-model

15

Radzenie sobie z powiązaniami, wagami i głosowaniem w kNN

Programuję algorytm kNN i chciałbym wiedzieć, co następuje: Przerwy w remisie: Co się stanie, jeśli w głosowaniu większościowym nie będzie wyraźnego zwycięzcy? Np. Wszyscy k najbliżsi sąsiedzi należą do różnych klas, czy dla k = 4 są 2 sąsiedzi z klasy A i 2 sąsiedzi z klasy B? Co się stanie,...

k-nearest-neighbour weights ties

15

Losowy las jest przepełniony

Próbuję użyć losowej regresji leśnej w scikits-learn. Problem polega na tym, że otrzymuję naprawdę wysoki błąd testu: train MSE, 4.64, test MSE: 252.25. Tak wyglądają moje dane: (niebieski: dane rzeczywiste, zielony: przewidywane): Używam 90% na szkolenie i 10% na test. Oto kod, którego używam...

regression random-forest scikit-learn

15

Po co stosować określoną miarę błędu prognozy (np. MAD), a nie inną (np. MSE)?

MAD = średnie odchylenie bezwzględne MSE = średni błąd kwadratu Widziałem sugestie z różnych miejsc, że MSE jest używany pomimo pewnych niepożądanych właściwości (np. Http://www.stat.nus.edu.sg/~staxyc/T12.pdf , który stwierdza na p8 „Powszechnie uważa się, że MAD jest lepszym kryterium niż MSE....

forecasting error mse mae

15

Dlaczego stabilizujemy wariancję?

Natknąłem się na transformację stabilizującą wariancję podczas czytania metody Kaggle Essay Eval . Używają transformacji stabilizacji wariancji, aby przekształcić wartości kappa przed pobraniem ich średniej, a następnie przekształcić je z powrotem. Nawet po przeczytaniu wiki o transformacjach...

variance mathematical-statistics

15

Znaczenie terminów wyjściowych w pakiecie GBM?

Korzystam z pakietu GBM do klasyfikacji. Zgodnie z oczekiwaniami wyniki są dobre. Ale staram się zrozumieć wyniki klasyfikatora. W produkcji występuje pięć terminów. `Iter TrainDeviance ValidDeviance StepSize Improve` Czy ktoś mógłby wyjaśnić znaczenie każdego terminu, zwłaszcza znaczenie...

r machine-learning

15

Przekształć dane w pożądaną średnią i odchylenie standardowe

Szukam metody przekształcenia mojego zestawu danych z jego bieżącej średniej i standardowego odchylenia do docelowej średniej i docelowego standardowego odchylenia. Zasadniczo chcę zmniejszyć / rozszerzyć dyspersję i przeskalować wszystkie liczby do średniej. To nie działa, aby wykonać dwie...

data-transformation standard-deviation mean

15

Określenie struktury kowariancji: zalety i wady

Jakie są korzyści ze wskazania struktury kowariancji w GLM (zamiast traktowania wszystkich nie-diagonalnych wpisów w macierzy kowariancji jako zera)? Oprócz odzwierciedlenia tego, co wiemy o danych, robi to poprawić dobroć dopasowania? poprawić dokładność predykcyjną przetrzymywanych...

generalized-linear-model covariance

15

Czy funkcja logit jest zawsze najlepsza do modelowania regresji danych binarnych?

Myślałem o tym problemie. Zwykłą funkcją logistyczną do modelowania danych binarnych jest: Jednak czy funkcja logit, która jest krzywą w kształcie litery S, zawsze jest najlepsza do modelowania danych? Być może masz powód, by sądzić, że twoje dane nie są zgodne z normalną krzywą w kształcie...

logistic references link-function

15

Oszacowanie parametrów rozkładu normalnego: mediana zamiast średniej?

Powszechnym podejściem do szacowania parametrów rozkładu normalnego jest użycie średniej i odchylenia standardowego / wariancji próbki. Jeśli jednak występują pewne wartości odstające, mediana i odchylenie mediany od mediany powinny być znacznie bardziej niezawodne, prawda? Na niektórych zbiorów...

normal-distribution estimation outliers robust unbiased-estimator

15

Jak oszacować proces Poissona za pomocą R? (Lub: jak korzystać z pakietu NHPoisson?)

Mam bazę danych zdarzeń (tj. Zmienną dat) i powiązanych zmiennych towarzyszących. Zdarzenia są generowane przez niestacjonarny proces Poissona z parametrem będącym nieznaną (ale być może liniową) funkcją niektórych zmiennych towarzyszących. Myślę, że pakiet NHPoisson istnieje właśnie w tym celu;...

r poisson-distribution poisson-process

15

Zrównoważona dokładność vs wynik F-1

Zastanawiałem się, czy ktokolwiek mógłby wyjaśnić różnicę między wyważoną dokładnością b_acc = (sensitivity + specificity)/2 oraz wynik f1, który jest: f1 = 2*precision*recall/(precision + recall)

unbalanced-classes

15

Jak ggplot oblicza przedziały ufności dla regresji?

Pakiet kreślarski R ggplot2 ma niesamowitą funkcję o nazwie stat_smooth do kreślenia linii regresji (lub krzywej) z powiązanym pasmem ufności. Trudno mi jednak dokładnie ustalić, w jaki sposób generowany jest ten przedział ufności, dla każdej linii regresji (lub „metody”). Jak mogę znaleźć te...

r regression confidence-interval ggplot2

15

Szacowanie kowariancji a posteriori rozkładu wielowymiarowego gaussa

Muszę „nauczyć się” rozkładu dwuwymiarowego gaussa z kilkoma próbkami, ale dobrą hipotezą na temat wcześniejszego rozkładu, dlatego chciałbym zastosować podejście bayesowskie. Zdefiniowałem mój wcześniejszy: P(μ)∼N(μ0,Σ0)P(μ)∼N(μ0,Σ0) \mathbf{P}(\mathbf{\mu}) \sim...

distributions bayesian estimation covariance posterior

15

Porównanie list rankingowych

Załóżmy, że każda z dwóch grup, składająca się z i n 2, zajmuje zestaw 25 pozycji od najważniejszych do najmniej ważnych. Jakie są najlepsze sposoby na porównanie tych rankingów?n1n1n_1n2)n2n_2 Oczywiście możliwe jest wykonanie 25 testów U Manna-Whitneya, ale dałoby to 25 wyników testu do...

ranking group-differences

15

Jakie metody statystyczne są archaiczne i należy je pominąć w podręcznikach? [Zamknięte]

W obecnej formie to pytanie nie pasuje do naszego formatu pytań i odpowiedzi. Oczekujemy, że odpowiedzi poparte będą faktami, referencjami lub wiedzą fachową, ale to pytanie prawdopodobnie będzie wymagało debaty, argumentów, ankiet lub rozszerzonej dyskusji. Jeśli uważasz, że to...

references history

15

Jak zrobić regresję z kodowaniem efektu zamiast kodowania fikcyjnego w R?

Obecnie pracuję nad modelem regresji, w którym jako zmienne niezależne mam tylko zmienne kategorialne / czynnikowe. Moja zmienna zależna to stosunek przekształcony logit. Całkiem łatwo jest uruchomić normalną regresję w R, ponieważ R automatycznie wie, jak zakodować manekiny, gdy tylko będą miały...

r regression categorical-data categorical-encoding