Statystyki i duże zbiory danych

14
Czy przy nadmiernym / niedostatecznym próbkowaniu niesymetrycznych klas maksymalizacja dokładności różni się od minimalizacji kosztów błędnej klasyfikacji?

Przede wszystkim chciałbym opisać niektóre popularne układy używane w książkach Data Mining, wyjaśniając, jak radzić sobie z niezrównoważonymi zestawami danych . Zwykle główna sekcja nosi nazwę Niezrównoważone zestawy danych i obejmują te dwie podsekcje: Klasyfikacja wrażliwa na koszty i Techniki...

14
Jak przetrawić kontekst statystyczny?

Po pierwsze, przypuszczam, że nie wszyscy aktywni członkowie tej interesującej strony są statystykami. W przeciwnym razie pytanie zadane w następujący sposób nie ma sensu! Oczywiście ich szanuję, ale potrzebuję wyjaśnienia, które jest bardziej praktyczne niż koncepcyjne. Zacznę od przykładu z...

14
Co oznacza skrócona dystrybucja?

W artykule badawczym na temat analizy wrażliwości modelu równania różniczkowego zwyczajnego układu dynamicznego autor podał rozkład parametru modelu jako Rozkład normalny (średnia = 1e-4, std = 3e-5) obcięty do zakresu [0,5e -4 1,5e-4]. Następnie wykorzystuje próbki z tego obciętego rozkładu do...

14
Szacowanie punktu przerwania w złamanym drążku / częściowym modelu liniowym z losowymi efektami w R [zawiera kod i dane wyjściowe]

Czy ktoś może mi powiedzieć, jak R oszacować punkt przerwania w częściowym modelu liniowym (jako parametr stały lub losowy), gdy muszę również oszacować inne efekty losowe? Poniżej zamieściłem przykład zabawki, który pasuje do regresji kija hokejowego / łamanego kija z losowymi wariancjami...

14
Ograniczona funkcja generowania momentu

To pytanie wynika z zadanego tutaj pytania na temat funkcji generowania momentu związanego (MGF). Załóżmy, że XXX jest ograniczoną losową zmienną o zerowej średniej przyjmującą wartości w i niech będzie jej MGF. Z granicy użytej w dowodzie nierówności Hoeffdinga mamy gdzie prawa strona jest...

14
Dlaczego często przyjmuje się rozkład Gaussa?

Cytując z artykułu z Wikipedii na temat szacowania parametrów naiwnego klasyfikatora Bayesa : „typowym założeniem jest to, że ciągłe wartości związane z każdą klasą są rozkładane zgodnie z rozkładem Gaussa”. Rozumiem, że rozkład Gaussa jest dogodny ze względów analitycznych. Czy istnieje jednak...