Statystyki i duże zbiory danych

81

Czy niezrównoważona próbka ma znaczenie podczas regresji logistycznej?

Ok, więc myślę, że mam wystarczająco przyzwoitą próbkę, biorąc pod uwagę ogólną zasadę 20: 1: dość dużą próbkę (N = 374) dla łącznie 7 potencjalnych zmiennych predykcyjnych. Mój problem jest następujący: bez względu na to, jakiego zestawu zmiennych predykcyjnych używam, klasyfikacje nigdy nie są...

81

Intuicyjne zrozumienie „wariancji”

Jaki jest najczystszy i najłatwiejszy sposób wyjaśnić komuś pojęcie wariancji? Co to intuicyjnie znaczy? Jeśli ktoś ma to wytłumaczyć swojemu dziecku, jak by to zrobić? Jest to koncepcja, z którą trudno mi się wyrazić - szczególnie w przypadku powiązania wariancji z ryzykiem. Rozumiem to...

distributions variance standard-deviation inference intuition

81

Zmodyfikowane twierdzenie Bayesa sformułowane przez XKCD: czy właściwie jest to rozsądne?

Wiem, że pochodzi od komiksu znanego z wykorzystywania pewnych tendencji analitycznych , ale po kilku minutach patrzenia wygląda całkiem rozsądnie. Czy ktoś może nakreślić dla mnie, co robi to „ zmodyfikowane twierdzenie Bayesa

bayesian hierarchical-bayesian

81

Co to jest lasso w analizie regresji?

Szukam nietechnicznej definicji lasso i do czego

regression lasso regularization shrinkage

81

Czy istnieją przykłady, w których wiarygodne przedziały bayesowskie są oczywiście gorsze od częstych przedziałów ufności

Ostatnie pytanie dotyczące różnicy między zaufaniem a wiarygodnymi przedziałami skłoniło mnie do ponownego przeczytania artykułu Edwina Jaynesa na ten temat: Jaynes, ET, 1976. „Confidence Intervals vs. Bayesian Intervals”, w: Podstawach teorii prawdopodobieństwa, wnioskowania statystycznego i...

bayesian confidence-interval

80

Funkcja celu, funkcja kosztu, funkcja straty: czy to to samo?

W uczeniu maszynowym ludzie mówią o funkcji celu, funkcji kosztu, funkcji straty. Czy to tylko różne nazwy tego samego? Kiedy ich używać? Jeśli nie zawsze odnoszą się do tej samej rzeczy, jakie są

machine-learning terminology artificial-intelligence

80

Różnica między przedziałami ufności a przedziałami prognozowania

Dla przedziału predykcji w regresji liniowej nadal korzystać z E [ Y | x ] = ^ P 0 + β 1 x celu wygenerowania odstępu. Używasz tego również do wygenerowania przedziału ufności E [ Y | x 0 ] . Jaka jest różnica między nimi?mi^[ Y| x]= β0^+ β^1xE^[Y|x]=β0^+β^1x\hat{E}[Y|x] =...

regression confidence-interval predictive-models prediction-interval

80

Jeśli chodzi o wartości p, dlaczego 1% i 5%? Dlaczego nie 6% lub 10%?

Jeśli chodzi o wartości p , zastanawiam się, dlaczego % i % wydaje się być złotym standardem . Dlaczego nie inne wartości, takie jak % lub %?111555"statistical significance"666101010 Czy istnieje ku temu podstawowa przyczyna matematyczna, czy jest to po prostu szeroko stosowana...

hypothesis-testing statistical-significance p-value history

79

The Book of Why autorstwa Judei Pearl: Dlaczego niszczy statystyki?

Czytam The Book of Why Judei Pearl i zaczyna się ona pod moją skórą 1 . W szczególności wydaje mi się, że bezwarunkowo krytykuje „klasyczne” statystyki, wysuwając argument słaby, że statystyki nigdy nie są w stanie zbadać związków przyczynowych, że nigdy nie są zainteresowane relacjami...

causality

79

Prawdopodobieństwo pojedynczego zdarzenia w przyszłości: co to znaczy, że „Hillary ma 75% szans na wygraną”?

Ponieważ wybory są zdarzeniem jednorazowym, nie można powtórzyć eksperymentu. Co dokładnie oznacza technicznie stwierdzenie „Hillary ma 75% szans na wygraną” ? Szukam statystycznie poprawnej definicji, a nie intuicyjnej czy konceptualnej. Jestem fanem statystyk amatorskich, który próbuje...

probability prediction politics

79

Obliczanie optymalnej liczby pojemników na histogramie

Interesuje mnie znalezienie możliwie optymalnej metody określania, ile pojemników powinienem użyć na histogramie. Moje dane powinny mieścić się w przedziale od 30 do 350 obiektów, a w szczególności staram się stosować próg (taki jak metoda Otsu), w którym „dobre” obiekty, których powinienem mieć...

rule-of-thumb histogram

79

Rozbieżność KL między dwoma jednowymiarowymi gaussami

Muszę ustalić rozbieżność KL między dwoma Gaussami. Porównuję moje wyniki z tymi , ale nie mogę odtworzyć ich wyników. Mój wynik jest oczywiście błędny, ponieważ KL nie jest równe 0 dla KL (p, p). Zastanawiam się, gdzie popełniam błąd i pytam, czy ktokolwiek może to zauważyć. Niech...

normal-distribution kullback-leibler

78

Jak stwierdzić, czy dane są „klastrowane” wystarczająco, aby algorytmy klastrowania mogły dać znaczące wyniki?

Skąd miałbyś wiedzieć, czy twoje (wysokowymiarowe) dane wykazują wystarczającą liczbę klastrów, aby wyniki z kmeans lub innego algorytmu klastrowania były rzeczywiście znaczące? W szczególności w przypadku algorytmu k-średnich, jak duże powinno być zmniejszenie wariancji wewnątrz klastra, aby...

clustering k-means

78

Jaka jest korzyść z rozbicia ciągłej zmiennej predykcyjnej?

Zastanawiam się, jaka jest wartość biorąc ciągłą zmienną predykcyjną i dzieląc ją (np. Na kwintyle) przed użyciem jej w modelu. Wydaje mi się, że binowanie zmiennej powoduje utratę informacji. Czy to tylko po to, abyśmy mogli modelować efekty nieliniowe? Gdybyśmy utrzymywali zmienną ciągłą i...

regression modeling continuous-data binning regression-strategies

78

Darmowe zasoby do nauki R.

Jestem zainteresowany nauką R na taniej. Jaki jest najlepszy darmowy zasób / książka / tutorial do nauki

r references

78

Jak ręcznie obliczyć obszar pod krzywą (AUC) lub statystykę c

Interesuje mnie ręczne obliczanie pola pod krzywą (AUC) lub statystyki c dla binarnego modelu regresji logistycznej. Na przykład w zbiorze danych sprawdzania poprawności mam prawdziwą wartość zmiennej zależnej retencji (1 = zachowane; 0 = nie zachowane), a także przewidywany status retencji dla...

regression logistic classification roc auc

78

Jaka jest różnica między uczeniem się poza polityką a uczeniem się na podstawie polityki?

Witryna sztucznej inteligencji definiuje uczenie się poza polityką i nauczanie na zasadach w następujący sposób: „Osoba ucząca się poza polityką poznaje wartość optymalnej polityki niezależnie od działań agenta. Q-learning jest osobą uczącą się poza polityką. Uczący się polityki poznaje wartość...

machine-learning reinforcement-learning artificial-intelligence

77

Grupowanie na wyjściu t-SNE

Mam aplikację, w której przydałoby się skupić hałaśliwy zestaw danych przed wyszukaniem efektów podgrup w klastrach. Najpierw spojrzałem na PCA, ale potrzeba około 30 komponentów, aby uzyskać 90% zmienności, więc grupowanie tylko na kilku komputerach PC wyrzuci wiele informacji. Następnie...

clustering interpretation k-means tsne

77

Test T na nietypowy, gdy N> 50?

Dawno temu dowiedziałem się, że rozkład normalny jest konieczny, aby zastosować test T z dwoma próbkami. Dzisiaj koleżanka powiedziała mi, że dowiedziała się, że dla N> 50 rozkład normalny nie był konieczny. Czy to prawda? Jeśli prawda jest taka ze względu na centralne twierdzenie...

normal-distribution t-test central-limit-theorem

77

Matematyk chce równoważnej wiedzy do stopnia statystyki jakości

Wiem, że ludzie uwielbiają zamknąć duplikaty, więc jestem nie z prośbą o odniesienie się rozpocząć statystyki nauki (jak tutaj ). Mam doktorat z matematyki, ale nigdy nie uczyłem się statystyki. Jaka jest najkrótsza droga do równoważnej wiedzy do najwyższego stopnia statystyki BS i jak mam...

references careers