Pytania oznaczone «statistics»

Statystyka to naukowe podejście do wnioskowania indukcyjnego i przewidywania oparte na probabilistycznych modelach danych. W rozszerzeniu obejmuje projektowanie eksperymentów i ankiet w celu zebrania danych w tym celu.

40
Data Science w C (lub C ++)

Jestem R programistą języka. Należę również do grupy osób, które są uważane za naukowców danych, ale wywodzą się z dyscyplin naukowych innych niż CS. Działa to dobrze w mojej roli naukowca danych, jednak rozpoczynając karierę Ri mając podstawową znajomość innych języków skryptowych /...

29
Dlaczego xgboost jest o wiele szybszy niż sklearn GradientBoostingClassifier?

Próbuję wytrenować model zwiększania gradientu na ponad 50 tysiącach przykładów ze 100 funkcjami numerycznymi. XGBClassifierobsługuje 500 drzew w ciągu 43 sekund na mojej maszynie, a GradientBoostingClassifierobsługuje tylko 10 drzew (!) w 1 minutę i 2 sekundy :( Nie zawracałem sobie głowy próbą...

24
Jakaś konsola Online R?

Szukam konsoli online dla języka R. Podobnie jak w przypadku pisania kodu, serwer powinien się uruchomić i przekazać mi dane wyjściowe. Podobne do strony

19
Jakiego modelu statystycznego powinienem użyć do analizy prawdopodobieństwa, że ​​pojedyncze zdarzenie wpłynęło na dane podłużne

Próbuję znaleźć formułę, metodę lub model do zastosowania w celu analizy prawdopodobieństwa, że ​​określone zdarzenie wpłynęło na niektóre dane podłużne. Z trudem zastanawiam się, czego szukać w Google. Oto przykładowy scenariusz: Wyobraź sobie, że jesteś właścicielem firmy, która codziennie...

15
Jak określić ważne atrybuty?

Załóżmy, że zestaw luźno ustrukturyzowanych danych (np. Tabele internetowe / połączone otwarte dane), złożony z wielu źródeł danych. Nie ma wspólnego schematu, po którym następowałyby dane, a każde źródło może używać atrybutów synonimów do opisywania wartości (np. „Narodowość” vs. „urodzony...

14
Kiedy wartości p są zwodnicze?

Na jakie warunki danych należy zwrócić uwagę, w przypadku których wartości p mogą nie być najlepszym sposobem decydowania o istotności statystycznej? Czy istnieją konkretne typy problemów, które należą do tej

13
Zestawy danych rozumiejące najlepsze praktyki

Jestem studentem CS w zakresie eksploracji danych. Mój przełożony powiedział mi kiedyś, że zanim uruchomię jakiś klasyfikator lub zrobię cokolwiek z zestawem danych, muszę w pełni zrozumieć dane i upewnić się, że są czyste i poprawne. Moje pytania: Jakie są najlepsze praktyki, aby zrozumieć...

12
Ile komórek LSTM powinienem użyć?

Czy istnieją jakieś praktyczne zasady (lub rzeczywiste zasady) dotyczące minimalnej, maksymalnej i „rozsądnej” liczby komórek LSTM, których powinienem użyć? W szczególności odnoszę się do BasicLSTMCell z TensorFlow i num_unitswłasności. Załóżmy, że mam problem z klasyfikacją zdefiniowany przez: t...

11
Związek między KS, AUROC i Gini

Wspólne statystyki walidacji modelu, takie jak test Kołmogorowa – Smirnowa (KS), AUROC i współczynnik Giniego, są funkcjonalnie powiązane. Moje pytanie dotyczy jednak udowodnienia, w jaki sposób wszystkie są ze sobą powiązane. Jestem ciekawy, czy ktoś może mi pomóc udowodnić te relacje. Nie udało...

11
Czy są jakieś dobre gotowe modele językowe dla Pythona?

Prototypuję aplikację i potrzebuję modelu językowego, aby obliczyć zakłopotanie w przypadku niektórych wygenerowanych zdań. Czy istnieje jakiś wyuczony model języka w Pythonie, którego można łatwo używać? Coś prostego jak model = LanguageModel('en') p1 = model.perplexity('This is a well...