Statystyki i duże zbiory danych

19

Dlaczego pomijanie gramów jest lepsze w przypadku rzadkich słów niż CBOW?

Zastanawiam się, dlaczego pominięcie gram jest lepsze dla rzadkich słów niż CBOW w word2vec. Przeczytałem roszczenie na https://code.google.com/p/word2vec/

natural-language word2vec word-embeddings

19

Geometryczne rozumienie PCA w badanej (podwójnej) przestrzeni

Próbuję uzyskać intuicyjne zrozumienie działania analizy głównych składników (PCA) w przestrzeni przedmiotowej (podwójnej) . Rozważ zestaw danych 2D z dwiema zmiennymi, x1x1x_1 i x2x2x_2 oraz punktami danych (macierz danych wynosi i zakłada się, że jest wyśrodkowana). Typowa prezentacja PCA polega...

pca linear-algebra intuition geometry

19

Co robią w pełni połączone warstwy w sieciach CNN?

Rozumiem warstwy splotowe i łączące, ale nie widzę powodu w pełni połączonej warstwy w sieciach CNN. Dlaczego poprzednia warstwa nie jest bezpośrednio połączona z warstwą

neural-networks deep-learning conv-neural-network

19

Antonim wariancji

Czy istnieje słowo, które oznacza „odwrotność wariancji”? To znaczy, jeśli ma dużą wariancję, to ma niskie ? Nie jesteś zainteresowany bliskim antonimem (jak „zgoda” lub „podobieństwo”), ale konkretnie oznacza ?X … 1 / σ 2XXXXXX……\dots1 /

bayesian variance terminology precision

19

Jak zrozumieć wady hierarchicznego grupowania?

Czy ktoś może wyjaśnić zalety i wady hierarchicznego grupowania? Czy klastrowanie hierarchiczne ma te same wady, co oznacza K? Jakie są zalety Hierarchical Clustering nad K? Kiedy powinniśmy używać środków K zamiast hierarchicznego grupowania i odwrotnie? Odpowiedzi na ten post wyjaśnia wady k...

clustering k-means unsupervised-learning hierarchical-clustering

19

Kiedy stosować stałe efekty w porównaniu do używania klastrowych SE?

Załóżmy, że masz jeden przekrój danych, w którym poszczególne osoby znajdują się w grupach (np. Uczniowie w szkołach) i chcesz oszacować model postaci, w Y_i = a + B*X_iktórej Xwektor cech indywidualnych i astałych jest stały. W takim przypadku załóżmy, że nieobserwowana heterogeniczność między...

econometrics multilevel-analysis fixed-effects-model endogeneity clustered-standard-errors

19

Metodologia prognozowania VAR

Buduję model VAR do prognozowania ceny aktywów i chciałbym wiedzieć, czy moja metoda jest statystycznie solidna, czy testy, które podałem, są odpowiednie i czy potrzebne są dalsze, aby zapewnić wiarygodną prognozę na podstawie moich zmiennych wejściowych. Poniżej znajduje się mój bieżący proces...

r forecasting modeling var

19

Czy regularyzacja może być pomocna, jeśli interesuje nas tylko modelowanie, a nie prognozowanie?

Czy regularyzacja może być pomocna, jeśli jesteśmy zainteresowani jedynie szacunkiem (i interpretacją) parametrów modelu, a nie prognozowaniem lub prognozowaniem? Widzę, jak regularyzacja / walidacja krzyżowa jest niezwykle przydatna, jeśli Twoim celem jest dobre prognozowanie nowych danych. Ale...

cross-validation econometrics model-selection interpretation regularization

19

Co w nazwie: hiperparametry

Zatem w rozkładzie normalnym mamy dwa parametry: średnią i wariancję . W książce Rozpoznawanie wzorców i uczenie maszynowe nagle pojawia się hiperparametr w terminach regularyzacji funkcji błędu.σ 2 λμμ\muσ2σ2\sigma^2λλ\lambda Co to są hiperparametry? Dlaczego są tak nazwani? W jaki sposób...

terminology definition parameterization hyperparameter

19

Czy w przypadku danych kategorycznych mogą istnieć klastry bez powiązanych zmiennych?

Próbując wyjaśnić analizy skupień, ludzie często błędnie rozumieją ten proces jako związany z korelacją zmiennych. Jednym ze sposobów na ominięcie tego zamieszania jest taki spisek: To wyraźnie pokazuje różnicę między pytaniem, czy istnieją klastry, a pytaniem, czy zmienne są powiązane....

clustering categorical-data independence

19

Czego należy najpierw nauczyć: prawdopodobieństwo czy statystyka?

Niedawno dołączyłem jako członek wydziału w dziale matematyki. renomowanej instytucji. Będę prowadził kurs Prawdopodobieństwo i statystyka na poziomie licencjackim. Instytucja ma już program nauczania tego kursu, z którego nie jestem bardzo zadowolony. W tym programie najpierw uwzględniono...

teaching

19

Dlaczego wariancji nie definiuje się jako różnicy między każdą kolejną wartością?

Dla wielu może to być proste pytanie, ale oto: Dlaczego wariancja nie jest definiowana jako różnica między każdą kolejną wartością zamiast różnicy do średniej wartości? Byłby to dla mnie bardziej logiczny wybór, myślę, że oczywiście nadzoruję pewne wady. Dzięki EDYTOWAĆ: Pozwól mi...

variance

19

Jak próbkować z dystrybucji Cantor?

Jaki byłby najlepszy sposób na pobranie próbki z dystrybucji Cantor ? Ma tylko format cdf i nie możemy go

distributions simulation random-generation

19

Czy kikut decyzji jest modelem liniowym?

Kikut decyzyjny jest drzewem decyzyjnym z tylko jednym podziałem. Można go również zapisać jako funkcję fragmentaryczną. Załóżmy na przykład, że jest wektorem, a jest pierwszym składnikiem , w ustawieniach regresji, niektóre kikuty decyzyjne mogą byćxxx

machine-learning cart linear boosting

19

Wielopłaszczyznowe wskaźniki klasyfikacji w programie scikit

Usiłuję zbudować klasyfikator z wieloma etykietami, aby przypisywać tematy do istniejących dokumentów za pomocą programu scikit Ja przetwarzanie moich dokumentów przepuszczanie ich przez TfidfVectorizeretykiet poprzez podjęcie działań MultiLabelBinarizeri stworzył OneVsRestClassifierze związkiem...

scikit-learn multi-class multilabel

19

Czy strojenie hiperparametrów na próbce zestawu danych jest złym pomysłem?

Mam zestaw danych zawierający 140000 przykładów i 30 funkcji, dla których uczę kilku klasyfikatorów do klasyfikacji binarnej (SVM, regresja logistyczna, losowy las itp.) W wielu przypadkach dostrajanie hiperparametrów w całym zbiorze danych przy użyciu wyszukiwania siatkowego lub losowego jest...

machine-learning cross-validation hyperparameter

19

Jak możemy ocenić dokładność prognoz Nate Silver?

Po pierwsze, podaje prawdopodobieństwo wyników. Na przykład jego prognozy dotyczące wyborów w USA wynoszą obecnie 82% Clintona vs. 18% Trumpa. Teraz, nawet jeśli Trump wygra, to skąd mam wiedzieć, że nie tylko 18% czasu powinien wygrać? Innym problemem jest to, że jego prawdopodobieństwo zmienia...

forecasting prediction validation accuracy scoring-rules

19

Jak działa negatywne próbkowanie w word2vec?

Starałem się zrozumieć pojęcie negatywnego próbkowania w kontekście word2vec. Nie jestem w stanie przetrawić idei próbkowania [negatywnego]. Na przykład w pracach Mikołowa sformułowano, że negatywne oczekiwania dotyczące próbkowania są sformułowane jako logσ( ⟨ Wagowych , c ⟩ ) + K ⋅ EdoN.∼ P.re[...

machine-learning word2vec word-embeddings

19

Warstwy splotowe: do padania czy nie?

Architektura AlexNet korzysta z wypełnień zerowych, jak pokazano na rysunku: W artykule nie ma jednak wyjaśnienia, dlaczego wprowadzono to wypełnienie. Kurs Standford CS 231n uczy, że używamy paddingu, aby zachować rozmiar przestrzenny: Zastanawiam się, czy to jedyny powód, dla którego...

conv-neural-network convolution

19

Jak jest , współrzędna biegunowa, rozkładana, gdy i kiedy ?

Niech wybrane zostaną współrzędne kartezjańskie losowego punktu st .x,yx,yx,y(x,y)∼U(−10,10)×U(−10,10)(x,y)∼U(−10,10)×U(−10,10)(x,y) \sim U(-10,10) \times U(-10,10) Tak więc, promień , a nie jest rozmieszczone równomiernie jak sugeruje \ Rho jest PDF . ρρ=x2+y2−−−−−−√ρ=x2+y2\rho = \sqrt{x^2 +...

normal-distribution matlab pdf uniform