Statystyki i duże zbiory danych

11
Jakie są zalety i wady stosowania punktowej wzajemnej informacji na macierzy współbieżności słów przed SVD?

Jednym ze sposobów generowania zanurzeń słowo jest następująco ( lustro ): Zdobądź ciała, np. „Lubię latać. Lubię NLP. Lubię głębokie uczenie się”. Zbuduj z niego macierz współbieżności słów: Wykonaj SVD na XXX i zachowaj pierwsze kkk kolumn U. U1:|V|,1:kU1:|V|,1:kU_{1:|V|,1:k} Pomiędzy...

11
Jak interpretować współczynnik drugiego stopnia w regresji zmiennych instrumentalnych za pomocą instrumentu binarnego i binarnej zmiennej endogennej?

(dość długi post, przepraszam. Zawiera wiele podstawowych informacji, więc możesz przejść do pytania na dole). Wprowadzenie: Pracuję nad projektem, w którym próbujemy zidentyfikować wpływ binarnej zmiennej endogennej na ciągły wynik, . Stworzyliśmy instrument , który naszym zdaniem jest przypisany...

11
Przybliżony

Od niechcenia czytałem artykuł (z ekonomii), który miał następujące przybliżenie dla :log(E(X))log⁡(E(X))\log(E(X)) ,log(E(X))≈E(log(X))+0.5var(log(X))log⁡(E(X))≈E(log⁡(X))+0.5var(log⁡(X))\log(E(X)) \approx E(\log(X))+0.5 \mathrm{var}(\log(X)) które według autora jest dokładne, jeśli X jest...

11
Asymptotyka łacińskiego Hypercube

Próbuję skonstruować dowód na problem, nad którym pracuję, a jednym z założeń, które robię, jest to, że zbiór punktów, z których próbuję, jest gęsty na całej przestrzeni. Praktycznie używam łacińskiego próbkowania hipersześcianu, aby uzyskać punkty w całej przestrzeni próbki. Chciałbym wiedzieć,...