Statystyki i duże zbiory danych

12
Wybór modelu PCA za pomocą AIC (lub BIC)

Chcę użyć Akaike Information Criterion (AIC), aby wybrać odpowiednią liczbę czynników do wyodrębnienia w PCA. Jedynym problemem jest to, że nie jestem pewien, jak określić liczbę parametrów. Rozważmy macierz X , gdzie N reprezentuje liczbę zmiennych, a T liczbę obserwacji, na przykład X \ sim \...

12
Solidna (nieparametryczna) miara, taka jak współczynnik zmienności - IQR / mediana czy alternatywa?

Dla danego zestawu danych spread jest często obliczany albo jako odchylenie standardowe, albo jako IQR (zakres międzykwartylowy). Podczas gdy a standard deviationjest znormalizowane (wyniki Z itp.), A zatem może być użyte do porównania spreadu z dwóch różnych populacji, nie jest tak w przypadku...

12
Odznaczanie danych zliczania

Użyłem stl () w R, aby rozłożyć dane zliczania na składniki trendu, sezonowości i nieregularności. Wynikowe wartości trendu nie są już liczbami całkowitymi. Mam następujące pytania: Czy funkcja stl () jest odpowiednim sposobem na zdezasonalizowanie danych zliczania? Ponieważ wynikowy trend nie...

12
Czy rozwiązania PCA są wyjątkowe?

Czy po uruchomieniu PCA na określonym zestawie danych rozwiązanie jest dla mnie wyjątkowe? To znaczy, otrzymuję zestaw współrzędnych 2d na podstawie odległości między punktami. Czy można znaleźć co najmniej jeszcze jeden układ punktów, który spełniałby te ograniczenia? Jeśli odpowiedź brzmi...

12
Gęstość Y = log (X) dla X rozproszonego gamma

To pytanie jest ściśle związane z tym postem Załóżmy, że mam losową zmienną i zdefiniuję . Chciałbym znaleźć funkcję gęstości prawdopodobieństwa .X∼Gamma(k,θ)X∼Gamma(k,θ)X \sim \text{Gamma}(k, \theta)Y=log(X)Y=log⁡(X)Y = \log(X)YYY Początkowo myślałem, że po prostu zdefiniuję funkcję rozkładu...