Związane z analizowaniem stosunków zmiennych i jak sparametryzować stosunek dwóch normalnie rozłożonych zmiennych lub odwrotność jednej? .
Załóżmy, że mam szereg próbek z czterech różnych ciągłych rozkładów losowych, z których wszystkie możemy założyć, że są w przybliżeniu normalne. W moim przypadku odpowiadają one niektórym miernikom wydajności dwóch różnych systemów plików (powiedzmy ext4 i XFS), zarówno z szyfrowaniem, jak i bez. Metryką może być na przykład liczba plików tworzonych na sekundę lub średnie opóźnienie dla niektórych operacji na plikach. Możemy założyć, że wszystkie próbki pobrane z tych rozkładów zawsze będą ściśle dodatnie. Nazwijmy te dystrybucje gdzie i .
Moja hipoteza jest taka, że szyfrowanie spowalnia jeden z systemów plików o wiele większy czynnik niż drugi. Czy istnieje jakiś prosty test dla hipotezy ?
Odpowiedzi:
Jedną z alternatyw dla dobrej odpowiedzi StasK jest użycie testu permutacji. Pierwszym krokiem jest zdefiniowanie statystyki testowej , być może:T
gdzie to być może przykładowa średnia z obserwacji itp. (To pasuje do twojej definicji hipotezy jako stosunku oczekiwania zamiast alternatywnej możliwości oczekiwania na stosunek - która alternatywa może być tym, czego naprawdę chcesz). Drugim krokiem jest wielokrotne losowe permutowanie etykiet w danych wiele razy, powiedzmy, i oblicz dla każdej permutacji. Ostatnim krokiem jest porównanie oryginalnej z zaobserwowanym ; wartość p permutacji szacowana byłaby frakcja .Perfˆext4,crypto Perfext4,crypto ext4, xfs i=1,…,10000 Ti T Ti Ti≤T
Test permutacji uwalnia cię od polegania na asymptotyce, ale oczywiście w zależności od wielkości twojej próbki (i oczywiście także danych), metoda delta, której również czasami używam, może działać dobrze.
źródło
Możesz obliczyć (asymptotyczny) błąd standardowy współczynnika za pomocą metody delta . Jeśli masz dwie losowe zmienne i takie, że w dystrybucji (co byłoby w przypadku, gdy masz niezależne dane, ale miałoby to również bardziej ogólny przypadek dane klastrowane, gdy przeprowadziłeś testy na różnych komputerach), a następnie dla stosunku z analogiem populacji , mamyX Y
Mam nadzieję, że możesz wziąć to stamtąd i wykonać pozostałe obliczenia koperty, aby uzyskać ostateczną formułę.
Należy zauważyć, że wynik jest asymptotyczny, a stosunek jest tendencyjnym estymatorem w małych próbkach. Odchylenie ma rząd i zanika asymptotycznie w porównaniu ze zmiennością próbkowania, która jest rzędu .r r0 O(1/n) O(1/n−−√)
źródło
Stosunek normalnych zmiennych jest rozkładem Cauchy'ego. Wiedząc o tym, możesz po prostu wykonać test Bayes Factor Test.
To był raczej spontaniczny pomysł. Nie jestem teraz pewien mechanizmu generowania danych. Czy instalujesz różne systemy plików na tym samym komputerze, a następnie porównujesz dwa przypadki, abyśmy mogli przyjąć hierarchiczną strukturę danych?
Nie jestem też pewien, czy proporcje szukania mają sens.
A potem napisałeś stosunek wartości oczekiwanych, podczas gdy myślałem o wartości oczekiwanej współczynników. Chyba potrzebuję więcej informacji na temat generowania danych przed przejściem dalej.
źródło
W przypadkach, w których nie można wykonać permutacji, na przykład gdy wielkość próbki stwarza miliony możliwości, innym rozwiązaniem byłoby ponowne próbkowanie Monte Carlo.
Hipotezą zerową jest to, że nie ma różnicy w szybkości między i , dla i . Dlatego średni stosunek wszystkich próbek nie różni się od .ext4 xfs nocrypto crypto ext4xfs nocrypto crypto
gdziex=ext4xfs
in=samplesize
Jeśli jest prawdziwe, losowe wybieranie wyników dla współczynników lub spowoduje również . Można by obliczyć:H0 nocrypto crypto Tobserved=0
i wykonajmy powiedzmy 10 000 rund ponownego próbkowania. Wynikowy rozkład wartości jest przedziałem ufności dla . Różnica między a współczynnikiem jest znacząca, jeżeli obliczona wartość leży poza zakresem np. 95% wartości .Tresampling H0 nocrypto crypto Tobserved (p<0.05) Tresampling
źródło