Pracowałem z niektórymi danymi dotyczącymi czasu cyklu procesu i skalowaniem przy użyciu standardowego wyniku Z w celu porównania między częściami pełnego czasu cyklu.
Czy powinienem użyć innej transformacji, ponieważ dane są mocno wypaczone / nietypowe? („wartości odstające” nigdy nie mogą zająć ujemnego czasu i często trwają znacznie dłużej niż „średnia”)
Używanie Z-score nadal wydaje się „działać” ...
###############
# R code
###############
mydata <- rweibull(1000,1,1.5)
hist(mydata)
hist(scale(mydata))
Odpowiedzi:
Jeśli X jest mocno przekrzywiony, statystyka Z nie będzie normalnie rozkładana (lub t, jeśli konieczne będzie oszacowanie odchylenia standardowego. Zatem percentyle Z nie będą standardowe normalne. W tym sensie to nie działa.
źródło
Kod R będzie działał, ale wynik Z będzie mniej więcej tak znaczący, jak zdanie „Winogrona delikatnie dzwonią do pióra wiecznego”. To ważne zdanie, ale nie przekazuje niczego znaczącego.
Sądząc po twoim kodzie R, wydaje się, że uważasz, że Twoje dane są dystrybuowane przez Weibull. W takim przypadku po prostu użyłbym statystyki Weibulla i nie skalowałbym niczego, chyba że absolutnie musisz. Chociaż wyniki Z są nauczane w każdej klasie statystyk wprowadzających, nie oznacza to, że powinieneś ich używać przez cały czas, a zwłaszcza jeśli nie masz danych symetrycznych.
źródło
Jeśli populacja nie jest normalnie podzielona. W takim przypadku rozkład słupka (X) {średnia próbki} zbliża się do rozkładu normalnego zgodnie z centralnym twierdzeniem o granicy; dla dużej wielkości próbki. Chociaż teoretycznie mówimy, że używamy t-Studenta, ale dla wyższych wartości n (wielkość próbki lub stopień swobody) rozkład t i rozkład Z są prawie równe.
źródło
TWOJE DANE NIE MUSZĄ BYĆ NORMALNE W ZESTAWIE Z-TEST. (TOWNEND, 2002) JEDNAK ODMIANY POWINNY BYĆ W przybliżeniu RÓWNE. ABY SPRAWDZIĆ, ŻE PRZEPROWADZIĆ F-TEST NA DWÓCH DANYCH, A JEŻELI SWOJE ODMIANY SĄ W przybliżeniu RÓWNE, WYNIK TESTU Z JEST PRZYDATNY. JEŚLI NIE, TRANSFORMUJ DANE.
źródło