Jak zsumować dwie zmienne w różnych skalach?

9

Jeśli mam dwie zmienne następujące po dwóch różnych rozkładach i mające różne odchylenia standardowe ... Jak muszę przekształcić dwie zmienne, aby przy sumowaniu te dwa wyniki nie były „napędzane” przez zmienną.

Na przykład ... Zmienna A jest mniej lotna niż zmienna B (w zakresie od 0 do 3000), a zmienna B zmienia się. Od 300 do 350.

Jeśli po prostu dodamy dwie zmienne do siebie, wynik będzie oczywiście kierowany przez A.

użytkownik333
źródło

Odpowiedzi:

14

Powszechną praktyką jest standaryzacja dwóch zmiennych, , w celu umieszczenia ich w tej samej skali przez odjęcie średniej próbki i podzielenie przez odchylenie standardowe próbki. Gdy to zrobisz, obie zmienne będą miały tę samą skalę w tym sensie, że każda z nich ma średnią próbkową 0 i próbkę odchylenia standardowego równą 1. W ten sposób można je dodać bez żadnej zmiennej mającej niepożądany wpływ z powodu skala.A,B

To znaczy, oblicz

AA¯SD(A),  BB¯SD(B)

gdzie oznacza średnią próbki i odchylenie standardowe i podobnie dla B. Znormalizowane wersje zmiennych są interpretowane jako liczba odchyleń standardowych powyżej / poniżej średniej a szczególną obserwacją jest. A¯,SD(A)A

Makro
źródło
1
czy to zadziała, jeśli zmienne nie są normalnie dystrybuowane?
user333
1
Standaryzacja nie ma nic wspólnego z rozkładem normalnym - jest jedynie środkiem do umieszczenia zmiennych w tej samej skali. Więc tak.
Makro,
Jeśli podzielę przez sd i nie odejmę średniej ... dostanę te same zmienności, ale różne zakresy, prawda?
user333,
Tak - jeśli skalujesz je tylko (dzieląc przez odchylenia standardowe), wówczas oba będą miały tę samą wariancję, ale ich średnia i zakres będą różne.
Makro,
@Macro Co jeśli nie mam danych, ale mam tylko dane sekwencyjne dla zmiennych. Tak więc suma dwóch zmiennych działa bardziej jak wynik. Uważam, że istnieją pewne złe implikacje, takie jak wyniki bardzo wcześnie w sekwencji. Czy znasz inny sposób?
tintinthong