W Thinking, Fast and Slow , Daniel Kahneman stawia następujące pytanie hipotetyczne:
(Str. 186) Julie jest obecnie starszą uczelnią państwową. Płynnie czytała, gdy miała cztery lata. Jaka jest jej średnia ocen (GPA)?
Jego intencją jest zilustrowanie tego, jak często nie uwzględniamy regresji do średniej podczas prognozowania niektórych statystyk. W dalszej dyskusji doradza:
(Str. 190) Przypomnijmy, że korelacja między dwiema miarami - w obecnym przypadku wiekiem czytania i GPA - jest równa proporcji wspólnych czynników między ich wyznacznikami. Jaka jest Twoja najlepsza ocena tego odsetka? Moje najbardziej optymistyczne przypuszczenie wynosi około 30%. Zakładając to oszacowanie, mamy wszystko, czego potrzebujemy, aby stworzyć obiektywną prognozę. Oto wskazówki, jak się tam dostać w czterech prostych krokach:
- Zacznij od oszacowania średniego GPA.
- Określ GPA, który pasuje do twojego wrażenia na temat dowodów.
- Oszacuj korelację między wstępnym odczytem a GPA.
- Jeśli korelacja wynosi 0,30, przenieś 30% odległości od średniej do pasującego GPA.
Moja interpretacja jego rad jest następująca:
- Użyj „Czytała płynnie, gdy miała cztery lata”, aby ustalić standardowy wynik dla predykcji czytania Julie.
- Określ GPA, który ma odpowiadający standardowy wynik. (Racjonalny GPA do przewidzenia odpowiadałby temu standardowemu wynikowi, gdyby korelacja między GPA a dokładnością odczytu była idealna).
- Oszacuj, jaki procent zmian GPA można wytłumaczyć zmianami w predykcji odczytu. (Zakładam, że w tym kontekście odnosi się do współczynnika determinacji z „korelacją”?)
- Ponieważ tylko 30% standardowego wyniku predykcji czytania Julie można wytłumaczyć czynnikami, które mogą również wyjaśnić standardowy wynik jej GPA, mamy uzasadnione przewidywanie, że standardowy wynik GPA Julie wyniesie 30% tego, co by to było w przypadku idealnej korelacji.
Czy moja interpretacja procedury Kahnemana jest poprawna? Jeśli tak, to czy istnieje bardziej formalne matematyczne uzasadnienie jego procedury, szczególnie krok 4? Zasadniczo jaki jest związek między korelacją między dwiema zmiennymi a zmianami / różnicami w ich standardowych wynikach?
źródło