W rozdziale „Myślenie o średniej” Daniela Kahnemana podany jest przykład, a czytelnik jest proszony o prognozowanie sprzedaży poszczególnych sklepów, biorąc pod uwagę ogólną prognozę sprzedaży i liczby sprzedaży z poprzedniego roku . Na przykład (przykład książki ma 4 sklepy, używam tutaj 2 dla uproszczenia):
Store 2011 2012
1 100 ?
2 500 ?
Total 600 660
Naiwna prognoza wynosiłaby 110 i 550 dla sklepów 1 i 2, 10% wzrost dla każdego. Jednak autor twierdzi, że to naiwne podejście jest błędne. Bardziej prawdopodobne jest, że sklep gorzej działający wzrośnie o ponad 10%, a sklep o lepszych wynikach wzrośnie (lub nawet zmniejszy) o mniej niż 10%. Być może więc prognoza 115 (wzrost o 15%) i 535 (wzrost o 7%) byłaby „bardziej poprawna” niż naiwna prognoza.
Nie rozumiem tylko, w jaki sposób możemy dojść do wniosku, że sprzedaż 100 sklepu 1 jest z konieczności sklepem gorzej działającym? Być może ze względu na różnice lokalizacyjne prawdziwymi szeregami czasowymi sklepów 1 i 2 są 10 i 550, a sklep 1 miał super rok w 2011 r., A sklep 2 miał katastrofalny rok w 2011 r. To nie miałoby sensu prognozować spadek dla sklepu 1 i wzrost dla sklepu 2?
Wiem, że informacje o szeregach czasowych nie zostały podane w oryginalnym przykładzie, ale mam wrażenie, że „regresja do średniej” odnosi się do średniej przekroju, a zatem informacje o szeregach czasowych nie mają znaczenia. Co ja mylę?
Przy tak niewielu punktach danych odpowiedź będzie prawie całkowicie podyktowana wcześniejszym (lub domniemanym odpowiednikiem). Jeśli autor widział już wiele tego rodzaju danych, może mieć dobry powód, by sądzić, że ich odpowiedź jest bardziej prawdopodobna, biorąc pod uwagę ich wcześniejsze obserwacje. Myślę jednak, że sugeruję, że jest to regresja do średniej, przynajmniej nie bez podania dodatkowych informacji. Na przykład, czy sklepy znajdują się w porównywalnych lokalizacjach, czy nie? Jeśli są i nie ma innych oczywistych różnic między sklepami, możemy czuć się uzasadnieni, sądząc, że są częścią porównywalnej populacji i możemy pomyśleć o regresji do średniej. Jeśli istnieją oczywiste różnice między sklepami, które mogłyby wyjaśnić systematyczną różnicę w sprzedaży, staje się to mniej sensowne.
źródło
Myślę, że lepsza (hipotetyczna) ilustracja może wyglądać mniej więcej tak:
Pomijając systematyczne powody, których spodziewalibyśmy się, że najgorzej działający (z przypadkowych przyczyn) już tak nie będzie. I tak również dla najlepszego wykonawcy.
Dlatego przy 10% średnim wzroście spodziewałbym się, że nr 1 wypadnie lepiej niż 110, a nr 6 gorszy niż 330.
Czuję, że słaba część to założenia. Bardzo rzadko IMHO uważa, że opóźnienie w paczce jest naprawdę tylko przypadkowym przypadkiem, a nie jakąś podstawową heterogenicznością.
źródło