Co oznacza „Wszystkie modele są złe, ale niektóre są przydatne”

76

„Zasadniczo wszystkie modele są błędne, ale niektóre są przydatne”.

--- Box, George EP; Norman R. Draper (1987). Empiryczne budowanie modeli i powierzchnie reakcji, str. 424, Wiley. ISBN 0471810339.

Jakie jest dokładnie znaczenie powyższej frazy?

gpuguy
źródło
13
Na tej samej książce wspomniano wcześniej: Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.Może to jest bardziej pomocne.
usεr11852

Odpowiedzi:

101

Myślę, że jego znaczenie najlepiej przeanalizować, patrząc na to w dwóch częściach:

„Wszystkie modele są złe”, to znaczy każdy model jest zły, ponieważ jest to uproszczenie rzeczywistości. Niektóre modele, szczególnie w „twardych” naukach, są tylko trochę błędne. Ignorują takie rzeczy jak tarcie lub efekt grawitacyjny małych ciał. Inne modele są bardzo błędne - ignorują większe rzeczy. W naukach społecznych często ignorujemy.

„Ale niektóre są przydatne” - uproszczenia rzeczywistości mogą być bardzo przydatne. Pomogą nam wyjaśnić, przewidzieć i zrozumieć wszechświat i wszystkie jego różne elementy.

Nie dotyczy to tylko statystyk! Mapy są rodzajem modelu; oni są źli. Ale dobre mapy są bardzo przydatne. Istnieje wiele innych użytecznych, ale niewłaściwych modeli.

Peter Flom
źródło
20
+1 Ponieważ podoba mi się analogia map. Użyję tego w przyszłości!
usεr11852
4
Wiele modeli w „twardych” naukach również jest dość odległych (wczoraj uczestniczyłem w seminarium, w którym pomiary, w których model mieścił się w pasku błędów, ale pasek błędów miał dwa rzędy wielkości).
gerrit 27.04.13
7
+1. Myślę, że twoje kluczowe zdanie brzmi: „każdy model jest zły, ponieważ jest uproszczeniem rzeczywistości”. Ludzie często o tym zapominają - na przykład w naiwnej krytyce ekonomii (mam swoją własną krytykę, ale muszą być bardziej wyrafinowani niż tylko to, że „rzeczywistość jest bardziej złożona niż twój model”). Jeśli nie uprościliśmy tego, masz surową rzeczywistość, która jest dla nas zbyt złożona, aby ją zrozumieć. Musimy więc to uprościć, aby uzyskać jakikolwiek wgląd.
Peter Ellis,
13
Fantazja idealnej mapy w skali 1: 1 została wykorzystana przez wielu autorów, w tym Lewisa Carrolla, Jorge Luisa Borgesa i Umberto Eco. W rzeczywistości nie przydałoby się, ponieważ musiałoby być po prostu skomplikowane jako obszar, który mapuje, i nie byłoby łatwiejsze do zrozumienia (nie wspominając o niezręczności rozkładania go i układania do czytania).
Nick Cox
2
Być może możesz również dodać, że model musi być nieco niepoprawny, ponieważ w przeciwnym razie nie uogólniałby się, a zatem nie miałby zastosowania w innym miejscu. Istnieje kilka odpowiedzi, które mówią to dalej. Ale jest teraz zbyt wiele odpowiedzi, aby je wszystkie przeczytać.
ziggystar
9

Oznacza to, że można uzyskać użyteczne spostrzeżenia z modeli, które nie stanowią idealnej reprezentacji zjawisk, które modelują.

Model statystyczny to opis systemu wykorzystującego pojęcia matematyczne. Jako taki w wielu przypadkach dodajesz pewną warstwę abstrakcji, aby ułatwić procedurę wnioskowania (np. Normalność błędów pomiaru, złożona symetria w strukturach korelacji itp.). Jest prawie niemożliwe, aby jeden model doskonale opisać fenomen świata rzeczywistego podano sami mają subiektywny pogląd na świat (nasz system sensoryczny nie jest doskonały); niemniej jednak dochodzi do pomyślnego wnioskowania statystycznego, ponieważ nasz świat cechuje się pewnym stopniem spójności, który wykorzystujemy. Dlatego nasze prawie zawsze złe modele okazują się przydatne .

(Jestem pewien, że wkrótce dostaniesz odważną odpowiedź, ale starałem się być w tej sprawie zwięzły!)

usεr11852
źródło
Czy możemy powiedzieć, że te przydatne modele są przybliżonymi rozwiązaniami?
gpuguy 27.04.2013
2
@gpuguy: Jasne, że możesz. Cytując Johna Tukeya: An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem.(Naprawdę myślę, że cytat JT jest niesamowicie wnikliwy.)
usεr11852
6
„O wiele lepsza jest przybliżona odpowiedź na właściwe pytanie, które jest często niejasne, niż dokładna odpowiedź na złe pytanie, które zawsze można uściślić.” John W. Tukey 1962 Przyszłość analizy danych. Annals of Mathematical Statistics 33: 1-67 (patrz str. 13-14) Bez wątpienia powiedział podobne rzeczy w innym czasie, ale jest to zwykłe źródło.
Nick Cox
Cytowałem cytat bezpośrednio z odpowiedniego wątku cytatów CV.
usεr11852
6
Skopiowałem mój z oryginalnej publikacji.
Nick Cox
6

Znalazłem to przemówienie JSA z 2009 r. Thada Tarpeya, które stanowi użyteczne wyjaśnienie i komentarz do fragmentu „Ramki”. Twierdzi, że jeśli uznamy modele za przybliżone do prawdy, równie łatwo moglibyśmy właściwie nazwać wszystkie modele.

Oto streszczenie:

Studenci statystyki są często zapoznawani ze słynnym cytatem George'a Boxa: „wszystkie modele są błędne, niektóre są użyteczne”. W tym wykładzie twierdzę, że ten cytat, choć przydatny, jest błędny. Inną i bardziej pozytywną perspektywą jest uznanie, że model jest po prostu sposobem na wydobycie interesujących informacji z danych. Prawda jest nieskończenie złożona, a model jest jedynie przybliżeniem prawdy. Jeśli przybliżenie jest słabe lub wprowadzające w błąd, model jest bezużyteczny. W tym wykładzie podaję przykłady poprawnych modeli, które nie są prawdziwymi modelami. Ilustruję, w jaki sposób pojęcie „niewłaściwego” modelu może prowadzić do błędnych wniosków.

Dimitriy V. Masterov
źródło
3

Dla mnie rzeczywisty wgląd leży w następującym aspekcie:

Model nie musi być poprawny, aby był użyteczny.

Niestety w wielu naukach często zapomina się, że modele niekoniecznie muszą być dokładnym odwzorowaniem rzeczywistości, aby umożliwić nowe odkrycia i prognozy!

Nie marnuj więc czasu na budowanie skomplikowanego modelu, który wymaga dokładnych pomiarów niezliczonych zmiennych. Prawdziwy geniusz wymyśla prosty model, który spełnia swoje zadanie.

użytkownik12719
źródło
3

Model nie może zapewnić 100% dokładnych prognoz, jeśli w wynikach występuje dowolność. Gdyby nie było niepewności, przypadkowości i błędu, byłby to raczej fakt niż model. Pierwszy jest bardzo ważny, ponieważ modele są często używane do modelowania oczekiwań zdarzeń, które nie miały miejsca. To prawie gwarantuje, że istnieje pewna niepewność co do prawdziwych wydarzeń.

Biorąc pod uwagę doskonałą informację, teoretycznie może być możliwe stworzenie modelu, który daje doskonałe prognozy dla tak dokładnie znanych zdarzeń. Jednak nawet biorąc pod uwagę te mało prawdopodobne okoliczności, taki model może być tak złożony, że może być niewykonalny obliczeniowo i może być dokładny tylko w określonym momencie, ponieważ inne czynniki zmieniają zmiany wartości wraz ze zdarzeniami.

Ponieważ w większości rzeczywistych danych występuje niepewność i przypadkowość, próby uzyskania idealnego modelu są daremnym ćwiczeniem. Zamiast tego bardziej wartościowe jest przyjrzenie się uzyskaniu wystarczająco dokładnego modelu, który jest na tyle prosty, że można go wykorzystać zarówno pod względem danych, jak i obliczeń wymaganych do jego wykorzystania. Chociaż modele te są znane jako niedoskonałe, niektóre z tych wad są dobrze znane i można je brać pod uwagę przy podejmowaniu decyzji na podstawie modeli.

Prostsze modele mogą być niedoskonałe, ale łatwiej jest je sobie wyobrazić, porównać ze sobą i może być łatwiejsze w pracy, ponieważ prawdopodobnie będą mniej wymagające obliczeniowo.

David Burton
źródło
3

Jeśli mogę, przydałby się tylko jeden komentarz. Preferowana przeze mnie wersja prazy

(...) wszystkie modele są przybliżone. Zasadniczo wszystkie modele są błędne, ale niektóre są przydatne (...)

zaczerpnięte z Response Surfaces, Mixtures i Ridge Analizy autorstwa Box and Draper (2007, s. 414, Wiley). Patrząc na rozszerzony cytat, bardziej jasne jest, co miał na myśli Box - modelowanie statystyczne polega na przybliżeniu rzeczywistości, a przybliżenie nigdy nie jest dokładne, więc chodzi o znalezienie najbardziej odpowiedniego przybliżenia. To, co jest odpowiednie dla twojego celu, jest subiektywne, dlatego nie jest to jeden z modeli, który jest użyteczny, ale być może niektóre z nich, w zależności od celu modelowania.

Tim
źródło
3

Ponieważ nikt go nie dodał, George Box wykorzystał cytowaną fazę, aby wprowadzić następującą sekcję w książce. Wierzę, że robi najlepszą robotę, tłumacząc, co miał na myśli:

PV=RTPVTR

W przypadku takiego modelu nie trzeba zadawać pytania „Czy model jest prawdziwy?”. Jeśli „prawda” ma być „całą prawdą”, odpowiedź musi brzmieć „nie”. Jedyne interesujące pytanie brzmi: „Czy model jest pouczający i użyteczny?”.

Box, GEP (1979), „Solidność w strategii budowy modelu naukowego”, w Launer, RL; Wilkinson, GN, Solidność w statystyce , Academic Press, s. 201–236.

Tavrock
źródło
2

Możesz myśleć o tym w ten sposób. maksymalna złożoność (tj. entropia) obiektu podlega pewnej formie związanej z Bekensteinem :

I2πREcln2

ER

To duża liczba, w większości przypadków:

2.58991·1042Ω=2I107.79640·1041

Czy chcesz więc zastosować „najlepszą mapę”, tj. Samo terytorium, ze wszystkimi równaniami falowymi dla wszystkich cząstek w każdej komórce? Absolutnie nie. Byłaby to nie tylko katastrofa obliczeniowa, ale modelowałbyś rzeczy, które mogą zasadniczo nie mieć nic wspólnego z tym, na czym ci zależy. Jeśli wszystko, co chcesz zrobić, to na przykład stwierdzić, czy nie śpię, nie musisz wiedzieć, co elektron # 32458 robi w neuronie # 844030 rybosomie # 2305 cząsteczki # 2. Jeśli tego nie modelujesz, Twój model jest rzeczywiście „zły”, ale jeśli potrafisz określić, czy nie śpię, Twój model jest zdecydowanie przydatny.

Jasna gwiazda
źródło
2

Myślę, że Peter i użytkownik 11852 dali świetne odpowiedzi. Dodałbym również (przez zaprzeczenie), że jeśli model byłby naprawdę dobry, prawdopodobnie byłby bezużyteczny z powodu przeszacowania (stąd nie do uogólnienia).

Thomas Speidel
źródło
2
+1 za punkt przeregulowania. Algorytmy takie jak Naive Bayes i liniowa analiza dyskryminacyjna często działają bardzo dobrze, nawet jeśli wiesz, że podstawowy model jest nieprawidłowy (np. Filtrowanie spamu), po prostu dlatego, że potrzeba mniej danych do oszacowania parametrów.
Dikran Marsupial
1

Moja kwaśna interpretacja brzmi: przekonanie, że model matematyczny opisuje dokładnie wszystkie czynniki, a ich interakcje rządzące interesującym zjawiskiem byłyby zbyt uproszczone i aroganckie. Nie wiemy nawet, czy logika, której używamy, wystarczy, by zrozumieć nasz wszechświat. Jednak niektóre modele matematyczne przedstawiają wystarczająco dobre przybliżenie (pod względem metody naukowej), które są przydatne do wyciągania wniosków na temat tego zjawiska.

H2SO4
źródło
1

Jako astrostatysta (być może rzadka rasa) uważam, że słownictwo Boxa jest niefortunne. W naukach fizycznych często mamy silny konsensus w zrozumieniu procesów leżących u podstaw obserwowanego zjawiska, a procesy te często można wyrazić za pomocą modeli matematycznych wynikających z praw grawitacji, mechaniki kwantowej, termodynamiki itp. Cele statystyczne to oszacowanie parametry fizyczne najlepiej dopasowanych parametrów modelu, a także wybór i walidacja modelu. Dramatyczny niedawny przypadek powstał w wyniku publikacji dokumentów z satelity Planck Europejskiej Agencji Kosmicznej w marcu 2013 rpomiary kosmicznego tła mikrofalowego, które w przekonujący sposób ustanawia prosty 6-parametrowy model LambdaCDM dla Wielkiego Wybuchu. Wątpię, czy powiedzenie Boxa miałoby zastosowanie wszędzie w szerokim zakresie zaawansowanych metod statystycznych zastosowanych w tych 29 artykułach.

Eric Feigelson
źródło
1

Właśnie sformułowałem powyższą odpowiedź, rozważając modele procesów jako punkt skupienia. Instrukcja może być interpretowana w następujący sposób:

„Wszystkie modele są złe”, to znaczy każdy model jest zły, ponieważ jest to uproszczenie rzeczywistości. Niektóre modele są tylko trochę błędne. Ignorują niektóre rzeczy, na przykład: -> zmieniające się wymagania, -> Ignorują ukończenie projektu w terminie, -> nie biorą pod uwagę pożądanego poziomu jakości klienta itp. Inne modele są bardzo złe - ignorują większe rzeczy. Klasyczne modele procesów programowych dużo ignorują w porównaniu do zwinnych modeli procesów, które mniej ignorują.

„Ale niektóre są przydatne” - uproszczenia rzeczywistości mogą być bardzo przydatne. Pomogą nam wyjaśnić, przewidzieć i zrozumieć cały projekt i wszystkie jego różne elementy. Modele są używane, ponieważ ich funkcje odpowiadają większości programów programistycznych.

Srinath
źródło
0

Chciałbym podać inną interpretację terminu „użyteczny”. Prawdopodobnie nie ten, o którym myślał Box.

Kiedy musisz podejmować decyzje i do tego w końcu zostaną wykorzystane wszystkie informacje, musisz zmierzyć swój sukces w jakiejś formie. Gdy mówimy o decyzjach z niepewnymi informacjami, środek ten jest często nazywany użytecznością.

Możemy więc pomyśleć o przydatnych modelach, które pozwalają nam podejmować bardziej świadome decyzje; aby skuteczniej osiągać nasze cele.

Dodaje to dodatkowy wymiar poza zwykłymi kryteriami, takimi jak zdolność modelu do przewidywania czegoś poprawnie: Pozwala nam wyważyć różne aspekty, które model ma względem siebie.

ziggystar
źródło
-2

„Wszystkie modele są błędne, ale niektóre są przydatne”. Być może oznacza to: Powinniśmy robić wszystko, co w naszej mocy, dzięki temu, co wiemy + szukać nowej nauki?

Jan
źródło
4
(-1) Czy możesz podać jakieś odniesienia sugerujące, że GEP Box miał na myśli to? Jak można znaleźć na podstawie innych odpowiedzi, miał na myśli coś zupełnie innego.
Tim
Być może OP bierze cytat i nadaje mu nową interpretację. Zgadzam się z Timem, że Box mniej więcej mówił, że nie bierz modelu za dokładną interpretację rzeczywistości, ale rozumiem, że niektóre modele dobrze opisują dane.
Michael Chernick,