Czy istnieje różnica koncepcyjna lub proceduralna między dopasowaniem modelu do danych a dopasowaniem danych do modelu? Przykład pierwszego sformułowania można znaleźć w https://courses.washington.edu/matlab1/ModelFitting.html , a drugiego w https://reference.wolfram.com/applications/eda/FittingDataToLinearModelsByLeast-SquaresTechniques.html .
terminology
enjayes
źródło
źródło
Odpowiedzi:
Niemal każde źródło lub osoba, z którą kiedykolwiek miałem kontakt, z wyjątkiem źródła Wolfram, do którego podłączyłeś, określa ten proces jako dopasowanie modelu do danych . Ma to sens, ponieważ model jest obiektem dynamicznym, a dane są statyczne (inaczej stałe i stałe).
Mówiąc o tym, podoba mi się podejście Larry'ego Wassermana do tego. Jego zdaniem model statystyczny jest zbiorem rozkładów. Na przykład zbiór wszystkich normalnych dystrybucji:
lub zbiór wszystkich rozkładów Poissona:
Dopasowywanie rozkładu do danych to dowolny algorytm, który łączy model statystyczny z zestawem danych (dane są ustalone) i wybiera dokładnie jedną z rozkładów z modelu jako taką, która „najlepiej” odzwierciedla dane.
Model zmienia się (w pewnym sensie): łączymy go z całej kolekcji możliwości w jeden najlepszy wybór. Dane to tylko dane; nic się z tym nie dzieje.
źródło
W dziedzinie modelowania Rasch często dopasowuje się dane do modelu. Zakłada się, że model jest poprawny i zadaniem analityka jest znalezienie danych, które są z nim zgodne. Artykuł Wikipedii na temat Rasch zawiera więcej szczegółów na temat tego, jak i dlaczego.
Ale zgadzam się z innymi, że ogólnie w statystyce dopasowujemy model do danych, ponieważ możemy go zmienić, ale wydaje się, że wybór lub modyfikacja danych jest złą formą.
źródło
Zazwyczaj obserwowane dane są ustalane, gdy model jest zmienny (np. Ponieważ parametry są szacowane), więc model jest dopasowywany do danych, a nie na odwrót . (Zwykle ludzie mają na myśli ten przypadek, gdy wypowiadają którekolwiek z nich.)
Kiedy ludzie mówią, że dopasowują dane do modelu, próbuję dowiedzieć się, co do cholery zrobili z danymi? .
[Teraz, jeśli przekształcasz dane , prawdopodobnie byłoby to „dopasowanie danych do modelu”, ale ludzie prawie nigdy tego nie mówią w tym przypadku.]
źródło
Zazwyczaj zakładamy, że nasze dane odpowiadają „rzeczywistemu światu”, a wszelkie modyfikacje oznaczają, że odchodzimy od modelowania „prawdziwego świata”. Na przykład trzeba uważać, aby usunąć wartości odstające, ponieważ nawet jeśli obliczenia te są przyjemniejsze, wartości odstające nadal były częścią naszych danych.
Podczas testowania modelu lub szacowania właściwości estymatora za pomocą ładowania początkowego lub innych technik ponownego próbkowania możemy symulować nowe dane przy użyciu modelu szacunkowego i naszych oryginalnych danych. To powoduje, że model jest poprawny i nie modyfikujemy naszych oryginalnych danych.
źródło