Czytam poprzez „ Wprowadzenie do uczenia statystycznego ”. W rozdziale 2 omawiają powód oszacowania funkcji .
2.1.1 Dlaczego oszacowanie ?
Są dwa główne powody, dla których możemy chcieć oszacować f : przewidywanie i wnioskowanie . Każdego z nich dyskutujemy.
Przeczytałem go kilka razy, ale nadal jestem częściowo niejasny co do różnicy między prognozowaniem a wnioskowaniem. Czy ktoś mógłby podać (praktyczny) przykład różnic?
prediction
terminology
causality
użytkownik61629
źródło
źródło
Odpowiedzi:
Wnioskowanie: na podstawie zestawu danych chcesz wywnioskować, w jaki sposób dane wyjściowe są generowane jako funkcja danych.
Prognozowanie: Biorąc pod uwagę nowy pomiar, chcesz użyć istniejącego zestawu danych do zbudowania modelu, który niezawodnie wybiera prawidłowy identyfikator z zestawu wyników.
Wnioskowanie: Chcesz dowiedzieć się, jaki wpływ Wiek, Klasa Pasażera i Płeć ma na przetrwanie katastrofy Titanica. Możesz wprowadzić regresję logistyczną i wywnioskować wpływ, jaki każda cecha pasażera ma na przeżycie.
Przewidywanie: Biorąc pod uwagę pewne informacje na temat pasażera Titanica, chcesz wybrać z zestawu i być poprawnym tak często, jak to możliwe. (Zobacz kompromis wariancji odchylenia dla prognozowania, jeśli zastanawiasz się, jak być poprawnym tak często, jak to możliwe).{ żyje , umiera }
Prognozy nie obracają się wokół ustanowienia najdokładniejszej relacji między danymi wejściowymi i wyjściowymi, dokładne przewidywanie dba o to, by nowe obserwacje trafiały do odpowiedniej klasy tak często, jak to możliwe.
Tak więc „praktyczny przykład” sprowadza się zasadniczo do następującej różnicy: Biorąc pod uwagę zbiór danych pasażerów dotyczących jednego pasażera, podejście wnioskowania daje prawdopodobieństwo przeżycia, klasyfikator daje wybór między życiem lub śmiercią.
Strojenie klasyfikatorów jest bardzo interesującym i kluczowym tematem w taki sam sposób, jak poprawna interpretacja wartości p i przedziałów ufności.
źródło
Zasadniczo podczas analizy danych wyobrażamy sobie, że istnieje pewien rodzaj „procesu generowania danych”, który powoduje powstanie danych, a wnioskowanie odnosi się do poznania struktury tego procesu, podczas gdy prognozowanie oznacza możliwość faktycznego prognozowania danych, które z niego pochodzą . Często te dwie rzeczy idą w parze, ale nie zawsze.
Przykładem, w którym oba te elementy idą w parze, byłby prosty model regresji liniowej
Wnioskowanie w tym przypadku oznaczałoby oszacowanie parametrów modelu i a nasze przewidywania zostałyby po prostu obliczone na podstawie naszych oszacowań tych parametrów. Istnieją jednak inne typy modeli, w których można dokonywać rozsądnych prognoz, ale model ten niekoniecznie prowadzi do znaczącego wglądu w to, co dzieje się za kulisami. Niektóre przykłady tego rodzaju modeli byłyby skomplikowanymi metodami złożonymi, które mogą prowadzić do dobrych prognoz, ale czasami są trudne lub niemożliwe do zrozumienia.β 1β0 β1
źródło
Na stronie 20 książki autorzy podają piękny przykład, który pozwolił mi zrozumieć różnicę.
Oto akapit z książki: Wprowadzenie do uczenia statystycznego
„Na przykład w nieruchomościach można starać się powiązać wartości domów z danymi wejściowymi, takimi jak wskaźnik przestępczości, podział na strefy, odległość od rzeki, jakość powietrza, szkoły, poziom dochodów społeczności, wielkość domów i tak dalej. W tym przypadku można być zainteresowanym tym, jak poszczególne zmienne wejściowe wpływają na ceny - czyli o ile więcej będzie wart dom, jeśli ma widok na rzekę? To jest problem wnioskowania . Alternatywnie, można po prostu być zainteresowany w przewidywaniu wartości domu, biorąc pod uwagę jego cechy: czy ten dom jest niedoceniany lub zawyżany? Jest to problem z prognozowaniem ”.
źródło
Teraz, jeśli uzyskasz dane dotyczące dochodu, powiedzmy szereg osobistych dochodów do dyspozycji od BEA, i skonstruujesz zmienną pory roku, możesz oszacować funkcję f , a następnie podłączyć najnowsze wartości dochodu ludności i pory roku do tego funkcjonować. To da prognozę na następny kwartał przychodów ze sklepu.
źródło
Wyobraź sobie, że jesteś lekarzem na oddziale intensywnej terapii. Masz pacjenta z silną gorączką, daną liczbą komórek krwi i daną masą ciała oraz setką różnych danych i chcesz przewidzieć, czy on lub ona przeżyje. Jeśli tak, ukryje tę historię o swoim drugim dziecku dla swojej żony, jeśli nie, ważne jest, aby ujawnił ją, póki może.
Lekarz może dokonać tej prognozy na podstawie danych byłych pacjentów, których miał na oddziale. W oparciu o swoją wiedzę na temat oprogramowania potrafi przewidywać za pomocą uogólnionej regresji liniowej (glm) lub za pomocą sieci neuronowej (nn).
1. Uogólniony model liniowy
Istnieje wiele skorelowanych parametrów dla glm, więc aby dojść do wyniku, lekarz będzie musiał przyjąć założenia (liniowość itp.) I decyzje, które parametry mogą mieć wpływ. GLM nagrodzi go testem t istotności dla każdego z jego parametrów, aby mógł zebrać mocne dowody, że płeć i gorączka mają znaczący wpływ, niekoniecznie tak.
2. Sieć neuronowa
Sieć neuronowa połknie i przetrawi wszystkie informacje znajdujące się w próbce byłych pacjentów. Nie będzie miało znaczenia, czy predyktory są skorelowane i nie ujawni tylu informacji, czy wpływ masy ciała wydaje się być ważny tylko w danej próbce, czy ogólnie (przynajmniej nie na poziomie wiedzy specjalistycznej, którą lekarz ma do zaoferowania). Po prostu obliczy wynik.
Co lepsze
Wybór metody zależy od kąta patrzenia na problem: jako pacjent wolałbym sieć neuronową, która wykorzystuje wszystkie dostępne dane, aby odgadnąć, co się ze mną stanie bez silnych i oczywiście błędnych założeń, takich jak liniowość. Jako lekarz, który chce przedstawić pewne dane w czasopiśmie, potrzebuje p-wartości. Medycyna jest bardzo konserwatywna: będą prosić o wartości p. Lekarz chce więc poinformować, że w takiej sytuacji płeć ma znaczący wpływ. Dla pacjenta, to nie ma znaczenia, wystarczy użyć dowolnego wpływu, jaki próbka sugeruje jako najbardziej prawdopodobna.
W tym przykładzie pacjent chce przewidywać, strona naukowa lekarza chce wnioskować. W większości przypadków, gdy chcesz zrozumieć system, wnioskowanie jest dobre. Jeśli musisz podjąć decyzję, w której nie rozumiesz systemu, przewidywanie będzie wystarczające.
źródło
Nie jesteś tu sam. Po przeczytaniu odpowiedzi nie jestem już zdezorientowany - nie dlatego, że rozumiem różnicę, ale ponieważ rozumiem, że jest to w oczach patrzącego i wywołane słownie. Jestem pewien, że teraz te dwa terminy są bardziej definicjami politycznymi niż naukowymi. Weźmy na przykład wyjaśnienie z książki, którą uczelnie próbowały wykorzystać jako dobrą: „ile więcej będzie wart dom, jeśli ma widok na rzekę? To jest problem wnioskowania”. Z mojego punktu widzenia jest to absolutnie problem prognozowania. Jesteś właścicielem firmy budowlanej i chcesz wybrać najlepszy grunt pod budowę kolejnego zestawu domów. Musisz wybrać jedną z dwóch lokalizacji w tym samym mieście, jedną w pobliżu rzeki, drugą w pobliżu dworca kolejowego. Chcesz przewidziećceny dla obu lokalizacji. Lub chcesz wnioskować . Zamierzasz zastosować dokładne metody statystyki, ale nazywasz ten proces. :)
źródło
Istnieją dobre badania wskazujące, że silnym predyktorem tego, czy pożyczkobiorcy spłacą pożyczki, jest to, czy używają filcu, aby chronić podłogi przed zadrapaniem przez nogi mebli. Ta „odczuwalna” zmienna będzie wyraźną pomocą dla modelu predykcyjnego, w którym wynikiem jest spłata vs. niewykonanie zobowiązania. Jednakże, jeśli pożyczkodawcy chcą uzyskać większą dźwignię w stosunku do tego wyniku, nie będą myśleć, że mogą to zrobić, dystrybuując filc tak szeroko, jak to możliwe.
„Jak prawdopodobne jest, że pożyczkobiorca spłaci?” jest problemem prognostycznym; „Jak mogę wpłynąć na wynik?” jest problemem wnioskowania przyczynowego.
źródło
y = f (x) następnie
predykcja (jaka jest wartość Y o danej wartości x: jeśli konkretna wartość x, co może być wartością Y
wnioskowanie (jak y zmienia się wraz ze zmianą x): jaki może być wpływ na Y, jeśli x się zmienia
Przykład prognozy: załóżmy, że y reprezentuje wynagrodzenie osoby, jeśli więc dostarczymy dane wejściowe, takie jak lata doświadczenia, stopień jako zmienne wejściowe, wówczas nasza funkcja przewiduje wynagrodzenie pracownika.
Przykład wnioskowania: załóżmy, że koszt utrzymania zmienia się wtedy, ile wynosi zmiana wynagrodzenia
źródło