Co dokładnie buduje model statystyczny?
Obecnie, kiedy ubiegam się o pracę badawczą lub konsultacyjną, często pojawia się termin „budowanie modelu” lub „modelowanie”. Termin brzmi fajnie, ale do czego dokładnie się odnoszą? Jak Ci zbudować swój model?
Spojrzałem w górę predykcyjną modelowania , który zawiera k-NN i regresji logistycznej.
Odpowiedzi:
Zrobię to, chociaż nie jestem statystykiem, ale ląduję, wykonując wiele „modelowania” - statystycznego i niestatystycznego.
Najpierw zacznijmy od podstaw:
Model jest reprezentacją rzeczywistości, choć bardzo uproszczoną. Pomyśl o „modelu” wosku / drewna dla domu. Możesz go dotknąć / poczuć / powąchać. Teraz model matematyczny jest przedstawieniem rzeczywistości za pomocą liczb.
Czym jest ta „rzeczywistość”, o której słyszę, że pytasz? W porządku. Pomyślcie więc o tej prostej sytuacji: gubernator waszego stanu wdraża politykę mówiącą, że cena paczki papierosów w przyszłym roku kosztowałaby teraz 100 USD. „Celem” jest zniechęcenie ludzi do kupowania papierosów, a tym samym ograniczenie palenia, a tym samym uczynienie palaczy zdrowszymi (ponieważ rzucili palenie).
Po 1 roku gubernator pyta cię - czy to był sukces? Jak możesz tak mówić? Przechwytujesz takie dane, jak liczba sprzedanych pakietów na dzień lub rok, odpowiedzi w ankiecie, wszelkie mierzalne dane, które możesz uzyskać, które są istotne dla problemu. Właśnie zacząłeś „modelować” problem. Teraz chcesz przeanalizować, co mówi ten „model” . Tutaj przydaje się modelowanie statystyczne. Możesz uruchomić prosty wykres korelacji / rozproszenia, aby zobaczyć, jak model „wygląda”. Możesz mieć ochotę określić przyczynowość, tj. Jeśli wzrost ceny doprowadziłby do zmniejszenia palenia lub czy w grę wchodziły inne mylące czynniki (np. Może to coś zupełnie innego, a twój model może tego nie zauważył?).
Teraz zbudowanie tego modelu odbywa się za pomocą „zestawu reguł” (bardziej przypominających wytyczne), tj. Co jest / nie jest legalne lub co ma / nie ma sensu. Powinieneś wiedzieć, co robisz i jak interpretować wyniki tego modelu. Budowanie / wykonywanie / interpretacja tego modelu wymaga podstawowej wiedzy statystycznej. W powyższym przykładzie musisz wiedzieć o wykresach korelacji / rozproszenia, regresji (jedno- i wielowymiarowej) i innych rzeczach. Sugeruję, aby przeczytać intuicyjną lekturę na temat rozumienia statystyk: co to jest wartość p To jest humorystyczne wprowadzenie do statystyki i nauczy cię „modelowania” od prostych do zaawansowanych (tj. Regresji liniowej). Następnie możesz kontynuować czytanie innych rzeczy.
Pamiętaj więc, że model jest reprezentacją rzeczywistości i że „Wszystkie modele są błędne, ale niektóre są bardziej przydatne niż inne” . Model jest uproszczoną reprezentacją rzeczywistości i prawdopodobnie nie możesz wziąć pod uwagę wszystkiego, ale musisz wiedzieć, co i czego nie należy uważać za dobry model, który może dać znaczące wyniki.
To się nie kończy. Możesz także tworzyć modele symulujące rzeczywistość! Tak zmieni się wiązka liczb w czasie (powiedzmy). Te liczby odwzorowują pewną sensowną interpretację w Twojej domenie. Możesz również stworzyć te modele, aby wydobywać dane, aby zobaczyć, jak różne środki odnoszą się do siebie (zastosowanie tutaj statystyk może być wątpliwe, ale na razie się nie martw). Przykład: Patrzysz na sprzedaż artykułów spożywczych w sklepie miesięcznie i zdajesz sobie sprawę, że ilekroć kupowane jest piwo, to jest też pakiet pieluszek (budujesz model, który przegląda zestaw danych i pokazuje ci to skojarzenie). To może być dziwne, ale może sugerować, że głównie ojcowie kupują to w weekend, kiedy dziecko siedzi swoje dzieci? Umieść pieluchy w pobliżu piwa, a możesz zwiększyć sprzedaż! Aaaa! Modelowanie :)
Są to tylko przykłady i w żadnym wypadku nie odniesienia do profesjonalnej pracy. Zasadniczo budujesz modele, aby zrozumieć / oszacować, jak funkcjonuje / działała rzeczywistość i podejmować lepsze decyzje na podstawie wyników. Statystyki czy nie, prawdopodobnie modelujesz całe życie, nie zdając sobie z tego sprawy. Powodzenia :)
źródło
Zbudowanie modelu statystycznego wymaga skonstruowania opisu matematycznego niektórych zjawisk w świecie rzeczywistym, które uwzględniają niepewność i / lub przypadkowość występującą w tym systemie. W zależności od dziedziny zastosowania może to być coś tak prostego jak regresja liniowa lub podstawowe testowanie hipotez, poprzez skomplikowaną analizę czynników wielowymiarowych lub eksplorację danych.
źródło
Modelowanie według mnie polega na określeniu probabilistycznych ram dla obserwowanych danych z możliwymi do oszacowania parametrami, których można użyć do rozróżnienia cennych różnic w obserwowalnych danych, gdy takie istnieją. To się nazywa moc. Modele probabilistyczne mogą być używane do przewidywania lub wnioskowania. Można ich użyć do kalibracji maszyn, wykazania niedoboru zwrotu z inwestycji, prognozowania pogody lub zapasów lub uproszczenia podejmowania decyzji medycznych.
Model niekoniecznie musi być zbudowany. W izolowanym eksperymencie można zastosować modelowanie nieparametryczne, takie jak test t, aby ustalić, czy istnieje znacząca różnica w średnich między dwiema grupami. Jednak do wielu celów prognozowania można budować modele w celu wykrywania zmian w czasie. Na przykład modele Markowa oparte na przejściach mogą być wykorzystane do przewidywania wzrostów i spadków wartości rynkowej inwestycji, ale w jakim stopniu „spadek” można uznać za gorszy niż oczekiwano? Korzystając z dowodów historycznych i obserwowanych predyktorów, można zbudować wyrafinowany model do kalibracji, czy zaobserwowane spadki znacznie różnią się od tych, które były utrzymywane w przeszłości. Używając narzędzi, takich jak wykresy kontrolne, wykresy skumulowanego występowania, krzywe przeżycia i inne wykresy „oparte na czasie”, to „
Alternatywnie, niektóre modele są „budowane” dzięki elastyczności w dostosowywaniu się w miarę wzrostu danych. Wykrywanie trendów na Twitterze i system rekomendacji Netflix są doskonałymi przykładami takich modeli. Mają ogólną specyfikację (Bayesian Model Averaging, dla tych ostatnich), która pozwala elastycznemu modelowi uwzględnić historyczne zmiany i trendy oraz przeprowadzić ponowną kalibrację w celu utrzymania najlepszych prognoz, takich jak wprowadzenie filmów o dużym wpływie, dużej liczby nowych użytkowników lub dramatyczna zmiana preferencji filmowych ze względu na sezonowość.
Niektóre z metod eksploracji danych zostały wprowadzone, ponieważ są bardzo biegli w osiąganiu pewnych rodzajów metod prognozowania (ponownie kwestia uzyskiwania „oczekiwanych” trendów lub wartości w danych). K-NN to sposób na włączenie danych wielowymiarowych i ustalenie, czy pacjenci mogą otrzymywać wiarygodne prognozy po prostu ze względu na bliskość (czy to od wieku, gustu muzycznego, historii seksualnej, czy innej mierzalnej cechy). Z drugiej strony regresja logistyczna może uzyskać binarny klasyfikator, ale jest znacznie częściej stosowana do wnioskowania o związku między wynikiem binarnym a jedną lub większą liczbą ekspozycji i warunków za pomocą parametru zwanego ilorazem szans. Z powodu twierdzeń o limitach i ich związku z uogólnionymi modelami liniowymi iloraz szans jest wysoce regularnymi parametrami, które mają „wysoce konserwatywny” błąd typu I (tj.
źródło
Modelowanie to proces identyfikacji odpowiedniego modelu.
Często modelarz ma dobry pomysł na ważne zmienne, a może nawet ma teoretyczne podstawy dla konkretnego modelu. Poznają także pewne fakty dotyczące reakcji i ogólnego rodzaju relacji z predyktorami, ale wciąż mogą nie być pewni, że ich ogólna koncepcja modelu jest całkowicie wystarczająca - nawet przy doskonałej teoretycznej idei tego, jak powinien działać środek, mogą na przykład nie być pewni, że wariancja nie jest związana ze średnią, lub mogą podejrzewać, że może być możliwa szeregowa zależność.
Może więc istnieć cykl kilku etapów identyfikacji modelu, który odnosi się do (przynajmniej niektórych) danych. Alternatywą jest regularne ryzyko posiadania dość nieodpowiednich modeli.
(Oczywiście, jeśli ponoszą odpowiedzialność, muszą wziąć pod uwagę, w jaki sposób wykorzystanie danych w ten sposób wpływa na ich wnioski).
Rzeczywisty proces różni się nieco w zależności od obszaru i osoby, ale możliwe jest, że niektóre osoby wyraźnie wymieniają kroki w ich procesie (np. Box i Jenkins opisują jedno z takich podejść w książce na temat szeregów czasowych). Pomysły dotyczące sposobu identyfikacji modelu zmieniają się z czasem.
źródło
Nie sądzę, aby istniała wspólna definicja tego, co stanowi model statystyczny. Z mojego doświadczenia w branży wydaje się to synonimem tego, co w ekonometrii nazywa się modelem o zredukowanej formie . Wytłumaczę.
Załóżmy, że w twojej dziedzinie istnieją ustalone relacje lub „prawa”, np. W fizyce byłoby tofa= m d2)xret2) stwierdzając, że siła jest proporcjonalna do przyspieszenia (inaczej „druga zasada mechaniki”). Znając to prawo, możesz zbudować model matematyczny trajektorii kuli armatniej.
Model ten będzie miał coś, co fizycy nazywają „stałymi” lub „współczynnikami”, np. Gęstość powietrza w danej temperaturze i wysokości. Będziesz musiał dowiedzieć się, jakie są te współczynniki eksperymentalnie. W naszym przypadku poprosimy artylerię o wystrzelenie armat w wielu różnych, ściśle kontrolowanych warunkach, takich jak kąty, temperatura itp.
Zbieramy wszystkie dane i dopasowujemy model za pomocą technik statystycznych. Może to być tak proste, jak regresja liniowa lub średnie. Po uzyskaniu wszystkich współczynników uruchamiamy teraz nasz model matematyczny, aby utworzyć tabele wypalania. To jest starannie opisana w dokumencie niesklasyfikowanych tutaj , zwany „produkcji stołów wypalania Cannon artylerii.”
To, co właśnie opisałem, nie jest modelem statystycznym. Tak, wykorzystuje statystyki, ale ten model używa ustanawia prawa fizyki, które są istotą modelu. Tutaj statystyki są jedynie narzędziem do określania wartości kilku ważnych parametrów. Dynamika systemu jest opisana i wstępnie określona przez pole.
Załóżmy, że nie znaliśmy lub nie dbaliśmy o prawa fizyki, i po prostu próbowaliśmy ustalić związki między odległością latania armaty a parametrami takimi jak kąt strzału i temperatura za pomocą „modelu statystycznego”. Stworzylibyśmy duży zestaw danych z wieloma zmiennymi lub cechami kandydującymi i transformacjami zmiennych, być może wielomianowymi szeregami temperatur itp. Następnie przeprowadzilibyśmy pewnego rodzaju regresję i zidentyfikowali współczynniki. Współczynniki te niekoniecznie ustanowiłyby interpretacje w terenie. Nazwalibyśmy je wrażliwością na kwadrat temperatury itp. Ten model może być całkiem dobry w przewidywaniu punktów końcowych kul armatnich, ponieważ podstawowy proces jest dość stabilny.
źródło