Ogólne pytanie, jak sugeruje tytuł, brzmi:
- Jaka jest różnica między DS a optymalizacją / optymalizacją.
Na poziomie koncepcyjnym rozumiem, że DS próbuje wydobywać wiedzę z dostępnych danych i wykorzystuje głównie techniki statystyczne, uczenie maszynowe. Z drugiej strony OR wykorzystuje dane do podejmowania decyzji na podstawie danych, na przykład poprzez optymalizację funkcji celu (kryterium) w stosunku do danych (danych wejściowych).
Zastanawiam się, jak wyglądają te dwa paradygmaty.
- Czy jeden podzbiór drugiego?
- Czy rozważają pola uzupełniające się?
- Czy istnieją przykłady, że jedno pole uzupełnia drugie lub są używane łącznie?
W szczególności interesują mnie:
Czy istnieje przykład, w którym stosuje się techniki OR do rozwiązania pytania / problemu Data Science?
optimization
data-mining
PsySp
źródło
źródło
Odpowiedzi:
Podczas gdy zarówno badania operacyjne, jak i analiza danych obejmują zarówno wiele tematów, jak i obszarów, postaram się spojrzeć na to, co uważam za najbardziej reprezentatywne i główne części każdego z nich.
Jak zauważyli inni, większość badań operacyjnych dotyczy przede wszystkim podejmowania decyzji . Chociaż istnieje wiele różnych sposobów określania sposobu podejmowania decyzji, najbardziej popularne części OR (moim zdaniem) koncentrują się na modelowaniu problemów decyzyjnych w matematycznych ramach programowania. W tego rodzaju ramach zazwyczaj masz zestaw zmiennych decyzyjnych, ograniczenia względem tych zmiennych oraz funkcję celu zależną od zmiennych decyzyjnych, które próbujesz zminimalizować lub zmaksymalizować. Kiedy zmienne decyzyjne mogą przyjmować wartości w , ograniczenia są liniowymi nierównościami względem zmiennych decyzyjnych, a funkcja celu jest liniową funkcją zmiennych decyzyjnych, wtedy masz program liniowyR - główny koń roboczy OR w ciągu ostatnich sześćdziesięciu lat. Jeśli masz inne rodzaje funkcji celu i ograniczeń, znajdziesz się w dziedzinie programowania całkowitej , programowania kwadratowa , pół-określony programowania , itp ...
Z drugiej strony Data Science zajmuje się głównie wnioskami. Tutaj zazwyczaj zaczynasz od dużego stosu danych i chcesz wnioskować o danych, których jeszcze nie widziałeś na dużym stosie. Typowe rzeczy, które tu widzisz: 1) duży stos danych reprezentuje wcześniejsze wyniki dwóch różnych opcji i chcesz wiedzieć, która opcja da najlepsze wyniki, 2) duży stos danych reprezentuje czas i chcielibyście wiedzieć, jak ta seria czasowa wydłuży się w przyszłości, 3) duży stos danych reprezentuje oznaczony zestaw obserwacji i chcielibyście wnioskować o etykietach dla nowych, nieoznaczonych obserwacji. Pierwsze dwa przykłady mieszczą się w klasycznych obszarach statystycznych (odpowiednio: testowanie hipotez i prognozowanie szeregów czasowych), podczas gdy trzeci przykład, moim zdaniem, jest ściślej związany z nowoczesnymi tematami uczenia maszynowego (klasyfikacja).
Tak więc, moim zdaniem, badania operacyjne i nauki o danych są w większości dyscyplinami ortogonalnymi, chociaż niektóre nakładają się. W szczególności myślę, że prognozowanie szeregów czasowych pojawia się w nietrywialnej wysokości w OR; jest to jedna z ważniejszych, niematerialnych części OR. Operations Research to miejsce, w którym się obracasz, jeśli masz znany związek między wejściami i wyjściami; Nauka danych jest miejscem, w którym się obracasz, jeśli próbujesz ustalić tę relację (dla niektórych definicji danych wejściowych i wyjściowych).
źródło
To nie jest pełna odpowiedź, ponieważ mhum jest całkiem dobry w zestawianiu różnych celów OR vs DS.
Chcę raczej odnieść się do tego komentarza:
Odpowiedź brzmi tak. Najjaśniejszym przykładem, jaki przychodzi mi na myśl, jest Support Vector Machines (SVM) .
Aby „dopasować” model SVM do niektórych danych (co należy zrobić przed użyciem go do wnioskowania o prognozach), należy rozwiązać następujący problem optymalizacji:
Jest to ograniczony problem optymalizacji, podobnie jak wiele innych w dziedzinie OR, i rozwiązuje się go za pomocą metod programowania kwadratowego lub metod punktów wewnętrznych. Są one generalnie związane z obszarem OR, a nie DS, ale jest to przykład ich szerszego zastosowania.
Mówiąc bardziej ogólnie, optymalizacja jest kluczem do wielu modeli statystycznych i uczenia maszynowego stosowanych w dziedzinie DS, ponieważ proces szkolenia tych modeli można zazwyczaj sformułować jako problem minimalizacji obejmujący funkcję straty / żalu - od skromnego stulecia model regresji liniowej do najnowszej sieci neuronowej do głębokiego uczenia.
Dobrym odniesieniem do SVM jest Bishop .
źródło
Jako strateg miałem okazję współpracować z obiema stronami dyscypliny. Próbując wyjaśnić, czym są OR i DS dla jakościowego menedżera MBA, moje (zbyt) uproszczone wprowadzenie w jednym wierszu dla każdego
LUB: ekonomiści, którzy wiedzą, jak kodować
DS: statystycy, którzy wiedzą, jak kodować.
W praktyce sposób, w jaki zazwyczaj obie grupy się ze sobą łączą: strona OR opracowuje model decyzyjny, a strona DS opracowuje odpowiednią implementację danych w celu zasilania modelu.
Każdy z nich będzie polegał na teoretycznych tradycjach swoich dyscyplin - wspólnie przeprowadzają eksperymenty w celu ustrukturyzowania danych i udoskonalenia modelu w celu uzyskania prawdziwych spostrzeżeń potrzebnych do optymalnych decyzji. Kiedy każdy poznaje się nawzajem, ich myślenie i język zwykle się zbiegają.
źródło
Analiza danych jest szeroką dziedziną, która ogólnie zajmuje się danymi. Jeśli brzmi to niejasno, jest to normalne, ponieważ tak naprawdę jest. To było popularne słowo już od kilku lat. Zasadniczo próbuje znaleźć sposób na wykorzystanie danych: co mogę zrobić z moimi danymi (jakie spostrzeżenia mogę z nich uzyskać?).
Badania operacyjne to nauka o optymalizacji matematycznej: modelujesz problem w „równania”, rozwiązujesz ten model matematyczny i przekładasz rozwiązania z powrotem na początkowe ustawienie problemu. Jest to narzędzie pomocne w podejmowaniu decyzji: co powinienem / mogę zrobić, aby uzyskać to lub tamto.
Wiele problemów biznesowych można postrzegać jako problemy związane z optymalizacją. Biorąc pod uwagę, że staram się maksymalizować moje przychody, biorąc pod uwagę ograniczenia zasobów, jak dokładnie prowadziłbym swoją działalność, jakie wartości powinienem ustawić dla zmiennych decyzyjnych. Problemy takie jak planowanie, planowanie obiektu, zarządzanie łańcuchem dostaw ... itd. Wszystkie techniki optymalizacji dźwigni.
Optymalizacja portfela to także klasyczny przykład, w którym stosowana jest optymalizacja. Załóżmy, że mogę inwestować w kilka różnych aktywów w moim portfelu, każdy z niedeterministycznymi zwrotami, w jaki sposób powinienem zbilansować mój portfel, aby zminimalizować ryzyko mojego całego portfela przy jednoczesnym utrzymaniu poziomu zwrotu pieniężnego. W tym ustawieniu funkcją celu często staje się ryzyko / wariancja portfela, a ograniczeniami są wymagana stopa zwrotu z inwestycji, a także ilość posiadanych pieniędzy.
źródło
Jeśli zaliczasz ML i AI kierowane przez ML jako część Data Science (co niektórzy robią, a niektórzy nie zgodnie z moim doświadczeniem, na przykład profesjonalny program Microsoft w AI zawiera kluczowe aspekty Data Science + Machine learning (z DL i RL) ), podczas gdy Higher School of Economics prezentuje praktycznie te same zaawansowane części Microsoft cuuriculum co Advanced Machine Learning), istnieje wiele podobieństw w matematyce stosowanej w obu dziedzinach. Na przykład: Programowanie nieliniowe (mnożniki Lagrange'a, warunki KKT ...) -> używane do wyprowadzania maszyn wektorów wsparcia ... Ekonometria, która opiera się głównie na Regresjach ---> Regresje są kluczową częścią obu Scinece w ogóle i dokładniej Uczenie nadzorowane ... Statystyka (zwykle znajduje się w programie nauczania OR) ---> klucz do nauki danych i uczenia maszynowego ... Procesy stochastyczne ---> bardzo ważne w uczeniu się przez zbrojenie ... Programowanie dynamiczne ---> ponownie znalezione w uczeniu się przez zbrojenie ... Powiedziałbym więc, że istnieją pewne podobieństwa z Data Science w ogóle i całkiem podobne podobieństwa z ML. Oczywiście cele tych dyscyplin są różne, ale istnieje wiele podobieństw w matematyce stosowanej w tych dyscyplinach.
źródło