Nauka danych a badania operacyjne

11

Ogólne pytanie, jak sugeruje tytuł, brzmi:

  • Jaka jest różnica między DS a optymalizacją / optymalizacją.

Na poziomie koncepcyjnym rozumiem, że DS próbuje wydobywać wiedzę z dostępnych danych i wykorzystuje głównie techniki statystyczne, uczenie maszynowe. Z drugiej strony OR wykorzystuje dane do podejmowania decyzji na podstawie danych, na przykład poprzez optymalizację funkcji celu (kryterium) w stosunku do danych (danych wejściowych).

Zastanawiam się, jak wyglądają te dwa paradygmaty.

  • Czy jeden podzbiór drugiego?
  • Czy rozważają pola uzupełniające się?
  • Czy istnieją przykłady, że jedno pole uzupełnia drugie lub są używane łącznie?

W szczególności interesują mnie:

Czy istnieje przykład, w którym stosuje się techniki OR do rozwiązania pytania / problemu Data Science?

PsySp
źródło
3
Nie jestem pewien, czy to naprawdę pytanie dotyczące informatyki, ale przypuszczam, że jest wystarczająco blisko. Zredagowałem część o tym, co ludzie z jednej strony myślą o drugiej, ponieważ wydaje się, że jest to całkowicie kwestia opinii.
David Richerby
@DavidRicherby dzięki. Zgadzam się z tobą, że może to być kwestia opinii. Tradycyjnie obie dyscypliny są nauczane i wyłaniają się ze społeczności CS, więc przypuszczam, że jest to właściwe miejsce do zapytania.
PsySp
@DW dziękuję. Przeczytałem artykuły i szczerze mówiąc, nie widzę żadnej dyskusji na temat nakładania się i / lub różnic między dwoma wymienionymi dziedzinami. W szczególności, w jaki sposób jedno uzupełnia drugie.
PsySp
1
Analiza danych polega głównie na wykonywaniu pracy w celu znalezienia informacji za pośrednictwem danych. Badania operacyjne dotyczą głównie wykonywania pracy w celu usprawnienia procesu decyzyjnego. Często możesz postrzegać LUB jako metodę, która pozwala znaleźć optymalną politykę do wykorzystania w podejmowaniu decyzji. Niektóre metody stosowane w sali operacyjnej można zaklasyfikować jako metody uczenia się przez zbrojenie w społeczności CS, chociaż nie wszystkie problemy związane z operacją tego typu są tego typu.
spektr

Odpowiedzi:

9

Podczas gdy zarówno badania operacyjne, jak i analiza danych obejmują zarówno wiele tematów, jak i obszarów, postaram się spojrzeć na to, co uważam za najbardziej reprezentatywne i główne części każdego z nich.

Jak zauważyli inni, większość badań operacyjnych dotyczy przede wszystkim podejmowania decyzji . Chociaż istnieje wiele różnych sposobów określania sposobu podejmowania decyzji, najbardziej popularne części OR (moim zdaniem) koncentrują się na modelowaniu problemów decyzyjnych w matematycznych ramach programowania. W tego rodzaju ramach zazwyczaj masz zestaw zmiennych decyzyjnych, ograniczenia względem tych zmiennych oraz funkcję celu zależną od zmiennych decyzyjnych, które próbujesz zminimalizować lub zmaksymalizować. Kiedy zmienne decyzyjne mogą przyjmować wartości w , ograniczenia są liniowymi nierównościami względem zmiennych decyzyjnych, a funkcja celu jest liniową funkcją zmiennych decyzyjnych, wtedy masz program liniowyR- główny koń roboczy OR w ciągu ostatnich sześćdziesięciu lat. Jeśli masz inne rodzaje funkcji celu i ograniczeń, znajdziesz się w dziedzinie programowania całkowitej , programowania kwadratowa , pół-określony programowania , itp ...

Z drugiej strony Data Science zajmuje się głównie wnioskami. Tutaj zazwyczaj zaczynasz od dużego stosu danych i chcesz wnioskować o danych, których jeszcze nie widziałeś na dużym stosie. Typowe rzeczy, które tu widzisz: 1) duży stos danych reprezentuje wcześniejsze wyniki dwóch różnych opcji i chcesz wiedzieć, która opcja da najlepsze wyniki, 2) duży stos danych reprezentuje czas i chcielibyście wiedzieć, jak ta seria czasowa wydłuży się w przyszłości, 3) duży stos danych reprezentuje oznaczony zestaw obserwacji i chcielibyście wnioskować o etykietach dla nowych, nieoznaczonych obserwacji. Pierwsze dwa przykłady mieszczą się w klasycznych obszarach statystycznych (odpowiednio: testowanie hipotez i prognozowanie szeregów czasowych), podczas gdy trzeci przykład, moim zdaniem, jest ściślej związany z nowoczesnymi tematami uczenia maszynowego (klasyfikacja).

Tak więc, moim zdaniem, badania operacyjne i nauki o danych są w większości dyscyplinami ortogonalnymi, chociaż niektóre nakładają się. W szczególności myślę, że prognozowanie szeregów czasowych pojawia się w nietrywialnej wysokości w OR; jest to jedna z ważniejszych, niematerialnych części OR. Operations Research to miejsce, w którym się obracasz, jeśli masz znany związek między wejściami i wyjściami; Nauka danych jest miejscem, w którym się obracasz, jeśli próbujesz ustalić tę relację (dla niektórych definicji danych wejściowych i wyjściowych).

mum
źródło
Dziękuję za jasną odpowiedź. Zastanawiałem się, czy można na przykład zastosować jakieś techniki OR do rozwiązania problemów z DS. Byłbym zainteresowany takim przykładem, ale z pańskiej odpowiedzi wątpię, by istniał.
PsySp 17.03.17
@Psysp Eh, może? Nie mogę wymyślić żadnego z głowy, ale nie jest to ostateczne.
mhum
1
Nie sądzę, aby podział między OR i DS był ścisły, jak wierzysz, ale może to być spowodowane tym, że uważam tematy za uczenie maszynowe i analizowanie danych jako części DS zamiast uważać DS za synonim Statystyki. (Niestety, jak DS jest modne, to nie ma powszechnie przyjętej definicji, o ile wiem), jednak zadania descision i wnioskowania nie muszą być rozłączne. Uczenie maszynowe jest dokładnie dziedziną, w której obie są ze sobą połączone: czasami trzeba podejmować sprytne decyzje, aby podejmować przyzwoite wnioski, innym razem sprytne wnioski są wykorzystywane do dobrych decyzji.
Dyskretna jaszczurka
@Discretelizard Jasne, zgadzam się do pewnego stopnia. Przedstawiam raczej surowy podział (może prawie karykaturę?) I koncentruję się na podstawowych częściach każdego pola, aby podkreślić różnice w typach problemów, dla których każde pole jest zazwyczaj dostrojone. Krawędzie obu pól mogą być dość niewyraźne (szczególnie w DS, która jest znacznie nowsza) i prawdopodobnie jest tam więcej nakładek. Zgadzam się również, że wiele głównego nurtu DS obejmuje rzeczy ML, ale nie byłem pewien, jak dokładnie DS jest podzielony od ML.
mhum
4

To nie jest pełna odpowiedź, ponieważ mhum jest całkiem dobry w zestawianiu różnych celów OR vs DS.

Chcę raczej odnieść się do tego komentarza:

Zastanawiałem się, czy można na przykład zastosować jakieś techniki OR do rozwiązania problemów z DS.

Odpowiedź brzmi tak. Najjaśniejszym przykładem, jaki przychodzi mi na myśl, jest Support Vector Machines (SVM) .

Aby „dopasować” model SVM do niektórych danych (co należy zrobić przed użyciem go do wnioskowania o prognozach), należy rozwiązać następujący problem optymalizacji:

Maksymalizuj podwójny,

sol(za)=ja=1mαja-12)ja=1mjot=1mαjaαjotyjayjotxjaT.xjot,

z zastrzeżeniem ograniczeń

0αjado,ja=1nyjaαja=0

Jest to ograniczony problem optymalizacji, podobnie jak wiele innych w dziedzinie OR, i rozwiązuje się go za pomocą metod programowania kwadratowego lub metod punktów wewnętrznych. Są one generalnie związane z obszarem OR, a nie DS, ale jest to przykład ich szerszego zastosowania.

Mówiąc bardziej ogólnie, optymalizacja jest kluczem do wielu modeli statystycznych i uczenia maszynowego stosowanych w dziedzinie DS, ponieważ proces szkolenia tych modeli można zazwyczaj sformułować jako problem minimalizacji obejmujący funkcję straty / żalu - od skromnego stulecia model regresji liniowej do najnowszej sieci neuronowej do głębokiego uczenia.

Dobrym odniesieniem do SVM jest Bishop .

AG
źródło
2

Jako strateg miałem okazję współpracować z obiema stronami dyscypliny. Próbując wyjaśnić, czym są OR i DS dla jakościowego menedżera MBA, moje (zbyt) uproszczone wprowadzenie w jednym wierszu dla każdego

LUB: ekonomiści, którzy wiedzą, jak kodować
DS: statystycy, którzy wiedzą, jak kodować.

W praktyce sposób, w jaki zazwyczaj obie grupy się ze sobą łączą: strona OR opracowuje model decyzyjny, a strona DS opracowuje odpowiednią implementację danych w celu zasilania modelu.

Każdy z nich będzie polegał na teoretycznych tradycjach swoich dyscyplin - wspólnie przeprowadzają eksperymenty w celu ustrukturyzowania danych i udoskonalenia modelu w celu uzyskania prawdziwych spostrzeżeń potrzebnych do optymalnych decyzji. Kiedy każdy poznaje się nawzajem, ich myślenie i język zwykle się zbiegają.

user88056
źródło
1
Rozumiem praktyczny opis DS jako „statystyków, którzy kodują”, ale opis dla OR wydaje mi się nieco dziwny. LUB obejmuje logistykę i powiązane problemy z routingiem. To naprawdę nie wydaje mi się naturalnym miejscem dla ekonomisty. Być może mógłbyś wyjaśnić, dlaczego ekonomiści w praktyce robią OR?
Dyskretna jaszczurka
1
@Discretelizard Nie wątpię, że ekonomiści robią RNO, ale, jak mówisz, jest mnóstwo takich RNO, które nie mają nic wspólnego z ekonomią i są wykonywane przez informatyków, matematyków i innych.
David Richerby,
0

Analiza danych jest szeroką dziedziną, która ogólnie zajmuje się danymi. Jeśli brzmi to niejasno, jest to normalne, ponieważ tak naprawdę jest. To było popularne słowo już od kilku lat. Zasadniczo próbuje znaleźć sposób na wykorzystanie danych: co mogę zrobić z moimi danymi (jakie spostrzeżenia mogę z nich uzyskać?).

Badania operacyjne to nauka o optymalizacji matematycznej: modelujesz problem w „równania”, rozwiązujesz ten model matematyczny i przekładasz rozwiązania z powrotem na początkowe ustawienie problemu. Jest to narzędzie pomocne w podejmowaniu decyzji: co powinienem / mogę zrobić, aby uzyskać to lub tamto.

Wiele problemów biznesowych można postrzegać jako problemy związane z optymalizacją. Biorąc pod uwagę, że staram się maksymalizować moje przychody, biorąc pod uwagę ograniczenia zasobów, jak dokładnie prowadziłbym swoją działalność, jakie wartości powinienem ustawić dla zmiennych decyzyjnych. Problemy takie jak planowanie, planowanie obiektu, zarządzanie łańcuchem dostaw ... itd. Wszystkie techniki optymalizacji dźwigni.

Optymalizacja portfela to także klasyczny przykład, w którym stosowana jest optymalizacja. Załóżmy, że mogę inwestować w kilka różnych aktywów w moim portfelu, każdy z niedeterministycznymi zwrotami, w jaki sposób powinienem zbilansować mój portfel, aby zminimalizować ryzyko mojego całego portfela przy jednoczesnym utrzymaniu poziomu zwrotu pieniężnego. W tym ustawieniu funkcją celu często staje się ryzyko / wariancja portfela, a ograniczeniami są wymagana stopa zwrotu z inwestycji, a także ilość posiadanych pieniędzy.

Rameez
źródło
3
Podajesz tylko krótkie podsumowania obu pól. Ta odpowiedź nie odnosi się do różnic i / lub podobieństw między DS i OR, dla których konkretnie zadano pytanie. Możesz poprawić swoją odpowiedź, skupiając się na tej części
Dyskretna jaszczurka
-1

Jeśli zaliczasz ML i AI kierowane przez ML jako część Data Science (co niektórzy robią, a niektórzy nie zgodnie z moim doświadczeniem, na przykład profesjonalny program Microsoft w AI zawiera kluczowe aspekty Data Science + Machine learning (z DL i RL) ), podczas gdy Higher School of Economics prezentuje praktycznie te same zaawansowane części Microsoft cuuriculum co Advanced Machine Learning), istnieje wiele podobieństw w matematyce stosowanej w obu dziedzinach. Na przykład: Programowanie nieliniowe (mnożniki Lagrange'a, warunki KKT ...) -> używane do wyprowadzania maszyn wektorów wsparcia ... Ekonometria, która opiera się głównie na Regresjach ---> Regresje są kluczową częścią obu Scinece w ogóle i dokładniej Uczenie nadzorowane ... Statystyka (zwykle znajduje się w programie nauczania OR) ---> klucz do nauki danych i uczenia maszynowego ... Procesy stochastyczne ---> bardzo ważne w uczeniu się przez zbrojenie ... Programowanie dynamiczne ---> ponownie znalezione w uczeniu się przez zbrojenie ... Powiedziałbym więc, że istnieją pewne podobieństwa z Data Science w ogóle i całkiem podobne podobieństwa z ML. Oczywiście cele tych dyscyplin są różne, ale istnieje wiele podobieństw w matematyce stosowanej w tych dyscyplinach.

Goran Mabic
źródło
Jak odpowiada na pytanie?
Zły