Jakich statystyk nie można zautomatyzować?

26

Czy oprogramowanie w końcu spowoduje, że statystyki staną się przestarzałe? Co zrobiono, czego nie można zaprogramować w komputerze?

Adam
źródło
21
Oni myślą (tj przynieść wiedzę ponieść).
gung - Przywróć Monikę
10
Interpretacja wyników ;-)
ocram
5
to samo pytanie można zadać ogólnie programistom;)
nb1
4
Projektujemy badania, aw szczególności musimy radzić sobie z rzeczywistymi problemami, w których nie można wdrożyć statystycznie „najlepszego” projektu. Usuwamy brudne dane, przenosząc wiedzę z prawdziwego świata. Interpretujemy również wyniki w prosty sposób [wstaw wybrany język].
Michelle
13
pić piwo! ; o)
Dikran Torbacz

Odpowiedzi:

28

@Adam, jeśli myślisz o badaczach statystycznych analogicznie do tych z innych dziedzin - ludzi, którzy opierają się na istniejącej metodologii i wiedzy - to może wyjaśnić, że odpowiedź na twoje pierwsze pytanie brzmi „nie”.

Statystycy, którzy zarabiają na życie po prostu stosując pakiety oprogramowania w puszkach, mogliby zostać zastąpieni komputerami na każdym kroku, z wyjątkiem pisania sekcji dyskusji w artykule, w którym wyniki należy interpretować. W tym sensie tak - można go zautomatyzować (choć musiałby to być skomplikowany program, który ma piekło procesora języka naturalnego).

Jednak, jak większość naukowców ostatecznie się domyśliło, „standardowe” procedury, z których często korzystają ludzie, są dość ograniczone i muszą zostać zmodyfikowane (lub należy całkowicie opracować nowe metody), aby odpowiedzieć na wyspecjalizowane pytania badawcze - w tym przypadku ludzki aspekt statystyki jest niezbędny . Lub badacz musi po prostu zadowolić się nieco innym, ale pokrewnym pytaniem badawczym, na które można odpowiedzieć za pomocą klasycznych metod.

Większość statystów, których znam, pracuje na stanowiskach badawczych (np. Profesorowie, naukowcy), gdzie ich podstawową rolą jest opracowanie nowej metodologii. Jeśli ten proces można zautomatyzować, co oznacza, że ​​komputer może sformułować i opracować użyteczną nową metodologię, obawiam się, że badacze w każdej dziedzinie byliby przestarzali.

Makro
źródło
2
Myślę, że w drugim akapicie nie ma sensu: trudny jest nie tylko koniec procesu (interpretacja wyników), ale także początek - zrozumienie, jakie metody zastosować do danych w jaki sposób, co w ogólnym przypadku wymaga zrozumienia natury danych i systemu, z którego pochodzą.
Cascabel,
@Jefromi, jak skomentowałem komuś poniżej, myślę, że zrozumienie pochodzi od eksperta w dziedzinie zastosowań, a nie od statystyk.
Makro
Gdyby zrozumienie „pochodziło” od ekspertów w dziedzinie aplikacji, moja praca byłaby o wiele łatwiejsza (i znacznie mniej przyjemna). Istnieje problem ramowy: coś, co zdaniem eksperta nie może powiedzieć, może być ważne dla analizy statystycznej. W praktyce najbardziej owocna współpraca skutkuje uzyskaniem przez eksperta rzetelnej wiedzy statystycznej, a statystycy rzetelnej wiedzy na temat zakresu zastosowania.
Scortchi - Przywróć Monikę
33

Komputery powodują, że statystyki stają się przestarzałe tylko wtedy, gdy silna sztuczna inteligencja czyni ludzi jako całość przestarzałymi.

Pytanie przypomina mi pytanie: „Jeśli istnieją wszystkie te solidne metody statystyczne, dlaczego ludzie nadal używają innych metod?” Jedną z odpowiedzi jest nawyk i trening, ale większość z nich polega na tym, że pytanie jest naiwne: „solidny” nie oznacza „nie musisz myśleć i rozumieć, co robisz”, jak sugeruje to pytanie.

To znaczy, możesz pobrać pakiet statystyk R już dziś i wykonywać wszelkie podstawowe techniki statystyczne przed zapadnięciem zmroku. Następnie możesz pobrać kilka pakietów i zacząć używać tak ezoterycznych metod, że większość z nas nawet o nich nie słyszała. Pytanie brzmi: czy uzyskałbyś rozsądne odpowiedzi? Odpowiedź brzmi: prawdopodobnie nie.

Algorytmy są zautomatyzowane, ale wciąż musisz wykonywać wiele ocen na całej ścieżce dochodzenia: od planu ataku do ostatecznej oceny, czy wyniki rzeczywiście mają sens. Aby dojść do tego momentu, naprawdę mówisz o komputerach podobnych do Star-Trek, w których możesz powiedzieć: „Komputer, powiedz mi ...”, w którym to momencie niemal każde ludzkie powołanie jest przestarzałe.

Wayne
źródło
4
+1 za „Komputery powodują, że statystyki stają się przestarzałe, gdy silna sztuczna inteligencja powoduje, że ludzie stają się przestarzali”.
Makro
10

Co może zrobić statystyk, czego nie potrafi komputer? Napisz oryginalny program, który zostanie zastąpiony.

Poza tym odpowiedź nieco głupie, korzeń pytanie ignoruje rzeczywiste nauki statystyk na rzecz swoich mechaników i całkowicie zdyskontowanie rolę procesu twórczego w analizie statystycznej. To na przykład samochód Petera Floma, na przykład mówienie, że samochody są budowane przy użyciu nitów i spawów, więc nie ma powodu, dla którego nowego Mustanga nie można zaprojektować za pomocą nitujących i spawalniczych robotów.

Ogromna ilość statystyk wymaga wiedzy specjalistycznej, wezwań do osądu i kreatywności. Analiza „z puszki” uruchomiona na podstawie algorytmu często nie daje najlepszej odpowiedzi, a istnieją niezliczone udokumentowane przykłady, w których użycie metod automatycznych faktycznie daje złą odpowiedź - a przynajmniej nie taką, którą uważasz za otrzymaną. Stosowanie krokowej procedury selekcji zmiennych opartej na wartości p i analizy oparte na kwantylach czysto numerycznych to dwa, które znam najbardziej, ale jestem pewien, że można tam znaleźć wiele innych.

Nawet jeśli wszystko to było w jakiś sposób zautomatyzowane, kwestia interpretacji wyników jest kwestią interpretacyjną. Zadanie statystyki (lub naukowca o skłonnościach statystycznych) nie jest wykonywane, gdy uzyskasz współczynnik regresji lub wartość p. Co oznacza, że znalezienie średnią . Jakie są zastrzeżenia? Co to reprezentuje w kontekście tego, co było wcześniej?

Wreszcie masz opracowane nowe metody. Statystyki nie są czymś, co po prostu dawno temu przedstawili ludzie, których nazwiska rozpoznajemy - Fisher, Cox itp. Jest to dziedzina ewoluująca i nie można zaprogramować nowej metody w komputerze, dopóki osoba nie opracuje samej metody.

Fomite
źródło
2
(+1), ponieważ „Analizy z wykorzystaniem algorytmu często nie dadzą najlepszej odpowiedzi” jest bardzo prawdziwe. Nie oznacza to, że ludzie praktykujący statystyki nie robią tego przez cały czas. (Uwaga: większość praktykujących w statystykach NIE jest statystykami ... bardziej jak ludzie, którzy używają statystyk, mimo że tak naprawdę nie wiedzą, co robią, co często prowadzi do złej nauki)
Makro
10

Innym sposobem interpretacji tego pytania może być: „czy szybki wzrost zautomatyzowanych technik statystycznych w ostatnich latach odpowiadał zmniejszonemu zapotrzebowaniu na miejsca pracy dla oddanych statystyków i analityków danych?”

Możemy odpowiedzieć na to pytanie, patrząc na dane rynek pracy dla stanowisk analizy danych
wprowadź opis zdjęcia tutaj

Dane dzięki uprzejmości rzeczywiście.com i blogu o obrotach

cboettig
źródło
+1 Nawet Indeed.com nie zrobił @cboettig obselete.
Thomas Levine
4
Nie jestem przekonany, że „zapotrzebowanie na pracę dla oddanych statystyk i analityków danych” ma silną korelację z użyciem słów kluczowych „naukowiec danych” lub „big data” w ogłoszeniach o pracę. <- bycie podejrzanym w stosunku do założeń jest tym, co człowiek przynosi do stołu ;-)
Darren Cook
@DarrenCook dobrze powiedziane!
cboettig
7

Nie do końca zgadzam się z założeniem pytania, tj. Myślę, że nie ma sposobu, aby komputery kiedykolwiek miały nadzieję zastąpić statystyków, ale dać konkretny przykład, dlaczego:

Praca, którą statystycy wykonują z naukowcami, w szczególności w zakresie projektowania i interpretacji eksperymentów, wymaga nie tylko ludzkiego umysłu, ale nawet filozoficznej skłonności, której nie można pojąć, by komputery mogły kiedykolwiek pokazać.

O ile nie znajdziemy się w sytuacji typu Skynet, oczywiście, w takim przypadku uważam, że wszystkie zakłady są prawdopodobnie dalekie od przyszłości całej ludzkości, nie mówiąc już o statystykach :-)

Chris Beeley
źródło
1
Tyle że mam kotów, którzy są posłuszni. :)
Michelle,
5

Pytanie sugeruje naiwne spojrzenie na statystyki - że chodzi o sprawdzenie, czy ap <0,05 i zgłoszenie niektórych liczb i standardowych wykresów. Jeśli to rozumiesz przez statystyk, masz rację, zakładając, że większość z nich może być całkowicie zautomatyzowana. Ale nie to oznacza statystyki.

Zdefiniuj jednak termin statystyki, a możesz uzyskać lepsze odpowiedzi.

Jan
źródło
3

Załadowanie pakietu statystyk na komputer nie czyni z ciebie statystysty bardziej niż kupno samochodu, który umożliwia prowadzenie pojazdu.

Nawet jeśli statystyk po prostu stosuje procedury „konserwowane”, jest wiele pytań.

  1. Która rutyna? Jaka rutyna odpowie na pytania klienta?
  2. Z jakimi zmiennymi? i czy należy je przekształcić? Czy niektóre poziomy należy łączyć? Który powinien zostać zmuszony do modelowania?
  3. Z jakich danych? Czy należy usunąć wartości odstające? Przycięty? Może solidna metoda?

i tak dalej.

Ale zadanie zaczyna się na długo przed włączeniem komputera i kończy się długo po wyłączeniu pakietu statystycznego.

Przed: Co klient chce zrobić? Często jest to dużo pracy! Jakie dane ma klient? O tak! Zmienne są oznaczone od V1 do V828171 Które są które? Jaki jest stan literatury? Czego będzie oczekiwać klient? Jak powinno to być techniczne?

Po: co oznaczają wyniki ? (i nie tylko „oznacza to, że regresja jest znacząca”) Jak wyjaśnić klientowi wyniki? Jakie inne pytania wiążą się z wynikami?

Myślę, że minie dużo czasu, zanim komputery to zrobią.

Peter Flom - Przywróć Monikę
źródło
1
Aby odpowiedzieć na pytania wymienione w (1), (2) i (3), przechodzisz przez logiczny proces. Teoretycznie ten logiczny proces można zakodować w programie komputerowym. Gdyby komputer miał doskonały procesor języka naturalnego, a oprogramowanie zawierało całe „puszkowane” oprogramowanie, i gdyby zaprogramowano wyżej wspomnianą logikę, byłby w stanie to zrobić. A może mówisz, że nie jest to logiczny proces?
Makro
4
Dla mnie analogia ta jest nieco bliższa „zakup samochodu nie czyni cię mechanikiem ani projektantem samochodu”.
kardynał
1
@Macro Ponieważ jest to logiczny proces, niekoniecznie oznacza, czy można go zaprogramować w komputerze. „W przypadku łączenia niektórych poziomów” nie zawsze jest miarą numeryczną - wymaga na przykład rozważenia, czy te połączone poziomy mają sens na przykład w kontekście samej zmiennej.
Fomite
1
Decyzja, czy ma to sens w kontekście aplikacji, nie jest również pytaniem dla statystyk - jest to pytanie do eksperta w dowolnej aplikacji. Statystyk może powiedzieć, czy uzasadnione jest łączenie poziomów w oparciu o to, czy wydają się one jednorodne, czy na pewno można je nauczyć komputera.
Makro
4
Nie mogę się oprzeć, wskazując, że Google poczyniła znaczne postępy w kierunku, w którym zakup samochodu będzie sprawi, że stanie prowadzić - zrobi to automatycznie!
whuber
2

Studia akademickie, które przyglądają się prawdopodobieństwu automatyzacji różnych zawodów lub zadań, nie sądzą, że statystycy wkrótce zostaną zastąpieni komputerami. Zobacz na przykład kontrowersyjne badanie Frey & Osborne (2013), które uszeregowuje zawody według prawdopodobieństwa komputeryzacji, statystycy zajmują niską pozycję 213 z 702 z prawdopodobieństwem 22% (patrz tabela w załączniku). Jeśli jesteś zainteresowany, zobacz także artykuł na temat łupków tutaj .

Arntz i in. (2016) ( tutaj artykuł The Economist) patrzą raczej na zadania niż zawody dla Unii Europejskiej i dochodzą do podobnego wniosku: robienie „Złożonej matematyki lub statystyki” jest statystycznie znacząco negatywnie związane z automatycznością pracy (patrz Tabela 3).

Ale wskazana jest pewna ostrożność, naukowcy i / lub ekonomiści nie zawsze byli bardzo dobrzy w przewidywaniu przyszłości (laureat Nagrody Nobla Robert Lucas na przykład stwierdził w 2003 roku, kilka lat przed kryzysami finansowymi, że „głównym problemem zapobiegania depresji jest został rozwiązany dla wszystkich praktycznych celów i faktycznie został rozwiązany przez wiele dziesięcioleci. ” ). Oba badania wydają się być dokumentem roboczym, który jest szeroko dyskutowany, ale nie został opublikowany w standardowych czasopismach recenzowanych.

Jeśli chodzi o debatę akademicką, tutaj można znaleźć artykuł przeglądowy na temat stanu badań nad automatyzacją.

Arne
źródło
0

Myślę, że sztuczna inteligencja sprawi, że statystycy będą mądrzejsi i bardziej konkurencyjni. Czemu? Ponieważ taka jest intencja sztucznej inteligencji od czasu ich koncepcji wiele dziesięcioleci temu ...

użytkownik22478
źródło