Czy poprawne statystyki w środowisku pracy?

20

Nie jestem pewien, do kogo należy to pytanie: Cross Validated lub The Workplace. Ale moje pytanie jest niejasno związane ze statystykami.

To pytanie (lub chyba pytania) powstało podczas mojej pracy jako „stażysta w dziedzinie danych”. Budowałem ten model regresji liniowej i badałem wykres resztkowy. Widziałem wyraźny znak heteroskedastyczności. Pamiętam, że heteroskedastyczność zniekształca wiele statystyk testów, takich jak przedział ufności i test t. Użyłem więc ważonej metody najmniejszych kwadratów, zgodnie z tym, czego nauczyłem się na studiach. Mój kierownik to zauważył i odradził mi to, ponieważ „komplikowałem sprawę”, co nie było dla mnie zbyt przekonującym powodem.

Innym przykładem byłoby „usunięcie zmiennej objaśniającej, ponieważ jej wartość p jest nieznaczna”. Być może ta rada po prostu nie ma sensu z logicznego punktu widzenia. Zgodnie z tym, czego się nauczyłem, nieznaczna wartość p może być spowodowana różnymi przyczynami: przypadkiem, niewłaściwym modelem, naruszeniem założeń itp.

Jeszcze innym przykładem jest to, że użyłem walidacji krzyżowej k-fold do oceny mojego modelu. Zgodnie z wynikiem jest po prostu znacznie lepszy niż . Ale mamy niższy dla modelu 1, a powód ma coś wspólnego z przechwyceniem . Mój przełożony wydaje się jednak preferować model 2, ponieważ ma wyższy . Jego powody (takie jak jest solidny lub cross-validation to podejście oparte na uczeniu maszynowym, a nie podejście statystyczne) po prostu nie wydają się wystarczająco przekonujące, aby zmienić zdanie.doV.moremil1doV.moremil2)R2)R2)R2)

Jako ktoś, kto właśnie ukończył studia, jestem bardzo zdezorientowany. Bardzo pasjonuję się stosowaniem prawidłowych statystyk do rozwiązywania problemów w świecie rzeczywistym, ale nie wiem, które z poniższych stwierdzeń jest prawdziwe:

  1. Statystyki, których się nauczyłem, są po prostu błędne, więc popełniam błędy.
  2. Istnieje ogromna różnica między statystyką teoretyczną a budowaniem modeli w firmach. I chociaż teoria statystyki jest słuszna, ludzie po prostu jej nie przestrzegają.
  3. Menedżer nie używa statystyk poprawnie.

Aktualizacja z 17.04.2017: Zdecydowałem się na doktorat. w statystykach. Dziękuję wszystkim za odpowiedź.

3x89g2
źródło
1
Z twoim pytaniem związane są komentarze (szczególnie te na końcu) poniżej tej odpowiedzi: stats.stackexchange.com/questions/229193/…
Ta dyskusja może być również istotna . W praktyce możesz czasami używać modeli, w których dane naruszają niektóre wymagane założenia (np. Naive Bayes na zmiennych zależnych) i nadal mają interesujące wyniki. Ale musisz wtedy bardzo uważać na wyciągnięte wnioski, i to jest główny problem: większość ludzi po prostu nie dba o znaczenie twoich wyników, dopóki wyniki są osiągane. Opublikuj lub zgiń ...
wredny
1
Odpowiedzi „masz rację, a on się myli” są prawdopodobnie prawidłowe i dotyczą twojej sprawy. W każdym razie uważaj, że czasami odpowiedź może brzmieć: „jest w błędzie, ale jego niewłaściwy sposób działa dla jego celów - może działa nawet lepiej niż właściwy dla jego niestatystycznych celów prowadzenia działalności gospodarczej”. Myślę, że zdarza się to często przy wszelkiego rodzaju wiedzy naukowej, nie tylko statystykach. Być może w SE Workplace mogą podać przykłady niestatystyczne.
Pere
3
@Aksakal: Z tego, co OP opisuje statystycznie , jest bardziej prawdopodobne, że ma rację. Twoja osobista anegdota jest tylko anegdotą. Mogę temu przeciwdziałać, mówiąc, że przeniosłem się do pracy, w której testy A / B zostałyby wykonane przy użyciu zaledwie 30 próbek; pokazanie podstawowych obliczeń mocy zmieniło sposób myślenia zespołu o wielkościach próbek i podejmowaniu decyzji. Wracając do pytania PO, zgadzam się, że to, co zostało opisane, nie oznacza, że ​​przełożony PO wykonał niewłaściwe połączenie. Przepływy pracy w biznesie mają ze sobą szczególną bezwładność, a „nowy facet” musi udowodnić, że jest kaznodzieją, zanim zostanie prorokiem ...
mówi usεr11852 Przywróć Monic
1
@ usεr11852, mój komentarz był rantem :) ale ma rację, myślę: dla kogoś, kto jest nowy w tej dziedzinie, bezpieczniej jest założyć, że szef wie lepiej. z doświadczeniem może rozluźnić to założenie, być może przypisać większą wagę własnej opinii, a mniej szefowi ”. dla stażysty waga na własną opinię powinna być zbliżona do ZERO.
Aksakal

Odpowiedzi:

12

p

Myślę, że jedyną rzeczą, którą należy zrobić w obliczu takiej sytuacji, jest dokładne wyjaśnienie, co jest nie tak z niewłaściwą praktyką, na przykładzie lub dwóch.

Kodiolog
źródło
3
Dziękuję za odpowiedź. Wydaje mi się, że „kolejnym krokiem” jest to, czy istnieje jakieś zadanie, które faktycznie wykonuje prawidłowe statystyki? Rozumiem, że nauka danych jest obecnie bardzo popularna, ale jakoś mam wrażenie, że wielu „naukowców danych” tak naprawdę nie interesuje się robieniem poprawnych statystyk ...
3x89g2
1
@Misakov Myślę, że to naprawdę zależy od osoby lub organizacji. Ale modne słowa, takie jak „nauka danych”, „analityka” i „inteligencja biznesowa” są czerwonymi flagami. I nie zapominaj, że podczas rozmowy kwalifikacyjnej przeprowadzasz również z nimi wywiad. Nie tylko sprawia, że ​​dobrze wyglądasz, zadając szczegółowe pytania na temat tego, jak się to robi; pozwala zobaczyć, jak poważnie traktują analizę danych.
Kodiolog,
@Misakov Prawdopodobnie będziesz musiał iść na uczelnię, jeśli naprawdę chcesz robić poprawne statystyki. Zdecydowana większość (patrz moja odpowiedź powyżej) zastosowań przemysłowych będzie błędna.
Mooks
R2)
1
@ usεr11852 Dobry (tj. nie spiczasty) kierownik przełoży się na pracowników, gdy będą wiedzieli lepiej niż on. „Biorąc pod uwagę, że przedsiębiorstwo nadal istnieje, decyzje menedżera nie są tak złe ” - Wyścig nie jest szybki.
Kodiolog,
11

Kodiolog ma rację - masz rację, myli się. Jednak niestety jest to jeszcze bardziej powszechny problem z miejscem niż to, z czym się spotykasz. Jesteś w branży, która radzi sobie stosunkowo dobrze.

mmizan+3)σ

Teraz, oprócz faktu, że ten przedział ufności nie mówi im, czego tak naprawdę potrzebują (potrzebują do tego przedziału tolerancji), dzieje się to na ślepo w przypadku parametrów, które unoszą się w pobliżu pewnej maksymalnej lub minimalnej wartości (ale w przypadku gdy przedział wygrał ” faktycznie przekracza te wartości). Ponieważ Excel obliczy, czego potrzebują (tak, powiedziałem Excel), ustawili swoje specyfikacje zgodnie z tym, pomimo faktu, że parametr nie będzie w pobliżu normalnie rozłożonego. Tych ludzi nauczono podstawowych statystyk, ale nie wykresów qq lub podobnych. Jednym z największych problemów jest to, że statystyki podadzą ci liczbę, nawet jeśli są używane niewłaściwie - więc większość ludzi nie wie, kiedy to zrobiły.

Innymi słowy, specyfikacje zdecydowanej większości produktów, w zdecydowanej większości branż, są nonsensowne.

Jednym z najgorszych przykładów ludzi ślepo śledzących statystyki, bez zrozumienia, jest użycie Cpk w przemyśle motoryzacyjnym. Jedna firma spędziła około roku kłócąc się o produkt ze swoim dostawcą, ponieważ uważali, że dostawca może kontrolować swój produkt do poziomu, który był po prostu niemożliwy. Ustawiali tylko maksymalną specyfikację (bez minimum) parametru i użyli Cpk do uzasadnienia swojego twierdzenia - dopóki nie wskazano, że ich obliczenia (gdy zostały użyte do ustalenia teoretycznego minimalnego poziomu - nie chcieli tego, więc nie sprawdzili ) oznaczało ogromną wartość ujemną. To, dla parametru, który nigdy nie może być mniejszy niż 0. Cpk zakłada normalność, proces nie dał prawie żadnych normalnych danych. Zajęło to dużo czasu, aby to zatopić. Wszystko to zmarnowało czas i pieniądze, ponieważ ludzie nie zrozumieć, co obliczają - i mogłoby być znacznie gorzej, gdyby tego nie zauważono. Może to mieć wpływ na to, dlaczego w branży motoryzacyjnej regularnie się wycofuje!

Ja sam pochodzę ze środowiska naukowego i, szczerze mówiąc, nauczanie statystyki w naukach ścisłych i inżynierii jest szokująco niewystarczające. Nigdy nie słyszałem o większości tego, czego potrzebuję teraz - wszystko to zostało samoukiem i istnieją (w porównaniu do właściwego statystyki) ogromne luki w mojej wiedzy nawet teraz. Z tego powodu nie obrażam ludzi niewłaściwie wykorzystujących statystyki (prawdopodobnie nadal robię to regularnie), to słaba edukacja.

Wracając do pierwotnego pytania, to naprawdę nie jest łatwe. Zgodziłbym się z zaleceniem Kodiologa, aby spróbować delikatnie wyjaśnić te rzeczy, aby wykorzystać odpowiednie statystyki. Ale chciałbym dodać dodatkowe zastrzeżenie do tego, a także doradzić odebrać swoje walki mądrze, dla dobra swojej kariery.

To niefortunne, ale faktem jest, że nie będziesz w stanie zmusić wszystkich do robienia najlepszych statystyk za każdym razem. Wybierz, aby je poprawić, gdy naprawdę ma to znaczenie dla ostatecznego ogólnego wniosku (co czasami oznacza robienie rzeczy na dwa różne sposoby). Są chwile (np. Przykład z modelu 1,2), w których użycie „niewłaściwego” sposobu może prowadzić do takich samych wniosków. Unikaj zbyt częstego korygowania zbyt wielu osób.

Wiem, że to frustruje intelektualnie, a świat powinien działać inaczej - niestety nie. Do pewnego stopnia będziesz musiał nauczyć się oceniać swoje bitwy na podstawie indywidualnych osobowości twoich kolegów. Twoim (karierowym) celem jest bycie ekspertem, do którego chodzą, kiedy naprawdę potrzebują pomocy, a nie wybredna osoba, która zawsze próbuje je poprawić. W rzeczywistości, jeśli staniesz się tą osobą, prawdopodobnie odniesiesz największy sukces w zachęcaniu ludzi do słuchania i robienia rzeczy we właściwy sposób. Powodzenia.

Mooks
źródło
Excel jest prawdopodobnie najczęściej używanym oprogramowaniem do analizy danych. Nie ma potrzeby dodawania uwagitak, powiedziałem to! ”. Chyba że ktoś nie opuści środowiska akademickiego (a może wielkiej farmacji) nie rzuciłby ci oka w twoje oryginalne oświadczenie. (
Dobra
1
Jest najczęściej używany i myślę, że to podkreśla mój pierwotny punkt. Excel ma ogromne braki w zakresie analizy danych. Jeśli to, co robisz, odbywa się w programie Excel, tak naprawdę nie możesz nazwać go analizą danych - chyba że samodzielnie wprowadzasz wszystkie obliczenia. Nie ma nic przeciwko Excelowi jako arkuszowi kalkulacyjnemu, ale w najlepszym razie jest to podstawowe narzędzie do analizy danych. Ale ludzie nie wiedzą nic lepszego, ponieważ nie uczy się ich lepiej. Nie pochodzę ze statystyk, ale miałem szczęście, że ktoś wspomniał mi o R za tworzenie lepszych wykresów - i to przypadkiem doprowadziło mnie do lepszych statystyk.
Mooks,
„Zgodziłbym się z zaleceniem Kodiologa, aby spróbować delikatnie wyjaśnić te kwestie, aby wykorzystać odpowiednie statystyki”. - Chcę być świadkiem. Stażysta wyjaśniający swojemu pracodawcy, jak robić interesy.
Aksakal
1
Pomoże to, sprawdź nr 9. To powszechna rada, która pojawia się w tego rodzaju listach przez cały czas. Pierwsze 100 dni w pracy: nie sugeruj, aby coś zmieniać, najpierw dowiedz się, dlaczego ludzie robią to tak, jak robią, często zdarza się, że istnieje ważny powód. Zrobisz z siebie głupca, a ja widziałem, jak to się dzieje z nowymi facetami w kółko. Zamknij się i obserwuj przez kilka miesięcy
Aksakal
@Aksakal To, co powiedziałeś, zdecydowanie ma sens. W swojej sytuacji zachowuję się nieco „odważnie”, głównie dlatego, że jestem stażystą i wiem, że i tak wkrótce wyjeżdżam.
3x89g2
3

To, co zostało opisane, wydaje się nieco złym doświadczeniem. Niemniej jednak nie powinno to powodować natychmiastowego kwestionowania własnego wykształcenia ani oceny statystycznej przełożonego / kierownika.

R2)praca, a nie asymptotyczne zachowanie gdzieś w przyszłości, niewiele znaczy. Ludzie niechętnie to zaakceptują; po co wydawać energię na zmianę, gdy wszystko działa (nieco) Twój menedżer niekoniecznie się myli z perspektywy biznesowej. Jest odpowiedzialny za dane statystyczne oraz decyzje biznesowe twojego działu; decyzje te niekoniecznie pokrywają się zawsze i raczej nie pokrywają się z krótkoterminowymi rezultatami (ograniczenia czasowe są bardzo ważnym czynnikiem w analizie danych branżowych).

Radzę trzymać się broni (statystycznej), ale bądź otwarty na to, co ludzie robią, bądź cierpliwy wobec ludzi, którzy mogą być oderwani od nowych praktyk statystycznych i udzielaj porad / opinii, gdy zostaniesz o to poproszony , wyhoduj grubszą skórę i ucz się z otoczenia. Jeśli robisz właściwe rzeczy, to powoli pokaże, ludzie będą chcieli twojej opinii, ponieważ rozpoznają, że możesz zaoferować rozwiązania, w których ich obecny przepływ pracy nie jest. Wreszcie, tak, pewnie, jeśli po upływie rozsądnego czasu (przynajmniej kilka miesięcy) poczujesz, że jesteś zdewaluowany i lekceważony, po prostu idź dalej.

Jest rzeczą oczywistą, że teraz w branży nie można usiąść i myśleć, że nie trzeba doskonalić edukacji statystycznej. Modelowanie predykcyjne, strategie regresji, algorytmy grupowania wciąż ewoluują. Na przykład zastosowanie regresji procesów gaussowskich w środowisku przemysłowym było bliskie science fiction 10 lat temu; teraz można to zobaczyć prawie jak produkt z półki.

usεr11852 mówi Reinstate Monic
źródło