Nie jestem pewien, do kogo należy to pytanie: Cross Validated lub The Workplace. Ale moje pytanie jest niejasno związane ze statystykami.
To pytanie (lub chyba pytania) powstało podczas mojej pracy jako „stażysta w dziedzinie danych”. Budowałem ten model regresji liniowej i badałem wykres resztkowy. Widziałem wyraźny znak heteroskedastyczności. Pamiętam, że heteroskedastyczność zniekształca wiele statystyk testów, takich jak przedział ufności i test t. Użyłem więc ważonej metody najmniejszych kwadratów, zgodnie z tym, czego nauczyłem się na studiach. Mój kierownik to zauważył i odradził mi to, ponieważ „komplikowałem sprawę”, co nie było dla mnie zbyt przekonującym powodem.
Innym przykładem byłoby „usunięcie zmiennej objaśniającej, ponieważ jej wartość p jest nieznaczna”. Być może ta rada po prostu nie ma sensu z logicznego punktu widzenia. Zgodnie z tym, czego się nauczyłem, nieznaczna wartość p może być spowodowana różnymi przyczynami: przypadkiem, niewłaściwym modelem, naruszeniem założeń itp.
Jeszcze innym przykładem jest to, że użyłem walidacji krzyżowej k-fold do oceny mojego modelu. Zgodnie z wynikiem jest po prostu znacznie lepszy niż . Ale mamy niższy dla modelu 1, a powód ma coś wspólnego z przechwyceniem . Mój przełożony wydaje się jednak preferować model 2, ponieważ ma wyższy . Jego powody (takie jak jest solidny lub cross-validation to podejście oparte na uczeniu maszynowym, a nie podejście statystyczne) po prostu nie wydają się wystarczająco przekonujące, aby zmienić zdanie.
Jako ktoś, kto właśnie ukończył studia, jestem bardzo zdezorientowany. Bardzo pasjonuję się stosowaniem prawidłowych statystyk do rozwiązywania problemów w świecie rzeczywistym, ale nie wiem, które z poniższych stwierdzeń jest prawdziwe:
- Statystyki, których się nauczyłem, są po prostu błędne, więc popełniam błędy.
- Istnieje ogromna różnica między statystyką teoretyczną a budowaniem modeli w firmach. I chociaż teoria statystyki jest słuszna, ludzie po prostu jej nie przestrzegają.
- Menedżer nie używa statystyk poprawnie.
Aktualizacja z 17.04.2017: Zdecydowałem się na doktorat. w statystykach. Dziękuję wszystkim za odpowiedź.
Odpowiedzi:
Myślę, że jedyną rzeczą, którą należy zrobić w obliczu takiej sytuacji, jest dokładne wyjaśnienie, co jest nie tak z niewłaściwą praktyką, na przykładzie lub dwóch.
źródło
Kodiolog ma rację - masz rację, myli się. Jednak niestety jest to jeszcze bardziej powszechny problem z miejscem niż to, z czym się spotykasz. Jesteś w branży, która radzi sobie stosunkowo dobrze.
Teraz, oprócz faktu, że ten przedział ufności nie mówi im, czego tak naprawdę potrzebują (potrzebują do tego przedziału tolerancji), dzieje się to na ślepo w przypadku parametrów, które unoszą się w pobliżu pewnej maksymalnej lub minimalnej wartości (ale w przypadku gdy przedział wygrał ” faktycznie przekracza te wartości). Ponieważ Excel obliczy, czego potrzebują (tak, powiedziałem Excel), ustawili swoje specyfikacje zgodnie z tym, pomimo faktu, że parametr nie będzie w pobliżu normalnie rozłożonego. Tych ludzi nauczono podstawowych statystyk, ale nie wykresów qq lub podobnych. Jednym z największych problemów jest to, że statystyki podadzą ci liczbę, nawet jeśli są używane niewłaściwie - więc większość ludzi nie wie, kiedy to zrobiły.
Innymi słowy, specyfikacje zdecydowanej większości produktów, w zdecydowanej większości branż, są nonsensowne.
Jednym z najgorszych przykładów ludzi ślepo śledzących statystyki, bez zrozumienia, jest użycie Cpk w przemyśle motoryzacyjnym. Jedna firma spędziła około roku kłócąc się o produkt ze swoim dostawcą, ponieważ uważali, że dostawca może kontrolować swój produkt do poziomu, który był po prostu niemożliwy. Ustawiali tylko maksymalną specyfikację (bez minimum) parametru i użyli Cpk do uzasadnienia swojego twierdzenia - dopóki nie wskazano, że ich obliczenia (gdy zostały użyte do ustalenia teoretycznego minimalnego poziomu - nie chcieli tego, więc nie sprawdzili ) oznaczało ogromną wartość ujemną. To, dla parametru, który nigdy nie może być mniejszy niż 0. Cpk zakłada normalność, proces nie dał prawie żadnych normalnych danych. Zajęło to dużo czasu, aby to zatopić. Wszystko to zmarnowało czas i pieniądze, ponieważ ludzie nie zrozumieć, co obliczają - i mogłoby być znacznie gorzej, gdyby tego nie zauważono. Może to mieć wpływ na to, dlaczego w branży motoryzacyjnej regularnie się wycofuje!
Ja sam pochodzę ze środowiska naukowego i, szczerze mówiąc, nauczanie statystyki w naukach ścisłych i inżynierii jest szokująco niewystarczające. Nigdy nie słyszałem o większości tego, czego potrzebuję teraz - wszystko to zostało samoukiem i istnieją (w porównaniu do właściwego statystyki) ogromne luki w mojej wiedzy nawet teraz. Z tego powodu nie obrażam ludzi niewłaściwie wykorzystujących statystyki (prawdopodobnie nadal robię to regularnie), to słaba edukacja.
Wracając do pierwotnego pytania, to naprawdę nie jest łatwe. Zgodziłbym się z zaleceniem Kodiologa, aby spróbować delikatnie wyjaśnić te rzeczy, aby wykorzystać odpowiednie statystyki. Ale chciałbym dodać dodatkowe zastrzeżenie do tego, a także doradzić odebrać swoje walki mądrze, dla dobra swojej kariery.
To niefortunne, ale faktem jest, że nie będziesz w stanie zmusić wszystkich do robienia najlepszych statystyk za każdym razem. Wybierz, aby je poprawić, gdy naprawdę ma to znaczenie dla ostatecznego ogólnego wniosku (co czasami oznacza robienie rzeczy na dwa różne sposoby). Są chwile (np. Przykład z modelu 1,2), w których użycie „niewłaściwego” sposobu może prowadzić do takich samych wniosków. Unikaj zbyt częstego korygowania zbyt wielu osób.
Wiem, że to frustruje intelektualnie, a świat powinien działać inaczej - niestety nie. Do pewnego stopnia będziesz musiał nauczyć się oceniać swoje bitwy na podstawie indywidualnych osobowości twoich kolegów. Twoim (karierowym) celem jest bycie ekspertem, do którego chodzą, kiedy naprawdę potrzebują pomocy, a nie wybredna osoba, która zawsze próbuje je poprawić. W rzeczywistości, jeśli staniesz się tą osobą, prawdopodobnie odniesiesz największy sukces w zachęcaniu ludzi do słuchania i robienia rzeczy we właściwy sposób. Powodzenia.
źródło
To, co zostało opisane, wydaje się nieco złym doświadczeniem. Niemniej jednak nie powinno to powodować natychmiastowego kwestionowania własnego wykształcenia ani oceny statystycznej przełożonego / kierownika.
Radzę trzymać się broni (statystycznej), ale bądź otwarty na to, co ludzie robią, bądź cierpliwy wobec ludzi, którzy mogą być oderwani od nowych praktyk statystycznych i udzielaj porad / opinii, gdy zostaniesz o to poproszony , wyhoduj grubszą skórę i ucz się z otoczenia. Jeśli robisz właściwe rzeczy, to powoli pokaże, ludzie będą chcieli twojej opinii, ponieważ rozpoznają, że możesz zaoferować rozwiązania, w których ich obecny przepływ pracy nie jest. Wreszcie, tak, pewnie, jeśli po upływie rozsądnego czasu (przynajmniej kilka miesięcy) poczujesz, że jesteś zdewaluowany i lekceważony, po prostu idź dalej.
Jest rzeczą oczywistą, że teraz w branży nie można usiąść i myśleć, że nie trzeba doskonalić edukacji statystycznej. Modelowanie predykcyjne, strategie regresji, algorytmy grupowania wciąż ewoluują. Na przykład zastosowanie regresji procesów gaussowskich w środowisku przemysłowym było bliskie science fiction 10 lat temu; teraz można to zobaczyć prawie jak produkt z półki.
źródło