Jakie są dobre pytania do rozmowy kwalifikacyjnej dla kandydatów na programistów algorytmów statystycznych?

15

Przeprowadzam wywiady z ludźmi na temat stanowiska programisty / badacza algorytmów w kontekście statystyki / uczenia maszynowego / eksploracji danych.

Szukam pytań, które należy zadać, aby określić, w szczególności znajomość, zrozumienie i płynność kandydata z podstawową teorią, np. Podstawowe właściwości oczekiwania i wariancji, niektóre typowe rozkłady itp.

Moje bieżące pytanie brzmi: „Istnieje nieznana ilość którą chcielibyśmy oszacować. W tym celu mamy estymatory które, biorąc pod uwagę , są bezstronne i niezależne, a każda z nich ma znana wariancja , inna dla każdego. Znajdź optymalny estymator który jest obiektywny i ma minimalną wariancję. "XY1,Y2),,YnXσja2)Y=fa(Y1,,Yn)

Spodziewałbym się, że każdy poważny kandydat poradzi sobie z tym z łatwością (mając trochę czasu na opracowanie obliczeń), a jednak jestem zaskoczony, jak wielu kandydatów, którzy podobno z odpowiednich dziedzin nie osiągnęli nawet najmniejszego postępu. Dlatego uważam to za dobre, dyskryminujące pytanie. Jedynym problemem związanym z tym pytaniem jest to, że jest tylko jedno.

Jakie inne pytania można w tym celu zastosować? Alternatywnie, gdzie mogę znaleźć zbiór takich pytań?

Meni Rosenfeld
źródło
7
Dla wielu osób uczących się maszynowo (w tym dobrych) pytanie to jest wyjściem poza ich strefę komfortu. To oczywiste pytanie statystyczne.
Marc Claesen
4
To pytanie jest zgodne z prawem na temat wyłączania / wyłączania tematu. Ma jednak wiele poglądów, kilka pozytywnych opinii, odpowiedź w / kilku pozytywnych opinii, a ponadto jest CW. Mogło pozostać otwarte, IMO.
Gung - Przywróć Monikę
2
XXXX
4
Ostrzegając, Google dokładnie przestudiował wewnętrzny proces HR i stwierdził, że wyniki ankietera wcale nie korelują z wynikami pracy !! Mam wrażenie, że literatura tutaj jest taka, że ​​(1) pytania typu łamigłówka są absolutnie najgorsze, służą tylko temu, aby rozmówca poczuł się inteligentny (tj. 0 zdolności prognozowania) i (2) wznowić, pytania oparte na doświadczeniu mogą mieć wartość predykcyjną. Wyniki przeszłe prognozują przyszłe wyniki i możesz skupić się na pytaniach, aby ustalić, jakie były ich wyniki w przeszłości, ale wywiad jest o wiele mniej pouczający, niż myślą ankieterzy.
Matthew Gunn
3
Bezstronność jest gwarantowana poprzez sumę wag do jedności. Jednak nawet ograniczając swoje rozwiązanie do liniowych kombinacji estymatorów, prawie zawsze będzie tak, że wiele estymatorów opartych na tych samych danych będzie wysoce skorelowanych. (Jeśli są naprawdę niezależne, wówczas zostaną zastosowane do rozłącznych, niezależnych podzbiorów danych). Nie jest wcale oczywiste, że liniowa kombinacja estymatorów będzie optymalna.
whuber

Odpowiedzi:

12

Co chcesz, aby twój programista statystyczny zrobił?

Armia USA mówi „trenuj, z którym będziesz walczył, ponieważ będziesz walczył tak, jak zostałeś wyszkolony”. Przetestuj je pod kątem tego, co chcesz, aby robili przez cały dzień. Naprawdę chcesz, aby „tworzyły wartość” lub „zarabiały pieniądze” dla firmy.

Szef 101

Pomyśl „pokaż mi pieniądze”.

  • Pieniądze rosną na drzewach zwanych pracownikami. Wstawiasz „grosz” (ich płace), a oni płacą ci „ćwierć” (ich wartość).
  • Jeśli nie możesz powiązać ich pracy z tym, w jaki sposób zarabiają pieniądze dla firmy, to ani ty, ani dobrze nie wykonujesz swojej pracy.

Uwaga: jeśli twoje symboliczne pytanie dotyczące manipulacji nie łączy się czysto z „pieniędzmi”, być może zadajesz niewłaściwe pytanie.

Istnieją 3 rzeczy, które każdy pracownik musi zrobić, aby zostać pracownikiem:

  • Być w stanie wykonać pracę
  • Współpracuj dobrze z zespołem
  • Bądź chętny / zmotywowany do faktycznego wykonania pracy

Jeśli nie zdobędziesz tych solidnych podstaw, żadna inna odpowiedź nie przyniesie ci żadnego pożytku.

Jeśli możesz je zastąpić dobrym oprogramowaniem lub dobrze wyszkolonym nastolatkiem, w końcu będziesz musiał to zrobić, a to będzie cię kosztować.

Dane 101

Co powinni być w stanie zrobić:

  • używaj wewnętrznych smaków oprogramowania (sieć, system operacyjny, biuro, prezentacja i analiza)
  • korzystać ze standardowych smaków oprogramowania (Excel, R, JMP, MatLab, pick_three )
  • zdobądź dane same. Powinni znać podstawowe zestawy danych do podstawowych zadań. Powinni znać repozytoria. Powinni wiedzieć, które znane dane są wykorzystywane do danego zadania. Fisher Iris. Krab Pearson. ... może powinno być 20 elementów. UCI, NIST, NOAA.
  • Powinni znać zasady postępowania z danymi. dane binarne (T / F) mają bardzo inną treść informacyjną niż kategoryczne (A, B, C, D) lub ciągłe. Ważne jest prawidłowe przetwarzanie danych według typu danych.
  • Kilka podstawowych zadań statystycznych obejmuje: czy te dwa są takie same lub różne (inaczej klaster / klasyfikacja), jak to się z tym wiąże
    (regresja / dopasowanie, w tym modele liniowe, glm, podstawa radialna,
    równania różnicowe), czy to prawda, że ​​„x „(testowanie hipotez), ile próbek potrzebuję (próbkowanie akceptacyjne), jak uzyskać najwięcej
    danych z kilku / tanich / wydajnych eksperymentów (statystyczny projekt
    eksperymentu) - zastrzeżenie, nie jestem inżynierem statystycznym Możesz je zapytać pytanie „jakie są różne podstawowe zadania i w jaki sposób sprawdzasz, czy statystyki mogą je wykonać skutecznie i poprawnie?
  • uzyskać dostęp / korzystać z samych danych. Chodzi o formaty i narzędzia.
    Powinny być w stanie czytać z plików csv, xlsx (excel), SQL i
    zdjęć. (HDF5, Rdata) Jeśli masz niestandardowy format, powinien on
    być w stanie go przeczytać i szybko i
    skutecznie pracować z narzędziami . Powinni znać siłę / słabość formatu. CSV jest szybki w użyciu, istnieje od zawsze, szybki prototyp, ale wzdęty, nieefektywny i powolny do uruchomienia.
  • przetwarzaj dane poprawnie, stosując najlepsze praktyki i nie popełniając grzechów. Nigdy nie wyrzucaj danych. Nie dopasowuj danych dwumianowych ciągłą linią. Nie przeciwstawiaj się fizyce.
  • wymyślić wyniki, które są powtarzalne i odtwarzalne. Niektórzy
    mówią „są kłamstwa, cholerne kłamstwa i statystyki”, ale nie w mojej
    firmie. Te same dobre dane wejściowe dają takie same dobre wyniki. Wynik nie jest liczbą, zawsze jest to decyzja biznesowa, która informuje o
    działaniu technicznym i skutkuje wynikiem biznesowym. Różne testy mogą ustawić pokrętło na 5,5 lub 6,5, ale zdolność jest zawsze powyżej 1,33.
  • przedstawiać ustalenia w języku i na poziomie, który
    decydenci i / lub twórcy stworów i / lub oni sami w ciągu roku mogą
    zrozumieć przy najmniejszej ilości błędów. Piękna rzecz jest w stanie to wytłumaczyć, aby twoja babcia to zrozumiała. To ( link ) jest moją odpowiedzią, ale mi się podoba.

Zingery analityczne:

Myślę, że niemożliwe pytania są świetne. Są niemożliwe z jakiegoś powodu. Dobrze jest wiedzieć, czy coś jest niemożliwe przez bramę. Lepiej jest wiedzieć, dlaczego, mieć pewne sposoby na zaangażowanie się lub zadać inne pytanie.

Inne pytania CV. ( link ) Na reddit. ( link ) inne ( link )

BTW: to było dobre pytanie. Z czasem będę musiał zaktualizować tę odpowiedź.

EngrStudent
źródło
3
To wydaje się być dobrą odpowiedzią na inne pytanie niż to, które zadałem. Nie pytałem, jak wybrać dobrych pracowników (prawdopodobnie zapytałbym czegoś takiego w miejscu pracy. Tak, gdybym tego potrzebował), zapytałem o sprawdzenie konkretnych kwalifikacji.
Meni Rosenfeld
Dopiero wtedy zredukuję to do statystyk.
EngrStudent - Przywróć Monikę