Pytania do wywiadu statystycznego

65

Szukam statystyk (i prawdopodobnie prawdopodobieństwa) pytań do wywiadu, od najbardziej podstawowych po bardziej zaawansowane. Odpowiedzi nie są konieczne (chociaż linki do konkretnych pytań na tej stronie byłyby dobre).

intuition careers shabbychef
źródło

Jeden przykład: stats.stackexchange.com/questions/4768/…

radek

Byłoby bardzo interesujące, gdyby ktoś mógł podać przykłady, które sam sobie dał podczas wywiadu ...

kjetil b halvorsen,

40

Nie jestem pewien, co to za praca, ale myślę, że „Wyjaśnij x nowicjuszowi” prawdopodobnie byłby dobry -

a) ponieważ prawdopodobnie będą musieli to zrobić w pracy

b) to dobry test zrozumienia.

Chris Beeley
źródło

8

(+1): Nie mogę policzyć czasów, w których wydawało mi się, że coś rozumiem, ale potem nie wyjaśniłem tego innym. Przykład: wartość p;)

steffen

6

„Jeśli nie potrafisz wyjaśnić tego sześciolatkowi, prawdopodobnie sam tego nie rozumiesz” - Albert Einstein. Może nie tak ekstremalne, ale masz rację ... :)

JM nie jest statystykiem

1

Lubię „Wyjaśnij wartość p”, z częścią „do początkującego” lub bez niej.

shabbychef

właśnie dlatego walidacja krzyżowa jest świetna. wiele „świeckich” pytań i odpowiedzi.

Neil McGuigan,

Naprawdę dobra rada, czy przeprowadzasz wywiad, czy nie!

JMS

21

Standardowe Q, w którym pracuję, to:

Rzuć okiem na wyniki wielokrotnej regresji logistycznej z pakietu statystycznego, o którym twierdzisz, że korzystałeś (najlepiej z tego, którego używamy). XXX jest niezależną zmienną będącą głównym przedmiotem zainteresowania. Jak bardzo interpretujesz wyniki kolegom ze znajomością tematu, ale bez formalnego szkolenia statystycznego? (W razie potrzeby należy podać osobną interpretację oszacowania punktowego, CI, wartości p).

onestop
źródło

15

W innych kontekstach akademickich można również zapytać: „spójrz na wyniki tego modelu w tym artykule, którego jesteś (współ) autorem . Powiedz mi, co to znaczy. Odpowiedzialne za nie odpowiedzi są wtedy śmiertelne, ponieważ nie ma dostępnych usprawiedliwień dla nieznanych osób, a mimo to przerażająco powszechnych.

conjugateprior

4

@conjugateprior Nieprawda. Tak długo, jak co najmniej jeden współautor jest nieobecny, był to obszar nieobecnego współautora. Głównym zastosowaniem tej techniki są prezentacje konferencyjne.

Mark L. Stone,

18

Możesz również zastanowić się, czy wywiad jest najlepszym medium do pomiaru interesującej konstrukcji. Jeśli chcesz zmierzyć wcześniejszą wiedzę na temat prawdopodobieństwa lub statystyki, lepiej oprzeć się bardziej na teście pisemnym. Możesz zadawać więcej pytań, a tym samym zwiększyć wiarygodność pomiaru. Jest bardziej znormalizowany zarówno w administracji, jak i w punktacji. A kiedy instrument zostanie opracowany, prawdopodobnie zużywa mniej zasobów do administrowania.

Następnie możesz wykorzystać wywiad jako bardziej skoncentrowane narzędzie, które analizuje takie czynniki, jak umiejętności werbalne i interpersonalne.

Jeromy Anglim
źródło

1

To dobra uwaga. W przeszłości stwierdziłem, że bardzo trudno jest stwierdzić, czy dany kandydat się sprawdzi, chyba że pracowałeś z nim w przeszłości.

shabbychef

15

Zadano mi dwa pytania:

1) Dopasowujesz regresję wielokrotną, aby zbadać wpływ określonej zmiennej, którą interesuje pracownik w innym dziale. Zmienna powraca nieznacząca, ale twój współpracownik mówi, że jest to niemożliwe, ponieważ wiadomo, że ma wpływ. Co byś powiedział / zrobił?

2) Masz 1000 zmiennych i 100 obserwacji. Chcesz znaleźć znaczące zmienne dla konkretnej odpowiedzi. Co byś zrobił?

Dolina górska
źródło

Czy możesz również opublikować odpowiedzi? Dla 1) Zakładam, że przyczyną mogą być pewne zmienne zależne. Dla 2) Prawdopodobnie wybrałbym test statystyczny χ² (chi-kwadrat)

Rishi Dua

2

Istnieje wiele rozsądnych odpowiedzi na oba, oto moje krótkie przemyślenia: 1) model regresji pochodzi z próbki, ta próbka ma losową zmienność, a zatem model jest jedynie wartością szacunkową i może powodować błędy typu 1 lub typu 2. Między predyktorami może również występować silna kolinearność. Dla 2) jest to duży problem P vs. mały N. Istnieje wiele technik radzenia sobie z tą sytuacją, takich jak zmniejszenie wymiarów i Lasso.

Glen

2) wykonaj jednoznaczne dopasowania zmiennych i zidentyfikuj te, które są najbardziej znaczące dla zmniejszenia zestawu zmiennych

Adam

11

Oto duży zestaw danych. Jaki masz plan radzenia sobie z wartościami odstającymi? Co powiesz na brakujące wartości? Co powiesz na transformacje?

Czy mogą poradzić sobie z rzeczywistymi danymi?

Neil McGuigan
źródło

Drogi anonimowy użytkowniku, nie używaj edycji w celu komentowania (to nie jest dla ciebie, Neil).

10

Wiele pytań / odpowiedzi na tej stronie może dać pomysły na dobre pytania. Dam listę z takimi linkami, które moim zdaniem są dobre. Posty, na które odpowiedziałem, są nadreprezentowane, ponieważ znam je lepiej, nie dlatego, że niekoniecznie są najlepsze! Daję krótkie komentarze do każdego linku, abyś mógł zdecydować, czy chcesz go użyć.

Jaka jest intuicja stojąca za SVD? „Czy możesz wyjaśnić jednemu z naszych klientów, jak działa SVD?”

Szacowanie maksymalnego prawdopodobieństwa (MLE) w prostych słowach „Czy możesz wyjaśnić w języku nietechnicznym ideę oszacowania maksymalnego prawdopodobieństwa?”

Taleb i Czarny Łabędź „Powiedz mi, co to jest czarny łabędź i dlaczego to jest tak ważne? Kiedy to jest ważne?”

Wnioskowanie statystyczne, gdy próbka „jest” populacją ”Co możesz powiedzieć o wnioskowaniu statystycznym, gdy próbka jest całą populacją?”

Dobroć dopasowania i który model wybrać regresję liniową lub Poissona „Mamy problem z regresją, w którym odpowiedź jest zmienną zliczającą. Które z nich wybrałbyś w tym kontekście, zwykłe najmniejsze kwadraty lub regresja Poissona (a może jakieś inne)? Wyjaśnij swój wybór , jakie są główne różnice między tymi modelami? ”

Jaka jest różnica między wariancją skończoną a nieskończoną „Czy możesz wyjaśnić, w możliwie najprostszym języku, co to znaczy, że zmienna losowa ma nieskończone oczekiwanie lub nieskończoną wariancję? Jakie jest praktyczne znaczenie tego rozróżnienia? Wyjaśnij za pomocą przykład."

Jakie są nowoczesne, łatwe w użyciu alternatywy dla regresji stopniowej? „Jak zbudowałbyś złożony model regresji, gdy istnieje wiele możliwych zmiennych predykcyjnych? Opisz różne możliwe strategie i opowiedz o problemach z każdą z nich”

Jak radzić sobie z idealną separacją w regresji logistycznej? „Na czym polega problem separacji w regresji logistycznej, jej przyczyny, objawy? Co możesz zrobić, aby ją rozwiązać, jeśli naprawdę jest to problem?”

Dlaczego macierz korelacji musi być dodatnia półokreślona i co to znaczy być dodatnim półokreślonym? i
Co mówi mi nie pozytywna określona macierz kowariancji o moich danych? „Wyjaśnij, dlaczego macierz kowariancji musi być dodatnia (pół) określona i co to oznacza. Jak można wykorzystać ten fakt?”

Jakie są wielowymiarowe wersje mediany „Czy możesz zaproponować sposób uogólnienia mediany na dane wielowymiarowe?”

Interpretowanie terminów interakcji w regresji logit ze zmiennymi kategorialnymi oraz Jakie są najlepsze praktyki w identyfikowaniu efektów interakcji? i Dwa negatywne główne efekty, ale jeszcze pozytywny efekt interakcji? oraz Uwzględnienie interakcji, ale nie głównych efektów w modelu oraz Jak interpretować główne efekty, gdy efekt interakcji nie jest znaczący? „Wyjaśnij, co należy rozumieć przez interakcję w modelach regresji. W szczególności, co to znaczy, jeśli interakcja jest znacząca, a główne efekty nie są? Czy istnieje jakaś różnica w interpretacji interakcji między zwykłą regresją liniową a regresją logistyczną?”

Jaki może być powód zastosowania transformacji pierwiastka kwadratowego w danych? oraz odpowiednia transformacja danych „Kiedy, jak i dlaczego transformujesz zmienną odpowiedzi w modelu regresji (lub ANOVA)? Czy są jakieś alternatywy?

Czy mogę ufać wynikom ANOVA dla DV nie dystrybuowanego normalnie? „Jak potraktowałbyś ANOVA z nietypowymi resztkami?

Dlaczego statystyki są przydatne, gdy wiele rzeczy, które mają znaczenie, to rzeczy na jednym zdjęciu?

Jak mogę skutecznie modelować sumę zmiennych losowych Bernoulliego?

Kiedy stosować uogólnione równania szacunkowe vs. modele efektów mieszanych?

Co się tutaj dzieje, gdy używam kwadratowej straty w ustawieniach regresji logistycznej? „Dlaczego wykorzystujemy maksymalne prawdopodobieństwo do regresji logistycznej? Dlaczego nie tylko kwadraty?”

kjetil b halvorsen
źródło

9

Raz zapytano mnie, jak wytłumaczyłbym znaczenie centralnego twierdzenia o granicy dla klasy studentów pierwszego stopnia w naukach społecznych, którzy ledwo mają wiedzę na temat statystyki.

Wolfgang
źródło

4

Istotność Centralnego Twierdzenia Granicznego polega na tym, aby ludzie myśleli, że wszystko jest Normalne, podczas gdy w rzeczywistości nic nie jest. I dlatego prowadzi do wielu błędnych wniosków.

Mark L. Stone,

8

Jak numerujesz coś, co nie jest liczbowe?

Przykład „Automatyczne wyodrębnianie funkcji do klasyfikacji danych audio”

Uzasadnienie: Czy mogą wymyślić, jak analizować statystycznie coś, co nie znajduje się już w dużym stole?

Neil McGuigan
źródło

8

Jak zapobiec nadmiernemu dopasowaniu podczas tworzenia modelu statystycznego?

Dobra odpowiedź: walidacja krzyżowa

Neil McGuigan
źródło

6

Często pytam „jak byś zdefiniował / wyjaśnił, czym jest prognozowanie?”

Odpowiedź na tego rodzaju bardzo ogólne pytanie pomaga mi sprawdzić, czy ludzie są związani z konkretnym przypadkiem prognozowania. Nie ma właściwej odpowiedzi, ale udzielenie syntetycznej odpowiedzi podczas wywiadu nie zawsze jest łatwe :)

robin girard
źródło

5

W kontekście danych obserwacyjnych:

Rozważ ten model regresji zastosowany do tego istotnego problemu. Co, jeśli w ogóle, można interpretować przyczynowo? [Dalsza sonda] Czego trzeba się nauczyć, aby zmienić zdanie?

sprzężonyprior
źródło

4

Jak policzysz liczbę drzew sandałowych w Bangalore?

użytkownik3153
źródło

1

Czy to ma być pytanie Fermiego ?

Thies Heidecke,

2

Dobre pytanie. Użyłem wersji tego w klasie (drzewa w parku). Wpadają na pomysł próbkowania, ale zwykle brakuje im definicji operacyjnej: kiedy zaczynasz nazywać to drzewem?

zbicyclist,

4

Pod nagłówkiem Przyczynowość a korelacja :

Często wykorzystuje się zaangażowanie klienta / użytkownika jako funkcje modelu predykcyjnego. Na przykład osoby, które klikają ten przycisk, częściej subskrybują niż osoby, które tego nie robią. Ludzie, którzy robią zakupy w poniedziałki, częściej robią zakupy ponownie niż ci, którzy robią zakupy we wtorki.

Jeśli dojdziemy do skrajności: użytkownicy, którzy klikną „kup”, częściej kupują produkt niż użytkownicy, którzy nie klikają zakupu.

Ale oczywiście nie jest to bardzo pomocne w wyjaśnieniu, dlaczego niektórzy użytkownicy subskrybują, a niektórzy nie.

Jak poszedłbyś na balansowanie przy użyciu funkcji klienta, które wyjaśniają, dlaczego subskrybują, a które są wysoce skorelowane z subskrypcją, ale są niezbędne do wykonania zadania?

ilanman
źródło

3

Oto zestaw TinkerToy . Pokaż, jak działa odległość euklidesowa w trzech wymiarach. Teraz pokaż mi, jak działa regresja wielokrotna.

Czy potrafią wyjaśnić, w jaki sposób statystyki działają w świecie fizycznym?

Neil McGuigan
źródło

1

Czy jednak wielokrotna regresja z obserwacjami wymaga zestawu wymiarowego zestawu TinkerToy?

N

$N$

N

$N$

onestop

1

jeśli chcesz rozproszyć wykres dwóch zmiennych za pomocą 100 obserwacji, potrzebujesz tylko 2 wymiarów, a nie 100 :) itd.

Neil McGuigan

3

Prowadzimy centrum obsługi klienta. Otrzymujemy 1 milion połączeń miesięcznie. Jak zmniejszyć to do dziesięciu tysięcy?

użytkownik3153
źródło

5

usuń 99% swoich telefonów!

shabbychef

5

Przestań płacić rachunek za telefon.

Glen

3

Nalicz opłatę za połączenie. (liczba 900 w USA ...)

gWaldo

7

To pytanie dotyczy reguły 80–20. W biznesie jest to powszechna zasada; np. „80% sprzedaży pochodzi od 20% klientów”. Microsoft zauważył, że naprawiając 20% najczęściej zgłaszanych błędów, 80% błędów i awarii zostanie wyeliminowanych. Oznaczałoby to utworzenie często zadawanych pytań w celu zidentyfikowania tych 20% problemów

Rishi Dua,

3

Wiele pytań, które zadajemy, jest podobnych do tych, które zostały już opisane. Ale niektóre, których jeszcze nie przeczytałem, które są używane: możesz zostać poproszony o naszkicowanie programu na tablicy, aby zrobić coś takiego: symulować rzut kostką lub inny problem prawdopodobieństwa lub obliczyć serię liczb pierwszych (np. Wszystkie liczby pierwsze mniejsze niż 1 000 000) - możesz to zrobić w dowolnym języku, ale większość ludzi wybiera R, a niektórzy wybierają Python (wierzę), ale myślę, że możesz wybrać Stata, SAS, SPSS , Matlab itp. Prawdopodobnie zostaną Ci zadane pytania w celu zbadania głębi twojej znajomości wybranego języka programowania - dlaczego na przykład użyj R zamiast pętli for.

Możesz również zostać poproszony o zaprojektowanie eksperymentu lub innego badania w celu zbadania czegoś - zwykle czegoś praktycznego - czasami będzie to związane z pracą, którą wykonujemy, ale często nie. (Nie powinieneś mieć wiedzy o pracy, którą wykonujemy, ale powinieneś być w stanie uchwycić sedno problemu, o którym jeszcze nie słyszałeś, i spekulować na jego temat inteligentnie, nawet gdybyś miał pewną wiedzę dotyczącą domeny, którą znasz to było złe - w porządku, nie wymaga się wiedzy o domenach). Możesz zostać poproszony o uwzględnienie np. Mocy.

Jeremy Miles
źródło

2

Przeprowadzając analizę wariancji zmiennej ilościowej, czasami okazało się, że częstotliwość zmiennej jest bardzo wysoka (> 5), a następnie wykorzystujemy dokładny test Fishera, aby znaleźć niezależność zmiennej.

Mike Anderson
źródło

Prawdopodobnie zostanie to uwzględnione w odpowiedzi Chrisa.

JM nie jest statystykiem

4

Czy poprawna odpowiedź na to pytanie obejmuje wiedzę o kontrowersjach dotyczących tego, czy ustalone marginesy mają sens i posiadanie świadomej opinii na ten temat?

Ben Bolker,

1

Średnia płatna frekwencja w grach Yankees w ubiegłym roku wynosiła 55 000. Losowo pytasz grupę ludzi w Nowym Jorku, czy poszli na mecz Yankees w zeszłym sezonie, a jeśli tak, rejestrujesz płatną frekwencję. Jaka jest średnia płatna frekwencja w grach, w której uczestniczyły osoby, o które pytałeś, kto poszedł na grę?

Dam ci podpowiedź do mojej odpowiedzi (wskazówki nie podano): próbkowanie z tendencją do długości. Na tym strzeliłem gola u siebie, ale nie wystarczyło to do wygrania meczu, ha ha. Uwaga: Wspomniałem o wielu zastrzeżeniach dotyczących sposobu pobierania próbek, a ankieter powiedział mi, żebym zignorował je wszystkie.

Mark L. Stone
źródło

Pytania do wywiadu statystycznego

Odpowiedzi: