Nauka danych bez znajomości konkretnego tematu, czy warto kontynuować karierę? [Zamknięte]

15

Niedawno rozmawiałem z kimś i wspomniałem o moim zainteresowaniu analizą danych oraz o tym, kim chciałem nauczyć się niezbędnych umiejętności i narzędzi. Zasugerowali mi, że chociaż dobrze jest uczyć się narzędzi i rozwijać umiejętności, nie ma sensu tego robić, chyba że mam specjalistyczną wiedzę w konkretnej dziedzinie.

Zasadniczo podsumowali to tak, że byłbym jak budowniczy ze stosem narzędzi, który mógłby zbudować kilka drewnianych skrzynek i być może zbudować lepsze rzeczy (kabiny, szafki itp.), Ale bez wiedzy w konkretnej dziedzinie nigdy bym nie być budowniczym, do którego ludzie przychodziliby po konkretny produkt.

Czy ktoś to znalazł lub miał coś do powiedzenia na ten temat? Wydaje się, że gdyby to była prawda, należałoby nauczyć się aspektów związanych z nauką danych, a następnie nauczyć się nowej dziedziny, aby się wyspecjalizować.

użytkownik3754366
źródło
Chociaż twoje pytanie jest prawidłowe, nie jest to odpowiednie miejsce. Pytania związane z karierą są tutaj rozważane poza tematem.
sheldonkreger
Nie jest jasne, o co pytasz - czy lepiej uczyć się narzędzi lub gromadzić wiedzę o domenach? prawdopodobnie zbyt otwarty i oparty na opiniach dla StackExchange.
Sean Owen,

Odpowiedzi:

43

Drew Conway opublikował Data Venn Diagram , z którym szczerze się zgadzam:

Schemat Venn Data Science

Z jednej strony powinieneś naprawdę przeczytać jego post. Z drugiej strony mogę zaoferować własne doświadczenie: moja wiedza merytoryczna (którą wolę bardziej niż termin „merytoryczna wiedza specjalistyczna”, ponieważ naprawdę powinieneś mieć również „merytoryczną wiedzę specjalistyczną” w matematyce / statystykach i hakowaniu) znajduje się w handel detaliczny, moja matematyka / statystyki prognozują i wnioskowują statystyki, a moje umiejętności hakerskie leżą w R.

Z tego punktu widzenia mogę rozmawiać i rozumieć sprzedawców detalicznych, a ktoś, kto nie ma co najmniej wiedzy na ten temat, będzie musiał stawić czoła stromej krzywej uczenia się w projekcie z detalistami. Jako koncert boczny robię statystyki z psychologii i tam jest dokładnie tak samo. I nawet przy dość pewnej wiedzy na temat części hakowania / matematyki / statystyki na diagramie trudno mi było przyzwyczaić się do, powiedzmy, punktacji kredytowej lub innych nowych tematów.

Gdy masz już pewną liczbę umiejętności matematycznych / statystycznych i umiejętności hakowania, o wiele lepiej jest zdobyć podstawy w jednym lub kilku przedmiotach niż dodając jeszcze jeden język programowania do swoich umiejętności hakowania, lub jeszczeinny algorytm uczenia maszynowego do twojego portfolio matematyki / statystyk. W końcu, gdy masz solidne podstawy matematyczne / statystyki / hakowanie, możesz w razie potrzeby nauczyć się takich nowych narzędzi z Internetu lub z podręczników w stosunkowo krótkim czasie. Ale z drugiej strony wiedza specjalistyczna w tej dziedzinie prawdopodobnie nie będzie w stanie uczyć się od zera, jeśli zaczniesz od zera. Klienci będą raczej współpracować z naukowcami A, którzy rozumieją swoją dziedzinę, niż z naukowcami B, którzy najpierw muszą nauczyć się podstaw - nawet jeśli B jest lepszy w matematyce / statystykach / hakowaniu.

Oczywiście wszystko to oznacza również, że nigdy nie zostaniesz ekspertem w żadnej z trzech dziedzin. Ale to dobrze, ponieważ jesteś naukowcem danych, a nie programistą, statystykiem lub ekspertem od tematyki. W trzech oddzielnych kręgach zawsze będą ludzie, od których możesz się uczyć. Co jest częścią tego, co lubię w nauce o danych.


EDYCJA: Niedługo i kilka przemyśleń później, chciałbym zaktualizować ten post o nową wersję diagramu. Nadal uważam, że umiejętności hakerskie, wiedza matematyczna i statystyczna oraz merytoryczna wiedza specjalistyczna (w skrócie „programowanie”, „statystyki” i „biznes” dla czytelności) są ważne ... ale myślę, że rola komunikacji jest również ważna. Wszystkie spostrzeżenia, które czerpiesz dzięki hakowaniu, statystykom i specjalistycznej wiedzy biznesowej, nie zrobią żadnej różnicy, chyba że przekażesz je osobom, które mogą nie mieć tej unikalnej mieszanki wiedzy. Konieczne może być wyjaśnienie danych statystycznych menedżerowi biznesowemu, który musi być przekonany do wydawania pieniędzy lub zmiany procesów. Lub dla programisty, który nie myśli statystycznie.

Oto nowy diagram Venna do analizy danych, który obejmuje również komunikację jako jeden z niezbędnych składników. Obszary oznaczyłem w sposób, który powinien gwarantować maksymalny płomień, a jednocześnie być łatwy do zapamiętania.

Skomentuj.

nowa analiza danych diagram Venna

Kod R:

draw.ellipse <- function(center,angle,semimajor,semiminor,radius,h,s,v,...) {
    shape <- rbind(c(cos(angle),-sin(angle)),c(sin(angle),cos(angle))) %*% diag(c(semimajor,semiminor))
    tt <- seq(0,2*pi,length.out=1000)
    foo <- matrix(center,nrow=2,ncol=length(tt),byrow=FALSE) + shape%*%(radius*rbind(cos(tt),sin(tt)))
    polygon(foo[1,],foo[2,],col=hsv(h,s,v,alpha=0.5),border="black",...)
}
name <- function(x,y,label,cex=1.2,...) text(x,y,label,cex=cex,...)

png("Venn.png",width=600,height=600)
    opar <- par(mai=c(0,0,0,0),lwd=3,font=2)
        plot(c(0,100),c(0,90),type="n",bty="n",xaxt="n",yaxt="n",xlab="",ylab="")
        draw.ellipse(center=c(30,30),angle=0.75*pi,semimajor=2,semiminor=1,radius=20,h=60/360,s=.068,v=.976)
        draw.ellipse(center=c(70,30),angle=0.25*pi,semimajor=2,semiminor=1,radius=20,h=83/360,s=.482,v=.894)
        draw.ellipse(center=c(48,40),angle=0.7*pi,semimajor=2,semiminor=1,radius=20,h=174/360,s=.397,v=.8)
        draw.ellipse(center=c(52,40),angle=0.3*pi,semimajor=2,semiminor=1,radius=20,h=200/360,s=.774,v=.745)

        name(50,90,"The Data Scientist Venn Diagram",pos=1,cex=2)
        name(8,62,"Communi-\ncation",cex=1.5,pos=3)
        name(30,78,"Statistics",cex=1.5)
        name(70,78,"Programming",cex=1.5)
        name(92,62,"Business",cex=1.5,pos=3)

        name(10,45,"Hot\nAir")
        name(90,45,"The\nAccountant")
        name(33,65,"The\nData\nNerd")
        name(67,65,"The\nHacker")
        name(27,50,"The\nStats\nProf")
        name(73,50,"The\nIT\nGuy")
        name(50,55,"R\nCore\nTeam")
        name(38,38,"The\nGood\nConsultant")
        name(62,38,"Drew\nConway's\nData\nScientist")
        name(50,24,"The\nperfect\nData\nScientist!")
        name(31,18,"Comp\nSci\nProf")
        name(69,18,"The\nNumber\nCruncher")
        name(42,11,"Head\nof IT")
        name(58,11,"Ana-\nlyst")
        name(50,5,"The\nSalesperson")
    par(opar)
dev.off()
Stephan Kolassa
źródło
1
Przywiózł mnie tutaj post na blogu odnoszący się do zaktualizowanego diagramu. Myślę, że jest to duża poprawa w stosunku do oryginalnej wersji Conwaya, chociaż nie do końca rozumiem pogląd - implikowany wielkością nakładania się - że Profesor Statystyki jest kimś o równych umiejętnościach w zakresie statystyki i komunikacji.
Robert de Graaf
1

Oczywiście że możesz. Firmy domagają się badaczy danych. Uważaj jednak, aby wszyscy interpretowali ten termin inaczej. W zależności od firmy możesz zostać poproszony o zrobienie czegokolwiek, od statystyk po pisanie kodu produkcyjnego. Każda z nich jest pracą na pełny etat sama w sobie i trzeba być przygotowanym na obie te kwestie, więc moim zdaniem nie jest to rozsądne i wymaga głębokiej specjalistycznej wiedzy, a firmy, z którymi rozmawiałem, podkreśliły pozostałe dwa obszary ( zwłaszcza programowanie). Stwierdziłem jednak, że pomaga w poznaniu rodzajów problemów, z którymi możesz się spotkać. W zależności od sektora może to być wykrywanie anomalii, rekomendacje / personalizacja, przewidywanie, łączenie rekordów itp. Są to rzeczy, których można nauczyć się jako przykładów w tym samym czasie co matematyka i programowanie.

Emre
źródło