Zestaw danych / pytanie badawcze z zakresu Data Science do pracy magisterskiej z zakresu statystyki

11

Chciałbym zbadać „naukę danych”. Termin ten wydaje mi się trochę niejasny, ale spodziewam się, że będzie wymagał:

  1. uczenie maszynowe (zamiast tradycyjnych statystyk);
  2. wystarczająco duży zestaw danych, aby przeprowadzić analizy w klastrach.

Jakie są dobre zbiory danych i problemy, dostępne dla statystyk z pewnym doświadczeniem programistycznym, których mogę użyć do zbadania dziedziny nauki o danych?

Aby ograniczyć to do minimum, idealnie chciałbym, aby linki do otwartych, dobrze używanych zestawów danych i przykładowych problemów.

użytkownik3279453
źródło

Odpowiedzi:

5

Sunlight Foundation jest organizacją, która skupia się na otwarcie i zachęcanie analizę non-partyzancką danych rządowych.

Istnieje mnóstwo analiz na wolności, które można wykorzystać do porównania oraz szeroki zakres tematów.

Zapewniają narzędzia i api do uzyskiwania dostępu do danych oraz pomagają w udostępnianiu danych w miejscach takich jak data.gov .

Jednym z ciekawych projektów jest Influence Explorer . Możesz uzyskać dane źródłowe tutaj, a także dostęp do danych w czasie rzeczywistym.

Możesz także rzucić okiem na jedno z naszych bardziej popularnych pytań:

Publicznie dostępne zestawy danych .

Steve Kallestad
źródło
5

Czy jesteś magistrem informatyki? Statystyka?

Czy „nauka o danych” będzie w centrum twojej tezy? A może poboczny temat?

Zakładam, że jesteś w statystyce i że chcesz skoncentrować swoją tezę na problemie „nauki danych”. Jeśli tak, to pójdę wbrew zasadom i sugeruję, że nie powinieneś zaczynać od zestawu danych lub metody ML. Zamiast tego powinieneś poszukać interesującego problemu badawczego, który jest słabo poznany lub w którym metody ML nie zostały jeszcze sprawdzone lub gdzie istnieje wiele konkurencyjnych metod ML, ale żadna nie wydaje się lepsza od innych.

Rozważ to źródło danych: Zbiór danych dużej sieci Stanforda . Podczas mogli wybrać jeden z tych zestawów danych, uzupełnić oświadczenie problem, a następnie uruchomić jakąś listę metod ml, że podejście naprawdę nie powiedzieć bardzo dużo o tym, co dane nauka jest o, i moim zdaniem nie robi prowadzić do bardzo dobrej pracy magisterskiej.

Zamiast tego możesz to zrobić: poszukaj wszystkich prac naukowych, które wykorzystują ML w określonej kategorii - np. Sieci współpracy (aka współautorstwo). Czytając każdy artykuł, spróbuj dowiedzieć się, co udało mu się osiągnąć za pomocą każdej metody ML i czego nie byli w stanie rozwiązać. Zwłaszcza szukaj ich sugestii dotyczących „przyszłych badań”.

Może wszyscy używają tej samej metody, ale nigdy nie próbowali konkurujących metod ML. A może nie weryfikują odpowiednio swoich wyników, a może zbiory danych są małe, a może ich pytania badawcze i hipotezy były uproszczone lub ograniczone.

Najważniejsze: spróbuj dowiedzieć się, dokąd zmierza ta linia badań. Dlaczego w ogóle to robią? Co w tym jest znaczącego? Gdzie i dlaczego napotykają trudności?

MrMeritology
źródło
To całkiem niezły pomysł. Mistrzowie są w statystyce.
user3279453