Opcje hostingu dla publicznie dostępnych danych

12

Postanowiłeś więc poprzeć pomysł na powtarzalne badania i chcesz udostępnić swoje dane online, aby ludzie mogli je zobaczyć i wykorzystać. Pytanie brzmi: gdzie go hostujesz?

Moja pierwsza skłonność to oczywiście prywatna przestrzeń internetowa, którą mam na serwerze uniwersyteckim, ale te rzeczy nie są wcale tak trwałe - jeśli odejdę, katalog pozostanie otwarty przez bardzo krótki czas, zanim zniknie. Nie jest to odpowiednie ustawienie do przechowywania danych, z których ludzie będą mogli korzystać i pracować w przyszłości.

Czy używasz czegoś takiego jak GitHub lub SourceForge? Lub inna usługa?

Dane, o których mowa, są wynikiem niektórych symulacji o bardzo wąskim zainteresowaniu - więc niekoniecznie uważam, że miejsce takie jak InfoChimps lub inne publiczne repozytorium danych jest właściwym miejscem dla nich. To mniej: „Możesz nauczyć się tego kodu!” i więcej „Możesz replikować rysunek 3 w tym dokumencie”.

Fomite
źródło
1
Odpowiedni, być może duplikat: stats.stackexchange.com/questions/10045/…
Matt Parker
1
Absolutnie istotne - dodanie kilku szczegółów sugerujących, dlaczego nie sądziłem, że to duplikat.
Fomite,
@EpiGrad: Jaką randkę masz na myśli? Jeśli jest to kod źródłowy związany z twoim projektem badawczym, możesz dołączyć go do preprint arXiv .
Piotr Migdal
@PiotrMigdal Idealnie, chciałbym, aby dane mogły spędzać wolny czas przez kilka lat, wystarczająco długo, aby zadziałały zwykłe propagacje cytatów papierowych itp. Chciałbym dołączyć go do arXiv preprintu jeśli tylko moja dziedzina używali go;)
nośników zakażenia
@EpiGrad Być może dobrym miejscem do wyszukiwania są otwarte dane jako aspekt otwartej nauki - michaelnielsen.org/blog/open-science .
Piotr Migdal

Odpowiedzi:

4

Jedną z prostych opcji jest github .

Używam go trochę do udostępniania danych i kodu analizy danych. Kilka dobrych przykładów innych osób udostępniających kod i dane w witrynie wymieniono w tym pytaniu .

Korzyści z github

  • Łatwe przesyłanie po zapoznaniu się z git i dlaczego nie używać git do potrzeb kontroli wersji.
  • Możesz użyć gists do prostych pojedynczych plików
  • Inne osoby mogą łatwo pobrać jeden lub wiele plików jako archiwum
  • Ma dużą ilość darmowego miejsca
  • kod źródłowy można przeglądać w Internecie
  • i więcej...

Oczywiście github nie jest idealny do danych. Widzę zalety używania bardziej stałego repozytorium instytucjonalnego lub innego dedykowanego narzędzia do poważniejszej archiwizacji.

Jeromy Anglim
źródło
1
To jest właściwie rozwiązanie, z którym poszedłem. Problem z repozytorium instytucjonalnym polega na tym, że w jakiej instytucji się zmieniam, a dane nie są wystarczająco ważne dla jednego z hurtowni dużych zbiorów danych.
Fomite
4

Inną opcją wydaje się być Dataverse , który jest dostępny jako usługa i oprogramowanie typu open source. Jednak nie próbowałem tego.

Karsten W.
źródło
2

Jedną z możliwości dla osób akademickich jest korzystanie z repozytorium cyfrowego kampusu często hostowanego przez biblioteki kampusowe (dla mnie logiczne miejsce dla zbiorów danych towarzyszących publikacjom).

Popularnym (bezpłatnym) repozytorium cyfrowym jest DSpace, które, moim zdaniem, może przechowywać zestawy danych. Ale jest to usługa, którą musi hostować ktoś w Twojej instytucji.

MannyG
źródło