Co dokładnie oznacza „zbiór danych”?

10

Czy to tylko agregacja punktów danych? A może reprezentacja punktów danych dla różnych elementów w formacie tabelarycznym ułożonym z wartościami różnych zmiennych? Czym różni się od surowych danych?

ankit
źródło
Co rozumiesz przez „punkt danych”, czy spodziewasz się, że będzie to co najmniej 2D? Szeregi czasowe lub zestaw wyników egzaminów mogą być zbiorem danych; przynajmniej mogą to być po prostu szeregi w jednej zmiennej, być może bez etykiet wierszy. Na odpowiedź @FranckDernoncourt
smci
1
Naprawdę myślę, że to zbiór danych. Tak z pewnością używam tego terminu. Nie sądzę, żeby było w tym za dużo. To, czy dane są „surowe”, wstępnie przetworzone lub oczyszczone itp., Jest ortogonalne.
gung - Przywróć Monikę

Odpowiedzi:

9

Z mojego doświadczenia wynika, że ​​„zbiór danych” (lub „zestaw danych”) jest nieformalnym terminem odnoszącym się do zbioru danych. Zasadniczo zestaw danych zawiera więcej niż jedną zmienną i dotyczy jednego tematu; może dotyczyć pojedynczej próbki.

Błędem, który często widzę pisarze pytań z weryfikacją krzyżową, jest użycie „zestawu danych” jako synonimu „zmiennej” lub „wektora”.

Kodiolog
źródło
3
Uzgodnione w zestawie danych vs zmienna lub wektor. Nie zaczynaj mnie od „danych”, jak w „Mam dane”. I odwrotnie: „Mam zestaw danych” to wspaniały sposób, by nie irytować w żaden sposób, irytując tych, którzy twierdzą, że dane są w liczbie mnogiej, lub irytujących tych, którzy uważają to naleganie za pedantyczne, jeśli w ogóle o tym myślą.
Nick Cox,
3
@NickCox W wojnach gramatycznych o „dane” jestem najmniej popularną frakcją, która twierdzi, że „dane” to rzeczownik masowy.
Kodiolog,
3
Podejrzewam, że jest to obecnie większość i silniej sądzę, że zyskuje popularność.
Nick Cox,
8

Myślę, że Wikipedia wykonuje przyzwoitą robotę, definiując ją:

Najczęściej zestaw danych odpowiada zawartości pojedynczej tabeli bazy danych lub pojedynczej macierzy danych statystycznych, gdzie każda kolumna tabeli reprezentuje określoną zmienną, a każdy wiersz odpowiada danemu elementowi danego zbioru danych. Zestaw danych zawiera wartości dla każdej ze zmiennych, takie jak wysokość i waga obiektu, dla każdego elementu zestawu danych. Każda wartość nazywana jest punktem odniesienia. Zestaw danych może zawierać dane dla jednego lub większej liczby elementów, odpowiadające liczbie wierszy.

Termin zestaw danych można również stosować bardziej luźno, aby odnosić się do danych w zbiorze ściśle powiązanych tabel, odpowiadających konkretnemu eksperymentowi lub zdarzeniu. Przykładem tego typu są zbiory danych zbierane przez agencje kosmiczne przeprowadzające eksperymenty z instrumentami na sondach kosmicznych.

W dyscyplinie otwartych danych zbiór danych jest jednostką mierzącą informacje publikowane w publicznym repozytorium otwartych danych. Europejski portal otwartych danych gromadzi ponad pół miliona zbiorów danych. W tej dziedzinie zaproponowano inne definicje, ale obecnie nie ma oficjalnej definicji. Niektóre inne problemy (źródła danych w czasie rzeczywistym, nierelacyjne zestawy danych itp.) Zwiększają trudność osiągnięcia konsensusu w tej sprawie.

Jak widać, termin ten jest nieco niejasny.

Franck Dernoncourt
źródło
A w ustawieniach wizji komputerowej zestaw danych może być po prostu zbiorem naturalnych obrazów oraz ich etykiet lub adnotacji.
Sycorax mówi Przywróć Monikę
Co należy rozumieć przez „bazę danych *?”
ankit
@ankit Tradycyjne CS oznacza en.wikipedia.org/wiki/Database
Franck Dernoncourt
@Sycorax Tak, myślę, że moglibyśmy rozważyć jeden obraz (lub jakiś inny sygnał) jako jeden układ odniesienia obiektu blob w bazie danych.
Franck Dernoncourt
7

Myślę, że może zajść potrzeba zdefiniowania punktu danych, zanim będzie można zdefiniować zestaw danych : dlaczego jeden jest prymitywny i nie wymaga definicji, ale nie odwrotnie?

Co najmniej dwie definicje mają dla mnie sens:

  1. Jedna lub więcej obserwacji (przypadki, rekordy, wiersze) dla jednej lub więcej zmiennych (pól. Kolumn).

  2. Cokolwiek jest przechowywane jako dane w pliku odczytywalnym przez wybrany program.

Układ tabel jest powszechny, ale nie sądzę, aby był częścią żadnej definicji; sposób przechowywania danych może być oczywiście bardzo ważny.

PS Słowo „format” jest tak przeładowane, że według mnie najlepiej go unikać, chyba że zostanie to określone jednoznacznie. Widziałem to używane

  1. Ogólny lub określony format pliku tekstowego lub binarnego

  2. Struktura danych, np. Tabelaryczna lub inna

  3. Pamięć danych lub typy zmiennych, np. Bit, liczba całkowita, liczba rzeczywista, znak

  4. Format wyświetlania kontrolujący prezentację, np. Szczegóły dotyczące liczby miejsc po przecinku; wyświetlanie dziesiętne, szesnastkowe lub binarne.

Nick Cox
źródło
6

Istnieje już kilka dobrych odpowiedzi i nie sądzę, żebym mógł wniknąć głębiej niż Nick Cox lub Franck Dernoncourt w kwestię, czy „zbiór danych” odnosi się do konceptualnego gromadzenia powiązanych danych lub do konkretnego ich uporządkowania, np. tabela / macierz lub plik czytelny dla komputera. Wyciąg Francka wspomina przypadki skrajne, takie jak stale gromadzone dane lub dane rozłożone w kilku tabelach, o których warto pamiętać, jeśli założymy, że będzie prosta definicja. (Nie wszystkie programy statystyczne mogą sobie z tym poradzić, ale bardzo łatwo jest wyobrazić sobie przypadek, w którym dane są przechowywane w relacyjnej bazie danych z wieloma tabelami. Czy cała baza danych jest pojedynczym „zbiorem danych”?)

Dodam jednak, że zestawy danych nie są ogólnie zestawami, w sensie matematycznym! Sensu stricto albo zestaw zawiera obiekt, albo go nie zawiera, ale nie może zawierać więcej niż jednej kopii tego obiektu. Jeśli rzucę kostką osiem razy i zdobędę 1, 4, 3, 5, 5, 4, 6, 4, wówczas zestaw wyrzuconych wyników to tylko {1, 3, 4, 5, 6}. Zauważ, że elementy mogą być w dowolnej kolejności, właśnie napisałem je rosnąco, ale na przykład zestaw {5, 4, 1, 6, 3} jest matematycznie równy. Jednak nie to zwykle rozumiemy przez zestaw danych!

x¯=1nja=1nxjax1x2)

Ale wektory służą tylko do rejestrowania jednej zmiennej - dla kilku może być wygodniej używać macierzy do tabelowania z zachowanym porządkiem. W przypadku bardziej wyrafinowanych sytuacji, takich jak pomiar właściwości trójwymiarowej siatki wokseli w czasie, możesz nawet przejść do układania danych w tensorze (patrz np. To pytanie ).

Należy jednak pamiętać, że koncepcyjnie multiset może wystarczyć w najprostszych sytuacjach, nawet jeśli jest to niewygodne ze względów praktycznych. Gdybym rzucił monetę jednocześnie z rzutowaniem kostką i chciałem zapisać oba wyniki razem, to mógłbym użyć multisetu, takiego jak {(1, H), (3, T), (4, H), (4, H ), (4, T), (5, H), (5, T), (6, T)} zamiast macierzy. Zwykły zestaw nie wystarczy, ponieważ nie policzyłby na przykład wielokrotności (4, H).

Silverfish
źródło
1
Mógłbym sobie wyobrazić, że zestaw danych jest zbiorem obserwacji z pomarszczeniem, że może potrzebować ich identyfikatorów, aby je odróżnić. Ale masz rację, że znaczenie tutaj jest pewna odległość od tej w teorii mnogości. Podkreśl, jak tu wskazujesz, że kolejność obserwacji jest często kluczowa i często, ale nie zawsze, będzie podawana przez czas lub inne zmienne porządkowe.
Nick Cox,
@NickCox (+1) Rzeczywiście, nie znalazłem jeszcze czasu, a co więcej, aby wyrazić to, że obserwacje często pochodzą z identyfikatorem - czasem czasowym, czasem opartym na lokalizacji, a czasem jednym i drugim. Gdy kodujemy dane w wektorze, macierzy lub tensorze, to często zapewnia bezpośrednio pożądaną przez nas strukturę, a wyraźny identyfikator (np. Indeks zakodowany na stałe) może stać się zbędny, szczególnie jeśli liczy się tylko porządek lub pozycja względna. Bez wątpienia istnieje odpowiednia terminologia w tym zakresie.
Silverfish,
Nie mam problemu z powiedzeniem, że kolejność nie ma znaczenia. Nie zawiera pojedynczej zmiennej. Kolejność ma znaczenie, gdy masz sparowane wartości X z, powiedzmy, czasem pomiaru. Ale wtedy naprawdę możemy myśleć o punktach wielowymiarowych, a kolejność zestawu danych wielowymiarowych nie ma już znaczenia. Nie mam też problemu z myśleniem, że w rzeczywistości istnieje domniemany identyfikator, który czyni dwie 5 wyjątkowymi.
gung - Przywróć Monikę
@gung Myślałem o zestawach danych, w których dorozumiany jest czas lub kolejność. Powiedziałbym, że to zła praktyka, a teraz niepotrzebne, aby nie mieć wyraźnej zmiennej porządkowej, ale brak takiej zmiennej porządkowej nie dyskwalifikuje bycia zbiorem danych. W rzeczywistości w latach siedemdziesiątych rutynowo przetwarzałem serie przestrzenne z niejawnym identyfikatorem, ponieważ moje własne programy Fortran sprawiły, że (nie trywialna) praca polegająca na wprowadzeniu jednego z nich była niepotrzebna.
Nick Cox,
Wydaje mi się, @NickCox. Powiedziałbym, że zmienna kolejności jest domyślna, w tym przypadku, ale w pewnym sensie nadal istnieje.
gung - Przywróć Monikę