Czy to tylko agregacja punktów danych? A może reprezentacja punktów danych dla różnych elementów w formacie tabelarycznym ułożonym z wartościami różnych zmiennych? Czym różni się od surowych danych?
dataset
terminology
definition
ankit
źródło
źródło
Odpowiedzi:
Z mojego doświadczenia wynika, że „zbiór danych” (lub „zestaw danych”) jest nieformalnym terminem odnoszącym się do zbioru danych. Zasadniczo zestaw danych zawiera więcej niż jedną zmienną i dotyczy jednego tematu; może dotyczyć pojedynczej próbki.
Błędem, który często widzę pisarze pytań z weryfikacją krzyżową, jest użycie „zestawu danych” jako synonimu „zmiennej” lub „wektora”.
źródło
Myślę, że Wikipedia wykonuje przyzwoitą robotę, definiując ją:
Jak widać, termin ten jest nieco niejasny.
źródło
Myślę, że może zajść potrzeba zdefiniowania punktu danych, zanim będzie można zdefiniować zestaw danych : dlaczego jeden jest prymitywny i nie wymaga definicji, ale nie odwrotnie?
Co najmniej dwie definicje mają dla mnie sens:
Jedna lub więcej obserwacji (przypadki, rekordy, wiersze) dla jednej lub więcej zmiennych (pól. Kolumn).
Cokolwiek jest przechowywane jako dane w pliku odczytywalnym przez wybrany program.
Układ tabel jest powszechny, ale nie sądzę, aby był częścią żadnej definicji; sposób przechowywania danych może być oczywiście bardzo ważny.
PS Słowo „format” jest tak przeładowane, że według mnie najlepiej go unikać, chyba że zostanie to określone jednoznacznie. Widziałem to używane
Ogólny lub określony format pliku tekstowego lub binarnego
Struktura danych, np. Tabelaryczna lub inna
Pamięć danych lub typy zmiennych, np. Bit, liczba całkowita, liczba rzeczywista, znak
Format wyświetlania kontrolujący prezentację, np. Szczegóły dotyczące liczby miejsc po przecinku; wyświetlanie dziesiętne, szesnastkowe lub binarne.
źródło
Istnieje już kilka dobrych odpowiedzi i nie sądzę, żebym mógł wniknąć głębiej niż Nick Cox lub Franck Dernoncourt w kwestię, czy „zbiór danych” odnosi się do konceptualnego gromadzenia powiązanych danych lub do konkretnego ich uporządkowania, np. tabela / macierz lub plik czytelny dla komputera. Wyciąg Francka wspomina przypadki skrajne, takie jak stale gromadzone dane lub dane rozłożone w kilku tabelach, o których warto pamiętać, jeśli założymy, że będzie prosta definicja. (Nie wszystkie programy statystyczne mogą sobie z tym poradzić, ale bardzo łatwo jest wyobrazić sobie przypadek, w którym dane są przechowywane w relacyjnej bazie danych z wieloma tabelami. Czy cała baza danych jest pojedynczym „zbiorem danych”?)
Dodam jednak, że zestawy danych nie są ogólnie zestawami, w sensie matematycznym! Sensu stricto albo zestaw zawiera obiekt, albo go nie zawiera, ale nie może zawierać więcej niż jednej kopii tego obiektu. Jeśli rzucę kostką osiem razy i zdobędę 1, 4, 3, 5, 5, 4, 6, 4, wówczas zestaw wyrzuconych wyników to tylko {1, 3, 4, 5, 6}. Zauważ, że elementy mogą być w dowolnej kolejności, właśnie napisałem je rosnąco, ale na przykład zestaw {5, 4, 1, 6, 3} jest matematycznie równy. Jednak nie to zwykle rozumiemy przez zestaw danych!
Ale wektory służą tylko do rejestrowania jednej zmiennej - dla kilku może być wygodniej używać macierzy do tabelowania z zachowanym porządkiem. W przypadku bardziej wyrafinowanych sytuacji, takich jak pomiar właściwości trójwymiarowej siatki wokseli w czasie, możesz nawet przejść do układania danych w tensorze (patrz np. To pytanie ).
Należy jednak pamiętać, że koncepcyjnie multiset może wystarczyć w najprostszych sytuacjach, nawet jeśli jest to niewygodne ze względów praktycznych. Gdybym rzucił monetę jednocześnie z rzutowaniem kostką i chciałem zapisać oba wyniki razem, to mógłbym użyć multisetu, takiego jak {(1, H), (3, T), (4, H), (4, H ), (4, T), (5, H), (5, T), (6, T)} zamiast macierzy. Zwykły zestaw nie wystarczy, ponieważ nie policzyłby na przykład wielokrotności (4, H).
źródło