Jaka jest różnica między danymi dyskretnymi a danymi ciągłymi?

62

Jaka jest różnica między danymi dyskretnymi a danymi ciągłymi?

Albort
źródło
2
Czy najpierw wypróbowałeś Google? Dla mnie, to daje to .
robin girard
Oto fajny film, który odpowiada na twoje pytanie. youtube.com/watch?v=MIX3ZpzEOdM
2
Pomyśl tylko o cyfrowym kontra analogowym. To samo - różne nazwy.
Pithikos,
Naprawdę nie wiem, jaka jest różnica między danymi „dyskretnymi” a „ciągłymi”. Z niektórych powodów klasy wprowadzające wydają się naprawdę cieszyć, gdy uczniowie zapamiętują zasady rozróżniania tych dwóch rzeczy. O ile mogłem zrozumieć, różnice nie dotyczą danych - ale sposobu, w jaki wybieramy model danych.
user795305
1
To był najlepszy wynik w Google, @robingirard.
denson

Odpowiedzi:

58

Dane dyskretne mogą przyjmować tylko określone wartości. Potencjalnie może istnieć nieskończona liczba tych wartości, ale każda z nich jest odrębna i pomiędzy nimi nie ma szarej strefy. Dyskretne dane mogą być liczbowe - jak liczby jabłek - ale mogą być również kategoryczne - jak czerwony lub niebieski, męski lub żeński, dobry lub zły.

Dane ciągłe nie są ograniczone do określonych oddzielnych wartości, ale mogą zajmować dowolne wartości w ciągłym zakresie. Pomiędzy dwiema ciągłymi wartościami danych może istnieć nieskończona liczba innych. Dane ciągłe są zawsze zasadniczo numeryczne.

Czasami sensowne jest traktowanie danych liczbowych, które są właściwie jednego typu, jako dane drugiego. Na przykład coś w rodzaju wysokości jest ciągłe, ale często tak naprawdę nie przejmujemy się drobnymi różnicami, a zamiast tego grupujemy wysokości w kilka odrębnych pojemników . I odwrotnie, jeśli liczymy duże ilości jakiegoś odrębnego bytu - ziarna ryżu, termity lub grosze w gospodarce - możemy nie myśleć o 2000006 i 2000008 jako o zasadniczo różnych wartościach, ale zamiast o pobliskich punktach na przybliżone kontinuum.

Czasami przydatne może być również traktowanie danych liczbowych jako kategorycznych, np .: niedowaga, normalna, otyłość. Zazwyczaj jest to po prostu inny rodzaj binowania.

Rzadko warto traktować dane kategoryczne jako ciągłe.

krótkofalówka
źródło
@walktalky, jak @jeromy, odnosi się, przynajmniej w psychologii, do zmiennych kategorialnych, takich jak odpowiedzi na pytania, często przyjmuje się, że reprezentują one podstawową cechę, dlatego w tym sensie dane kategoryczne są czasami traktowane jako ciągłe.
richiemorrisroe
@richiemorrisroe Można by się zastanawiać nad różnicą między danymi a domniemaną cechą, ale oczywiście masz rację. W odpowiedzi na to pytanie uzupełniające przedstawiono kilka bardzo interesujących kwestii .
walkytalky
dzięki za link, te odpowiedzi są naprawdę bardzo interesujące.
richiemorrisroe
> „ Może istnieć nieskończona liczba tych wartości, ale każda z nich jest odrębna i nie ma między nimi szarej strefy ” - w rzeczywistości jest całkowicie możliwe uzyskanie dyskretnego rozkładu z odrębnymi wartościami, a jednocześnie dla dwóch dowolnych różne wartości, które wybierzesz, zawsze mają między sobą więcej wartości (w pewnym sensie „szary obszar”). Nie pojawiają się tak często w praktyce, ale jest całkiem możliwe, że pojawią się naprawdę; w rzeczy samej, mogę wymyślić dwa różne (jeśli powiązane) przykłady, które mogą łatwo powstać.
Glen_b
więc, aby wyjaśnić, nawet jeśli miałbyś 10 miliardów wierszy danych ohlc dla zasobu zapasowego, nadal byłby uważany za dyskretny? ale potem nie mogę ceną aktywów być od 1 do nieskończoności, jak myśleć w takich sytuacjach?
PirateApp
19

Dane są zawsze dyskretne. Biorąc pod uwagę próbkę nwartości zmiennej, maksymalna liczba odrębnych wartości, jaką może przyjąć zmienna, jest równa n. Zobacz ten cytat

Wszystkie rzeczywiste przestrzenie próbki są dyskretne, a wszystkie obserwowalne zmienne losowe mają dyskretne rozkłady. Rozkład ciągły jest konstrukcją matematyczną, odpowiednią do leczenia matematycznego, ale praktycznie niemożliwą do zaobserwowania. EJG Pitman (1979, s. 1).

Dane o zmiennej zazwyczaj przyjmuje się, że pochodzą z zmiennej losowej. Zmienna losowa jest ciągła w całym zakresie, jeśli istnieje nieskończona liczba możliwych wartości, które zmienna może przyjąć między dowolnymi dwoma różnymi punktami w zakresie. Na przykład, zakłada się, że wzrost, waga i czas są ciągłe. Oczywiście każdy pomiar tych zmiennych będzie dokładnie dokładny iw pewnym sensie dyskretny.

Przydatne jest rozróżnienie między
zmiennymi uporządkowanymi (tj. Porządkowymi), nieuporządkowanymi (tj. Nominalnymi) i dyskretnymi zmiennymi binarnymi.

Niektóre podręczniki wprowadzające mylą zmienną ciągłą ze zmienną numeryczną. Na przykład wynik w grze komputerowej jest dyskretny, nawet jeśli jest liczbowy.

Niektóre podręczniki wprowadzające mylą zmienną proporcji ze zmiennymi ciągłymi. Zmienna zliczająca jest zmienną stosunkową, ale nie jest ciągła.

W praktyce zmienna jest często traktowana jako ciągła, gdy może przyjąć wystarczająco dużą liczbę różnych wartości.

Bibliografia

  • Pitman, EJG 1979. Niektóre podstawowe teorie wnioskowania statystycznego. Londyn: Chapman and Hall. Uwaga: cytat znalazłem we wstępie do rozdziału 2 książki Murraya Aitkina Wnioskowanie statystyczne: zintegrowane podejście bayesowskie / prawdopodobieństwo
Jeromy Anglim
źródło
12
Również prawdopodobieństwo jest „konstrukcją matematyczną”, a nie „bezpośrednio obserwowalną”. Czy to oznacza, że ​​prawdopodobieństwo nie istnieje? Ogólnie rzecz biorąc, ta interesująca odpowiedź wydaje się opierać na niemożliwym do utrzymania założeniu, że dane powinny charakteryzować się wartościami, które mają, a nie wartościami, na które pozwala im model matematyczny. Ta ostatnia jest kluczową cechą, a nie pierwszą. Wszystko to sugeruje, że w ciągłym / dyskretnym rozróżnieniu ważne jest to, jak myślimy o danych (czyli jak je modelujemy).
whuber
3
Jest sprytna mała bajka ilustrująca punkt @ Whubera: Lord (1953), „O statystycznym traktowaniu liczb piłkarskich”, American Psychologist , 8 , pp750-51.
Scortchi - Przywróć Monikę
Dziękuję, @ ​​Scortchi. Wersje internetowe są dostępne w wyszukiwarce Google Scholar . Lord zajmuje się nieporozumieniem, o którym gorliwie debatowano 60 lat temu, na temat tego, w jakim stopniu „teoria pomiaru” powinna wpływać (a nawet ograniczać zakres) analizy statystycznej. Moje zdanie było inne o rozróżnieniu między konstrukcjami modelowymi a obserwacjami.
whuber
12

Temperatury są ciągłe. Może wynosić 23 stopnie, 23,1 stopnia, 23,100004 stopnia.

Seks jest dyskretny. Możesz być tylko mężczyzną lub kobietą (w każdym razie w klasycznym myśleniu). Coś, co możesz reprezentować liczbą całkowitą, np. 1, 2 itd

Różnica jest ważna, ponieważ wiele algorytmów statystycznych i eksploracji danych może obsługiwać jeden typ, ale nie drugi. Na przykład w regresji regularnej Y musi być ciągłe. W regresji logistycznej Y jest dyskretne.

Neil McGuigan
źródło
5
Gdy rekord temperatury z dokładnością do stopnia, że można uznać dyskretnych - a może i musi być więc uznane za pewne formy analizy. Ponadto w regresji „zwykłej” (OLS?) nie musi być ciągła: wiele - i praktycznie wszystkie jej przydatne właściwości - stosuje się do wielu rodzajów danych dyskretnych, nawet odpowiedzi binarnych. Te punkty i kontrapunkty zaczynają sugerować, że dane niekoniecznie są dyskretne lub ciągłe, ale raczej procedury statystyczne są dyskretne lub ciągłe. Y
whuber
8

Dane dyskretne mogą przyjmować tylko określone wartości.

Przykład: liczba uczniów w klasie (nie możesz mieć połowy ucznia).

Dane ciągłe to dane, które mogą przyjąć dowolną wartość (w zakresie)

Przykłady:

  • Wzrost osoby: może być dowolną wartością (w zakresie wysokości człowieka), a nie tylko pewnymi stałymi wysokościami,
  • Czas w wyścigu: możesz go nawet zmierzyć z ułamkiem sekundy,
  • Waga psa,
  • Długość liścia,
  • Waga osoby,
Subrato Mukherjee
źródło
2
Możesz również powiedzieć nam, gdzie skopiowałeś wkleić odpowiedź z: mathsisfun.com/data/data-discrete-continuous.html
philmcole
Ładnie opisane.
Arsman Ahmad
0

W przypadku bazy danych zawsze przechowujemy dane w sposób dyskretny, nawet jeśli charakter danych jest ciągły. Dlaczego powinienem podkreślać naturę danych? Powinniśmy wziąć dystrybucję danych, która mogłaby pomóc nam w ich analizie. JEŻELI charakter danych jest ciągły, sugeruję, abyś używał ich przez ciągłą analizę.

Weź przykład ciągłego i dyskretnego: MP3. Nawet rodzaj „dźwięku” jest analogiczny, jeśli jest przechowywany w formacie cyfrowym. Powinniśmy to zawsze analizować analogicznie.

Tony
źródło
0

Z jednej strony, z praktycznego punktu widzenia zgadzam się z odpowiedzią Jeromy Anglim. Ostatecznie przeważnie mamy do czynienia ze zmiennymi dyskretnymi - chociaż z teoretycznego punktu widzenia są one ciągłe - i to ma realny wpływ na przykład na klasyfikację. Przypomnijmy artykuł Strobla wskazujący, że Losowe Lasy są nastawione na zmienne o wielu punktach cięcia (większa dokładność, ale potencjalnie podobny charakter). Z mojego osobistego doświadczenia probabilistyczne sieci neuronowe mogą również wykazywać błąd, gdy zmienne prezentują inną dokładność, chyba że są tego samego typu (tj. Ciągłe). Z drugiej strony, z teoretycznego punktu widzenia klasyczna klasyfikacja (np. Ciągła, dyskretna, nominalna itp.) Ma, IMHO, rację. Zgodnie z tym myślę, że nazwa źródłowa artykułu Quinlan opisującego algorytm M5, który jest „regresorem”, to świetny wybór. Tak więc definicja i implikacje ciągłego vs. dyskretnego są istotne w zależności od „środowiska”.

Refs:

Quinlan JR (1992). Uczenie się za pomocą ciągłych zajęć. W: Piąta australijska wspólna konferencja na temat AI. Sydney (Australia), 343–348.

Strobl C., Boulesteix A.-L., Zeileis A. i Hothorn T. (2007). Odchylenie w losowych pomiarach lasów o różnym znaczeniu: ilustracje, źródła i rozwiązanie. BMC Bioinformatics, 8, 25. doi: 10.1186 / 1471-2105-8-25

Rafa_Mas
źródło
-1

Dane dyskretne przyjmują określone wartości, natomiast dane ciągłe nie są ograniczone do osobnych wartości.

Dane dyskretne są odrębne i pomiędzy nimi nie ma szarego obszaru, podczas gdy dane ciągłe zajmują dowolną wartość w stosunku do wartości danych ciągłych.

Ahmad ibraheem
źródło
-2

Dane dyskretne Mogą przyjmować określone wartości. Są numeryczne.

manuella
źródło
Witamy w CV! Dziękujemy za odpowiedź, ale poświęć trochę czasu na zapoznanie się z poprzednimi odpowiedziami i rozważ, czy dodajesz coś przydatnego.
Scortchi - Przywróć Monikę
-3

Dane dyskretne mogą przyjmować tylko wartości całkowite, natomiast dane ciągłe mogą przyjmować dowolne wartości. Na przykład liczba pacjentów z rakiem leczonych przez szpital każdego roku jest dyskretna, ale Twoja waga jest ciągła. Niektóre dane są ciągłe, ale mierzone w sposób dyskretny, np. Wiek. Często mówi się o wieku, powiedzmy, 31 lat.

Graham Cookson
źródło
11
Dane mogą być dyskretne bez ograniczania się do liczb całkowitych. Albo liczby, jeśli o to chodzi. Zawsze możliwe jest reprezentowanie danych dyskretnych za pomocą liczb całkowitych, ale to nie znaczy, że dane mogą przyjmować tylko takie wartości.
walkytalky
-4

Dyskretne dane perticularly mówią o wartościach skończonych, a dane ciągłe mówią o wartościach ifinite .....

Md.Shahid
źródło
2
Możesz rozwinąć temat?
chl