Najlepszy termin na gotowe dane?

23

Piszę przykład i stworzyłem trochę danych. Chcę, aby czytelnik zrozumiał, że to nie są prawdziwe dane, ale nie chcę też sprawiać wrażenia złośliwości, ponieważ służy to jedynie za przykład.

Nie ma (pseudo) losowego składnika tych konkretnych danych, więc wydaje mi się, że „symulowane” nie jest właściwe. Jeśli nazywam to fikcyjnym lub sfabrykowanym, czy to sprawia wrażenie fałszywych danych? Czy słowo „wymyślone” pasuje do kontekstu naukowego?

Jaka jest terminologia w literaturze statystycznej dla niesymulowanych gotowych danych?

Frans Rodenburg
źródło
9
Wystarczy dodać komentarz, który rozciąga się na kilka odpowiedzi: „syntetyczny” jest dobrym słowem dla skomponowanych danych, które starają się wyglądać tak realistycznie, jak to możliwe, podczas gdy „makieta” sugeruje dane, które zostały opracowane w celu wykazania czegoś konkretnego. Na przykład dane „makiety” mogą zawierać absurdalne wartości odstające, aby pokazać, jak ważne jest właściwe radzenie sobie z wartościami odstającymi.
Cort Ammon - Przywróć Monikę
Ja osobiście wolę termin „symulowany” i najbardziej go spotkałem w literaturze statystycznej (tj. „Przeprowadziliśmy symulacje, aby porównać nasz model z X, Y, Z ....”
Samir Rachid Zaim

Odpowiedzi:

45

Prawdopodobnie nazwałbym to „syntetycznymi” lub „sztucznymi” danymi, chociaż mógłbym też nazwać to „symulacją” (symulacja jest po prostu bardzo prosta).

Louis Cialdella
źródło
30
Słyszy się „dane zabawki”, „przykład zabawki” i „dane pozorowane”. Zgadzam się również, że „symulowany” może pasować nawet przy braku liczb losowych.
rolando2
7
„Dane przykładowe” lub „przykładowe dane” mogą również działać
Henry
8
+1 „ syntetyczne dane ” i „ zabawkowy przykład ” to oba terminy, których mogę użyć, jeśli nadarzy się okazja, podobnie jak „skonstruowany przykład”. Czasami mówię „przykład ilustrujący” lub coś podobnego, szczególnie gdy przykład został wyraźnie skonstruowany tak, aby miał określone cechy (np. Gdy został zaprojektowany jako przeciw-przykład do jakiegoś błędnego pojęcia).
Glen_b
1
Zwykle używam danych zabawek (bez sztucznych lub symulowanych ) do rzeczywistych (zmierzonych) zestawów danych, które „nadużywam” w celu wykazania czegoś.
cbeleites obsługuje Monikę
1
To zależy od twojej aplikacji, co będzie działać najlepiej. Na przykład wykonuję również projekt z „fałszywymi” danymi, ale inna część projektu wymaga użycia symulacji modelu komputerowego. Mogłoby to wprowadzić w błąd czytelnika, który nazywa fałszywe dane „symulowanym”, fałszywie sugerując, że dane pochodzą z symulacji. Dlatego polegam na „sztucznym” i czasami opisuję dane jako „wyprodukowane”. Osobiście unikałbym „syntetycznego”, ponieważ dla mnie termin ten sugerowałby, że dane są pewnego rodzaju kombinacją innych źródeł danych („synteza” np. Danych A i danych B).
Ceph
12

Jeśli chcesz odnieść się do swoich danych jako fikcyjnych, będziesz w dobrym towarzystwie, ponieważ to termin Francis Anscombe użył do opisania swojego słynnego kwartetu .

Od Anscombe, FJ (1973). „ Wykresy w analizie statystycznej ”, popr. Stat. 27 (1):

Niektóre z tych punktów są zilustrowane czterema fikcyjnymi zestawami danych, z których każdy składa się z jedenastu par (x, y), pokazanych w tabeli.

Ale uważam, że twoja ostrożność jest dobrze przygotowana, ponieważ mój OED (v4) wydaje się wskazywać, że to użycie fikcyjnego jest przestarzałe

fikcyjne , a.

(fɪkˈtɪʃəs)

[fa. L. fictīci-us (f. Fingerĕre to fashion, feign) + -ous: see -itious.]

1.1 † a.1.a Sztuczne w przeciwieństwie do naturalnego (obs.). b.1.b Fałszerstwo, „imitacja”, oszustwo; nie oryginalny.

AkselA
źródło
Jeśli chodzi o czytelność, pierwsza sugestia i komentarze są znacznie lepszą alternatywą. Nie trzeba używać nietypowych, skomplikowanych słów.
Tim
1
@Tim: Chcę się zgodzić, ale nie jestem całkowicie pewien, z czym się zgodzę. Czy twierdzisz, że fikcyjny byłby zły wybór, mimo że był wcześniej używany w podobnym kontekście? Ponieważ tak mówię.
AkselA
7

W IT często nazywamy to danymi makiety , które mogą być prezentowane za pomocą makiety (aplikacji).

Dane makiety mogą być również prezentowane przez w pełni funkcjonalną aplikację, na przykład w celu przetestowania funkcjonalności aplikacji w kontrolowany sposób.

ErikE
źródło
5
Dobra uwaga, ale uważam, że dane makiety i dane symulowane nie są dokładnie takie same. Podczas tworzenia danych makiet do testów jednostkowych potrzebujesz ich tylko do zachowania niektórych bardzo podstawowych właściwości danych rzeczywistych, a podczas korzystania z danych symulowanych do analizy statystycznej zwykle używasz bardziej wyrafinowanych przykładów danych.
Tim
2
Nadal uważam, że ErikE ma rację, kiedy piszesz kod analityczny, potrzebujesz prawdziwych danych lub fałszywych danych. Fikcyjne dane mogą być tak duże, jak chcesz, aby były imo.
Mathijs Segers,
1
Praktyki prawdopodobnie różnią się, podobnie jak użycie terminologii. W wielu naszych testach i analizach korzystamy z danych na żywo, które zostały „rozbrojone” ze względów bezpieczeństwa i anonimowości. Dla innych tworzymy gołe kości, tak jak opisuje to Tim. Nie mam silnej opinii, ale termin „makieta” używamy dość luźno.
ErikE
3

Widziałem wielokrotnie sugestie dotyczące terminu „dane syntetyczne”. Termin ten ma jednak szeroko stosowane i bardzo różne znaczenie od tego, co chcesz wyrazić: https://en.wikipedia.org/wiki/Synthetic_data

Nie jestem pewien, czy istnieje ogólnie przyjęty termin naukowy, ale termin „przykładowe dane” wydaje się trudny do niezrozumienia?

srass
źródło
1
Ten artykuł wydaje się trochę zagmatwany - związek z anonimizacją jest dość wątły.
Matt Krause,
+1, ale zgadzam się z poprzednim komentarzem: oprócz drugiego akapitu (mówiąc, że zsyntetyzowane dane są rodzajem anonimowych danych), reszta tego artykułu z Wikipedii wydaje się opisywać, czego chce pytający. Tj. Realistycznie wyglądające gotowe dane.
Darren Cook
3

Spotykałem się z terminem „fałszywe dane”. Wydaje mi się, że może mieć jakieś negatywne skojarzenia, ale słyszałem to wystarczająco często, aby nie rejestrowało się dla mnie negatywnie.

FWIW, Andrew Gelman również go używa:

https://statmodeling.stat.columbia.edu/2009/09/04/fake-data_simul/

https://statmodeling.stat.columbia.edu/2019/03/23/yes-i-really-really-really-like-fake-data-simulation-and-i-cant-stop-talking-about-it/

https://books.google.dk/books?id=lV3DIdV0F9AC&pg=PA155&lpg=PA155&dq=fake+data+simulation&source=bl&ots=6ljKB6StQ4&sig=ACfU3U17GLP_84q_HfIQB4u5O6wV0yA2Aw&hl=en&sa=X&ved=2ahUKEwiF2_eB0uvjAhWswcQBHSn5Cn04ChDoATAAegQICRAB#v=onepage&q=fake%20data%20simulation&f=false

Szybkie wyszukiwanie w Google „fałszywych danych” pokazuje wiele wyników, które wydają się używać tego terminu podobnie:

https://scientistseessquirrel.wordpress.com/2016/03/10/good-uses-for-fake-data-part-1/

http://modernstatisticworkflow.blogspot.com/2017/04/an-easy-way-to-simulate-fake-data-from.html

https://clayford.github.io/dwir/dwr_12_generating_data.html

Jest nawet fakeRpakiet, który sugeruje, że jest to stosunkowo powszechne: https://cran.r-project.org/web/packages/fakeR/fakeR.pdf

mkt - Przywróć Monikę
źródło
2

Używam innego słowa w zależności od sposobu, w jaki korzystam z danych. Jeśli znalazłem gotowy zestaw danych i wskazałem na niego mój algorytm w sposób potwierdzający, to słowo „syntetyczny” jest w porządku.

Jednak często za każdym razem, gdy korzystam z tego rodzaju danych, wynalazłem dane z konkretnym zamiarem pokazania możliwości mojego algorytmu. Innymi słowy, wynalazłem dane w konkretnym celu uzyskania „dobrych wyników”. W takich okolicznościach lubię termin „wymyślony” wraz z wyjaśnieniem moich oczekiwań dotyczących danych. Wynika to z faktu, że nie chcę, aby ktokolwiek popełnił błąd, myśląc, że wskazałem mój algorytm na dowolny, syntetyczny zbiór danych, który znalazłem w pobliżu i naprawdę działał dobrze. Jeśli mam wybrane dane (do tego stopnia, że ​​je rzeczywiście stworzyłem) specjalnie po to, aby mój algorytm działał dobrze, to tak mówię. Jest tak, ponieważ takie wyniki dostarczają dowodów, że mój algorytm może to zrobićdziałają dobrze, ale dostarczają tylko bardzo słabych dowodów, że można oczekiwać, że algorytm ogólnie się sprawdzi . Słowo „wymyślone” naprawdę dobrze podsumowuje fakt, że wybrałem dane z myślą o „dobrych wynikach” a priori.

„czy to sprawia wrażenie fałszywych danych?”

Nie, ale ważne jest, aby podczas raportowania wyników w dowolnym zestawie danych jasno określić źródło dowolnego zestawu danych i swoje oczekiwania a priori jako eksperymentatora. Termin „oszustwo” wyraźnie obejmuje aspekt ukrywania czegoś lub jawnego kłamstwa. # 1 sposobem, aby uniknąć popełnienia oszustwa w nauce jest po prostu być uczciwy i szczery o naturze danych i swoich oczekiwań. Innymi słowy, jeśli twoje dane są sfabrykowane i nie powiesz ich w jakikolwiek sposób , i istnieje pewien rodzaj oczekiwań, że dane nie zostaną sfabrykowane lub, co gorsza, twierdzisz, że dane są gromadzone w jakiś niefabrykowany sposób oczywiście, to znaczy"oszustwo". Nie rób tego. Jeśli chcesz użyć jakiegoś synonimu terminu „sfabrykowany”, który brzmi „lepiej”, na przykład „syntetyczny”, nikt nie będzie cię winił, ale jednocześnie nie sądzę, aby ktokolwiek zauważył różnicę oprócz ciebie.

Notatka dodatkowa:

Mniej oczywiste są okoliczności, w których ktoś twierdzi, że miał a priori oczekiwania, które w rzeczywistości są wyjaśnieniami post hoc . Jest to również oszukańcza analiza danych.

Istnieje niebezpieczeństwo, że dane zostaną wybrane specjalnie w celu „popisania się” możliwościami algorytmu, co często ma miejsce w przypadku danych syntetycznych.

DHHDD działać w ramach tej wąskiej definicji, ale jest to tak zwana analiza „potwierdzająca” i jest ogólnie uważana za najsilniejszą formę dowodów, jaką można przedstawić. Ponieważ kolejność zdarzeń koreluje z siłą dowodów, ważne jest ich szczegółowe udokumentowanie.

HDHD

Nie ma z tym problemu, o ile jesteś uczciwy i szczery w kwestii tego, co zrobiłeś. Jeśli dołożyłeś wszelkich starań, aby utworzyć zestaw danych, który daje „dobre wyniki”, powiedz to. Tak długo, jak dasz czytelnikowi znać kroki, które podjąłeś w swojej analizie danych, ma on informacje niezbędne do skutecznego wyważenia dowodów za lub przeciw twoim hipotezom. Jeśli nie jesteś uczciwy lub nie jesteś szczery , może to sprawiać wrażenie, że twoje dowody są silniejsze niż w rzeczywistości. Kiedy jesteś WIEDZĄ mniej niż uczciwy i szczery, aby sprawić, że twoje dowody wydają się silniejsze niż w rzeczywistości, to jest to w rzeczywistości oszukańcze.

W każdym razie dlatego wolę termin „wymyślony” dla takich zestawów danych, wraz z krótkim wyjaśnieniem, że faktycznie są one wybierane z myślą o hipotezie. „Contrived” przekazuje wrażenie, że nie tylko stworzyłem syntetyczny zestaw danych, ale zrobiłem to ze szczególnymi intencjami, które odzwierciedlają fakt, że moja hipoteza istniała już przed utworzeniem mojego zbioru danych.

ADx.y

tl; dr

Używaj dowolnego terminu, który ci się podoba, „syntetyczny”, „wymyślony”, „sfabrykowany”, „fikcyjny”. Jednak termin, którego używasz, jest niewystarczający, aby zapewnić, że Twoje wyniki nie wprowadzają w błąd . Upewnij się, że w swoim raporcie masz jasność na temat tego, jak powstały dane, w tym oczekiwań dotyczących danych i powodów, dla których wybrałeś wybrane dane.

Scott
źródło
Chociaż odpowiedzi tutaj pokrywają się i prawie wszystkie mają dobre racje, to myślę, że najlepiej oddaje kluczową kwestię, że żaden pojedynczy termin nie przekaże wszystkim czytelnikom zamiaru tworzenia danych. Powody mogą wahać się od nie tylko odpowiedniego, ale niezbędnego do tego celu, przez lenistwo (złe teksty wprowadzające) do oszukiwania i oszustw. Wyjaśnienie, dlaczego robisz to na dłuższą metę, może być dobrym pomysłem.
Nick Cox,
... powody ...
Nick Cox
1

Po pierwsze, nie ma powodu, by nie nazywać go „zbiorem danych”. Nie ma uniwersalnie uzgodnionych terminów dla „fałszywych” vs. „symulowanych” vs.… danych. Jeśli celem jest całkowicie jasne, najlepiej poświęcić zdanie, a nie słowo, aby określić, czym jest ten zestaw danych. Następnie możesz rozluźnić oznaczenie i po prostu odnieść się do swoich danych jako danych.

„Syntetyczny”, „sztuczny” nie rozróżnia od innych „symulowanych” zestawów danych MCMC w moim umyśle. Użycie generatora liczb quasirandomowych ze stałym ziarnem (jak nakazałby odpowiedni trening) tworzy również syntetyczny lub sztuczny zestaw danych.

Jeśli chodzi o wybór zbioru danych dla konkretnej ilustracji, zamiast generowania wystąpienia lub realizacji z modelu prawdopodobieństwa, myślę, że lepiej nazwać taki zestaw danych „ przykładowym zestawem danych ”. Takie dane są podobne do kwartetu Anscombe: całkowicie abstrakcyjne i niewiarygodne, ale przeznaczone do zilustrowania pewnej kwestii.

AdamO
źródło
1

W biologii analizy są czasem przedstawiane przy użyciu zestawu danych mitycznych zwierząt. To, czy jawnie oświadczyć, że dane są symulowane, zależy od autora / recenzenta.

Przewodnik ekologa po modelu zwierzęcym, 2009

Te samouczki opisują serię ilościowych analiz genetycznych na populacji gryfów (odzwierciedlając kompromis między stronniczością autorów i ptaków). Ponieważ gryf jest mityczną bestią, dostarczone dane zostały koniecznie zasymulowane.

Naprawiono wariancję efektu oraz oszacowanie powtarzalności i odziedziczalności: Problemy i rozwiązania, 2017

Aby to zilustrować, wróćmy do zbioru danych jednorożca Wilsona (2008). Wiadomo, że u jednorożców długość rogu zmienia się w zależności od masy ciała (nachylenie: β = 0,403 dla pełnego modelu, w tym wiek, płeć i ich interakcje).

DA Wells
źródło
1
Ciekawe podejście! Myślę, że może to być świetne do nauczania statystyki studentów biologii. Podczas prezentacji publiczności nie jestem jednak pewien, czy dałoby to właściwe wrażenie
Frans Rodenburg,
0

Intuicyjnie wybrałbym termin „Dane manekina”, w tym samym znaczeniu, w którym „Lorem ipsum ...” nazywa się „Tekstem manekina”. Słowo „Atrapa” jest dość ogólne i łatwe do zrozumienia dla osób z różnych środowisk i dlatego jest mniej prawdopodobne, że zostanie źle zinterpretowane przez czytelników o mniej statystycznym pochodzeniu.

Mathijs
źródło
2
Jeśli jest to kontekst regresji, unikałbym przeciążania „fikcyjnego”, aby nie istniały zmienne fikcyjne kodujące fikcyjne dane.
Matt Krause,
Zgadzam się, osobiście bym tego unikał, ponieważ „Dummy” ma już określoną konotację w regresji. Biorąc pod uwagę, że dostępnych jest wiele terminów, prawdopodobnie najlepiej jest unikać tych terminów, które mogą oznaczać różne rzeczy dla różnych ludzi.
Samir Rachid Zaim
0

Dane są w języku łacińskim jako dane , które są używane w czasach współczesnych jako skrót dla danego zbioru zarejestrowanych faktów . W pewien sposób odnosząc się do sfabrykowanych nagrań jako pewnego rodzaju podanych faktów, byłaby otwarta sprzeczność.

Jednak ze względu na coraz częstsze wykorzystywanie danych w odniesieniu do nagrań - bez względu na pierwotne domniemanie faktów - że szczerze się rozumiemy, mówiąc o nagraniach, które mogą być lub nie być zgodne z prawdą - stąd prawdziwe / fałszywe dane.

Poniżej podsumuję moje doświadczenia związane ze sposobami rozwiązywania sfabrykowanych nagrań. Zastosowana etykieta zależy od tego, czy zakładamy, że mówimy o danych jako sfabrykowanych nagraniach, które mają wyglądać w miarę realistycznie, aby umożliwić dalszą analizę, czy dane jako obciążenie obliczeniowe.

  • W kręgach analitycznych / danych naukowych / firm doradztwa strategicznego ludzie najczęściej odnoszą się do sfabrykowanego zestawu nagrań generowanych przy realistycznych założeniach jako dane syntetyczne - a czasami dane symulowane . Sfabrykowane nagrania utworzone przy użyciu surowych założeń są określane jako zbiór danych zabawek .
  • Wśród inżynierów oprogramowania, danych fałszywych , dane manekina , gotowych danych i danych mock-up są częste etykiety, które podpowiedź głównie do nagrań niekoniecznie ma mieć realistyczne właściwości, ale tylko dzielą podstawowe właściwości z oryginalnych danych (dane wiek zawsze jest numeryczna , adresy e-mail zawsze zawierają ciągi zawierające „@”).
  • Naukowcy akademiccy określiliby realistyczny zestaw sfabrykowanych nagrań jako pseudo-dane , lub dane symulowane . W niektórych kręgach, jeśli sfabrykowany zestaw obserwacji jest wynikiem symulacji Monte Carlo, można go nazywać potocznie Monte Carlo . Pół-realistyczne nagrania są powszechnie używane do celów ilustracyjnych lub testowania alternatywnych hipotez i określane jako zbiór danych o zabawkach
famargar
źródło
2
„Monte Carlo” to nazwa metody, więc nazwa „potoczna” byłaby bardzo myląca.
Tim
@ Tymczasowo może to być postrzegane jako wprowadzające w błąd. Jednak język jest tylko narzędziem opartym na konsensusie w społeczności jako sposobem na odniesienie się do czegoś. Do tego stopnia, że ​​odsyłamy na tej stronie do podanych nagrań i pomiarów (angielski dla danych łacińskich ). Gdybym miał przyjąć twój punkt widzenia, uważałbym, że adresowanie symulowanych pomiarów za fałszywe jest wysoce wątpliwe.
famargar
Mam nadzieję, że zobaczycie teraz, że odniesienie do „symulacji Monte Carlo” jako po prostu „Monte Carlo” jest nowoczesną wersją odniesienia do „podanych obserwacji” jako „podanych”. Zredagowałem swoją odpowiedź, aby uwzględnić to i inne rozważania dotyczące znaczenia a faktyczne użycie słowa „dane”.
famargar
1
„Naukowcy akademiccy odnoszą się do realistycznego zestawu sfabrykowanych nagrań najczęściej jako pseudo-danych”: nie przypominam sobie, aby kiedykolwiek widziałem ten termin w ponad 40 latach badań akademickich. „Naukowcy zwykle nie mają pożytku z nierealistycznymi nagraniami”: przepraszam, ale to wydaje się zupełnie błędne. Naukowcy z wielu, wielu dziedzin używają symulacji kilku różnych rodzajów. Nawet nierealistyczne symulacje mogą być przydatne, np. Zmienność normalnych próbek jest ważnym kontekstem dla oceny nienormalności.
Nick Cox
@NickCox Pseudodata jest często używany w fizyce, a widziałem to w biologii i statystyce. Byłoby ciekawie wiedzieć, jakie jest twoje pole i jak twoje pole odnosi się do symulacji. Jeśli chodzi o nierealistyczne dane, dokonałem rozróżnienia między nierealistycznymi i półrealistycznymi. Czy przegapiłem twój przypadek użycia?
famargar