Piszę przykład i stworzyłem trochę danych. Chcę, aby czytelnik zrozumiał, że to nie są prawdziwe dane, ale nie chcę też sprawiać wrażenia złośliwości, ponieważ służy to jedynie za przykład.
Nie ma (pseudo) losowego składnika tych konkretnych danych, więc wydaje mi się, że „symulowane” nie jest właściwe. Jeśli nazywam to fikcyjnym lub sfabrykowanym, czy to sprawia wrażenie fałszywych danych? Czy słowo „wymyślone” pasuje do kontekstu naukowego?
Jaka jest terminologia w literaturze statystycznej dla niesymulowanych gotowych danych?
terminology
synthetic-data
Frans Rodenburg
źródło
źródło
Odpowiedzi:
Prawdopodobnie nazwałbym to „syntetycznymi” lub „sztucznymi” danymi, chociaż mógłbym też nazwać to „symulacją” (symulacja jest po prostu bardzo prosta).
źródło
Jeśli chcesz odnieść się do swoich danych jako fikcyjnych, będziesz w dobrym towarzystwie, ponieważ to termin Francis Anscombe użył do opisania swojego słynnego kwartetu .
Od Anscombe, FJ (1973). „ Wykresy w analizie statystycznej ”, popr. Stat. 27 (1):
Ale uważam, że twoja ostrożność jest dobrze przygotowana, ponieważ mój OED (v4) wydaje się wskazywać, że to użycie fikcyjnego jest przestarzałe
źródło
W IT często nazywamy to danymi makiety , które mogą być prezentowane za pomocą makiety (aplikacji).
Dane makiety mogą być również prezentowane przez w pełni funkcjonalną aplikację, na przykład w celu przetestowania funkcjonalności aplikacji w kontrolowany sposób.
źródło
Widziałem wielokrotnie sugestie dotyczące terminu „dane syntetyczne”. Termin ten ma jednak szeroko stosowane i bardzo różne znaczenie od tego, co chcesz wyrazić: https://en.wikipedia.org/wiki/Synthetic_data
Nie jestem pewien, czy istnieje ogólnie przyjęty termin naukowy, ale termin „przykładowe dane” wydaje się trudny do niezrozumienia?
źródło
Spotykałem się z terminem „fałszywe dane”. Wydaje mi się, że może mieć jakieś negatywne skojarzenia, ale słyszałem to wystarczająco często, aby nie rejestrowało się dla mnie negatywnie.
FWIW, Andrew Gelman również go używa:
https://statmodeling.stat.columbia.edu/2009/09/04/fake-data_simul/
https://statmodeling.stat.columbia.edu/2019/03/23/yes-i-really-really-really-like-fake-data-simulation-and-i-cant-stop-talking-about-it/
https://books.google.dk/books?id=lV3DIdV0F9AC&pg=PA155&lpg=PA155&dq=fake+data+simulation&source=bl&ots=6ljKB6StQ4&sig=ACfU3U17GLP_84q_HfIQB4u5O6wV0yA2Aw&hl=en&sa=X&ved=2ahUKEwiF2_eB0uvjAhWswcQBHSn5Cn04ChDoATAAegQICRAB#v=onepage&q=fake%20data%20simulation&f=false
Szybkie wyszukiwanie w Google „fałszywych danych” pokazuje wiele wyników, które wydają się używać tego terminu podobnie:
https://scientistseessquirrel.wordpress.com/2016/03/10/good-uses-for-fake-data-part-1/
http://modernstatisticworkflow.blogspot.com/2017/04/an-easy-way-to-simulate-fake-data-from.html
https://clayford.github.io/dwir/dwr_12_generating_data.html
Jest nawet
fakeR
pakiet, który sugeruje, że jest to stosunkowo powszechne: https://cran.r-project.org/web/packages/fakeR/fakeR.pdfźródło
Używam innego słowa w zależności od sposobu, w jaki korzystam z danych. Jeśli znalazłem gotowy zestaw danych i wskazałem na niego mój algorytm w sposób potwierdzający, to słowo „syntetyczny” jest w porządku.
Jednak często za każdym razem, gdy korzystam z tego rodzaju danych, wynalazłem dane z konkretnym zamiarem pokazania możliwości mojego algorytmu. Innymi słowy, wynalazłem dane w konkretnym celu uzyskania „dobrych wyników”. W takich okolicznościach lubię termin „wymyślony” wraz z wyjaśnieniem moich oczekiwań dotyczących danych. Wynika to z faktu, że nie chcę, aby ktokolwiek popełnił błąd, myśląc, że wskazałem mój algorytm na dowolny, syntetyczny zbiór danych, który znalazłem w pobliżu i naprawdę działał dobrze. Jeśli mam wybrane dane (do tego stopnia, że je rzeczywiście stworzyłem) specjalnie po to, aby mój algorytm działał dobrze, to tak mówię. Jest tak, ponieważ takie wyniki dostarczają dowodów, że mój algorytm może to zrobićdziałają dobrze, ale dostarczają tylko bardzo słabych dowodów, że można oczekiwać, że algorytm ogólnie się sprawdzi . Słowo „wymyślone” naprawdę dobrze podsumowuje fakt, że wybrałem dane z myślą o „dobrych wynikach” a priori.
Nie, ale ważne jest, aby podczas raportowania wyników w dowolnym zestawie danych jasno określić źródło dowolnego zestawu danych i swoje oczekiwania a priori jako eksperymentatora. Termin „oszustwo” wyraźnie obejmuje aspekt ukrywania czegoś lub jawnego kłamstwa. # 1 sposobem, aby uniknąć popełnienia oszustwa w nauce jest po prostu być uczciwy i szczery o naturze danych i swoich oczekiwań. Innymi słowy, jeśli twoje dane są sfabrykowane i nie powiesz ich w jakikolwiek sposób , i istnieje pewien rodzaj oczekiwań, że dane nie zostaną sfabrykowane lub, co gorsza, twierdzisz, że dane są gromadzone w jakiś niefabrykowany sposób oczywiście, to znaczy"oszustwo". Nie rób tego. Jeśli chcesz użyć jakiegoś synonimu terminu „sfabrykowany”, który brzmi „lepiej”, na przykład „syntetyczny”, nikt nie będzie cię winił, ale jednocześnie nie sądzę, aby ktokolwiek zauważył różnicę oprócz ciebie.
Notatka dodatkowa:
Mniej oczywiste są okoliczności, w których ktoś twierdzi, że miał a priori oczekiwania, które w rzeczywistości są wyjaśnieniami post hoc . Jest to również oszukańcza analiza danych.
Istnieje niebezpieczeństwo, że dane zostaną wybrane specjalnie w celu „popisania się” możliwościami algorytmu, co często ma miejsce w przypadku danych syntetycznych.
Nie ma z tym problemu, o ile jesteś uczciwy i szczery w kwestii tego, co zrobiłeś. Jeśli dołożyłeś wszelkich starań, aby utworzyć zestaw danych, który daje „dobre wyniki”, powiedz to. Tak długo, jak dasz czytelnikowi znać kroki, które podjąłeś w swojej analizie danych, ma on informacje niezbędne do skutecznego wyważenia dowodów za lub przeciw twoim hipotezom. Jeśli nie jesteś uczciwy lub nie jesteś szczery , może to sprawiać wrażenie, że twoje dowody są silniejsze niż w rzeczywistości. Kiedy jesteś WIEDZĄ mniej niż uczciwy i szczery, aby sprawić, że twoje dowody wydają się silniejsze niż w rzeczywistości, to jest to w rzeczywistości oszukańcze.
W każdym razie dlatego wolę termin „wymyślony” dla takich zestawów danych, wraz z krótkim wyjaśnieniem, że faktycznie są one wybierane z myślą o hipotezie. „Contrived” przekazuje wrażenie, że nie tylko stworzyłem syntetyczny zestaw danych, ale zrobiłem to ze szczególnymi intencjami, które odzwierciedlają fakt, że moja hipoteza istniała już przed utworzeniem mojego zbioru danych.
tl; dr
Używaj dowolnego terminu, który ci się podoba, „syntetyczny”, „wymyślony”, „sfabrykowany”, „fikcyjny”. Jednak termin, którego używasz, jest niewystarczający, aby zapewnić, że Twoje wyniki nie wprowadzają w błąd . Upewnij się, że w swoim raporcie masz jasność na temat tego, jak powstały dane, w tym oczekiwań dotyczących danych i powodów, dla których wybrałeś wybrane dane.
źródło
Po pierwsze, nie ma powodu, by nie nazywać go „zbiorem danych”. Nie ma uniwersalnie uzgodnionych terminów dla „fałszywych” vs. „symulowanych” vs.… danych. Jeśli celem jest całkowicie jasne, najlepiej poświęcić zdanie, a nie słowo, aby określić, czym jest ten zestaw danych. Następnie możesz rozluźnić oznaczenie i po prostu odnieść się do swoich danych jako danych.
„Syntetyczny”, „sztuczny” nie rozróżnia od innych „symulowanych” zestawów danych MCMC w moim umyśle. Użycie generatora liczb quasirandomowych ze stałym ziarnem (jak nakazałby odpowiedni trening) tworzy również syntetyczny lub sztuczny zestaw danych.
Jeśli chodzi o wybór zbioru danych dla konkretnej ilustracji, zamiast generowania wystąpienia lub realizacji z modelu prawdopodobieństwa, myślę, że lepiej nazwać taki zestaw danych „ przykładowym zestawem danych ”. Takie dane są podobne do kwartetu Anscombe: całkowicie abstrakcyjne i niewiarygodne, ale przeznaczone do zilustrowania pewnej kwestii.
źródło
W biologii analizy są czasem przedstawiane przy użyciu zestawu danych mitycznych zwierząt. To, czy jawnie oświadczyć, że dane są symulowane, zależy od autora / recenzenta.
Przewodnik ekologa po modelu zwierzęcym, 2009
Naprawiono wariancję efektu oraz oszacowanie powtarzalności i odziedziczalności: Problemy i rozwiązania, 2017
źródło
Intuicyjnie wybrałbym termin „Dane manekina”, w tym samym znaczeniu, w którym „Lorem ipsum ...” nazywa się „Tekstem manekina”. Słowo „Atrapa” jest dość ogólne i łatwe do zrozumienia dla osób z różnych środowisk i dlatego jest mniej prawdopodobne, że zostanie źle zinterpretowane przez czytelników o mniej statystycznym pochodzeniu.
źródło
Dane są w języku łacińskim jako dane , które są używane w czasach współczesnych jako skrót dla danego zbioru zarejestrowanych faktów . W pewien sposób odnosząc się do sfabrykowanych nagrań jako pewnego rodzaju podanych faktów, byłaby otwarta sprzeczność.
Jednak ze względu na coraz częstsze wykorzystywanie danych w odniesieniu do nagrań - bez względu na pierwotne domniemanie faktów - że szczerze się rozumiemy, mówiąc o nagraniach, które mogą być lub nie być zgodne z prawdą - stąd prawdziwe / fałszywe dane.
Poniżej podsumuję moje doświadczenia związane ze sposobami rozwiązywania sfabrykowanych nagrań. Zastosowana etykieta zależy od tego, czy zakładamy, że mówimy o danych jako sfabrykowanych nagraniach, które mają wyglądać w miarę realistycznie, aby umożliwić dalszą analizę, czy dane jako obciążenie obliczeniowe.
źródło