W książce Modele statystyczne i metody dożywotnich danych napisano:
Ocenzurowanie: Gdy obserwacja jest niekompletna z jakiejś przypadkowej przyczyny.
Obcinanie: gdy niekompletny charakter obserwacji wynika z systematycznego procesu selekcji właściwego dla projektu badania.
Co rozumie się przez „systematyczny proces selekcji nieodłączny od projektu badania” w definicji skrótu?
Jaka jest różnica między cenzurą a obcięciem?
Odpowiedzi:
Definicje różnią się, a te dwa terminy są czasami używane zamiennie. Spróbuję wyjaśnić najczęstsze zastosowania, używając następującego zestawu danych:
Cenzura : niektóre obserwacje zostaną ocenzurowane, co oznacza, że wiemy tylko, że są poniżej (lub powyżej) niektórych ograniczeń. Może się to zdarzyć na przykład, jeśli zmierzymy stężenie substancji chemicznej w próbce wody. Jeśli stężenie jest zbyt niskie, sprzęt laboratoryjny nie może wykryć obecności substancji chemicznej. Może jednak nadal być obecny, więc wiemy tylko, że stężenie jest poniżej granicy wykrywalności w laboratorium.
Jeśli limit detekcji wynosi 1,5, więc obserwacje, które spadną poniżej tego limitu, zostaną ocenzurowane, nasz przykładowy zestaw danych będzie wyglądał następująco: to znaczy, nie wiemy rzeczywiste wartości dwóch pierwszych obserwacji, ale tylko to, że są mniejsze niż 1,5.
Obcinanie : proces generowania danych jest taki, że możliwe jest jedynie obserwowanie wyników powyżej (lub poniżej) limitu obcięcia. Może się to na przykład zdarzyć, jeśli pomiary są wykonywane przy użyciu detektora, który jest aktywowany tylko wtedy, gdy wykrywane sygnały przekraczają pewien limit. Może być dużo słabych sygnałów przychodzących, ale nigdy nie możemy powiedzieć, używając tego detektora.
Jeśli limit obcięcia wynosi 1,5, nasz przykładowy zestaw danych zmieniłby się na i nie wiedzielibyśmy, że w rzeczywistości były dwa sygnały, które nie zostały zarejestrowane.
źródło
Podobnie jak perspektywa z innej dziedziny (programowanie), cenzura i obcinanie to dwie odrębne operacje.
Podczas pracy z poufnym zestawem danych, na przykład numerami ubezpieczenia społecznego i numerami telefonicznymi, mógłbym go cenzurować lub cenzurować przed udzieleniem dostępu:
Pozwala to pozostałej części aplikacji działać tak, jak normalnie, z podobnymi strukturami danych, ale bez rzeczywistej zawartości informacyjnej lub rozpowszechniania prywatnych informacji.
Natomiast obcięcie zwykle polega na odcięciu pozostałych wartości po pewnym punkcie. Do pracy nad aplikacją nie potrzebuję setek tysięcy rekordów, być może potrzebuję tylko ~ 50 każdego z nich, co sprawia, że dostęp do danych jest znacznie szybszy, a zestawy danych mniejsze.
Podobny wariant obcięcia występuje podczas wstawiania wartości do kolumny lub typu danych o ograniczonej długości lub precyzji:
źródło