Jaka jest różnica między cenzurą a obcięciem?

30

W książce Modele statystyczne i metody dożywotnich danych napisano:

Ocenzurowanie: Gdy obserwacja jest niekompletna z jakiejś przypadkowej przyczyny.
Obcinanie: gdy niekompletny charakter obserwacji wynika z systematycznego procesu selekcji właściwego dla projektu badania.

Co rozumie się przez „systematyczny proces selekcji nieodłączny od projektu badania” w definicji skrótu?

Jaka jest różnica między cenzurą a obcięciem?

ABC
źródło
3
Spójrz na odpowiedź tutaj .
Dimitriy V. Masterov
3
Cenzura: „Obserwowaliśmy gdzieś w tym regionie, ale nie wiemy, co to jest”. Obcięcie: „Obserwacja? Jaka obserwacja?”
Glen_b
Skąd cytowane są twoje definicje?
Glen_b
1
@Glen_b Zredagowałem swoje pytanie.
ABC

Odpowiedzi:

57

Definicje różnią się, a te dwa terminy są czasami używane zamiennie. Spróbuję wyjaśnić najczęstsze zastosowania, używając następującego zestawu danych:

11,252)45

Cenzura : niektóre obserwacje zostaną ocenzurowane, co oznacza, że ​​wiemy tylko, że są poniżej (lub powyżej) niektórych ograniczeń. Może się to zdarzyć na przykład, jeśli zmierzymy stężenie substancji chemicznej w próbce wody. Jeśli stężenie jest zbyt niskie, sprzęt laboratoryjny nie może wykryć obecności substancji chemicznej. Może jednak nadal być obecny, więc wiemy tylko, że stężenie jest poniżej granicy wykrywalności w laboratorium.

Jeśli limit detekcji wynosi 1,5, więc obserwacje, które spadną poniżej tego limitu, zostaną ocenzurowane, nasz przykładowy zestaw danych będzie wyglądał następująco: to znaczy, nie wiemy rzeczywiste wartości dwóch pierwszych obserwacji, ale tylko to, że są mniejsze niż 1,5.

<1.5<1.52)45,

Obcinanie : proces generowania danych jest taki, że możliwe jest jedynie obserwowanie wyników powyżej (lub poniżej) limitu obcięcia. Może się to na przykład zdarzyć, jeśli pomiary są wykonywane przy użyciu detektora, który jest aktywowany tylko wtedy, gdy wykrywane sygnały przekraczają pewien limit. Może być dużo słabych sygnałów przychodzących, ale nigdy nie możemy powiedzieć, używając tego detektora.

Jeśli limit obcięcia wynosi 1,5, nasz przykładowy zestaw danych zmieniłby się na i nie wiedzielibyśmy, że w rzeczywistości były dwa sygnały, które nie zostały zarejestrowane.

2)45
MånsT
źródło
Czy więc przy takim użyciu terminów „cenzura” wprowadza w błąd, jeśli myślimy o nietechnicznym zastosowaniu tego słowa? tzn. w tym statystycznym sensie oznacza coś w rodzaju „niejasnego” lub „znanego tylko z pewnego zakresu”, a nie w sensie nietechnicznym - tj. pomijanego lub usuwanego, tak jak gdy książka jest usuwana ze sklepów, ponieważ jego zawartości.
Mars,
3
Konkretnym przykładem obcięcia jest to, że firmy ubezpieczeniowe nigdy nie słyszą o wypadkach, w których szkody są mniejsze niż koszty uzyskania przychodu, ponieważ ludzie nie zgłaszają się tam. Pozostało to obcięcie; nigdy nie widzimy danych o tych incydentach. Na przykład, gdy cenzura jest prawidłowa, kiedy chory pacjent decyduje się przestać odwiedzać lekarza lub przenosi się do innego miasta, wiadomo tylko, że żyli w dniu wyjazdu, ale nie wiemy, kiedy umarli .
David White
@Mars: Zgadzam się, że to brzmi wstecz od współczesnego nietechnicznego zastosowania, w którym „cenzura” usuwa wszelkie ślady, a „obcinanie” usuwa szczegóły. Ale w statystykach „cenzura” jest używana w bardziej staromodnym, nietechnicznym sensie, w którym cenzor mógł usunąć, ale nie wyeliminować żadnych śladów czegoś: czarne skrzynki lub rozmycia umieszczone na obraźliwych częściach zdjęcia lub filmu, pomruki obejmujące wulgaryzmy w radiu lub listach żołnierzy do dokumentów domowych lub informacji niejawnych, w których cenzurowane (bardziej nowoczesne określenie „zredagowane”) części są zaciemnione.
Wayne
Wyobraź sobie, że mierzę upływ czasu między dwoma rodzajami zdarzeń. Ale mogę nagrywać wydarzenia tylko przez 1 rok. Czy czas będzie cenzurowany czy skracany?
skan
4

Podobnie jak perspektywa z innej dziedziny (programowanie), cenzura i obcinanie to dwie odrębne operacje.

Podczas pracy z poufnym zestawem danych, na przykład numerami ubezpieczenia społecznego i numerami telefonicznymi, mógłbym go cenzurować lub cenzurować przed udzieleniem dostępu:

123-12-1234 => 999-99-9999
567-56-5678 => 999-99-9999
(906) 123-4567 => (000) 000-0000

Pozwala to pozostałej części aplikacji działać tak, jak normalnie, z podobnymi strukturami danych, ale bez rzeczywistej zawartości informacyjnej lub rozpowszechniania prywatnych informacji.

Natomiast obcięcie zwykle polega na odcięciu pozostałych wartości po pewnym punkcie. Do pracy nad aplikacją nie potrzebuję setek tysięcy rekordów, być może potrzebuję tylko ~ 50 każdego z nich, co sprawia, że ​​dostęp do danych jest znacznie szybszy, a zestawy danych mniejsze.

Podobny wariant obcięcia występuje podczas wstawiania wartości do kolumny lub typu danych o ograniczonej długości lub precyzji:

abcdefghijklmnopqrstuv => abcdef
10.23412421345 => 10.23
10.92455311 => 10
Ehryk
źródło
1
+1 Ważne jest, aby wiedzieć, że cenzura i obcinanie może mieć zupełnie inne znaczenie poza statystykami!
MånsT