Czym dokładnie są dane cenzurowane?

14

Przeczytałem różne opisy cenzurowanych danych:

A) Jak wyjaśniono w tym wątku, dane niekwantowane poniżej lub powyżej pewnego progu są cenzurowane. Nieoznaczony oznacza, że ​​dane są powyżej lub poniżej pewnego progu, ale nie znamy dokładnej wartości. Dane są następnie oznaczane przy niskiej lub wysokiej wartości progowej w modelu regresji. Pasuje do opisu w tej prezentacji , który uważam za bardzo jasny (2. slajd na pierwszej stronie). Innymi słowy, Y jest ograniczone do wartości minimalnej, maksymalnej lub obu, ponieważ nie znamy prawdziwej wartości poza tym zakresem.

B) Przyjaciel powiedział mi, że możemy zastosować cenzurowany model danych do częściowo nieznanych obserwacji Y , pod warunkiem, że dysponujemy przynajmniej pewnymi ograniczonymi informacjami na temat nieznanych wyników Yi . Na przykład chcemy oszacować ostateczną cenę za połączenie cichych i otwartych aukcji na podstawie niektórych kryteriów jakościowych (rodzaj towarów, kraj, bogactwo oferentów itp.). Podczas gdy w przypadku otwartych aukcji znamy wszystkie ceny końcowe Yi , w przypadku cichych aukcji znamy tylko pierwszą ofertę (powiedzmy 1000 USD), ale nie ostateczną cenę. Powiedziano mi, że w tym przypadku dane są cenzurowane z góry i należy zastosować model regresji ocenzurowanej.

C) Wreszcie istnieje definicja podana przez Wikipedię, w której brakuje Y całkowicie, ale dostępne są predyktory. Nie jestem pewien, jak ten przykład różni się od okrojonych danych.

Czym dokładnie są dane cenzurowane?

Robert Kubrick
źródło
6
Bardziej odpowiedni artykuł w Wikipedii znajduje się na stronie en.wikipedia.org/wiki/Censoring_%28statistics%29 . Chociaż nie jest wyczerpujący, przynajmniej opisuje cenzurę typu I i typu II oraz potwierdza cenzurę interwałową wraz z cenzurą lewej i prawej.
whuber

Odpowiedzi:

8

Rozważ następujące dane na temat wyniku y i zmienną towarzyszącą x :

user y       x   
1    10      2 
2   (-∞,5]   3 
3   [4,+∞)   5   
4   [8,9]    7
5     .      .

Dla użytkownika 1 mamy pełne dane. Dla wszystkich innych mamy niekompletne dane. Wszyscy użytkownicy 2, 3 i 4 są ocenzurowani: wynik odpowiadający znanym wartościom zmiennej towarzyszącej nie jest obserwowany lub nie jest dokładnie obserwowany (ocenzurowany lewy, prawy i interwałowy). Czasami jest to artefakt rozważań o prywatności w projekcie ankiety. Innym razem dzieje się tak z innych powodów. Na przykład nie obserwujemy żadnych wynagrodzeń poniżej płacy minimalnej ani faktycznego zapotrzebowania na bilety na koncerty powyżej pojemności areny.

Użytkownik 5 jest obcięty: brakuje zarówno wyniku, jak i współzmiennej. Zwykle dzieje się tak, ponieważ zbieramy dane tylko o osobach, które coś zrobiły. Na przykład, badamy tylko osoby, które coś kupiły ( ), więc wykluczamy każdego z y = 0 wraz z ich xs . Możemy nawet nie mieć wiersza dla tego typu użytkownika w naszych danych, chociaż wiemy, że istnieją, ponieważ znamy regułę, która została użyta do wygenerowania naszej próbki. Innym przykładem jest przypadkowe obcięcie: obserwujemy oferty płac tylko dla osób, które są w sile roboczej, ponieważ zakładamy, że oferta płacy jest płacą podczas pracy. Obcinanie jest przypadkowe, ponieważ nie zależy od yy>0y=0xy, ale na innej zmiennej.

Krótko mówiąc, obcięcie oznacza większą utratę informacji niż cenzura (punkty A i B). Oba rodzaje „braków” są systematyczne.

Praca z tego typu danymi zwykle wiąże się z przyjęciem silnego założenia dotyczącego błędu i zmodyfikowaniem prawdopodobieństwa uwzględnienia tego. Możliwe są również bardziej elastyczne podejścia półparametryczne. Jest to dorozumiane w punkcie B.

Dimitriy V. Masterov
źródło
2
Mylą mnie dwa aspekty tej odpowiedzi. Po pierwsze, całkowicie brakujące wartości niekoniecznie odzwierciedlają obcięcie. Po drugie, sposób cenzury („losowy” vs. „informacyjny”) jest często tak samo ważny jak fakt cenzury, co wskazuje, że cenzura to coś więcej niż zwykłe rejestrowanie danych o wartościach interwałowych.
whuber
To bardzo dobry przykład. To znaczy, że różne „cenzurowania granic” można zastosować do każdego ? Jak formułujemy model w tym przypadku? Spowoduje to zatwierdzenie oświadczenia mojego znajomego w B). y
Robert Kubrick
1
Jeśli chcesz założyć homoskedastyczne, normalnie dystrybuowane błędy, prawdopodobieństwo można zapisać w ten sposób i możesz użyć MLE z progami cenzury specyficznymi dla obserwacji.
Dimitriy V. Masterov
3
@Peter Czy to nie jest (właściwa) cenzura? Obcinanie nastąpi, gdy wszystkie takie osoby zostaną wykluczone z próby i nie zostaną w ogóle uwzględnione w próbie. Zobacz en.wikipedia.org/wiki/Truncation_(statistics) .
whuber
1
@Peter Co jest mylące, gdy piszesz „wtedy wiemy, że BMI tej osoby wynosi ponad 30”: jak możesz odwołać się do kogoś, kto nie jest nawet w twojej próbie („nie został policzony”)? Obserwacja postaci „BMI> 30” jest cenzurą, podczas gdy całkowite wyłączenie wszystkich takich obserwacji z twojej analizy, nawet jeśli mogą istnieć w populacji, jest obcięciem. W tym ostatnim przypadku można jedynie powiedzieć, że „osoby z BMI powyżej 30 zostały wykluczone z próby”.
whuber
9

Mówiąc opisowo, zaproponowałbym „próbka danych jest cenzurowana, jeśli niektóre obserwacje w niej przyjmują lub stanowią skrajne wartości próbki, ale ich prawdziwa wartość jest poza obserwowanym zakresem próby”. Ale jest to zwodniczo proste.

Omówmy więc najpierw, w jaki sposób możemy dojść do wniosku, że zbiór danych jest cenzurowany, co oczywiście doprowadzi nas do omówienia przypadków przedstawionych w pytaniu.

Załóżmy, że otrzymaliśmy następujący zestaw danych z dyskretnej losowej zmiennej , dla którego wiemy tylko, że jest ona nieujemna:X

{0,1,1,2,2,2,2,2,2,2}

Czy możemy powiedzieć, że zestaw danych jest cenzurowany? Cóż, mamy prawo sądzić, że tak może być, ale niekoniecznie tak jest:

1) może mieć zakres { 0 , 1 , 2 } i rozkład prawdopodobieństwa { 0,1 , 0,1 , 0,8 } . Jeśli tak rzeczywiście jest, wydaje się, że nie ma tutaj cenzury, a jedynie „przewidywana” próbka z takiej losowej zmiennej, z ograniczonym wsparciem i wysoce asymetrycznym rozkładem. X{0,1,2}{0.1,0.1,0.8}

2), ale może być tak, że ma zakres { 0 , 1 , . . . , 9 } o jednorodnym rozkładzie prawdopodobieństwa { 0,1 , 0,1 , . . .0 .1 } , w którym to przypadku nasza próbka danych najprawdopodobniej zostanie ocenzurowana. X{0,1,...,9}{0.1,0.1,...0.1}

Jak możemy powiedzieć? Nie możemy, z wyjątkiem sytuacji, gdy posiadamy wcześniejszą wiedzę lub informacje , które pozwolą nam argumentować na korzyść jednego lub drugiego przypadku. Czy trzy przypadki przedstawione w pytaniu reprezentują wcześniejszą wiedzę na temat efektu cenzury? Zobaczmy:

Przypadek A) opisuje sytuację, w której dla niektórych obserwacji mamy jedynie informacje jakościowe, takie jak „bardzo duży”, „bardzo mały” itp., Co prowadzi nas do przypisania obserwacji wyjątkowej wartości. Zauważ, że samo nieznajomość faktycznej zrealizowanej wartości nie uzasadnia przypisania wartości ekstremalnej. Musimy więc mieć pewne informacje, że dla tych obserwacji ich wartość przekracza lub jest mniejsza niż wszystkie obserwowane. W tym przypadku rzeczywisty zakres zmiennej losowej jest nieznany, ale nasze informacje jakościowe pozwalają nam stworzyć próbę ocenzurowaną (to kolejna dyskusja, dlaczego nie porzucamy obserwacji, dla których nie mamy rzeczywistej zrealizowanej wartości ).

Przypadek B) to nie przypadek cenzury, jeśli rozumiem go poprawnie, ale raczej przypadek zanieczyszczonej próbki: nasze a priori informacji mówi nam, że maksymalna wartość zmiennej losowej nie może przekraczać (due powiedzieć ustawy fizycznej lub prawo socjalne -suppose to dane stopnie od Normy, która używa tylko wartości 1 , 2 , 3 „s (w rzeczywistości, patrząc na klawiaturze bocznej komputera, to jest bardziej prawdopodobne, że 4 ” s są 1 „s i31,2,3 ). Ale zaobserwowaliśmy również wartość i wartość 5 . Jak to może być? Błąd w rejestrowaniu danych. Ale w takim przypadku nie wiemy na pewno, że 4 i 5 powinny być wszystkie 34545341 to 2 !). „Korygując” w jakikolwiek sposób próbkę, nie robimy jej ocenzurowanej, ponieważ zmienna losowa nie powinnaprzede wszystkim mieścić się w zakresierejestrowanym(więc nie ma prawdziwych prawdopodobieństw przypisanych do wartości 4 i 5 ). 5245

Przypadek C) dotyczy wspólnej próby, w której mamy zmienną zależną i predyktory. Tutaj możemy mieć próbkę, w której wartości zmiennej zależnej są skoncentrowane na jednej lub obu skrajnościach, ze względu na strukturę badanego zjawiska: w zwykłym przykładzie „przepracowanych godzin” bezrobotni nie pracują, ale mieliby zadziałało (zastanów się: czy ta sprawa naprawdę mieści się w opisowej „definicji” na początku tej odpowiedzi?). Tak więc włączenie ich do regresji z zarejestrowanymi godzinami „zero” tworzy stronniczość. Z drugiej strony można argumentować, że maksymalna liczba przepracowanych godzin jest w stanie osiągnąć, powiedzmy 16/ dzień, i mogą być pracownicy, którzy byliby gotowi pracować tak wielu za dane wynagrodzenie. Ale ramy prawne na to nie pozwalają, dlatego nie obserwujemy takich „przepracowanych godzin”. W tym przypadku próbujemy oszacować „ zamierzoną funkcję podaży pracy” - i to w odniesieniu do tej zmiennej próbkę określa się jako ocenzurowaną.
Ale jeśli zadeklarujemy, że chcemy oszacować „funkcję podaży pracy, biorąc pod uwagę zjawisko bezrobocia i ramy prawne”, próba nie zostałaby ocenzurowana, ponieważ odzwierciedlałaby wpływ tych dwóch aspektów, czego chcemy to zrobić.

Widzimy więc, że scharakteryzowanie próbki danych jako ocenzurowanej
a) może pochodzić z różnych sytuacji i
b) wymaga jedynie pewnej ostrożności
, ponieważ można ją pomylić z przypadkiem obcięcia .

Alecos Papadopoulos
źródło
6
To wydaje się być perspektywą ekonometryczną. Należy zauważyć, że w badaniach biomedycznych powszechne jest stosowanie czasów trwania (być może dosłownie przeżycia) w odpowiedzi oraz cenzurowanie pacjentów, którzy nie doświadczyli tego zdarzenia do końca okresu obserwacji. Ale także, aby pacjenci, którzy odpadli lub byli zagubieni, aby poddać się obserwacji w okresie obserwacji. (Być może się wyprowadzili i kontakt został utracony.) Możemy wiedzieć, że czas przeżycia jest> ostatnim kontaktem, ale może być krótszy niż koniec okresu obserwacji.
gung - Przywróć Monikę
Przypadek B nie dotyczy niewłaściwych lub zanieczyszczonych danych. Załóżmy, że chcemy oszacować ostateczną cenę kombinacji cichych i otwartych aukcji na podstawie niektórych kryteriów jakościowych (rodzaj towarów, kraj, bogactwo oferentów, ...). W przypadku cichych aukcji znamy tylko pierwszą ofertę (powiedzmy 1000 USD), ale nie ostateczną cenę. Powiedziano mi, że możemy wykorzystać dane z aukcji cichych za pomocą jakiejś formy cenzurowanego modelowania.
Robert Kubrick
1
@ Gung jest to z pewnością podejście ekonometryczne, biorąc pod uwagę, kto napisał odpowiedź!
Alecos Papadopoulos
1
@RobertKunrick To, co opisujesz, nie pasuje do przypadku B. Sposób, w jaki opisano przypadek B, obserwujemy zakres wartości, a następnie mówi się nam, że niektóre z obserwowanych wartości są w rzeczywistości niemożliwe. Jak to się zgadza z przykładem aukcji?
Alecos Papadopoulos
Nie bierz tego za krytykę, @AlecosPapadopoulos. Nie sądzę, żeby coś było nie tak. Chciałbym tylko podkreślić, że terminy są używane w różnych dziedzinach w różny sposób, a to nie jest konwencja stat / biostat.
gung - Przywróć Monikę
2

Dla mnie cenzura oznacza, że ​​obserwujemy częściowe informacje o obserwacji . Co mam na myśli to, że zamiast obserwowania Z I = Z i możemy obserwować Z ii gdzie i jest realizacja A í , która jest jakiś przypadkowy coarsening przestrzeni próbki. Możemy sobie wyobrazić, że najpierw wybrać partycji A i próbki przestrzeń Z , to Z i jest generowany, a my w sprawozdaniu ii takie, żeZiZi=ziZiaiaiAiAiZZiAiAi (równoważnie, raportujemy I (ZiAi dla wszystkich A A i ). Na przykład nieinformacyjna cenzura Z i oznacza, że A i jest niezależna od Z i .I(ZiA)AAiZiAiZi

[ZiZiai]ZiZi=(Xi,Yi)Yiai={x}×YYYZiai=ZZi is censored", if they are following my definition, what they usually mean is "Zi is censored, but is not missing".

guy
źródło
1

It's important to distinguish censored versus truncated as well as missing data.

Censoring applies specifically to the issue of survival analysis and time-to-event outcomes wherein the event at hand is assumed to have occurred at some time past the point at which you stopped observing that individual. An example is men-who-have-sex-with-men (MSM) and the risk of incident HIV in a prospective study who move and cease contact with study coordinators.

Truncation applies to a continuous variable that evaluates to a specific point at which the actual value is known to be either greater than or less than that point. An example is the monitoring of subjects with HIV and the development of full blown AIDS, CD4 cell counts falling below 300 are evaluated to the lower-limit-of-detection 300.

Lastly, missing data are data that have actual values that are not observed in any sense. Censored data are not missing time-to-event data nor are they truncated.

AdamO
źródło
1
There's another use of "truncation": to describe a data-generating process where observations above/below cut-offs are unobtainable. A classic example involves counting the no.eggs found in the nests of a particular bird species, where the species can only be identified from the egg; empty nests could be from any species so the no. zeroes is unknown. If the no. eggs follows a Poisson distribution, the egg counts from non-empty nests follow a truncated Poisson. So truncation produces missing data according to a specific well defined mechanism.
Scortchi - Reinstate Monica
1
... Your cell count data are indeed censored according to many people's understanding of the term, which is not restricted to time-to-event measurements, because you know everything about each subject except how far below 300 his cell count is; "truncation" here (alternatively "Winsorization") describes the method of analysis, viz the treatment of values below 300 as if they were equal to 300.
Scortchi - Reinstate Monica
A clear reference on the survival analysis concept of censoring: itl.nist.gov/div898/handbook/apr/section1/apr131.htm.
Eric O Lebigot
-1
  1. Censored: This is a term used to indicate that the period of observation was cut off before the event of interest occurred. So ''censored data'' indicate that the period of a particular event as not or never occurred
Abdulfatah Lawal
źródło
3
Welcome to the site. If this is copied from some source, please cite the source.
gung - Reinstate Monica
3
Censoring applies to much more than time-dependent observations. For instance, chemical concentrations measurements that are below the limit of detection are censored, too.
whuber
@whuber: May I offer a friendly amendment to that observation. The chemical concentrations that fall below the limit of detection are indeed censored, but since they cannot possibly be negative, analyses should consider them as truncated at zero. My own understanding of the truncation-censoring distinction is that truncation applies to the range of parameters that are possible for the underlying distribution.
DWin
@DWin Thank you for that thoughtful clarification. I can only agree with the first point. In the great majority of datasets I have analyzed, though, it was necessary to re-express concentrations as logarithms--and there the distinction disappears. In other datasets where background has been subtracted (such as radiological measurements), there is no definite left endpoint, either. Your second point strikes me as unusual: I have never seen "truncation" used to refer to creating a subset of a distribution family.
whuber