Przeczytałem różne opisy cenzurowanych danych:
A) Jak wyjaśniono w tym wątku, dane niekwantowane poniżej lub powyżej pewnego progu są cenzurowane. Nieoznaczony oznacza, że dane są powyżej lub poniżej pewnego progu, ale nie znamy dokładnej wartości. Dane są następnie oznaczane przy niskiej lub wysokiej wartości progowej w modelu regresji. Pasuje do opisu w tej prezentacji , który uważam za bardzo jasny (2. slajd na pierwszej stronie). Innymi słowy, jest ograniczone do wartości minimalnej, maksymalnej lub obu, ponieważ nie znamy prawdziwej wartości poza tym zakresem.
B) Przyjaciel powiedział mi, że możemy zastosować cenzurowany model danych do częściowo nieznanych obserwacji , pod warunkiem, że dysponujemy przynajmniej pewnymi ograniczonymi informacjami na temat nieznanych wyników . Na przykład chcemy oszacować ostateczną cenę za połączenie cichych i otwartych aukcji na podstawie niektórych kryteriów jakościowych (rodzaj towarów, kraj, bogactwo oferentów itp.). Podczas gdy w przypadku otwartych aukcji znamy wszystkie ceny końcowe , w przypadku cichych aukcji znamy tylko pierwszą ofertę (powiedzmy 1000 USD), ale nie ostateczną cenę. Powiedziano mi, że w tym przypadku dane są cenzurowane z góry i należy zastosować model regresji ocenzurowanej.
C) Wreszcie istnieje definicja podana przez Wikipedię, w której brakuje całkowicie, ale dostępne są predyktory. Nie jestem pewien, jak ten przykład różni się od okrojonych danych.
Czym dokładnie są dane cenzurowane?
źródło
Odpowiedzi:
Rozważ następujące dane na temat wynikuy i zmienną towarzyszącą x :
Dla użytkownika 1 mamy pełne dane. Dla wszystkich innych mamy niekompletne dane. Wszyscy użytkownicy 2, 3 i 4 są ocenzurowani: wynik odpowiadający znanym wartościom zmiennej towarzyszącej nie jest obserwowany lub nie jest dokładnie obserwowany (ocenzurowany lewy, prawy i interwałowy). Czasami jest to artefakt rozważań o prywatności w projekcie ankiety. Innym razem dzieje się tak z innych powodów. Na przykład nie obserwujemy żadnych wynagrodzeń poniżej płacy minimalnej ani faktycznego zapotrzebowania na bilety na koncerty powyżej pojemności areny.
Użytkownik 5 jest obcięty: brakuje zarówno wyniku, jak i współzmiennej. Zwykle dzieje się tak, ponieważ zbieramy dane tylko o osobach, które coś zrobiły. Na przykład, badamy tylko osoby, które coś kupiły ( ), więc wykluczamy każdego z y = 0 wraz z ich xs . Możemy nawet nie mieć wiersza dla tego typu użytkownika w naszych danych, chociaż wiemy, że istnieją, ponieważ znamy regułę, która została użyta do wygenerowania naszej próbki. Innym przykładem jest przypadkowe obcięcie: obserwujemy oferty płac tylko dla osób, które są w sile roboczej, ponieważ zakładamy, że oferta płacy jest płacą podczas pracy. Obcinanie jest przypadkowe, ponieważ nie zależy od yy>0 y=0 x y , ale na innej zmiennej.
Krótko mówiąc, obcięcie oznacza większą utratę informacji niż cenzura (punkty A i B). Oba rodzaje „braków” są systematyczne.
Praca z tego typu danymi zwykle wiąże się z przyjęciem silnego założenia dotyczącego błędu i zmodyfikowaniem prawdopodobieństwa uwzględnienia tego. Możliwe są również bardziej elastyczne podejścia półparametryczne. Jest to dorozumiane w punkcie B.
źródło
Mówiąc opisowo, zaproponowałbym „próbka danych jest cenzurowana, jeśli niektóre obserwacje w niej przyjmują lub stanowią skrajne wartości próbki, ale ich prawdziwa wartość jest poza obserwowanym zakresem próby”. Ale jest to zwodniczo proste.
Omówmy więc najpierw, w jaki sposób możemy dojść do wniosku, że zbiór danych jest cenzurowany, co oczywiście doprowadzi nas do omówienia przypadków przedstawionych w pytaniu.
Załóżmy, że otrzymaliśmy następujący zestaw danych z dyskretnej losowej zmiennej , dla którego wiemy tylko, że jest ona nieujemna:X
Czy możemy powiedzieć, że zestaw danych jest cenzurowany? Cóż, mamy prawo sądzić, że tak może być, ale niekoniecznie tak jest:
1) może mieć zakres { 0 , 1 , 2 } i rozkład prawdopodobieństwa { 0,1 , 0,1 , 0,8 } . Jeśli tak rzeczywiście jest, wydaje się, że nie ma tutaj cenzury, a jedynie „przewidywana” próbka z takiej losowej zmiennej, z ograniczonym wsparciem i wysoce asymetrycznym rozkładem.X {0,1,2} {0.1,0.1,0.8}
2), ale może być tak, że ma zakres { 0 , 1 , . . . , 9 } o jednorodnym rozkładzie prawdopodobieństwa { 0,1 , 0,1 , . . .0 .1 } , w którym to przypadku nasza próbka danych najprawdopodobniej zostanie ocenzurowana.X {0,1,...,9} {0.1,0.1,...0.1}
Jak możemy powiedzieć? Nie możemy, z wyjątkiem sytuacji, gdy posiadamy wcześniejszą wiedzę lub informacje , które pozwolą nam argumentować na korzyść jednego lub drugiego przypadku. Czy trzy przypadki przedstawione w pytaniu reprezentują wcześniejszą wiedzę na temat efektu cenzury? Zobaczmy:
Przypadek A) opisuje sytuację, w której dla niektórych obserwacji mamy jedynie informacje jakościowe, takie jak „bardzo duży”, „bardzo mały” itp., Co prowadzi nas do przypisania obserwacji wyjątkowej wartości. Zauważ, że samo nieznajomość faktycznej zrealizowanej wartości nie uzasadnia przypisania wartości ekstremalnej. Musimy więc mieć pewne informacje, że dla tych obserwacji ich wartość przekracza lub jest mniejsza niż wszystkie obserwowane. W tym przypadku rzeczywisty zakres zmiennej losowej jest nieznany, ale nasze informacje jakościowe pozwalają nam stworzyć próbę ocenzurowaną (to kolejna dyskusja, dlaczego nie porzucamy obserwacji, dla których nie mamy rzeczywistej zrealizowanej wartości ).
Przypadek B) to nie przypadek cenzury, jeśli rozumiem go poprawnie, ale raczej przypadek zanieczyszczonej próbki: nasze a priori informacji mówi nam, że maksymalna wartość zmiennej losowej nie może przekraczać (due powiedzieć ustawy fizycznej lub prawo socjalne -suppose to dane stopnie od Normy, która używa tylko wartości 1 , 2 , 3 „s (w rzeczywistości, patrząc na klawiaturze bocznej komputera, to jest bardziej prawdopodobne, że 4 ” s są 1 „s i3 1,2,3 ). Ale zaobserwowaliśmy również wartość i wartość 5 . Jak to może być? Błąd w rejestrowaniu danych. Ale w takim przypadku nie wiemy na pewno, że 4 i 5 powinny być wszystkie 34 5 4 5 3 4 1 to 2 !). „Korygując” w jakikolwiek sposób próbkę, nie robimy jej ocenzurowanej, ponieważ zmienna losowa nie powinnaprzede wszystkim mieścić się w zakresierejestrowanym(więc nie ma prawdziwych prawdopodobieństw przypisanych do wartości 4 i 5 ). 5 2 4 5
Przypadek C) dotyczy wspólnej próby, w której mamy zmienną zależną i predyktory. Tutaj możemy mieć próbkę, w której wartości zmiennej zależnej są skoncentrowane na jednej lub obu skrajnościach, ze względu na strukturę badanego zjawiska: w zwykłym przykładzie „przepracowanych godzin” bezrobotni nie pracują, ale mieliby zadziałało (zastanów się: czy ta sprawa naprawdę mieści się w opisowej „definicji” na początku tej odpowiedzi?). Tak więc włączenie ich do regresji z zarejestrowanymi godzinami „zero” tworzy stronniczość. Z drugiej strony można argumentować, że maksymalna liczba przepracowanych godzin jest w stanie osiągnąć, powiedzmy16 / dzień, i mogą być pracownicy, którzy byliby gotowi pracować tak wielu za dane wynagrodzenie. Ale ramy prawne na to nie pozwalają, dlatego nie obserwujemy takich „przepracowanych godzin”. W tym przypadku próbujemy oszacować „ zamierzoną funkcję podaży pracy” - i to w odniesieniu do tej zmiennej próbkę określa się jako ocenzurowaną.
Ale jeśli zadeklarujemy, że chcemy oszacować „funkcję podaży pracy, biorąc pod uwagę zjawisko bezrobocia i ramy prawne”, próba nie zostałaby ocenzurowana, ponieważ odzwierciedlałaby wpływ tych dwóch aspektów, czego chcemy to zrobić.
Widzimy więc, że scharakteryzowanie próbki danych jako ocenzurowanej
a) może pochodzić z różnych sytuacji i
b) wymaga jedynie pewnej ostrożności
, ponieważ można ją pomylić z przypadkiem obcięcia .
źródło
Dla mnie cenzura oznacza, że obserwujemy częściowe informacje o obserwacji . Co mam na myśli to, że zamiast obserwowania Z I = Z i możemy obserwować Z i ∈ i gdzie i jest realizacja A í , która jest jakiś przypadkowy coarsening przestrzeni próbki. Możemy sobie wyobrazić, że najpierw wybrać partycji A i próbki przestrzeń Z , to Z i jest generowany, a my w sprawozdaniu i ∈ i takie, żeZi Zi=zi Zi∈ai ai Ai Ai Z Zi Ai∈Ai (równoważnie, raportujemy I (Zi∈Ai dla wszystkich A ∈ A i ). Na przykład nieinformacyjna cenzura Z i oznacza, że A i jest niezależna od Z i .I(Zi∈A) A∈Ai Zi Ai Zi
źródło
It's important to distinguish censored versus truncated as well as missing data.
Censoring applies specifically to the issue of survival analysis and time-to-event outcomes wherein the event at hand is assumed to have occurred at some time past the point at which you stopped observing that individual. An example is men-who-have-sex-with-men (MSM) and the risk of incident HIV in a prospective study who move and cease contact with study coordinators.
Truncation applies to a continuous variable that evaluates to a specific point at which the actual value is known to be either greater than or less than that point. An example is the monitoring of subjects with HIV and the development of full blown AIDS, CD4 cell counts falling below 300 are evaluated to the lower-limit-of-detection 300.
Lastly, missing data are data that have actual values that are not observed in any sense. Censored data are not missing time-to-event data nor are they truncated.
źródło
źródło