Jak niewielka ilość powinna być dodana do x, aby uniknąć przyjęcia logarytmu zerowego?

57

Analizowałem moje dane takimi, jakie są. Teraz chcę spojrzeć na moje analizy po pobraniu dziennika wszystkich zmiennych. Wiele zmiennych zawiera wiele zer. Dlatego dodaję niewielką ilość, aby uniknąć przyjęcia logarytmu zerowego.

Do tej pory dodałem 10 ^ -10, bez żadnego uzasadnienia, tylko dlatego, że czułem, że dodanie bardzo małej ilości byłoby wskazane, aby zminimalizować efekt mojej arbitralnie wybranej ilości. Ale niektóre zmienne zawierają głównie zera, a zatem po zalogowaniu głównie -23.02. Zakres zakresów moich zmiennych wynosi 1,33–8819,21, a częstotliwość zer również jest bardzo zróżnicowana. Dlatego mój osobisty wybór „małej ilości” bardzo różnie wpływa na zmienne. Oczywiste jest teraz, że 10 ^ -10 jest całkowicie niedopuszczalnym wyborem, ponieważ większość wariancji wszystkich zmiennych pochodzi z tej arbitralnej „małej ilości”.

Zastanawiam się, co byłoby bardziej poprawnym sposobem na zrobienie tego.

Może lepiej wyprowadzić wielkość z poszczególnych rozkładów poszczególnych zmiennych? Czy istnieją jakieś wytyczne dotyczące wielkości tej „małej ilości”?

Moje analizy to głównie proste modele Coxa z każdą zmienną i wiekiem / płcią jako IV. Zmienne są stężeniami różnych lipidów we krwi, często o znacznych współczynnikach zmienności.

Edycja : Dodanie najmniejszej niezerowej wartości zmiennej wydaje się praktyczne dla moich danych. Ale może istnieje ogólne rozwiązanie?

Edycja 2 : Ponieważ zera wskazują jedynie stężenia poniżej granicy wykrywalności, może ustawienie ich na (limit wykrywania) / 2 byłoby odpowiednie?

miura
źródło
4
Dlaczego obserwacje / zmienne? log
2
Jeśli dodasz do zmiennych, zmienne, które były zerami w skali oryginalnej, będą zerami w skali dziennika. 1
MånsT
5
Czy masz ten problem ze zmienną odpowiedzi lub tylko zmiennymi objaśniającymi? Jeśli tylko to drugie, to w zależności od rozważań dotyczących wielkości próbki jedną z opcji może być dodanie dodatkowych zmiennych obojętnych wskazujących, że stężenie danego analitu było poniżej progu wykrywalności. To pochłania stopnie swobody, ale ma tę zaletę, że nie narzuca arbitralnego wyboru danych. Może również wykryć nieliniowości lub nieciągłości w pobliżu progu wykrywalności, które w przeciwnym razie mogłyby zostać uwzględnione.
kardynał
2
@Procrastinator Skala logarytmiczna jest naturalna dla stężeń ze względu na wykładniczy związek między stałą równowagi a energią Gibbsa; w rzeczywistości w „ciągłej” chemii stężenie 0 jest nieco nierealne.
2
Alternatywą może być, powiedzmy, pierwiastek kostki danych - nie prowadzi cię do dziennika, ale zachowuje zerowe bez przeskalowywania.
jbowman

Odpowiedzi:

26

Ponieważ zera wskazują jedynie stężenia poniżej granicy wykrywalności, być może właściwe byłoby ustawienie ich (granica wykrywalności) / 2

Właśnie pisałem, że rzecz, która przychodzi mi do głowy, gdzie log ma (często) sens, a 0 może wystąpić, to koncentracje, kiedy wykonałeś 2. edycję. Jak mówisz, dla zmierzonych stężeń 0 oznacza po prostu „Nie mogłem zmierzyć tak niskich stężeń”.

Uwaga dodatkowa: czy masz na myśli LOQ zamiast LOD?

12

  • 12LOQ

    wprowadź opis zdjęcia tutajwprowadź opis zdjęcia tutaj
    12LOQ

  • Jeśli jednak dostępna jest pierwotna zmierzona wartość, może to dać lepsze przypuszczenie. W końcu LOQ zwykle oznacza po prostu, że błąd względny wynosi 10%. Poniżej pomiar nadal przenosi informacje, ale błąd względny staje się ogromny.
    wprowadź opis zdjęcia tutaj
    (niebieski: LOD, czerwony: LOQ)

  • Alternatywą byłoby wykluczenie tych pomiarów. To może być również uzasadnione,
    np. Pomyśl o krzywej kalibracji. W praktyce często obserwuje się sigmoidalny kształt: dla niskiego c sygnał ≈ stały, pośrednie zachowanie liniowe, a następnie nasycenie detektora. wprowadź opis zdjęcia tutaj
    W takiej sytuacji możesz ograniczyć się do stwierdzeń o stężeniach, które wyraźnie mieszczą się w zakresie liniowym, ponieważ zarówno poniżej, jak i powyżej innych procesów silnie wpływają na wynik.
    Wyjaśnij, że dane zostały wybrane w ten sposób i dlaczego.


edycja: To, co jest rozsądne lub dopuszczalne, zależy oczywiście od problemu. Mamy nadzieję, że mówimy tutaj o niewielkiej części danych, która nie ma wpływu na analizy.

Może szybka i nieprzyzwoita kontrola polega na: przeprowadzeniu analizy danych z danymi i bez ich wykluczenia (lub innego proponowanego leczenia) i sprawdzenia, czy coś się znacząco zmieni.

Jeśli widzisz zmiany, to oczywiście masz kłopoty. Jednak z punktu widzenia chemii analitycznej powiedziałbym, że twój problem nie polega przede wszystkim na tym, której metody używasz do przetwarzania danych, ale podstawowym problemem jest to, że metoda analityczna (lub jej zakres roboczy) nie była odpowiednia dla problem na wyciągnięcie ręki. Istnieje oczywiście strefa, w której lepsze podejście statystyczne może uratować Twój dzień, ale w końcu przybliżenie „wyrzucanie śmieci, wyrzucanie śmieci” zwykle dotyczy również bardziej wymyślnych metod.

Cytaty na ten temat:

  • Statystyk powiedział mi kiedyś:

    Problem z tobą (chemikami / spektroskopistami) polega na tym, że twoje problemy są tak trudne, że nie można ich rozwiązać, albo tak łatwe, że nie ma zabawy w ich rozwiązywaniu.

  • Fisher o statystycznej sekcji zwłok eksperymentów

cbeleites obsługuje Monikę
źródło
1
Uwielbiam cytat na dole (+1).
Przywróć Monikę
32

Dane stężenia chemicznego często mają zera, ale nie reprezentują one wartości zerowych : są to kody, które w różny sposób (i myląco) reprezentują oba niewykrywalne (pomiar wskazał, z dużym prawdopodobieństwem, że analit nie był obecny) i „nie kwantyfikowany” wartości (pomiar wykrył analit, ale nie dał wiarygodnej wartości liczbowej). Nazwijmy to tutaj „ND”.

Zazwyczaj istnieje granica związana z ND, zwaną „limitem wykrywalności”, „limitem ilościowym” lub (o wiele bardziej szczerze) „limitem raportowania”, ponieważ laboratorium decyduje się nie podawać wartości liczbowej (często dla celów prawnych powody). O wszystkim, co naprawdę wiemy o ND, to fakt, że prawdziwa wartość jest prawdopodobnie mniejsza niż związany z nią limit: jest to prawie (ale nie do końca) forma lewej cenzury1.3301.330.50.1

W ciągu ostatnich 30 lat przeprowadzono szeroko zakrojone badania dotyczące najlepszego podsumowania i oceny takich zbiorów danych. Dennis Helsel opublikował książkę na ten temat, Nondetects and Data Analysis (Wiley, 2005), uczy kurs i wydał Rpakiet oparty na niektórych technikach, które preferuje. Jego strona internetowa jest kompleksowa.

To pole jest pełne błędów i nieporozumień. Helsel mówi o tym szczerze: na pierwszej stronie rozdziału 1 swojej książki pisze:

... obecnie najczęściej stosowana metoda badań środowiska, zastąpienie połowy granicy wykrywalności, NIE jest rozsądną metodą interpretacji danych ocenzurowanych.

Co więc robić? Opcje obejmują zignorowanie tej dobrej porady, zastosowanie niektórych metod z książki Helsel i użycie alternatywnych metod. Zgadza się, książka nie jest wyczerpująca i istnieją ważne alternatywy. Dodanie stałej do wszystkich wartości w zestawie danych („ich uruchomienie”) to jedna z nich. Ale zastanów się:

  • 111

  • 0

    Doskonałym narzędziem do określania wartości początkowej jest logarytmiczny wykres prawdopodobieństwa: oprócz ND dane powinny być w przybliżeniu liniowe.

  • Zbiór ND można również opisać za pomocą tak zwanej dystrybucji „logarytmicznej delta”. Jest to mieszanina masy punktowej i logarytmu normalnego.

Jak widać na poniższych histogramach wartości symulowanych, rozkłady ocenzurowane i delta nie są takie same. Podejście delta jest najbardziej przydatne dla zmiennych objaśniających w regresji: możesz utworzyć zmienną „obojętną”, aby wskazać ND, wziąć logarytmy wykrytych wartości (lub w inny sposób przekształcić je w razie potrzeby) i nie martwić się o wartości zastępcze dla ND .

Histogramy

Na tych histogramach około 20% najniższych wartości zostało zastąpionych zerami. Dla porównania wszystkie opierają się na tych samych 1000 symulowanych podstawowych wartościach logarytmicznych (lewy górny róg). Rozkład delta został utworzony przez losowe zastąpienie 200 wartości zerami . Rozkład ocenzurowany został utworzony przez zastąpienie 200 najmniejszych wartości zerami. „Realistyczna” dystrybucja jest zgodna z moim doświadczeniem, a mianowicie, że limity raportowania w rzeczywistości różnią się w praktyce (nawet jeśli nie jest to wskazane przez laboratorium!): Zmieniłem je losowo (tylko trochę, rzadko więcej niż 30 w w obu kierunkach) i zastąpił wszystkie symulowane wartości mniejsze niż ich limity raportowania zerami.

Aby pokazać użyteczność wykresu prawdopodobieństwa i wyjaśnić jego interpretację , następny rysunek przedstawia normalne wykresy prawdopodobieństwa związane z logarytmami poprzednich danych.

Wykresy prawdopodobieństwa

log(1+0)=0) są wykreślane o wiele za nisko. W lewym dolnym rogu jest wykres prawdopodobieństwa dla cenzurowanego zestawu danych o wartości początkowej 120, która jest zbliżona do typowego limitu raportowania. Dopasowanie w lewym dolnym rogu jest teraz przyzwoite - mamy tylko nadzieję, że wszystkie te wartości znajdują się gdzieś blisko, ale na prawo od dopasowanej linii - ale krzywizna w górnym ogonie pokazuje, że dodanie 120 zaczyna zmieniać kształt rozkładu. W prawym dolnym rogu pokazano, co dzieje się z danymi delta-lognormal: istnieje dobre dopasowanie do górnego ogona, ale pewna wyraźna krzywizna w pobliżu limitu raportowania (na środku wykresu).

Na koniec przyjrzyjmy się niektórym bardziej realistycznym scenariuszom:

Wykresy prawdopodobieństwa 2

Lewy górny róg pokazuje cenzurowany zestaw danych z zerami ustawionymi na połowę limitu raportowania. To całkiem dobre dopasowanie. W prawym górnym rogu znajduje się bardziej realistyczny zestaw danych (z losowo zmieniającymi się limitami raportowania). Wartość początkowa 1 nie pomaga, ale - w lewym dolnym rogu - dla wartości początkowej 120 (w pobliżu górnego zakresu limitów raportowania) dopasowanie jest całkiem dobre. Co ciekawe, krzywizna w pobliżu środka, gdy punkty wznoszą się od ND do wartości ilościowych, przypomina rozkład logarytmiczny delta (nawet jeśli dane te nie zostały wygenerowane z takiej mieszaniny). W prawym dolnym rogu znajduje się wykres prawdopodobieństwa, który pojawia się, gdy realistyczne dane mają swoje ND zastąpione przez połowę (typowego) limitu raportowania. To jest najlepsze dopasowanie, mimo że pokazuje pewne zachowanie podobne do logarytmicznego delta w środku.

Powinieneś więc użyć wykresów prawdopodobieństwa do zbadania rozkładów, ponieważ zamiast ND stosowane są różne stałe. Rozpocznij wyszukiwanie z połową nominalnego, średniego limitu raportowania, a następnie zmieniaj go w górę iw dół. Wybierz wykres, który wygląda jak w prawym dolnym rogu: w przybliżeniu ukośna prosta linia dla wartości skwantyfikowanych, szybki spadek do niskiego plateau i plateau wartości, które (ledwo) odpowiadają przedłużeniu przekątnej. Jednak zgodnie z radą Helsela (która jest mocno poparta w literaturze), w celu rzeczywistych podsumowań statystycznych, unikaj jakiejkolwiek metody, która zastępuje ND dowolną stałą. W przypadku regresji należy rozważyć dodanie zmiennej zastępczej w celu wskazania ND. W przypadku niektórych ekranów graficznych, dobre zastąpienie ND przez wartość znalezioną za pomocą wykresu prawdopodobieństwa będzie działać dobrze. W przypadku innych wyświetlaczy graficznych może być ważne przedstawienie rzeczywistych limitów raportowania, więc zamiast tego zastąp ND ich limitami raportowania. Musisz być elastyczny!

Whuber
źródło
1
Niezwykle miła odpowiedź! Całkowicie się zgadzam. Znam to uczucie, gdy patrzysz na dane i zdajesz sobie sprawę, że zanim zostały one przekształcone „jak zwykle”, istniał doskonale przydatny zestaw danych ...
cbeleites obsługuje Monikę
1
różne granice : istnieje kilka różnych podejść do obliczania zarówno LOD (granica wykrywalności -> dla odpowiedzi jakościowych), jak i LOQ (granica kwantyzacji, która jest dla pomiarów ilościowych). Wydaje mi się, że jedno laboratorium zazwyczaj nie zmienia metody ich obliczania (dla tej samej metody anaytycznej). Jednak te wartości są ponownie obliczane za każdym razem, gdy obliczenia są wykonywane. Jeśli metoda wymaga kalibracji każdego dnia roboczego, to każdego dnia będziesz mieć (nieco) inny limit.
cbeleites wspiera Monikę
1
ograniczenia i prawne powody, dla których nie podano niskich liczb: powody prawne nie zabraniałyby podawania (dodatkowych) pełnych informacji, takich jak nieprzetworzony sygnał, odpowiednie stężenie i przedział ufności / ocena pomiaru (np. „poniżej LOQ”). Możesz także poprosić laboratorium analityczne o krzywą kalibracji. Spodziewam się, że musisz za to zapłacić, ponieważ jest to dodatkowa praca, ale spodziewam się, że będzie to możliwe. Tańszym kompromisem może być to, że dają ci wszystkie surowe dane i pozostawiają ci analizę danych. Może to pomóc, jeśli wiedzą, że jesteś statystą / chemometrem / chemikiem analitycznym / ...
cbeleites wspiera Monicę
1
W mojej pracy często spotykamy zera, ponieważ dane są zaokrąglone. W takim przypadku są to dane pogrupowane, patrz stats.stackexchange.com/questions/26950/…
Stéphane Laurent,
2
Jest cała dziedzina, „chemometria”, poświęcona temu i pokrewnym tematom, a całe książki zostały napisane (i nadal są pisane) i dotyczą wyłącznie „granicy wykrywalności”. Spotkałem ponad 20 różnych definicji! Kwestia ponownego wyrażania zmiennej (np. Przyjmowanie logarytmu) jest również kluczowa w analizie danych i eksploracji danych; duża część wielu książek (zwłaszcza książek o analizie danych eksploracyjnych) koncentruje się na tym zagadnieniu.
whuber
5

@miura

EconStats
źródło
3

ithmean(xi)n×stddev(xi)n

Pamiętaj, że takie sztuczne ustawienia wpłyną na twoje analizy, dlatego powinieneś być ostrożny z interpretacją, aw niektórych przypadkach odrzucić te przypadki, aby uniknąć artefaktów.

Zastosowanie granicy wykrywalności jest również rozsądnym pomysłem.

Itamar
źródło
3

Aby wyjaśnić, jak radzić sobie z logarytmem zerowym w modelach regresji, napisaliśmy artykuł pedagogiczny wyjaśniający najlepsze rozwiązanie i typowe błędy, które ludzie popełniają w praktyce. Opracowaliśmy również nowe rozwiązanie tego problemu.

Artykuł możesz znaleźć, klikając tutaj: https://ssrn.com/abstract=3444996

log(y)=βlog(x)+εβyx

YY+c>0

W naszym artykule podajemy przykład, w którym dodanie bardzo małych stałych zapewnia najwyższe odchylenie. Zapewniamy wyraz wyrażenia stronniczości.

W rzeczywistości Pseudo maksymalne prawdopodobieństwo Poissona (PPML) można uznać za dobre rozwiązanie tego problemu. Należy wziąć pod uwagę następujący proces:

yi=aiexp(α+xiβ)E(ai|xi)=1

βaiyi=0E(ai|xi)=1E(yiexp(α+xiβ)|xi)=0

i=1N(yiexp(α+xiβ))xi=0

yi=0

β

log(yi+exp(α+xiβ))=xiβ+ηi

Pokazujemy, że ten estymator jest bezstronny i że można go po prostu oszacować za pomocą GMM za pomocą dowolnego standardowego oprogramowania statystycznego. Na przykład można to oszacować, wykonując tylko jedną linię kodu za pomocą Stata.

Mamy nadzieję, że ten artykuł może pomóc i chcielibyśmy uzyskać od Ciebie informację zwrotną.

Christophe Bellégo i Louis-Daniel Pape, CREST - Ecole Polytechnique - ENSAE

Christophe Bellégo
źródło