Czy istnieje jakaś sztuczka techniczna, aby określić trzeci kwartyl, jeśli należy on do otwartego przedziału, który zawiera więcej niż jedną czwartą populacji (więc nie mogę zamknąć przedziału i użyć standardowej formuły)?
Edytować
W przypadku, gdy coś źle zrozumiem, podam mniej więcej pełny kontekst. Mam dane ułożone w tabeli z dwiema kolumnami i, powiedzmy, 6 rzędami. Każda kolumna odpowiada przedziałowi (w pierwszej kolumnie) i ilości populacji, która „należy” do tego przedziału. Ostatni przedział jest otwarty i obejmuje ponad 25% populacji. Wszystkie przedziały (z wyjątkiem ostatniego) mają ten sam zakres.
Przykładowe dane (transponowane do prezentacji):
Column 1: (6;8),(8;10),(10;12),(12;14),(14;16),(16;∞)
Column 2: 51, 65, 68, 82, 78, 182
Pierwszą kolumnę należy interpretować jako przedział poziomu dochodów. Drugi należy interpretować jako liczbę pracowników, których dochód należy do przedziału.
Standardowa formuła, o której myślę, to .
Odpowiedzi:
Musisz dopasować te skumulowane dane do jakiegoś modelu dystrybucyjnego, ponieważ jest to jedyny sposób ekstrapolacji na górny kwartyl.
Wzór
Z definicji taki model daje funkcja cadlag rosnąca od 0 do 1 . Prawdopodobieństwo, które przypisuje do dowolnego przedziału ( a , b ], to F ( b ) - F ( a ) . Aby dopasować, musisz założyć rodzinę możliwych funkcji indeksowanych parametrem (wektorowym) θ , { F θ } Zakładając, że próba podsumowuje zbiór osób wybranych losowo i niezależnie od populacji opisanej przez niektóre konkretne (ale nieznane) F θF 0 1 (a,b] F(b)−F(a) θ {Fθ} Fθ Prawdopodobieństwo próbki (lub prawdopodobieństwa , ) jest iloczynem z poszczególnych prawdopodobieństwa. W tym przykładzie byłby równyL
Dopasowanie modelu do danych
R
fit$par
Sprawdzanie założeń modelu
Jest on stosowany do danych w celu uzyskania dopasowanych lub „przewidywanych” populacji bin:
Możemy narysować histogramy danych i prognozę, aby porównać je wizualnie, pokazane w pierwszym rzędzie tych wykresów:
Aby je porównać, możemy obliczyć statystyki chi-kwadrat. Jest to zwykle określane jako rozkład chi-kwadrat w celu oceny istotności :
Wykorzystanie dopasowania do oszacowania kwantyli
Te procedury i ten kod można stosować ogólnie. Teorię maksymalnego prawdopodobieństwa można dalej wykorzystać do obliczenia przedziału ufności wokół trzeciego kwartylu, jeśli jest to interesujące.
źródło
Za długo na komentarz:
odpowiedź Whubersa jest tak dobra, jak każda inna, ale zakłada prawidłową skośność w swoim logarytmicznym modelu. Może to być realistyczne w przypadku dochodów w populacji ogólnej, ale może nie dotyczyć dochodów dla jednego pracodawcy w określonej grupie zaszeregowania.
źródło