Załóżmy, że mam minimum, średnią i maksimum niektórych zbiorów danych, powiedzmy 10, 20 i 25. Czy istnieje sposób na:
utworzyć dystrybucję na podstawie tych danych oraz
wiedzieć, jaki procent populacji prawdopodobnie leży powyżej lub poniżej średniej
Edytować:
Zgodnie z sugestią Glen'a załóżmy, że mamy próbkę o wielkości 200.
distributions
standard-deviation
mean
maximum
minimum
użytkownik132053
źródło
źródło
Odpowiedzi:
Istnieje nieskończona liczba możliwych rozkładów, które byłyby zgodne z tymi wielkościami próbek.
Przy braku pewnych prawdopodobnych nieuzasadnionych założeń, nie ogólnie - przynajmniej nie z dużym wyczuciem, że będzie to miało sens. Wyniki zależeć będą w dużej mierze od twoich założeń (same wartości nie zawierają zbyt wielu informacji, chociaż niektóre konkretne ustalenia dostarczają użytecznych informacji - patrz poniżej).
Nie jest trudno wymyślić sytuacje, w których odpowiedzi na pytanie proporcjonalne mogą być bardzo różne. Kiedy istnieją bardzo różne możliwe odpowiedzi zgodne z informacjami, skąd miałbyś wiedzieć, w jakiej jesteś sytuacji?
Więcej szczegółów może dać pomocne wskazówki, ale w obecnej postaci (nawet bez próby, choć prawdopodobnie wynosi co najmniej 2 lub 3, jeśli średnia nie znajduje się w połowie drogi między punktami końcowymi *), niekoniecznie będziesz miał dużą wartość w tym pytaniu . Możesz próbować uzyskać granice, ale w wielu przypadkach nie zawężą one zbyt wiele.
* w rzeczywistości, jeśli średnia jest zbliżona do jednego punktu końcowego, można uzyskać dolną granicę wielkości próby. Na przykład, jeśli zamiast 10,20,25 dla min / średniej / maksimum miałeś 10 24 25, to musiałoby wynosić co najmniej 15, i sugerowałoby to również, że większość populacji była powyżej 24; to jest coś. Ale jeśli powiedzmy 10,18,25, znacznie trudniej jest uzyskać użyteczne pojęcie o wielkości próbki, nie mówiąc już o proporcji poniżej średniej.n
źródło
Jak już zauważył Glen_b , istnieje nieskończenie wiele możliwości. Spójrz na następujące wykresy, pokazują one osiem różnych rozkładów, które mają takie same wartości minimalne, maksymalne i średnie.
Zauważ, że bardzo się od siebie różnią. Pierwszy jest jednolity, czwarty jest bimodalną mieszanką rozkładów trójkątnych, siódmy ma największą masę prawdopodobieństwa skoncentrowaną wokół centrum, ale wciąż możliwe są min i maks z bardzo małym prawdopodobieństwem, osiem jest dyskretne i ma tylko dwie wartości na min i na maksimum itp. .
Ponieważ wszystkie spełniają twoje kryteria, możesz użyć dowolnego z nich do symulacji. Jednak twój subiektywny wybór miałby bardzo głęboki wpływ na wynik symulacji. Chcę powiedzieć, że jeśli min, maks i średnia to tak naprawdę jedyna rzecz, którą wiesz o rozkładzie, to masz niewystarczające informacje do przeprowadzenia symulacji, jeśli naprawdę chcesz naśladować rzeczywisty (nieznany) rozkład.
Więc trzeba zadać sobie pytanie, co należy wiedzieć o dystrybucji? Czy to dyskretne czy ciągłe? Symetryczny czy przekrzywiony? Jednomodalny czy bimodalny? Jest wiele rzeczy do rozważenia. Jeśli jest ciągły, nierównomierny i nieimodalny, a znasz tylko minimalną, maksymalną i średnią, to jednym z możliwych wyborów jest rozkład trójkątny - jest bardzo mało prawdopodobne, że coś w prawdziwym życiu ma taki rozkład, ale przynajmniej używasz czegoś prostego i nie narzucając zbyt wielu założeń dotyczących jego kształtu.
źródło
Zasada oparta na zakresie obliczania odchylenia standardowego jest szeroko cytowana w literaturze statystycznej (tutaj jest jeden odnośnik ... http://statistics.about.com/od/Descriptive-Statistics/a/Range-Rule-For-Standard -Deviation.htm ). Zasadniczo jest to (maks. Min) / 4. Jest to bardzo przybliżone oszacowanie.
Biorąc pod uwagę tę informację i chęć przyjęcia normalnie rozłożonych danych, odchylenia normalne można wygenerować z dwóch liczb, średniej i odchylenia standardowego na podstawie zakresu. To powiedziawszy, każdy jeden lub dwuparametrowy rozkład może być generowany z tych dwóch informacji, o ile rozkład ten był zakorzeniony w pierwszej lub drugiej chwili.
Szacowany współczynnik zmienności można również uzyskać, przyjmując stosunek SD / średniej. Zapewniłoby to proxy dla jednostkowej zmienności danych.
Błąd bardziej poprawnie odnosi się do rozkładu próby populacji i wymaga oszacowania wielkości próby n . Twój opis nie zawiera tych szczegółów.
źródło