Oszacować masę owoców w torbie na podstawie tylko powiązanych danych?

9

Instruktor na moim uniwersytecie zadał takie pytanie (nie na zadanie domowe, ponieważ lekcja się skończyła, a mnie nie było). Nie mogę wymyślić, jak do tego podejść.

Pytanie dotyczy 2 torebek, z których każda zawiera asortyment różnych rodzajów owoców:

Pierwsza torba zawiera następujące losowo wybrane owoce:

+ ------------- + -------- + --------- +
| średnica cm | masa g | zgniły? |
+ ------------- + -------- + --------- +
| 17,28 | 139,08 | 0 |
| 6,57 | 91,48 | 1 |
| 7,12 | 74,23 | 1 |
| 16,52 | 129,8 | 0 |
| 14,58 | 169,22 | 0 |
| 6,99 | 123,43 | 0 |
| 6,63 | 104,93 | 1 |
| 6,75 | 103,27 | 1 |
| 15,38 | 169,01 | 1 |
| 7,45 | 83,29 | 1 |
| 13,06 | 157,57 | 0 |
| 6,61 | 117,72 | 0 |
| 7,19 | 128,63 | 0 |
+ ------------- + -------- + --------- +

Druga torebka zawiera 6 losowo wybranych owoców z tego samego sklepu, co pierwsza torebka. Suma ich średnic wynosi 64,2 cm, a 4 są zgniłe.

Podaj szacunkową masę drugiej torby.

Widzę, że wydają się istnieć dwa różne rodzaje owoców o normalnie rozmieszczonych średnicach i masach, ale jestem zagubiony, jak postępować.

rutilusk
źródło
6
Ciekawe pytanie - ale dziwne dane: ciężar właściwy wynosi od 0,78 do 0,05. Może ktoś pomylił dekoracje styropianu z prawdziwymi owocami? :-)
whuber
Pytanie nie mówi, z czego powstał owoc. Sądzę, że można założyć, że same torby również są nieważkie. Jak rozwiązać problem?
rutilusk
3
Istotą mojego komentarza było to, że analizując tak małe ilości niechlujnych danych, polegamy na wiedzy o ich znaczeniu. Ponieważ liczby te oczywiście nie opisują żadnego znanego rodzaju „owoców”, nie możemy odwoływać się do takiej wiedzy dziedzinowej. (Na przykład nie mamy żadnych podstaw, aby przypuszczać, że jakakolwiek część tych danych powinna być „normalnie rozpowszechniana”). To utrudnia lub uniemożliwia wypracowanie rozsądnych odpowiedzi i może prowadzić do kontrowersji, ponieważ ogranicza sposoby, w jakie skuteczność dowolnego podejścia można ocenić.
whuber
Ale owoce styropianu nie mogą gnić. Być może owoce są płodnymi sferoidami o „średnicy” mierzonej wzdłuż długiej osi. Wydaje się, że istnieją co najmniej dwa rodzaje owoców: więc przy założeniu, że ciężar właściwy jest zbliżony do jednego, mniejszy byłby mniej więcej wielkości i kształtu cytryny; większy o długości około pół stopy i średnicy poniżej 2 cali. Trudność związana z tym pomysłem polega na tym, że bardziej naturalne wydaje się opisywanie krótszej osi jako „średnicy”.
Scortchi - Przywróć Monikę

Odpowiedzi:

1

Zacznijmy od wykreślenia danych i przyjrzenia się im. Jest to bardzo ograniczona ilość danych, więc będzie to nieco ad hoc z mnóstwem założeń.

rotten <- c(0,1,1,0,0,0,1,1,1,1,0,0,0)
rotten <- as.factor(rotten)
mass <- c(139.08, 
        91.48,
        74.23,
        129.8,
        169.22,
        123.43,
        104.93,
        103.27,
        169.01,
        83.29,
        157.57,
        117.72,
        128.63)
diam <- c(17.28,
        6.57,
        7.12,
        16.52,
        14.58,
        6.99,
        6.63,
        6.75,
        15.38,
        7.45,
        13.06,
        6.61,
        7.19)

plot(mass,diam,col=rotten,lwd=2)
title("Fruits")

Oto dane, czerwone kropki oznaczają zgniłe owoce:

owoce wykreślone

Masz rację zakładając, że wydają się istnieć dwa rodzaje owoców. Moje założenia są następujące:

  • Średnica dzieli owoce na dwie grupy
  • Owoce o średnicy większej niż 10 są w jednej grupie, inne w mniejszej grupie.
  • W dużej grupie owoców jest tylko jeden zgniły owoc. Załóżmy, że jeśli owoc jest w dużej grupie, to zgnilizna nie wpływa na wagę. Jest to niezbędne, ponieważ w tej grupie mamy tylko jeden punkt danych.
  • Jeśli owoc jest małym owocem, zgnilizna wpływa na masę.
  • Załóżmy, że zmienne diam i masa są zwykle rozłożone.

Ponieważ podano, że suma średnicy wynosi 64,2 cm, najprawdopodobniej dwa owoce są duże, a cztery są małe. Teraz są 3 przypadki na wagę. Zgniłe są 2, 3 lub 4 małe owoce (zgniłe duże owoce nie wpływają na masę z założenia ). Teraz możesz uzyskać granice swojej masy, obliczając te wartości.

Możemy empirycznie oszacować prawdopodobieństwo zgniłych małych owoców. Używamy prawdopodobieństw do ważenia naszych oszacowań masy, w zależności od liczby zgniłych owoców:

samps <- 100000
stored_vals <- matrix(0,samps,2)
for(i in 1:samps){
  numF <- 0 # Number of small rotten
  numR <- 0 # Total number of rotten
  # Pick 4 small fruits
  for(j in 1:4){
    if(runif(1) < (5/8)){ # Empirical proportion of small rotten
      numF <- numF + 1
      numR <- numR + 1
    } 
  }
  # Pick 2 large fruits
  for(j in 1:2){
    if(runif(1) < 1/5){# Empirical proportion of large rotten
      numR <- numR + 1
    }
  }
  stored_vals[i,] <- c(numF,numR)
}

# Pick out samples that had 4 rotten
fourRotten <- stored_vals[stored_vals[,2] == 4,1]
hist(fourRotten)

table(fourRotten)

# Proportions 
props <- table(fourRotten)/length(fourRotten)

massBig <- mean(mass[diam>10])
massSmRot <- mean(mass[diam<10 & rotten == 1])
massSmOk <- mean(mass[diam<10 & rotten == 0])

weights <- 2*massBig + c(2*massSmOk+2*massSmRot,1*massSmOk+3*massSmRot,4*massSmRot)

Est_Mass <- sum(props*weights) 

Dając nam ostateczną ocenę 691,5183 g . Myślę, że musisz wyciągnąć większość założeń, które wyciągnąłem, aby dojść do wniosku, ale myślę, że byłoby to możliwe w mądrzejszy sposób. Próbuję również empirycznie, aby uzyskać prawdopodobieństwo liczby zgniłych małych owoców, to jest po prostu lenistwo i można to zrobić „analitycznie”.

Gumeo
źródło
Dziękuję za twój wkład. Wydaje mi się, że większość twierdzeń, które nazywacie „założeniami”, są naprawdę wnioskami opartymi na analizie eksploracyjnej. Warto byłoby przeanalizować, w jaki sposób wyniki zależą od dokładności tych wniosków. Niezależnie od tego jasne jest, że tak mały zestaw danych nie jest w stanie poprzeć wyniku siedmioma znaczącymi liczbami! Szczególnie przydatne byłoby przedstawienie oceny prawdopodobnego błędu. Będzie stosunkowo duży, co warto wiedzieć.
whuber
@ Whuber dzięki za komentarz, mogę dodać coś więcej do oszacowania zmienności później wieczorem. Najprościej jest uzyskać oszacowania błędów dla masy trzech grup, których używam do ostatecznego obliczenia, i na tej podstawie obliczyć przedziały prognozowania. Widzę jednak, że OP był nieaktywny od roku, więc nie oczekuję, że ta odpowiedź zostanie zaakceptowana. Nadal uważam, że ten przykład jest fajnym „zabawkowym” problemem, aby zobaczyć, jak można uzyskać tak mało danych.
Gumeo
Próbuję zasugerować, że faktycznie otrzymujesz znacznie mniej informacji niż sugeruje to twoja odpowiedź, ponieważ zależy to od wielu wniosków opartych na danych, że same są wysoce niepewne.
whuber
@ whuber Tak, to jest całkowicie poprawne. Ale próba oszacowania błędu propagowanego przez wszystkie założenia / wnioski, które wyciągam, nie jest bardzo prosta. Byłem również pod silnym wpływem faktu, że suma średnic owoców w drugiej torbie wynosi 64,2 cm i że OP wspomina, że ​​mogą istnieć dwie grupy owoców.
Gumeo
1
@ whuber Pomyślę o tym i wezmę to za wyzwanie. Powrócę do tego pytania później!
Gumeo
0

Proponuję następujące podejście:

  1. Wygeneruj wszystkie 6 krotek, które spełniają warunki na 4 zgniłych. Są to .(64)(72)
  2. Wybierz spośród wygenerowanych krotek tylko te, które spełniają warunek na średnicy.
  3. Oblicz średnią masę wybranych krotek (zwykle średnia arytmetyczna).

Wszystko to jest możliwe do zarządzania za pomocą prostego skryptu.

Karel Macek
źródło
5
Dlaczego to podejście powinno działać? Jakie to założenie? Czy próbowałeś, czy w ogóle może dać odpowiedź?
whuber
0

Wiele podejść obejmuje, od najprostszego do złożonego,

  1. 6 (średnia masa)
  2. 6 (średnia objętość) (średnia gęstość)
  3. 4 (średnia zepsuta masa) + 2 (średnia zepsuta masa)
  4. 4 ((średnia zepsuta objętość) + 2 (średnia zepsuta objętość)) (średnia gęstość)
  5. 4 (średnia zepsuta objętość) (średnia zepsuta gęstość) + 2 (średnia zepsuta objętość) (średnia zepsuta gęstość)

. . .

metody kombinatoryczne

Podejścia są ułożone w kolejności prostoty obliczania, a nie w celu lepszego podejścia lub jakiegokolwiek dobrego. Wybór podejścia do zastosowania zależy od tego, jakie cechy populacji są znane lub zakładane. Na przykład, jeśli masy owoców w populacji sklepu są normalnie rozmieszczone i niezależne od średnic i stanu zgnilizny, można zastosować pierwsze, najprostsze podejście bez żadnych zalet (a nawet wad błędu próbkowania wielu zmiennych) stosowania bardziej złożonych podejść . Jeśli nie są niezależnymi identycznie rozmieszczonymi zmiennymi losowymi, lepszym wyborem może być bardziej złożony wybór w zależności od znanych lub zakładanych informacji o populacji.

Hax
źródło
3
Dlaczego którekolwiek z nich są dobre? Jakie oni przyjmują założenia? Jak wybrać jedną z nich? (Czy są one również w pewnym sensie w kolejności rosnącej dobroci?)
whuber