Jakiej dystrybucji podlegają moje dane?

31

Powiedzmy, że mam 1000 komponentów i zbieram dane o tym, ile razy rejestrują awarię i za każdym razem, gdy logują awarię, śledzę również, ile czasu zajęło mojemu zespołowi usunięcie problemu. Krótko mówiąc, rejestrowałem czas naprawy (w sekundach) dla każdego z tych 1000 elementów. Dane podano na końcu tego pytania.

Wziąłem wszystkie te wartości i narysował Cullen i Frey wykres w R korzystając descdistz fitdistrpluspakietu. Miałem nadzieję, że zrozumiem, czy czas na naprawę przypada na określoną dystrybucję. Oto wykres, boot=500aby uzyskać wartości ładowania początkowego:

wprowadź opis zdjęcia tutaj

Widzę, że ta fabuła mówi mi, że obserwacja należy do rozkładu beta (a może nie, w takim przypadku, co to ujawnia?) Teraz, biorąc pod uwagę, że jestem architektem systemu, a nie statystykiem, co ta fabuła ujawnia ? (Poszukuję praktycznej intuicji w świecie rzeczywistym za tymi wynikami).

EDYTOWAĆ:

QQplot przy użyciu qqPlotfunkcji w pakiecie car. Najpierw oszacowałem parametry kształtu i skali za pomocą fitdistrfunkcji.

> fitdistr(Data$Duration, "weibull")
      shape          scale    
  3.783365e-01   5.273310e+03 
 (6.657644e-03) (3.396456e+02)

Potem zrobiłem to:

qqPlot(LB$Duration, distribution="weibull", shape=3.783365e-01, scale=5.273310e+03)

wprowadź opis zdjęcia tutaj

EDYCJA 2:

Aktualizowanie za pomocą logicznego QQplot.

wprowadź opis zdjęcia tutaj

Oto moje dane:

c(1528L, 285L, 87138L, 302L, 115L, 416L, 8940L, 19438L, 165820L, 
540L, 1653L, 1527L, 974L, 12999L, 226L, 190L, 306L, 189L, 138542L, 
3049L, 129067L, 21806L, 456L, 22745L, 198L, 44568L, 29355L, 17163L, 
294L, 4218L, 3672L, 10100L, 290L, 8341L, 128L, 11263L, 1495243L, 
1699L, 247L, 249L, 300L, 351L, 608L, 186684L, 524026L, 1392L, 
396L, 298L, 1063L, 11102L, 6684L, 6546L, 289L, 465L, 261L, 175L, 
356L, 61652L, 236L, 74795L, 64982L, 294L, 95221L, 322L, 38892L, 
2146L, 59347L, 2118L, 310801L, 277964L, 205679L, 5980L, 66102L, 
36495L, 580277L, 27600L, 509L, 21795L, 21795L, 301L, 617L, 331L, 
250L, 123501L, 144L, 347L, 121443L, 211L, 232L, 445783L, 9715L, 
10308L, 1921L, 178L, 168L, 291L, 6915L, 6735L, 1008478L, 274L, 
20L, 3287L, 591208L, 797L, 586L, 170613L, 938L, 3121L, 249L, 
1497L, 24L, 1407L, 1217L, 1323L, 272L, 443L, 49466L, 323L, 323L, 
784L, 900L, 26814L, 2452L, 214713L, 3668L, 325L, 20439L, 12304L, 
261L, 137L, 379L, 2273L, 274L, 17760L, 920699L, 13L, 485644L, 
1243L, 226L, 20388L, 584L, 17695L, 1477L, 242L, 280L, 253L, 17964L, 
7073L, 308L, 260692L, 155L, 58136L, 16644L, 29353L, 543L, 276L, 
2328L, 254L, 1392L, 272L, 480L, 219L, 60L, 2285L, 2676L, 256L, 
234L, 1240L, 219714L, 102174L, 258L, 266L, 33043L, 530L, 6334L, 
94047L, 293L, 536L, 48557L, 4141L, 39079L, 23259L, 2235L, 17673L, 
28268L, 112L, 64824L, 127992L, 5291L, 51693L, 762L, 1070735L, 
179L, 189L, 157L, 157L, 122L, 1045L, 1317L, 186L, 57901L, 456126L, 
674L, 2375L, 1782L, 257L, 23L, 248L, 216L, 114L, 11662L, 107890L, 
203022L, 513L, 2549L, 146L, 53331L, 1690L, 10752L, 1648611L, 
148L, 611L, 198L, 443L, 10061L, 720L, 10L, 24L, 220L, 38L, 453L, 
10066L, 115774L, 97713L, 7234L, 773L, 90154L, 151L, 1560L, 222L, 
51558L, 214L, 948L, 208L, 1127L, 221L, 169L, 1528L, 78959L, 61566L, 
88049L, 780L, 6196L, 633L, 214L, 2547L, 19088L, 119L, 561L, 112L, 
17557L, 101086L, 244L, 257L, 94483L, 6189L, 236L, 248L, 966L, 
117L, 333L, 278L, 553L, 568L, 356L, 731L, 25258L, 127931L, 7735L, 
112717L, 395L, 12960L, 11383L, 16L, 229067L, 259076L, 311L, 366L, 
2696L, 7265L, 259076L, 3551L, 7782L, 4256L, 87121L, 4971L, 4706L, 
245L, 34457L, 4971L, 4706L, 245L, 34457L, 258L, 36071L, 301L, 
2214L, 2231L, 247L, 537L, 301L, 2214L, 230L, 1076L, 1881L, 266L, 
4371L, 88304L, 50056L, 50056L, 232L, 186336L, 48200L, 112L, 48200L, 
48200L, 6236L, 82158L, 6236L, 82158L, 1331L, 713L, 89106L, 46315L, 
220L, 5634L, 170601L, 588L, 1063L, 2282L, 247L, 804L, 125L, 5507L, 
1271L, 2567L, 441L, 6623L, 64781L, 1545L, 240L, 2921L, 777L, 
697L, 2018L, 24064L, 199L, 183L, 297L, 9010L, 16304L, 930L, 6522L, 
5717L, 17L, 20L, 364418L, 58246L, 7976L, 304L, 4814L, 307L, 487L, 
292016L, 6972L, 15L, 40922L, 471L, 2342L, 2248L, 23L, 2434L, 
23342L, 807L, 21L, 345568L, 324L, 188L, 184L, 191L, 188L, 198L, 
195L, 187L, 185L, 33968L, 1375L, 121L, 56872L, 35970L, 929L, 
151L, 5526L, 156L, 2687L, 4870L, 26939L, 180L, 14623L, 265L, 
261L, 30501L, 5435L, 9849L, 5496L, 1753L, 847L, 265L, 280L, 1840L, 
1107L, 2174L, 18907L, 14762L, 3450L, 9648L, 1080L, 45L, 6453L, 
136351L, 521L, 715L, 668L, 14550L, 1381L, 13294L, 13100L, 6354L, 
6319L, 84837L, 84726L, 84702L, 2126L, 36L, 572L, 1448L, 215L, 
12L, 7105L, 758L, 4694L, 29369L, 7579L, 709L, 121L, 781L, 1391L, 
2166L, 160403L, 674L, 1933L, 320L, 1628L, 2346L, 2955L, 204852L, 
206277L, 2408L, 2162L, 312L, 280L, 243L, 84050L, 830L, 290L, 
10490L, 119392L, 182960L, 261791L, 92L, 415L, 144L, 2006L, 1172L, 
1886L, 233L, 36123L, 7855L, 554L, 234L, 2292L, 21L, 132L, 142L, 
3848L, 3847L, 3965L, 3431L, 2465L, 1717L, 3952L, 854L, 854L, 
834L, 14608L, 172L, 7885L, 75303L, 535L, 443347L, 5478L, 782L, 
9066L, 6733L, 568L, 611L, 533L, 1022L, 334L, 21628L, 295362L, 
34L, 486L, 279L, 2530L, 504L, 525L, 367L, 293L, 258L, 1854L, 
209L, 152L, 1139L, 398L, 3275L, 284178L, 284127L, 826L, 751L, 
1814L, 398L, 1517L, 255L, 13745L, 43L, 1463L, 385L, 64L, 5279L, 
885L, 1193L, 190L, 451L, 1093L, 322L, 453L, 680L, 452L, 677L, 
295L, 120L, 12184L, 250L, 1165L, 476L, 211L, 4437L, 7310L, 778L, 
260L, 855L, 353L, 97L, 34L, 87L, 137L, 101L, 416L, 130L, 148L, 
832L, 187L, 291L, 4050L, 14569L, 271L, 1968L, 6553L, 2535L, 227L, 
202L, 647L, 266L, 2681L, 106L, 158L, 257L, 234L, 1726L, 34L, 
465L, 436L, 245L, 245L, 2790L, 104L, 1283L, 44416L, 142L, 13617L, 
232L, 171L, 221L, 719L, 176L, 5838L, 37488L, 12214L, 3780L, 5556L, 
5368L, 106L, 246L, 101L, 158L, 10743L, 5L, 46478L, 5286L, 9866L, 
32593L, 174L, 298L, 19617L, 19350L, 230L, 78449L, 78414L, 78413L, 
78413L, 6260L, 6260L, 209L, 2552L, 522L, 178L, 140L, 173046L, 
299L, 265L, 132360L, 132252L, 4821L, 4755L, 197L, 567L, 113L, 
30314L, 7006L, 10L, 30L, 55281L, 8263L, 8244L, 8142L, 568L, 1592L, 
1750L, 628L, 60304L, 212553L, 51393L, 222L, 13471L, 3423L, 306L, 
325L, 2650L, 74796L, 37807L, 103751L, 6924L, 6727L, 667L, 657L, 
752L, 546L, 1860L, 230L, 217L, 1422L, 347L, 341055L, 4510L, 4398L, 
179670L, 796L, 1210L, 2579L, 250L, 273L, 407L, 192049L, 236L, 
96084L, 5808L, 7546L, 10646L, 197L, 188L, 19L, 167877L, 200509L, 
429L, 632L, 495L, 471L, 2578L, 251L, 198L, 175L, 19161L, 289L, 
20718L, 201L, 937L, 283L, 4829L, 4776L, 5949L, 856907L, 2747L, 
2761L, 3150L, 3142L, 68031L, 187666L, 255211L, 255231L, 6581L, 
392991L, 858L, 115L, 141L, 85629L, 125433L, 6850L, 6684L, 23L, 
529L, 562L, 216L, 1450L, 838L, 3335L, 1446L, 178L, 130101L, 239L, 
1838L, 286L, 289L, 68974L, 757L, 764L, 218L, 207L, 3485L, 16597L, 
236L, 1387L, 2121L, 2122L, 957L, 199899L, 409803L, 367877L, 1650L, 
116710L, 5662L, 12497L, 613889L, 10182L, 260L, 9654L, 422947L, 
294L, 284L, 996L, 1444L, 2373L, 308L, 1522L, 288L, 937L, 291L, 
93L, 17629L, 5151L, 184L, 161L, 3273L, 1090L, 179840L, 1294L, 
922L, 826L, 725L, 252L, 715L, 6116L, 259L, 6171L, 198L, 5610L, 
5679L, 862L, 332L, 1324L, 536L, 98737L, 316L, 5608L, 5526L, 404L, 
255L, 251L, 14067L, 3360L, 3623L, 8920L, 288L, 447L, 453L, 1604687L, 
115L, 127L, 127L, 2398L, 2396L, 2396L, 2398L, 2396L, 2397L, 154L, 
154L, 154L, 154L, 887L, 636L, 227L, 227L, 354L, 7150L, 30227L, 
546013L, 545979L, 251L, 171647L, 252L, 583L, 593L, 10222L, 2660L, 
1864L, 2884L, 1577L, 1304L, 337L, 2642L, 2462L, 280L, 284L, 3463L, 
288L, 288L, 540L, 287L, 526L, 721L, 1015L, 74071L, 6338L, 1590L, 
582L, 765L, 291L, 983L, 158L, 625L, 581L, 350L, 6896L, 13567L, 
20261L, 4781L, 1025L, 722L, 721L, 1618L, 1799L, 987L, 6373L, 
733L, 5648L, 987L, 1010L, 985L, 920L, 920L, 4696L, 1154L, 1132L, 
927L, 4546L, 692L, 702L, 301L, 305L, 316L, 313L, 801L, 788L, 
14624L, 14624L, 9778L, 9778L, 9778L, 9778L, 757L, 275L, 1480L, 
610L, 68495L, 1152L, 1155L, 323L, 312L, 303L, 298L, 1641L, 1607L, 
1645L, 616L, 1002L, 1034L, 1022L, 1030L, 1030L, 1027L, 1027L, 
934L, 960L, 47L, 44L, 1935L, 1925L, 43L, 47L, 1933L, 1898L, 938L, 
830L, 286L, 287L, 807L, 807L, 741L, 628L, 482L, 500L, 480L, 431L, 
287L, 298L, 227L, 968L, 961L, 943L, 932L, 704L, 420L, 548L, 3612L, 
1723L, 780L, 337L, 780L, 527L, 528L, 499L, 679L, 308L, 1104L, 
314L, 1607L, 990L, 1156L, 562L, 299L, 16L, 20L, 287L, 581L, 1710L, 
1859L, 988L, 962L, 834L, 1138L, 363L, 294L, 2678L, 362L, 539L, 
295L, 996L, 977L, 988L, 39L, 762L, 579L, 595L, 405L, 1001L, 1002L, 
555L, 1102L, 54L, 1283L, 347L, 1384L, 603L, 307L, 306L, 302L, 
302L, 288L, 288L, 286L, 292L, 529L, 56844L, 1986L, 503L, 751L, 
3977L, 367L, 4817L, 4631L, 4609L, 4579L, 937L, 402L, 257L, 570L, 
1156L, 3297L, 3948L, 4527L, 3119L, 15227L, 3893L, 538L, 802L, 
5128L, 595L, 522L, 1346L, 449L, 443L, 323L, 372L, 369L, 307L, 
246L, 260L, 342L, 283L, 963L, 751L, 108L, 280L, 320L, 287L, 285L, 
283L, 529L, 536L, 298L, 29427L, 29413L, 761L, 249L, 255L, 304L, 
297L, 256L, 119L, 288L, 564L, 234L, 226L, 530L, 766L, 223L, 5858L, 
5568L, 481L, 462L, 8692L, 498L, 330L, 7604L, 15L, 121738L, 121833L, 
826L, 760L, 208937L, 1598L, 1166L, 446L, 85598L, 513L, 84897L, 
50239L, 308L, 1351L, 283L, 7100L, 7101L, 321L, 1019L, 287L, 253L, 
634L, 629L, 628L, 678L, 1391L, 1147L, 853L, 287L, 1174L, 287L, 
197145L, 197116L, 147L, 147L, 712L, 274L, 283L, 907L, 434L, 1164L, 
30L, 599L, 577L, 315L, 1423L, 1250L, 30L, 1502L, 296L, 348L, 
617L, 339L, 328L, 123L, 338L, 332L, 47133L, 288L, 340L, 1524L, 
1049L, 1072L, 1031L, 1059L, 1038L, 989L, 52L, 54L, 986L, 46L, 
1202L, 1272L, 43L, 785L, 761L, 16924L, 289L, 264L, 453L, 365L, 
356L, 280L, 16520L, 281L, 255L, 244L, 642L, 1003L, 951L, 921L, 
1011L, 45L, 932L, 973L, 39L, 40L, 159L, 566L, 49L, 1161L, 50L, 
200L, 215L, 361L, 377L, 980L, 935L, 882L, 281L, 280L, 1025L, 
319L, 690L, 284L, 271L, 276L, 286L, 371L, 324L, 304L, 311L, 341L, 
603L, 11566L, 270L, 286L, 342L, 326L, 11018L, 282L, 271L, 286L, 
586L, 604L, 750L, 608L, 523L, 506L, 3303L, 1079797L, 1079811L, 
530L, 2631L, 882L, 628L, 30L, 11905L, 12966L, 390995L, 322353L, 
1763L, 1755L, 709L, 713L, 365L, 351L, 205L, 393L, 284L, 39417L, 
320L, 322L, 8039L, 995L, 625L, 785L, 298L, 518L, 467L, 1050L, 
329L, 141345L, 55566L, 40318L, 287L, 220L, 309346L, 220L, 215314L, 
304L, 296L, 4301L, 4311L, 1543L, 1549L, 2876L, 2894L, 287L, 290L, 
215L, 605L, 577L, 254L, 1330L, 1863L, 140L, 328L, 284L, 291L, 
283L, 1701L, 1696L, 519L, 499L, 2440007L, 289L, 294L, 311L, 324L, 
4793L, 4808L, 249L, 205L, 219L, 638L, 2653L, 2648L, 351L, 323L, 
1056L, 327L, 794L, 1491L, 284L, 289L, 220L, 765L, 565L, 808L, 
832L, 772L, 41668L, 42307L, 6843L, 6612L, 6598L, 241164L, 531L, 
554L, 1246L, 459L, 971504L, 805L, 2615L, 2290L, 2086L, 2063L, 
2685L, 2704L, 275L, 461L, 458L, 317L, 889L, 335L, 974L, 959L, 
253142L, 257L, 250L, 282L, 293L, 666L, 4991L, 287L, 588L, 555L, 
3585L, 3195L, 481L, 2405L, 135266L, 571L, 1805L, 365L, 340L, 
232L, 224L, 298L, 3682L, 3677L, 577L, 571L, 288L, 297L, 293L, 
291L, 256L, 214L, 1257L, 1271L, 65471L, 65471L, 65476L, 65476L, 
4680L, 4675L, 339L, 329L, 284L, 288L, 4859L, 4851L, 2534L, 24222L, 
330684L, 330684L, 2116L, 282L, 412L, 429L, 2324L, 1978L, 502L, 
286L, 943149L, 256L, 288L, 286L, 1098L, 1125L, 442L, 240L, 182L, 
2617L, 1068L, 25204L, 170L, 418L, 1867L, 8989L, 1804L, 1240L, 
6610L, 1237L, 1750L, 1565L, 1565L, 3662L, 1803L, 218L, 172L, 
780L, 1418L, 2390L, 7514L, 23214L, 1464L, 1060L, 1503L, 308802L, 
308357L, 21691L, 298817L, 289875L, 4442L, 289284L, 235L, 456L, 
676L, 897L, 289109L, 1865L, 288030L, 287899L, 287767L, 287635L, 
286639L, 286509L, 286157L, 1427L, 2958L, 4340L, 5646L, 282469L, 
7016L, 279353L, 278568L, 316L, 558L, 3501L, 1630L, 278443L, 1360L, 
828L, 1089L, 278430L, 278299L, 278169L, 278035L, 277671L, 277541L, 
277400L, 277277L, 276567L, 285L, 555L, 834L, 1084L, 1355L, 5249L, 
14776L, 1441L, 755L, 755L, 70418L, 3135L, 1026L, 1497L, 949663L, 
68L, 526058L, 1692L, 150L, 48370L, 4207L, 4088L, 197551L, 197109L, 
196891L, 196634L, 2960L, 194319L, 194037L, 3008L, 3927L, 178762L, 
178567L, 403L, 178124L, 2590L, 177405L, 177179L, 301L, 328L, 
390685L, 390683L, 575L, 1049L, 819L, 367L, 289L, 277L, 390L, 
301L, 318L, 3806L, 3778L, 3699L, 3691L)
Legenda
źródło
7
Ten schemat nie mówi, że twoja dystrybucja jest w wersji beta. Mówi, że skośność i kurtoza są zgodne z wersją beta - może na przykład być logarytmicznie normalny, ale prawdopodobnie nie jest to właściwie żadna dystrybucja wymieniona na tym diagramie.
Glen_b
@Glen_b: Dziękuję. Właśnie dodałem qqplot dla lognormal, ale nawet to nie wydaje się być dobrym dopasowaniem. Czy jest coś, co poleciłbyś mi wypróbować? Uwzględniłem moje dane w pytaniu.
Legenda
4
Jestem ciekawy, dlaczego nazywasz to spiskiem „Cullen Frey”, gdy został wprowadzony przez Rhinda w 1909 roku (i znany później przez kolejne pokolenia), 90 lat przed Cullenem i Freyem, którzy napisali coś razem! Zobacz artykuł w Wikipedii na temat systemu dystrybucji Pearson .
whuber
3
W działaniu widzimy prawo eponimii Stiglera . :-)
whuber
3
@whuber To fabuła Cullena i Freya, a nie wizualizacja przestrzeni Pearsona przez Rhinda. Ma wyraźnie różne cechy, takie jak obrazowanie wartości doładowania, nakładka równomiernego rozkładu itp. Opiera się na wykresie Rhinda, ale wszystko w nauce opiera się na czymś wcześniejszym (i nie chcemy tego robić przypisuj wszystko oryginalnym, nieznanym wynalazcom ognia i koła ...).
Hack-R

Odpowiedzi:

34

Chodzi o to, że rzeczywiste dane niekoniecznie muszą być zgodne z konkretną dystrybucją, którą możesz nazwać ... i byłoby to zaskakujące, gdyby tak się stało.

Chociaż więc mogę wymienić tuzin możliwości, faktyczny proces generujący te obserwacje prawdopodobnie nie będzie niczym, co mógłbym zasugerować. Wraz ze wzrostem wielkości próbki prawdopodobnie będziesz w stanie odrzucić każdy dobrze znany rozkład.

Rozkłady parametryczne są często użyteczną fikcją, a nie doskonałym opisem.

Spójrzmy przynajmniej na dane dziennika, najpierw w normalnym qqplot, a następnie jako oszacowanie gęstości jądra, aby zobaczyć, jak to wygląda:

qqnorm log (x)

Zwróć uwagę, że na wykresie QQ wykonanym w ten sposób, najbardziej płaskie odcinki zbocza są tam, gdzie zwykle widzisz szczyty. Ma to wyraźną sugestię, że szczyt jest bliski 6, a drugi około 12,3. Oszacowanie gęstości jądra dziennika pokazuje to samo:

Szacunkowa gęstość jądra

W obu przypadkach wskazanie jest takie, że rozkład czasu dziennika jest prawidłowy, ale nie jest jednoznaczny. Najwyraźniej główny szczyt znajduje się gdzieś około 5 minut. Być może istnieje drugi mały szczyt w gęstości logarytmicznej, który wydaje się być gdzieś w okolicach około 60 godzin. Być może istnieją dwa bardzo różne jakościowo „typy” naprawy, a twoja dystrybucja odzwierciedla połączenie dwóch rodzajów. A może tylko raz, gdy naprawa zajmie cały dzień pracy, zwykle zajmuje to więcej czasu (to znaczy, zamiast odzwierciedlać szczyt po nieco ponad tygodniu, może odzwierciedlać anty-szczyt po nieco ponad dniu - raz naprawy trwają dłużej niż niecały dzień, prace mają tendencję do „spowalniania”).

Nawet dziennik dziennika czasu jest nieco wypaczony. Spójrzmy na silniejszą transformację, w której drugi pik jest dość wyraźny - minus odwrotność czwartego pierwiastka czasu:

hist -1 / (x ^ 0,25)

Zaznaczone linie mają 5 minut (niebieski) i 60 godzin (zielony przerywany); jak widzisz, szczyt jest nieco poniżej 5 minut, a drugi gdzieś ponad 60 godzin. Zauważ, że górny „pik” znajduje się na poziomie około 95. percentyla i niekoniecznie będzie zbliżony do piku w rozkładzie nietransformowanym.

Sugeruje się także inny spadek około 7,5 minuty z szerokim pikiem między 10 a 20 minut, co może sugerować bardzo niewielką tendencję do „zaokrąglania w górę” w tym regionie (niekoniecznie nie dzieje się nic złego; nawet jeśli nie ma spadku) / szczyt tam nieodłącznego czasu pracy, może to być nawet coś tak prostego, jak funkcja ludzkiej zdolności skupienia się w jednym nieprzerwanym okresie przez ponad kilka minut).

Wydaje mi się, że dwuskładnikowy (dwuspadowy), a może trójskładnikowa mieszanina rozkładów z odchyleniem w prawo opisałaby ten proces dość dobrze, ale nie byłby to idealny opis.

Pakiet logsplinewydaje się rejestrować cztery piki w dzienniku (czas):

fabuła logpsyny

z pikami w pobliżu 30, 270, 900 i 270 000 sekund (30s, 4,5 m, 15 mi 75 h).

Używając logspline z innymi transformacjami ogólnie znajdź 4 piki, ale z nieco innymi środkami (po przetłumaczeniu na oryginalne jednostki); należy tego oczekiwać w przypadku transformacji.

Glen_b - Przywróć Monikę
źródło
2
+1 To jest złota kopalnia moich informacji. Próbuję przetrawić wszystko, co napisałeś, a do tej pory nauczyło mnie to, jak właściwie podchodzić do tego typu problemów. Jaki jest sens silniejszej transformacji? Czy mogę zapytać, jak to wymyśliłeś? Czy to z doświadczeniem, czy istnieje bardziej formalny sposób wyboru takiej niekonwencjonalnej transformacji? Proszę wybaczyć moją ignorancję, jeśli jest to powszechna mądrość w społeczności statystyk. Byłbym jednak wdzięczny, gdybyś mógł wskazać mi dobrą referencję do nauki tego rodzaju „detektywistycznej” pracy, która jest dla mnie niesamowita.
Legenda
3
Właściwe odniesienie do EDA: Tukey, JW (1977). Analiza danych eksploracyjnych . Addison-Wesley, Reading, MA.
Glen_b
3
Jak wspomniano w powyższej odpowiedzi, możesz spróbować dopasować rozkład mieszaniny. Oto artykuł, który wykorzystuje te hybrydy do prędkości wiatru - myślę, że niektóre rozkłady są kombinacjami 3 innych rozkładów. journal-ijeee.com/content/3/1/27
rbatt
2
W przypadku mieszanki chodzi o ustalenie, ile składników chcesz, o jakiej dystrybucji lub rozkładach wybierzesz mieszankę (o czym pierwotnie napisałeś), a następnie w jaki sposób określisz parametry składników i proporcje składników. Istnieje wiele pakietów, które mogą pomóc w tych zadaniach; oto artykuł (pdf) na jednym z nich. Kilka pakietów do modelowania mieszanin wspomniano w widoku zadań Analiza skupień i modelowanie mieszanki skończonej ... (ctd)
Glen_b
1
(ctd) ... Innym przykładem pakietu jest remiksowanie . Moja własna powyższa analiza oparta była na prostszych podejściach eksploracyjnych, ale w obecnej postaci nie jest jeszcze w pełni zidentyfikowanym modelem mieszanki; sugeruje, że może być potrzebna czteroskładnikowa mieszanina. Ostatnia część mojej odpowiedzi - część z log-splajnem to inne (nieparametryczne) podejście do modelowania skomplikowanych gęstości.
Glen_b
12

Funkcja descdist ma opcję załadowania dystrybucji, aby uzyskać precyzję związaną z wykreślonym oszacowaniem. Możesz tego spróbować.

descdist(time_to_repair, boot=1000)

Domyślam się, że twoje dane są spójne z więcej niż tylko wersją beta.

Ogólnie rozkład beta to rozkład ciągłych proporcji lub prawdopodobieństw. Na przykład rozkład wartości p z testu t byłby konkretnym przypadkiem rozkładu beta w zależności od tego, czy hipoteza zerowa jest prawdziwa i od mocy, jaką ma analiza.

Uważam, że jest bardzo mało prawdopodobne, aby rozkład waszych czasów na naprawę był w rzeczywistości w wersji beta. Zauważ, że ten wykres porównuje tylko pochylenie i kurtozę twoich danych do określonego rozkładu. Beta jest ograniczona przez 0 i 1; Założę się, że twoje dane nie są, ale ten wykres nie sprawdza tego faktu.

Z drugiej strony rozkład Weibulla jest wspólny dla czasów opóźnienia. Po spojrzeniu na postać (bez wykresów próbnych, aby zmierzyć niepewność), podejrzewam, że twoje dane są zgodne z Weibullem.

Sądzę, że możesz również sprawdzić, czy dane są Weibull, używając qqPlot z pakietu samochodowego, aby utworzyć wykres qq .

gung - Przywróć Monikę
źródło
2
+1 Dziękuję. W chwili, gdy rozumiem twoją odpowiedź, właśnie zaktualizowałem swoje pytanie z bootstrapparametrem ustawionym na 500 w descdistfunkcji. I tak, masz rację, że moich wartości nie ma w [0,1]. Czy mogę w ten sposób pokazać ten fakt (należący do Weibulla) za pomocą tego wykresu? Spróbuję wkrótce zaktualizować moje pytanie za pomocą QQPlot.
Legenda
Właśnie zaktualizowałem moje pytanie o qqPlotz carpakietu.
Legenda
Hmmm. Cóż, wykres qq nie sprawia, że ​​rozkład Weibulla jest dobrym dopasowaniem.
gung - Przywróć Monikę
1
I jeszcze jeden dla logarytmicznej dystrybucji. Czy polecasz jakieś wstępne przetwarzanie, które powinienem zrobić z danymi? Czy jest lepszy sposób na oszacowanie najlepszego dopasowania? Nadal zastanawiam się, jak mogę wykorzystać wykres Cullen / Frey w moim kontekście.
Legenda
Zaktualizowałem też moje pytanie danymi, których używam na końcu, na wypadek gdyby to pomogło.
Legenda
3

Jeśli chodzi o to, co jest warte, używając procedury FindDistribution Mathematiki, logarytmy są w przybliżeniu mieszaniną dwóch normalnych rozkładów,

wprowadź opis zdjęcia tutaj

Oznacza to, że , i x=ln(data)

f(x)=0.0585522e0.33781(x11.7025)2+0.229776e0.245814(x6.66864)2

Można to zrobić za pomocą 3 rozkładów, aby utworzyć rozkład mieszanki

wprowadź opis zdjęcia tutaj

f(x)=0.560456 Laplace(5.85532,0.59296)+0.312384 LogNormal(2.08338,0.122309)+0.12716 Normal(11.6327,1.02011),
który numerycznie jest
{0.472592e1.68646(5.85532x)+0.0497292e0.480476(x11.6327)2x00.472592e1.68646(5.85532x)+0.0497292e0.480476(x11.6327)2+1.01893xe33.4238(ln(x)2.08338)20<x<5.855320.472592e1.68646(x5.85532)+0.0497292e0.480476(x11.6327)2+1.01893xe33.4238(ln(x)2.08338)2Otherwise

Istnieje wiele innych możliwości. Na przykład dopasowanie trzech normalnych rozkładów do potęgi danych 1/10 . W przypadku kodu Mathematica dalsze metody są zgodne z tym linkiem .th

Carl
źródło