Jak obliczyć niepewność nachylenia regresji liniowej na podstawie niepewności danych (być może w programie Excel / Mathematica)?
Przykład: miejmy punkty danych (0,0), (1,2), (2,4), (3,6), (4,8), ... (8, 16), ale każda wartość y ma niepewność wynosząca 4. Większość funkcji, które znalazłem, obliczałoby niepewność jako 0, ponieważ punkty idealnie pasują do funkcji y = 2x. Ale, jak pokazano na rysunku, y = x / 2 również pasuje do punktów. To przesadzony przykład, ale mam nadzieję, że pokazuje, czego potrzebuję.
EDYCJA: Jeśli spróbuję wyjaśnić nieco więcej, podczas gdy każdy punkt w przykładzie ma pewną wartość y, udajemy, że nie wiemy, czy to prawda. Na przykład pierwszy punkt (0,0) może faktycznie być (0,6) lub (0, -6) lub cokolwiek pomiędzy. Pytam, czy istnieje jakiś algorytm w jednym z popularnych problemów, który bierze to pod uwagę. W tym przykładzie punkty (0,6), (1,6,5), (2,7), (3,7,5), (4,8), ... (8, 10) nadal mieszczą się w przedziale niepewności, więc mogą to być właściwe punkty, a linia łącząca te punkty ma równanie: y = x / 2 + 6, podczas gdy równanie, które otrzymujemy z braku uwzględnienia niepewności ma równanie: y = 2x + 0. Tak więc niepewność k wynosi 1,5, a n oznacza 6.
TL; DR: Na zdjęciu jest linia y = 2x, która jest obliczana przy użyciu dopasowania najmniejszych kwadratów i idealnie pasuje do danych. Próbuję ustalić, ile k i n w y = kx + n może się zmienić, ale nadal pasuje do danych, jeśli znamy niepewność w wartościach y. W moim przykładzie niepewność k wynosi 1,5, a n to 6. Na zdjęciu jest „najlepsza” linia dopasowania i linia, która ledwo pasuje do punktów.
źródło
Odpowiedzi:
Odpowiadając na „Próbuję ustalić, ile i w może się zmienić, ale nadal pasuje do danych, jeśli znamy niepewność w wartościach ”.k n y=kx+n y
Jeśli prawdziwa zależność jest liniowa, a błędy są niezależnymi normalnymi zmiennymi losowymi o średnich wartościach zerowych i znanych odchyleniach standardowych, to obszar ufności % dla jest elipsą, dla której , gdzie jest standardowym odchyleniem błędu w , jest liczbą par , a jest górnym łamliwym rozkładem chi-kwadrat o stopniach swobody.y 100(1−α) (k,n) ∑(kxi+n−yi)2/σ2i<χ2d,α σi yi d (x,y) χ2d,α α d
EDYCJA - Przyjmując błąd standardowy każdego na 3 - tj. Przyjmując słupki błędów na wykresie do reprezentowania w przybliżeniu 95% przedziałów ufności dla każdego osobno - równanie dla granicy 95% obszaru ufności dla wynosi .yi yi (k,n) 204(k−2)2+72n(k−2)+9n2=152.271
źródło
Zrobiłem naiwne bezpośrednie próbkowanie z tym prostym kodem w Pythonie:
i dostałem to:
Oczywiście możesz wydobywać żądane
P
dane lub zmieniać rozkłady niepewności.źródło
Byłem już na tym samym polowaniu i myślę, że może to być przydatne miejsce na początek. Funkcja makra programu Excel zapewnia warunki dopasowania liniowego i ich niepewności oparte na punktach tabelarycznych i niepewności dla każdego punktu w obu rzędnych. Może zajrzyj do dokumentu, na którym się opiera, aby zdecydować, czy chcesz go wdrożyć w innym środowisku, zmodyfikować itp. (Mathematica ma trochę pracy nóg.) Wygląda na to, że ma dobrą dokumentację na temat chodzenia po powierzchni, ale nie otworzyłem makro, aby zobaczyć, jak dobrze jest opatrzone adnotacjami.
źródło