Jak dokładnie „kontroluje się inne zmienne”?

141

Oto artykuł, który uzasadnił to pytanie: Czy niecierpliwość czyni nas grubymi?

Podobał mi się ten artykuł, który ładnie pokazuje koncepcję „kontrolowania innych zmiennych” (iloraz inteligencji, kariera, dochód, wiek itp.) W celu jak najlepszego wyodrębnienia prawdziwej relacji między tylko dwiema wymienionymi zmiennymi.

Czy możesz mi wyjaśnić, jak faktycznie kontrolujesz zmienne w typowym zbiorze danych?

Na przykład, jeśli masz 2 osoby o tym samym poziomie niecierpliwości i BMI, ale o różnych dochodach, jak traktujesz te dane? Czy dzielisz je na różne podgrupy, które mają podobny dochód, cierpliwość i BMI? Ale ostatecznie istnieją dziesiątki zmiennych, które należy kontrolować (iloraz inteligencji, kariera, dochód, wiek itp.) Jak następnie agregujesz te (potencjalnie) setki podgrup? W rzeczywistości mam wrażenie, że to podejście szczeka na niewłaściwe drzewo, teraz, kiedy to zwerbalizowałem.

Dzięki, że rzuciłeś trochę światła na coś, z czego od kilku lat chciałem dotrzeć do dna ...!

JackOfAll
źródło
3
Epi i Bernd, wielkie dzięki za próbę odpowiedzi na to pytanie. Niestety, te odpowiedzi są dużym krokiem od mojego pytania i są ponad moją głową. Może to b / c Nie mam doświadczenia z R, a tylko podstawowa podstawa Statistics 101. Tak samo, jak sprzężenie zwrotne z twoją nauką, kiedy oderwałeś się od BMI, wieku, niecierpliwości itp., Aby „współzmiennie” i in., Całkowicie mnie zgubiłeś. Automatyczne generowanie pseudo-danych również nie było pomocne w wyjaśnieniu pojęć. W rzeczywistości pogorszyło to sytuację. Trudno się nauczyć na podstawie danych
pozornych bez własnego
7
Dzięki, że zadałem to fundamentalne pytanie, @JackOfAll - strona byłaby niekompletna bez pytania w tym stylu - „sprzyjałem” temu. Odpowiedzi tutaj były dla mnie bardzo pomocne i najwyraźniej wiele innych w oparciu o liczbę głosów pozytywnych. Jeśli po zastanowieniu się nad tym znajdziesz odpowiedzi pomocne (lub odpowiedzi na którekolwiek z twoich pytań), zachęcam do skorzystania z upvotes i zaakceptowania odpowiedzi, jeśli uznasz to za ostateczne. Można to zrobić, klikając odpowiednio małe krzywe dzwonka skierowane w górę obok odpowiedzi i znacznika wyboru.
Makro
4
To nie jest kompletna odpowiedź ani nic, ale myślę, że warto przeczytać „Chodźmy do regresji śmieci i probów śmieci, gdzie należą” Chrisa Achena. (Link PDF: http://qssi.psu.edu/files/Achen_GarbageCan.pdf ) Dotyczy to zarówno podejścia bayesowskiego, jak i częstego. Samo wrzucenie terminów do konfiguracji nie wystarcza do „kontrolowania” efektów, ale niestety to właśnie przechodzi kontrolę w wielu literaturach.
ely
9
Pytasz „w jaki sposób oprogramowanie komputerowe steruje matematycznie wszystkimi zmiennymi jednocześnie ”. Mówisz także „Potrzebuję odpowiedzi, która nie wymaga formuł”. Nie rozumiem, jak można to zrobić jednocześnie. Przynajmniej nie bez poważnego ryzyka pozostawienia cię z wadliwą intuicją.
Glen_b
2
Dziwi mnie, że to pytanie nie zyskało większej uwagi. Zgadzam się z komentarzem PO, że inne pytania na stronie nie obejmują konkretnie poruszonej tutaj kwestii. @Jen, bardzo krótka odpowiedź na twoje (drugie) pytanie jest taka, że ​​wiele zmiennych towarzyszących jest naprawdę podzielonych na części jednocześnie, a nie iteracyjnie, jak opisujesz. Pomyślę teraz, jak wyglądałaby bardziej szczegółowa i intuicyjna odpowiedź na te pytania.
Jake Westfall,

Odpowiedzi:

124

Istnieje wiele sposobów kontrolowania zmiennych.

Najłatwiejszym i jednym z tych, które wymyśliłeś, jest rozwarstwienie danych, dzięki czemu masz podgrupy o podobnych cechach - istnieją wtedy metody na połączenie tych wyników, aby uzyskać jedną „odpowiedź”. Działa to, jeśli masz bardzo małą liczbę zmiennych, które chcesz kontrolować, ale jak słusznie odkryłeś, szybko się rozpada, gdy dzielisz dane na coraz mniejsze części.

Bardziej powszechnym podejściem jest uwzględnianie zmiennych, które chcesz kontrolować w modelu regresji. Na przykład, jeśli masz model regresji, który można koncepcyjnie opisać jako:

BMI = Impatience + Race + Gender + Socioeconomic Status + IQ

Oszacowanie, jakie otrzymasz za niecierpliwość, będzie efektem niecierpliwości w obrębie poziomów innych zmiennych towarzyszących - regresja pozwala zasadniczo wygładzić miejsca, w których nie masz dużo danych (problem z podejściem stratyfikacyjnym), choć należy to zrobić z ostrożnością.

Istnieją jeszcze bardziej wyrafinowane sposoby kontrolowania innych zmiennych, ale istnieje prawdopodobieństwo, że ktoś powie „kontrolowany dla innych zmiennych”, co oznacza, że ​​zostały one uwzględnione w modelu regresji.

W porządku, poprosiłeś o przykład, na którym możesz popracować, aby zobaczyć, jak to działa. Przeprowadzę cię krok po kroku. Wszystko czego potrzebujesz to zainstalowana kopia R.

Po pierwsze potrzebujemy danych. Wytnij i wklej następujące fragmenty kodu do R. Pamiętaj, że to wymyślony przykład, który wymyśliłem na miejscu, ale pokazuje proces.

covariate <- sample(0:1, 100, replace=TRUE)
exposure  <- runif(100,0,1)+(0.3*covariate)
outcome   <- 2.0+(0.5*exposure)+(0.25*covariate)

To twoje dane. Zauważ, że znamy już związek między wynikiem, ekspozycją i zmienną towarzyszącą - to jest punkt wielu badań symulacyjnych (których jest to niezwykle prosty przykład. Zaczynasz od znanej struktury i upewniasz się, że twoja metoda może uzyskać właściwą odpowiedź.

Teraz przejdźmy do modelu regresji. Wpisz następujące polecenie:

lm(outcome~exposure)

Czy dostałeś Intercept = 2,0 i ekspozycję = 0,6766? A może coś podobnego, biorąc pod uwagę, że w danych będą jakieś losowe różnice? Dobrze - ta odpowiedź jest zła. Wiemy, że to źle. Dlaczego to jest złe? Nie udało się kontrolować zmiennej, która wpływa na wynik i ekspozycję. Jest to zmienna binarna, zrób to, co chcesz - płeć, palacz / niepalący itp.

Teraz uruchom ten model:

lm(outcome~exposure+covariate)

Tym razem powinieneś otrzymać współczynniki Intercept = 2,00, ekspozycja = 0,50 i zmienną towarzyszącą 0,25. To, jak wiemy, właściwa odpowiedź. Kontrolowałeś inne zmienne.

Co dzieje się, gdy nie wiemy, czy zadbaliśmy o wszystkie zmienne, których potrzebujemy (nigdy tak naprawdę nie robimy)? Nazywa się to zamieszaniem szczątkowym i jest przedmiotem troski w większości badań obserwacyjnych - że kontrolowaliśmy niedoskonale, a nasza odpowiedź, choć prawy, nie jest dokładna. Czy to pomaga bardziej?

Fomite
źródło
Dzięki. Czy ktoś zna prosty przykład oparty na regresji online lub w podręczniku, przez który mogę pracować?
JackOfAll 20.10.11
@JackOfAll Prawdopodobnie istnieją setki takich przykładów - jakie obszary / rodzaje pytań są zainteresowane i jakich pakietów oprogramowania możesz użyć?
Fomite,
Cóż, każdy akademicki / wymyślony przykład jest dla mnie w porządku. Mam program Excel, który może wykonywać regresję wielu zmiennych, prawda? Czy też potrzebuję czegoś takiego jak R, aby to zrobić?
JackOfAll
10
+1 Za udzielenie odpowiedzi bez negatywnych informacji, których bym użył. :) W typowym języku, kontrolowanie innych zmiennych oznacza, że ​​autorzy wrzucili je do regresji. To tak naprawdę nie znaczy, co według nich oznacza, jeśli nie potwierdzili, że zmienne są względnie niezależne i że cała struktura modelu (zwykle pewien rodzaj GLM) jest dobrze uzasadniona. Krótko mówiąc, moim zdaniem jest to, że ilekroć ktoś użyje tego wyrażenia, oznacza to, że ma bardzo mało pojęcia na temat statystyki i należy ponownie obliczyć wyniki przy użyciu zaproponowanej metody stratyfikacji.
Iterator
7
@SibbsGambling Zauważysz, że pierwotny pytający poprosił o prosty działający przykład.
Fomite
56
  1. Wprowadzenie

    Podoba mi się odpowiedź @ EpiGrad (+1), ale niech spojrzę z innej perspektywy. Poniżej odnoszę się do tego dokumentu PDF: „Analiza regresji wielokrotnej: oszacowanie” , która zawiera sekcję „Interpretacja interpretacji regresji wielokrotnej” (s. 83f.). Niestety nie mam pojęcia, kto jest autorem tego rozdziału i będę go nazywał REZERWACJĄ. Podobne wyjaśnienie można znaleźć w Kohler / Kreuter (2009) „Analiza danych za pomocą Staty” , rozdział 8.2.3 „Co oznacza„ pod kontrolą ”?

    Wykorzystam przykład @ EpiGrad, aby wyjaśnić to podejście. Kod R i wyniki można znaleźć w załączniku.

    Należy również zauważyć, że „kontrolowanie innych zmiennych” ma sens tylko wtedy, gdy zmienne objaśniające są umiarkowanie skorelowane (kolinearność). W wyżej wspomnianym przykładzie korelacja iloczynu produktu między exposurei covariatewynosi 0,50, tj.

    > cor(covariate, exposure)
    [1] 0.5036915
  2. Pozostałości

    Zakładam, że rozumiesz pojęcie reszt w analizie regresji. Oto wyjaśnienie Wikipedii : „Jeśli ktoś wykonuje regresję niektórych danych, wówczas odchylenia obserwacji zmiennych zależnych od dopasowanej funkcji są resztkami”.

  3. Co oznacza „pod kontrolą”?

    Kontrolując zmienną covariate, wpływ (waga regresji) exposurena outcomemożna opisać w następujący sposób (jestem niechlujny i pomijam większość indeksów i wszystkich czapek, proszę odnieść się do wyżej wymienionego tekstu, aby uzyskać dokładny opis):

    β1=rmisjareja1rjarmisjareja12)

    są reszty, gdy ustąpiąna, tznrmisjareja1exposurecovariate

    exposure=const.+βcovariatecovariate+resid

    Te "reszty [..] to część , który jest skorelowany z X i 2 . [...] W ten sposób, p 1 Mierzy związek próbki między Y i x 1 po x 2 został partialled out" ( REGCHAPTER 84). „Częściowo podzielony” oznacza „kontrolowany dla”.xi1xi2β^1yx1x2)

    Zaprezentuję ten pomysł na przykładowych danych @ EpiGrad. Najpierw zresetuję exposuresię covariate. Ponieważ interesują mnie tylko resztki lmEC.resid, pomijam wynik.

    summary(lmEC <- lm(exposure ~ covariate))
    lmEC.resid   <- residuals(lmEC)

    Następnym krokiem jest regres outcomena tych resztkach ( lmEC.resid):

    [output omitted]
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
    lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
    ---
    Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 
    
    [output omitted]

    Jak widać, masa regresji lmEC.resid(patrz kolumna szacunkowych, ) w tej prostej regresji jest równa wielokrotności masy regresji , która jest także 0.50 (patrz @ odpowiedź EpiGrad za lub wyjście R poniżej).βlmmido.rmisjare=0,50covariate0,50

dodatek

Kod R.

set.seed(1)
covariate <- sample(0:1, 100, replace=TRUE)
exposure <- runif(100,0,1)+(0.3*covariate)
outcome <- 2.0+(0.5*exposure)+(0.25*covariate)

## Simple regression analysis
summary(lm(outcome ~ exposure))

## Multiple regression analysis
summary(lm(outcome ~ exposure + covariate))

## Correlation between covariate and exposure
cor(covariate, exposure)

## "Partialling-out" approach
## Regress exposure on covariate
summary(lmEC <- lm(exposure ~ covariate))
## Save residuals
lmEC.resid <- residuals(lmEC)
## Regress outcome on residuals
summary(lm(outcome ~ lmEC.resid))

## Check formula
sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))

R Wyjście

> set.seed(1)
> covariate <- sample(0:1, 100, replace=TRUE)
> exposure <- runif(100,0,1)+(0.3*covariate)
> outcome <- 2.0+(0.5*exposure)+(0.25*covariate)
> 
> ## Simple regression analysis
> summary(lm(outcome ~ exposure))

Call:
lm(formula = outcome ~ exposure)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.183265 -0.090531  0.001628  0.085434  0.187535 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.98702    0.02549   77.96   <2e-16 ***
exposure     0.70103    0.03483   20.13   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.109 on 98 degrees of freedom
Multiple R-squared: 0.8052,     Adjusted R-squared: 0.8032 
F-statistic: 405.1 on 1 and 98 DF,  p-value: < 2.2e-16 

> 
> ## Multiple regression analysis
> summary(lm(outcome ~ exposure + covariate))

Call:
lm(formula = outcome ~ exposure + covariate)

Residuals:
       Min         1Q     Median         3Q        Max 
-7.765e-16 -7.450e-18  4.630e-18  1.553e-17  4.895e-16 

Coefficients:
             Estimate Std. Error   t value Pr(>|t|)    
(Intercept) 2.000e+00  2.221e-17 9.006e+16   <2e-16 ***
exposure    5.000e-01  3.508e-17 1.425e+16   <2e-16 ***
covariate   2.500e-01  2.198e-17 1.138e+16   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 9.485e-17 on 97 degrees of freedom
Multiple R-squared:     1,      Adjusted R-squared:     1 
F-statistic: 3.322e+32 on 2 and 97 DF,  p-value: < 2.2e-16 

> 
> ## Correlation between covariate and exposure
> cor(covariate, exposure)
[1] 0.5036915
> 
> ## "Partialling-out" approach
> ## Regress exposure on covariate
> summary(lmEC <- lm(exposure ~ covariate))

Call:
lm(formula = exposure ~ covariate)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.49695 -0.24113  0.00857  0.21629  0.46715 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.51003    0.03787  13.468  < 2e-16 ***
covariate    0.31550    0.05466   5.772  9.2e-08 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2731 on 98 degrees of freedom
Multiple R-squared: 0.2537,     Adjusted R-squared: 0.2461 
F-statistic: 33.32 on 1 and 98 DF,  p-value: 9.198e-08 

> ## Save residuals
> lmEC.resid <- residuals(lmEC)
> ## Regress outcome on residuals
> summary(lm(outcome ~ lmEC.resid))

Call:
lm(formula = outcome ~ lmEC.resid)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.1957 -0.1957 -0.1957  0.2120  0.2120 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2058 on 98 degrees of freedom
Multiple R-squared: 0.3057,     Adjusted R-squared: 0.2986 
F-statistic: 43.15 on 1 and 98 DF,  p-value: 2.45e-09 

> 
> ## Check formula
> sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))
[1] 0.5
> 
Bernd Weiss
źródło
5
Ten rozdział wygląda jak Baby Wooldridge (alias Introductory Econometrics: A Modern Approach, autor: Jeffrey M. Wooldridge)
Dimitriy V. Masterov
2
Być może coś nie rozumiem, ale dlaczego nie musisz również regresować wyniku na współzmiennej, a następnie w końcu zresetować resztki wyniku na resztkach ekspozycji?
hlinee
@hlinee ma rację. Czy możesz wyjaśnić, dlaczego tego nie robisz?
Parseltongue
41

Oczywiście w grę wchodzi pewna matematyka, ale to niewiele: Euclid dobrze to zrozumiałby. Wszystko, co naprawdę musisz wiedzieć, to jak dodawać i przeskalowywać wektory. Chociaż obecnie nazywa się to „algebrą liniową”, wystarczy ją zwizualizować w dwóch wymiarach. Pozwala nam to uniknąć maszynerii macierzowej algebry liniowej i skupić się na pojęciach.


Geometryczna historia

yy1αx1x1ααβγ

Rycina 1

x1yyx1x1yαyy1yx1”będzie konsekwentnie wskazywać, które wektory zostały„ dopasowane ”,„ wyjęte ”lub„ kontrolowane ”.)

x1x2x1βx1x21

Rysunek 2

x1x2x1yx1x3,x4,x1

y1x21x21x1x21

Rycina 3

yx2y1

x21y1x1y1x1γx21y12x1

x31,x41,x2

y12x1x2y12x1,x2,yx1,x2yx1x2x2x1

(Jeśli istnieją dodatkowe wektory, kontynuowalibyśmy proces „wyjmowania elementu dopasowującego”, aż każdy z tych wektorów miał swoją kolejność. W każdym przypadku operacje byłyby takie same jak pokazano tutaj i zawsze występowałyby w samolot .)


Zastosowanie do regresji wielokrotnej

X1X2,YX1X2YX1X2X1,X2,

  1. Dopasowywanie można wykonać kolejno i

  2. Kolejność dopasowywania nie ma znaczenia.

Proces „wyjmowania” dopasowującego przez zastępowanie wszystkich innych wektorów ich resztkami jest często określany jako „kontrolujący” dla dopasowującego. Jak widzieliśmy na rycinach, po kontrolowaniu dopasowywania wszystkie kolejne obliczenia wprowadzają korekty prostopadłe do tego dopasowywania. Jeśli chcesz, możesz pomyśleć o „kontrolowaniu” jak o „rozliczaniu (w najmniejszym sensie kwadratowym) wkładu / wpływu / efektu / powiązania dopasowywania we wszystkich innych zmiennych”.


Bibliografia

Możesz zobaczyć to wszystko w akcji z danymi i działającym kodem w odpowiedzi na https://stats.stackexchange.com/a/46508 . Ta odpowiedź może bardziej spodobać się osobom, które wolą arytmetykę od zdjęć samolotów. (Arytmetyka dostosowywania współczynników podczas sekwencyjnego wprowadzania dopasowań jest jednak prosta). Język dopasowywania pochodzi od Freda Mostellera i Johna Tukeya.

Whuber
źródło
1
Więcej ilustracji w tym zakresie można znaleźć w książce Wicken'a „The Geometry of Multivariate Statistics” (1994). Niektóre przykłady znajdują się w tej odpowiedzi .
caracal
2
xja
1
Uwielbiam tę odpowiedź, ponieważ daje dużo więcej intuicji niż algebry. BTW, nie jestem pewien, czy sprawdziłeś kanał youtube tego faceta . Bardzo mi się podobało
Haitao Du
3

Jak dotąd istnieje doskonała dyskusja na temat dostosowania zmiennych towarzyszących jako sposobu „kontrolowania innych zmiennych”. Ale myślę, że to tylko część historii. W rzeczywistości istnieje wiele (innych) strategii opartych na projektowaniu, modelowaniu i uczeniu maszynowym, mających na celu zaradzenie wpływowi wielu możliwych zmiennych. To jest krótka ankieta na temat niektórych najważniejszych (nieregulacyjnych) tematów. Chociaż korekta jest najczęściej stosowanym sposobem „kontrolowania” innych zmiennych, uważam, że dobry statystyk powinien rozumieć, co robi (i czego nie robi) w kontekście innych procesów i procedur.

Pasujący:

Dopasowywanie to metoda projektowania sparowanej analizy, w której obserwacje są pogrupowane w zestawy 2, które pod innymi względami są podobne w najważniejszych aspektach. Na przykład, możesz próbować dwóch osób, które są zgodne co do ich wykształcenia, dochodów, stażu zawodowego, wieku, stanu cywilnego, (itp. Itp.), Ale które są niezgodne ze względu na ich niecierpliwość. W przypadku ekspozycji binarnych wystarczy prosty test sparowany t, aby sprawdzić średnią różnicę w ich kontrolowaniu BMI dla wszystkich pasujących funkcji. Jeśli modelujesz ciągłą ekspozycję, analogiczną miarą byłby model regresji poprzez pochodzenie różnic. Patrz Carlin 2005

E[Y1Y2]=β0(X1X2)

Ważenie

XYrachunki prawdopodobieństwa ekspozycji binarnej i kontrole tych zmiennych w tym zakresie. Jest podobny do bezpośredniej standaryzacji ekspozycji. Patrz Rothman, Modern Epidemiology 3rd edition.

Randomizacja i quasirandomizacja

Jest to subtelna kwestia, ale jeśli faktycznie jesteś w stanie losowo przypisać ludzi do określonych warunków eksperymentalnych, wpływ innych zmiennych zostanie złagodzony. Jest to warunek znacznie silniejszy, ponieważ nie musisz nawet wiedzieć, jakie są te inne zmienne. W tym sensie „kontrolujesz” ich wpływ. Nie jest to możliwe w badaniach obserwacyjnych, ale okazuje się, że metody oceny skłonności tworzą prosty probabilistyczny miernik ekspozycji, który pozwala na zważenie, dostosowanie lub dopasowanie uczestników, aby mogli być analizowani w ten sam sposób jak badanie quasi-losowe . Patrz Rosenbaum, Rubin 1983 .

Mikrosymulacja

Innym sposobem symulacji danych, które można uzyskać z randomizowanego badania, jest wykonanie mikrosymulacji. Tutaj można zwrócić uwagę na większe i bardziej wyrafinowane uczenie maszynowe, takie jak modele. Termin, który ukształtował Judea Pearl, który mi się podoba, to „ Modele Oracle ”: złożone sieci, które są w stanie generować prognozy i prognozy dla wielu funkcji i wyników. Okazuje się, że można „złożyć” informacje o takim modelu wyroczni, aby zasymulować wyniki w zrównoważonej kohorcie osób, które reprezentują losową kohortę, zrównoważoną w rozkładzie „zmiennej kontrolnej” i używając prostych procedur testu t do oceny wielkość i precyzja możliwych różnic. Patrz Rutter, Zaslavsky i Feuer 2012

Dopasowywanie, ważenie i dopasowanie współzmienne w modelu regresji szacują te same powiązania, a zatem można twierdzić, że są sposobami „kontrolowania” innych zmiennych .

AdamO
źródło
Całkowicie nad moją głową.
JackOfAll
Jest to odpowiedź na zadane pytanie, dotychczasowa dobra dyskusja jest raczej jednostronna na rzecz dostosowania w modelach wielowymiarowych.
AdamO,
Modele wielowymiarowe, dopasowanie itp. Są prawidłowymi technikami, ale kiedy badacz zazwyczaj stosuje jedną technikę nad inną?
mnmn
-1

Y=Xβ+εb=(XTX)1XTY

Aksakal
źródło
4
Dziękujemy za skorzystanie z okazji, aby zaoferować te informacje. Aby odpowiedź mogła zaspokoić potrzeby podane w pytaniu, musielibyśmy znać znaczenie liczby pierwszej w drugim wyrażeniu i znaczenie drugiego wyrażenia. Rozumiem, że nachylenie to zmiana w jednej osi względem zmiany w drugiej. Pamiętaj, że notacja jest specjalnym językiem, który został pierwotnie stworzony i nauczony przy użyciu słownictwa notacyjnego. Dotarcie do osób, które nie znają tego języka, wymaga użycia innych słów, co stanowi ciągłe wyzwanie związane z przekazywaniem wiedzy z różnych dziedzin.
Jen
2
XX macierzyMusisz nauczyć się, jak zbudowana jest matryca projektowa. Tutaj jest za długo, aby to wyjaśnić. Przeczytaj Wiki, które opublikowałem, ma wiele informacji. Obawiam się, że dopóki nie zrozumiesz algebry liniowej, nie będziesz w stanie w sposób znaczący odpowiedzieć na twoje pytanie.
Aksakal