Zarówno B, jak i E pochodzą od V. B i E wyraźnie nie są tak naprawdę „niezależnymi” zmiennymi od siebie. Podstawową zmienną, która tak naprawdę ma znaczenie, jest V. Prawdopodobnie w tym przypadku należy odrzucić zarówno B, jak i E i zachować tylko V.
W bardziej ogólnej sytuacji, gdy masz dwie niezależne zmienne, które są bardzo silnie skorelowane, zdecydowanie powinieneś usunąć jedną z nich, ponieważ natrafisz na zagadkę wielokoliniowości, a współczynniki regresji twojego modelu regresji związane z dwiema silnie skorelowanymi zmiennymi będą zawodne. Również w prostym języku angielskim, jeśli dwie zmienne są tak wysoce skorelowane, to oczywiście przekażą prawie dokładnie taką samą informację do twojego modelu regresji. Ale włączając oba, osłabiasz model. Nie dodajesz informacji przyrostowych. Zamiast tego wprowadzasz swój model w hałas. To nie jest dobra rzecz.
Jednym ze sposobów zachowania wysoce skorelowanych zmiennych w modelu jest użycie zamiast regresji modelu analizy głównej składowej (PCA). Modele PCA zostały stworzone, aby pozbyć się wielokoliniowości. Kompromis polega na tym, że w twoim modelu pojawiają się dwa lub trzy główne elementy, które często są jedynie konstrukcjami matematycznymi i są logicznie niezrozumiałe. Dlatego PCA jest często porzucane jako metoda za każdym razem, gdy musisz przedstawić swoje wyniki zewnętrznym odbiorcom, takim jak kierownictwo, organy regulacyjne itp. ... Modele PCA tworzą tajemnicze czarne skrzynki, których wyjaśnienie jest bardzo trudne.
Oto odpowiedź z punktu widzenia uczącego się maszyny, chociaż obawiam się, że zostaną pobici przez prawdziwych statystyk.
Czy mogę po prostu „wyrzucić” jedną ze zmiennych?
Pytanie brzmi: jakiego modelu chcesz użyć do przewidywania. To zależy np. Od ...
Czasami uczący się maszyn obrabiamy nawet optymalizację genetyczną, aby znaleźć najlepszą kombinację arytmetyczną zestawu predyktorów.
źródło
B jest transformacją liniową V. E reprezentuje interakcję między V i D. Czy zastanawiałeś się nad określeniem modelu, który jest Y = Intercept + V + D + V: D? Jak sugeruje @ euphoria83, wydaje się prawdopodobne, że istnieje niewielka różnorodność D, więc może nie rozwiązać twojego problemu; powinno to jednak przynajmniej wyjaśnić niezależny wkład V i D. Pamiętaj, aby najpierw wyśrodkować zarówno V, jak i D.
źródło
Jeśli D nie jest stałą, wówczas B i E są faktycznie dwiema różnymi zmiennymi z powodu zmian w D. Wysoka korelacja wskazuje, że D jest praktycznie stała w danych treningowych. W takim przypadku możesz odrzucić B lub E.
źródło