Potrzeba centrowania i standaryzacji danych w regresji

16

Rozważ regresję liniową z pewną regularyzacją: Np. Znajdź który minimalizuje | | A x - b | | 2 + λ | | x | | 1x||Axb||2+λ||x||1

Zwykle kolumny A są znormalizowane, aby miały średnią zerową i normę jednostkową, podczas gdy jest wyśrodkowany, aby mieć średnią zerową. Chcę się upewnić, czy moje rozumienie przyczyny standaryzacji i centrowania jest prawidłowe.b

Przez zastosowanie średnich kolumn i B zero, nie potrzebujemy już terminu przechwytywania. W przeciwnym razie celem byłby | | A x - x 0 1 - b | | 2 + λ | | x | | 1 . Ustawiając normy kolumn A na 1, usuwamy możliwość przypadku, w którym tylko dlatego, że jedna kolumna A ma bardzo wysoką normę, otrzymuje niski współczynnik x , co może prowadzić do błędnego wniosku, że ta kolumna A nie „ dobrze wyjaśnia” x .Ab||Axx01b||2+λ||x||1xx

To rozumowanie nie jest dokładnie rygorystyczne, ale intuicyjne, czy to właściwy sposób myślenia?

rk2
źródło

Odpowiedzi:

14

Masz rację co do zerowania średnich kolumn i b .Ab

Jeśli jednak chodzi o dostosowanie norm kolumn , zastanów się, co by się stało, gdybyś zaczął od znormalizowanego A , a wszystkie elementy x miałyby mniej więcej taką samą wielkość. Następnie pomnóżmy jedną kolumnę przez, powiedzmy, 10 - 6 . Odpowiedni element x zostałby, w regresji nieregularnej, powiększony o współczynnik 10 6 . Zobacz, co stanie się z terminem regularyzacji? Dla wszystkich praktycznych celów regularyzacja miałaby zastosowanie tylko do tego jednego współczynnika. AAx106x106

Normalizując kolumny , pisząc intuicyjnie, umieszczamy je wszystkie w tej samej skali. W związku z tym różnice w wielkościach elementów x są bezpośrednio związane z „zawrotnością” funkcji wyjaśniającej ( A x ), co jest, luźno mówiąc, tym, co regularyzacja próbuje kontrolować. Bez tego wartość współczynnika, np. 0,1, w porównaniu z 10,0, nie powiedziałaby ci, przy braku wiedzy o A , nic, o którym współczynniku najbardziej się przyczyniało do „zawrotności” A x . (W przypadku funkcji liniowej, takiej jak A x , „falistość” jest związana z odchyleniem od zera).AxAxAAxAx

Wracając do twojego wyjaśnienia, jeśli jedna kolumna ma bardzo wysoką normę i z jakiegoś powodu uzyskuje niski współczynnik x , nie doszlibyśmy do wniosku, że kolumna A nie „wyjaśnia” xAxAx dobrze . wcale nie „wyjaśnia” x . Ax

łucznik
źródło
Masz na myśli $x$ does not ''explain'' $A$ welli masz na myśli x does not ''explain'' $A$ at all? to dane, podczas gdy x to model w tym przypadku. Ax
user3813057
@ user3813057 - było to pytanie o regularyzację i nie ma nic wspólnego z mocą wyjaśniającą. zwykle będzie oznaczony jako β , A zwykle będzie oznaczony jako X , a b będzie częściej oznaczony jako y . x nie ma wyjaśnić A w ogóle. xβAXbyxA
jbowman