Jakie są klasyczne zapisy w statystyce, algebrze liniowej i uczeniu maszynowym? Jakie są powiązania między tymi notacjami?

26

Kiedy czytamy książkę, zrozumienie zapisów odgrywa bardzo ważną rolę w zrozumieniu treści. Niestety różne społeczności mają różne konwencje zapisu w odniesieniu do formułowania modelu i problemu optymalizacji. Czy ktoś mógłby tutaj streścić niektóre zapisy formuł i podać możliwe powody?

Podam tutaj przykład: w literaturze algebry liniowej klasyczna książka jest wstępem Strang'a do algebry liniowej . Najczęściej używanym zapisem w książce jest

Ax=b

Gdzie A jest macierzą współczynników , to zmienne do rozwiązania, a to wektor po prawej stronie równania . Powodem książka wybrać ten zapis jest głównym celem algebry liniowej rozwiązuje system liniowy i dowiedzieć się, co to jest wektor . Biorąc pod uwagę takie sformułowanie, istnieje problem optymalizacji OLSxbx

minimizex  Axb2

W statystykach lub umiejętnościach uczenia maszynowego (z książki Elements of Statistics Learning ) ludzie używają różnych notacji, aby reprezentować to samo:

Xβ=y

Gdzie to matryca danych , to współczynniki lub wagi, których należy się nauczyć , to odpowiedź. The reason ludzie używają to dlatego, że ludzie w statystykach lub społeczności uczenia maszynowego jest dane napędzane , więc dane i odpowiedzi są najbardziej interesującą rzeczą dla nich, gdzie używają i reprezentują.XβyXy

Teraz możemy zobaczyć wszystkie możliwe zamieszanie: w pierwszym równaniu jest takie samo jak w drugim równaniu. I w drugim równaniu X nie jest czymś, co trzeba rozwiązać. Także dla terminów: A jest macierzą współczynników w algebrze liniowej, ale jest to dane w statystyce. β jest również nazywany „współczynnikami”.AXXAβ

Ponadto wspomniałem, że nie jest dokładnie tym, czego ludzie powszechnie używają w uczeniu maszynowym, ludzie używają wersji w połowie wektorowej, która podsumowuje wszystkie punkty danych. Jak na przykładXβ=y

miniL(yi,f(xi))

Myślę, że powodem tego jest to, że dobrze jest mówić o stochastycznym spadku gradientu i innych różnych funkcjach strat. Również zwięzła notacja macierzowa znika dla innych problemów niż regresja liniowa.

Notacja macierzowa dla regresji logistycznej

Czy ktoś mógłby podać więcej streszczeń zapisów w różnych literaturach? Mam nadzieję, że mądre odpowiedzi na to pytanie mogą być wykorzystane jako dobry punkt odniesienia dla osób czytających książki z różnych literatury.

proszę nie ograniczaj się do mojego przykładu oraz X β = y . Jest wiele innych. Jak na przykładAx=bXβ=y

Dlaczego istnieją dwa różne formuły / notacje dotyczące utraty logistyki?

hxd1011
źródło
5
Notacja tak naprawdę nie istnieje jako jakaś zewnętrzna weryfikowalna prawda. Jest to język, więc z natury kontekstowy i gotowy do redefinicji. Jeśli piszę x * b i mówię, że to oznacza wektor iloczynu macierz x kropka b, to jest po prostu pogrubiony lub nie.
Sycorax mówi Przywróć Monikę
3
Powiedziałbym, że i X β = y mają równoważną notację. Zmieniły się tylko nazwy zmiennych. Ogólnie rzecz biorąc, nie znajdziesz spójnego nazewnictwa zmiennych z papieru na papier, nawet w obrębie pola. Ax=bXβ=y
user20160
6
Obecnie ma to 10 pozytywnych opinii, 150 wyświetleń; wydaje się być cennym i przydatnym wątkiem. Ponadto ma pozytywną odpowiedź; więc nie sądzę, że jest zbyt szeroki, aby można było na nie odpowiedzieć.
gung - Przywróć Monikę
3
Zgadzam się z @gung, społeczność wyraźnie interesuje się tym pytaniem. Nominowałem do ponownego otwarcia.
Matthew Drury,
1
Myślę, że jest zbyt szeroki dla zwykłego q. - ale ponieważ jest już CW i dość popularny, dodałem swój głos, aby ponownie otworzyć się na czterech, którzy tam byli.
Scortchi - Przywróć Monikę

Odpowiedzi:

18

Być może powiązane pytanie brzmi: „Jakie są słowa używane w różnych językach i jakie są powiązania między tymi słowami?”

Notacja jest w pewnym sensie jak język:

  • Niektóre słowa mają znaczenie specyficzne dla regionu; niektóre słowa są szeroko rozumiane.
  • Podobnie jak potężne narody rozpowszechniają swój język, sukcesy i wpływowi badacze rozpowszechniają swoją notację.
  • Język ewoluuje w czasie: język ma mieszankę historycznego pochodzenia i współczesnych wpływów.

Twoje konkretne pytanie ...

  • Nie zgodziłbym się z twoją tezą, że oboje postępują według „zupełnie innej notacji”. Zarówno i A x = b używają wielkich liter do oznaczenia macierzy. Nie są one , żeXβ=yZAx=b różne.
  • Uczenie maszynowe jest ściśle związane ze statystyką, dużą i dojrzałą dziedziną. Użycie do przedstawienia macierzy danych jest prawie na pewno najbardziej czytelną, najbardziej standardową konwencją, której należy przestrzegać. Chociaż A x = b jest standardem w rozwiązywaniu układów liniowych, tak nie jestXZAx=b sposób ludzie wykonujący statystyki zapisują równania normalne. Jeśli spróbujesz to zrobić, zauważysz, że Twoi odbiorcy są bardziej zdezorientowani. Kiedy w Rzymie...
  • W pewnym sensie sedno skorygowanego pytania brzmi: „Jakie są historyczne źródła statystyki za pomocą litery do reprezentowania danych i litery βxβ do reprezentowania nieznanej zmiennej, dla której należy rozwiązać?”
    • To pytanie do historyków statystyki! Krótko szukając, widzę, że wpływowy brytyjski statystyk i naukowiec z Cambridge Udny Yule użyli do przedstawienia danych w swoim Wstępie do teorii statystyki (1911). Napisał równanie regresji jako x 1 = a + b x 2 , z celem najmniejszych kwadratów jako minimalizacją ( x 1 - a - b x 2 ) 2 , a dla rozwiązania b 12 = x 1 x 2xx1=za+bx2)(x1-za-bx2))2)b12=x1x2)x2)2) . Przynajmniej wraca do tego czasu ...
    • Jeszcze bardziej wpływowy RA Fisher zastosował dla zmiennej zależnej i x dla zmiennej niezależnej w swojej książce z 1925 r. Metody statystyczne dla pracowników badawczych . (Hat tip do @Nick Cox za udostępnienie linku z informacjami.)yx

Dobra notacja jest jak dobry język. W miarę możliwości unikaj żargonu specyficznego dla danego pola. Pisz w matematycznym odpowiedniku wysokiego BBC English, języka zrozumiałego dla większości osób mówiących po angielsku. Tam, gdzie to możliwe, należy pisać, używając jasnej i szeroko rozumianej notacji.

Matthew Gunn
źródło
1
Ten amatorski historyk statystyki może dostarczyć pedantyczną korektę, że Yule nigdy nie był profesorem ... Co ciekawe, na stronie jeff560.tripod.com/stat.html znajduje się odpowiednia strona internetowa, z tą różnicą, że wydaje się, że jest obecnie w dół.
Nick Cox
2
χ2
@NickCox Fantastyczny link jeff560.tripod.com/stat.html (dla mnie ...), który odwołuje się do Yule i RA Fishera! Początki regresji matematycznej najwcześniej oczywiście sięgają wcześniej Gaussa i Laplace'a, ale podczas moich pełnych poszukiwań amatorskich wydawało się, że używają innej notacji.
Matthew Gunn
jeff560.tripod.com/stat.html jak piszę to aktualizacja 2014; www.math.hawaii.edu/~tom/history/stat.html to kopia wersji z 2007 roku.
Nick Cox,