„Głębokie twierdzenie Noether”: budowanie w ograniczeniach symetrii

Z powyższego komentarza Emre, sekcja 4.4 grupowych metod teoretycznych w uczeniu maszynowym autorstwa Risi Kondor zawiera szczegółowe informacje i dowody na temat tworzenia metod jądra, które z natury mają symetrię. Podsumuję to w miejmy nadzieję intuicyjny sposób (jestem fizykiem, a nie matematykiem!).

Większość algorytmów ML ma mnożenie macierzy, takie jak,

\begin{aligned} s_{i} & = \sum_{j} W_{i j} x_{j} \\ = \sum_{j} W_{i j} ({\vec{e}}_{j} \cdot \vec{x}) \end{aligned}

$\begin{align} s_i &= \sum_j W_{ij}~x_j \\ &= \sum_j W_{ij}~(\vec{e}_j \cdot \vec{x}) \end{align}$ z

\vec{x}

$\vec{x}$ będąc wkładem i

W_{i j}

$W_{ij}$ jako ciężary, które chcemy trenować.

Metoda jądra

Wejdź do dziedziny metod jądra i pozwól algorytmowi przetwarzać dane wejściowe za pośrednictwem,

\begin{aligned} s_{i} & = \sum_{j} W_{i j} k (e_{j}, x) \end{aligned}

$\begin{align} s_i &= \sum_j W_{ij}~k(e_j,~x) \end{align}$ gdzie teraz uogólniamy

x, e_{j} \in X

$x, e_j \in \mathcal{X}$ .

Rozważ grupę $G$ to działa na $\mathcal{X}$ przez $x \rightarrow T_g(x)$ dla $g \in G$ . Prostym sposobem na uczynienie naszego algorytmu niezmiennym w tej grupie jest utworzenie jądra,

\begin{aligned} k^{G} (x, y) & = \frac{1}{| G |} \sum_{g \in G} k (x, T_{g} (y)) \end{aligned}

$\begin{align} k^G(x, y) &= \frac{1}{|G|} \sum_{g \in G} k(x, T_g(y)) \end{align}$ z

k (x, y) = k (T_{g} (x), T_{g} (y))

$k(x, y) = k(T_g(x), T_g(y))$ .

Więc,

\begin{aligned} k^{G} (x, T_{h} (y)) & = \frac{1}{| G |} \sum_{g \in G} k (x, T_{g h} (y)) \\ = \frac{1}{| G |} \sum_{g \in G} k (x, T_{g} (y)) \\ = \frac{1}{| G |} \sum_{g \in G} k (T_{g} (x), y) \end{aligned}

$\begin{align} k^G(x, T_h(y)) &= \frac{1}{|G|} \sum_{g \in G} k(x, T_{gh}(y)) \\ &= \frac{1}{|G|} \sum_{g \in G} k(x, T_{g}(y)) \\ &= \frac{1}{|G|} \sum_{g \in G} k(T_{g}(x), y) \end{align}$

Dla $k(x, y) = x \cdot y$ który działa dla wszystkich reprezentacji jednolitych,

\begin{aligned} k^{G} (x, T_{h} (y)) & = [\frac{1}{| G |} \sum_{g \in G} T_{g} (x)] \cdot y \end{aligned}

$\begin{align} k^G(x, T_h(y)) &= \left[ \frac{1}{|G|} \sum_{g \in G} T_{g}(x) \right] \cdot y \end{align}$

Który oferuje macierz transformacji, która może symetrycznie wprowadzać dane do algorytmu.

SO (2) Przykład

Właściwie tylko grupa, na którą mapuje się $\frac{\pi}{2}$ rotacje dla uproszczenia.

Uruchommy regresję liniową danych $(\vec{x}_i, y_i) \in \mathbb{R}^2 \times \mathbb{R}$ gdzie oczekujemy symetrii obrotowej.

Nasz problem optymalizacji staje się

\begin{aligned} min_{W_{j}} & \sum_{i} \frac{1}{2} (y_{i} - {\tilde{y}}_{i})^{2} \\ {\tilde{y}}_{i} & = \sum_{j} W_{j} k_{G} (e_{j}, x_{i}) + b_{i} \end{aligned}

$\begin{align} \min_{W_{j}} &\sum_i \frac{1}{2} (y_i - \tilde{y}_i)^2 \\ \tilde{y}_i &= \sum_j W_{j} k_G(e_j, x_i) + b_i \end{align}$

Jądro spełnia . Możesz także użyć i różnych jąder. $k(x, y) = \| x - y \|^2$ $k(x, y) = k(T_g(x), T_g(y))$ $k(x, y) = x \cdot y$

Tak więc

\begin{aligned} k_{G} (e_{j}, x_{i}) & = \frac{1}{4} \sum_{n = 1}^{4} ‖ R (n π / 2) {\vec{e}}_{j} - {\vec{x}}_{i} ‖^{2} \\ = \frac{1}{4} \sum_{n = 1}^{4} (\cos (n π / 2) - {\vec{x}}_{i 1})^{2} + (\sin (n π / 2) - {\vec{x}}_{i 2})^{2} \\ = \frac{1}{4} [2 {\vec{x}}_{i 1}^{2} + 2 {\vec{x}}_{i 2}^{2} + (1 - {\vec{x}}_{i 1})^{2} + (1 - {\vec{x}}_{i 2})^{2} + (1 + {\vec{x}}_{i 1})^{2} + (1 + {\vec{x}}_{i 2})^{2}] \\ = {\vec{x}}_{i 1}^{2} + {\vec{x}}_{i 2}^{2} + 1 \end{aligned}

$\begin{align} k_G(e_j, x_i) &= \frac{1}{4} \sum_{n=1}^4 \| R(n\pi/2)~\vec{e}_j - \vec{x}_i \|^2 \\ &= \frac{1}{4} \sum_{n=1}^4 ( \cos(n\pi/2) - \vec{x}_{i1} )^2 + ( \sin(n\pi/2) - \vec{x}_{i2} )^2 \\ &= \frac{1}{4} \left[ 2 \vec{x}_{i1}^2 + 2 \vec{x}_{i2}^2 + (1 - \vec{x}_{i1} )^2 + (1 - \vec{x}_{i2} )^2 + (1 + \vec{x}_{i1} )^2 + (1 + \vec{x}_{i2} )^2 \right] \\ &= \vec{x}_{i1}^2 + \vec{x}_{i2}^2 + 1 \end{align}$

Zauważ, że nie musimy sumować przez ponieważ jest to to samo dla obu. Tak więc naszym problemem staje się: $j$

\begin{aligned} min_{W} & \sum_{i} \frac{1}{2} (y_{i} - {\tilde{y}}_{i})^{2} \\ {\tilde{y}}_{i} & = W [{\vec{x}}_{i 1}^{2} + {\vec{x}}_{i 2}^{2} + 1] + b_{i} \end{aligned}

$\begin{align} \min_{W} &\sum_i \frac{1}{2} (y_i - \tilde{y}_i)^2 \\ \tilde{y}_i &= W \left[ \vec{x}_{i1}^2 + \vec{x}_{i2}^2 + 1 \right] + b_i \end{align}$

Co daje oczekiwaną sferyczną symetrię!

Kółko i krzyżyk

Przykładowy kod można zobaczyć tutaj . Pokazuje, jak możemy stworzyć macierz, która koduje symetrię i z niej korzystać. Zauważ, że to naprawdę źle, kiedy faktycznie go uruchamiam! Praca z innymi jądrami w tej chwili.

aidan.plenert.macdonald
źródło

Dobra robota, Aidan! Jeśli masz czas, możesz napisać bardziej szczegółowy post na blogu. Społeczność będzie najbardziej zainteresowana.

Emre,

Nie jestem pewien, do jakiej społeczności się odnosisz, ale zacząłem pisać więcej. Chciałem znaleźć sposób na oszacowanie optymalnego jądra, biorąc pod uwagę zestaw danych. Zoptymalizowałem więc entropię w przestrzeni jądra, aby intuicyjnie uzyskać nowy zestaw funkcji, które są symetrycznie ograniczone, a także maksymalnie entropiczne (tj. Informacyjne). Teraz, czy to właściwe podejście. Nie mogę powiedzieć Tylko ostrzeżenie, matematyka jest teraz trochę hackingiem i trochę przypomina mecha statystyki. overleaf.com/read/kdfzdbyhpbbq

aidan.plenert.macdonald

Czy istnieje jakieś sensowne podejście, gdy grupa symetrii nie jest znana?

leitasat

@leitasat Skąd wiesz, że jest symetryczny, jeśli nie znasz grupy?