Sortuj za pomocą sieci neuronowej

Poprzednie wyzwania gry w golfa w sieci neuronowej ( to i tamto ) zainspirowały mnie do postawienia nowego wyzwania:

Wyzwanie

Znajdź najmniejszą sieć neuronową ze sprzężeniem zwrotnym, taką, że biorąc pod uwagę dowolny 4-wymiarowy wektor wejściowy $(a,b,c,d)$ z wpisami liczb całkowitych w $[-10,10]$ , wyjścia sieciowe $\textrm{sort}(a,b,c,d)$ pomocą błąd współrzędnych ściśle mniejszy niż $0.5$ .

Dopuszczalność

W przypadku tego wyzwania sieć neuronowa typu feed-forward jest definiowana jako kompozycja warstw . Warstwa jest funkcją $L\colon\mathbf{R}^n\to\mathbf{R}^m$ , która jest określona przez matrycę z ciężarkami , wektor z odchyleń , i aktywacja funkcji , który jest stosowany coordinate- mądry: $A\in\mathbf{R}^{m\times n}$ $b\in\mathbf{R}^m$ $f\colon\mathbf{R}\to\mathbf{R}$

L. (x) : = fa (ZA x + b), x \in R^{n} .

$L(x) := f(Ax+b), \qquad x\in\mathbf{R}^n.$

Ponieważ funkcje aktywacyjne można dostosować do dowolnego zadania, musimy ograniczyć klasę funkcji aktywacyjnych, aby wyzwanie było interesujące. Dozwolone są następujące funkcje aktywacji:

Tożsamość. $f(t)=t$
ReLU. $f(t)=\operatorname{max}(t,0)$
Softplus. $f(t)=\ln(e^t+1)$
Styczna hiperboliczna. $f(t)=\tanh(t)$
Sigmoid. $f(t)=\frac{e^t}{e^t+1}$

Ogólnie rzecz biorąc, dopuszczalne sieć neuronowa ma postać $L_k\circ L_{k-1}\circ\cdots \circ L_2\circ L_1$ z jakiegoś $k$ , gdzie każda warstwa $L_i$ jest określony przez wag $A_i$ , odchyleń $b_i$ i funkcji aktywacji $f_i$ z powyższej listy. Na przykład dopuszczalna jest następująca sieć neuronowa (chociaż nie spełnia celu wydajności tego wyzwania, może być przydatnym gadżetem):

[\begin{matrix} min (za, b) \\ max (za, b) \end{matrix}] = [\begin{array}{rrrr} 1 & - 1 & - \frac{1}{2)} & - \frac{1}{2)} \\ 1 & - 1 & \frac{1}{2)} & \frac{1}{2)} \end{array}] R mi L. U [\begin{array}{rr} \frac{1}{2)} & \frac{1}{2)} \\ - \frac{1}{2)} & - \frac{1}{2)} \\ 1 & - 1 \\ - 1 & 1 \end{array}] [\begin{matrix} za \\ b \end{matrix}]

$\left[\begin{array}{c}\min(a,b)\\\max(a,b)\end{array}\right]=\left[\begin{array}{rrrr}1&-1&-\frac{1}{2}&-\frac{1}{2}\\1&-1&\frac{1}{2}&\frac{1}{2}\end{array}\right]\mathrm{ReLU}\left[\begin{array}{rr}\frac{1}{2}&\frac{1}{2}\\-\frac{1}{2}&-\frac{1}{2}\\1&-1\\-1&1\end{array}\right]\left[\begin{array}{c}a\\b\end{array}\right]$

Ten przykład pokazuje dwie warstwy. Obie warstwy mają zerowe obciążenie. Pierwsza warstwa wykorzystuje aktywację ReLU, a druga aktywację tożsamości.

Punktacja

Twój wynik to łączna liczba niezerowych wag i odchyleń.

(Np. Powyższy przykład ma wynik 16, ponieważ wektory odchylenia są równe zero.)

code-challenge optimization neural-networks Dustin G. Mixon
źródło

@ Zamknięty głosujący: Co dokładnie jest niejasne? Nie sądzę, żeby którekolwiek z poprzednich wyzwań NN było tak dobrze określone.

flawr

Nie - pomiń połączenia są niedozwolone.

Dustin G. Mixon

@ DustinG.Mixon Właściwie właśnie znalazłem podejście dla maks / min, które wykorzystuje tylko 15 obciążników zamiast 16, ale jest znacznie mniej eleganckie :)

flawr

Jest to dobrze określone wyzwanie, które moim zdaniem może służyć jako model dla przyszłych wyzwań związanych z siecią neuronową.

xnor

e^{t}

$e^t$

Odpowiedzi:

Oktawy , 96 88 87 84 76 54 50 obciążników i odchyleń

Ta 6-warstwowa sieć neuronowa jest w zasadzie 3, etap sortowania sieci zbudowana z bardzo prosty min/ max sieci jako składnika. Jest to w zasadzie przykładowa sieć z wikipedii, jak pokazano poniżej, z niewielką modyfikacją: Pierwsze dwa porównania są wykonywane równolegle. Aby ominąć liczby ujemne przez ReLU, najpierw dodajemy 100, a następnie odejmujemy 100 na końcu.

Dlatego należy to uznać za punkt odniesienia, ponieważ jest to naiwne wdrożenie. Jednak idealnie sortuje wszystkie możliwe liczby, które nie mają zbyt dużej wielkości. (Możemy dostosować zakres, zastępując 100 innym numerem).

Wypróbuj online!

składnik maks./min

Istnieje ( ~~znacznie mniej elegancki,~~ teraz bardziej elegancki, dzięki @xnor!) Sposób na znalezienie minimum i maksimum dwóch liczb przy użyciu mniejszej liczby parametrów:

\begin{aligned} min & = za - R mi L. U (za - b) \\ max & = b + R mi L. U (za - b) \end{aligned}

$\begin{align} \min &= a - ReLU(a-b) \\ \max &= b + ReLU(a-b) \end{align}$

Oznacza to, że musimy używać znacznie mniej obciążeń i stronniczości.

Dzięki @Joel za wskazanie, że wystarczy, aby wszystkie liczby były dodatnie w pierwszym kroku, i odwrócenie go w ostatnim, co daje -8 wag. Dzięki @xnor za wskazanie jeszcze krótszej metody max / min, która daje -22 wagi! Dzięki @ DustinG.Mixon za końcówkę łączenia niektórych matryc, które dają kolejne -4 wagi!

function z = net(u)
a1 = [100;100;0;100;100;0];
A1 = [1 0 0 0;0 0 1 0;1 0 -1 0;0 1 0 0;0 0 0 1;0 1 0 -1];
B1 = [1 0 -1 0 0 0;0 0 0 1 0 -1;0 1 1 0 0 0;0 0 0 0 1 1];
A2 = [1 0 0 0;0 1 0 0;1 -1 0 0;0 0 1 0;0 0 0 1;0 0 1 -1];
A3 = [1 0 -1 0 0 0;0 1 1 0 0 0;0 0 0 1 0 -1;0 1 1 -1 0 1;0 0 0 0 1 1];
B3 = [1 0 0 0 0;0 1 0 -1 0;0 0 1 1 0;0 0 0 0 1];
b3 = -[100;100;100;100];
relu = @(x)x .* (x>0);
id = @(x)x;
v = relu(A1 * u + a1);
w = id(B1 * v) ;
x = relu(A2 * w);
y = relu(A3 * x);
z = id(B3 * y + b3);
% disp(nnz(a1)+nnz(A1)+nnz(B1)+nnz(A2)+nnz(A3)+nnz(B3)+nnz(b3)); %uncomment to count the total number of weights
end

Wypróbuj online!

wada
źródło

Stałe przesunięcia są zasadniczo stosowane do tego, aby dane wejściowe były nieujemne. Po wykonaniu w pierwszej warstwie wszystkie wyniki pośrednie bloków porównania są nieujemne i wystarczy zmienić to tylko w ostatniej warstwie.

Joel

Czy możesz otrzymać krótszy gadżet min-max (a - relu(a-b), b + relu(a-b))?

xnor

@joel Oh teraz widzę, że to ma sens :)

flawr

@xnor Dziękuję bardzo, co robi ogromną różnicę !!!!

flawr

Nieistotny nitpick: Wynik pierwszego błędu jest nnz (A1 * a0), a nie nnz (a0). (W przeciwnym razie musimy zapłacić cenę matrycy tożsamości). Liczby te są w tym przypadku takie same.

Dustin G. Mixon,