Ostatnio pracowałem nad problemem, aby przeprowadzić analizę kosztów moich wydatków na określone zasoby. Zwykle podejmuję ręczne decyzje na podstawie analizy i odpowiednio planuję.
Mam duży zestaw danych w formacie Excela z setkami kolumn, które definiują użycie zasobu w różnych ramach czasowych i typach (inne różne szczegółowe wykorzystanie). Mam również informacje na temat moich poprzednich 4 lat danych oraz faktycznego zużycia zasobów i odpowiednio poniesionych kosztów.
Miałem nadzieję wyszkolić NN, aby przewidzieć mój koszt z wyprzedzeniem i zaplanować jeszcze zanim będę mógł ręcznie przeprowadzić analizę kosztów.
Ale największym problemem, przed którym stoję, jest potrzeba zidentyfikowania funkcji do takiej analizy. Miałem nadzieję, że istnieje jakiś sposób na identyfikację funkcji ze zbioru danych.
PS - Mam pojęcie o PCA i kilku innych technikach redukcji zestawu funkcji, to, na co patrzę, to sposób na ich identyfikację.
źródło
To świetne pytanie i prawdopodobnie jedno z najtrudniejszych zadań na ML.
Masz kilka opcji:
Mam nadzieję, że to pomaga
źródło
Rozsądnie jest wziąć pod uwagę nie tylko korelację zaangażowania zasobów z kosztami, ale także zwrot z kosztu zaangażowania zasobów. Typowym wyzwaniem jest to, że zwroty te prawie zawsze kumulują się lub są opóźnione. Przypadkiem kumulacji jest sytuacja, gdy zasobem jest ciągłe dostrajanie lub doskonalenie procesu, którego brak spowalnia generowanie przychodów. Przypadek opóźnienia występuje wtedy, gdy zasoby badawcze ponoszą koszty przez pewien czas bez wpływu na przychody, ale generowanie przychodów, które rozpoczyna się, gdy badania przynoszą produktywne wyniki, może być istotnym czynnikiem przekraczającym całkowity koszt dostarczonych wyników.
Powodem, dla którego dane o kosztach same w sobie mogą prowadzić do nieprzystosowującego uczenia się sieci, jest to, że sieć, która jest przeszkolona, na przykład, do ograniczenia wydatków marketingowych, wyzeruje je. Zwykle powodowałoby to tendencję spadkową sprzedaży, dopóki firma się nie załamie. Bez uwzględnienia zwrotów w informacjach o szkoleniu nie może nastąpić użyteczne uczenie się.
Podstawowy MLP (perceptron wielowarstwowy) nie nauczy się charakterystyki czasowej danych, aspektów akumulacji i opóźnień. Potrzebujesz sieci stanowej. Najbardziej konsekwentnym typem sieci dla tego rodzaju uczenia się od tego pisania jest typ sieci LSTM (pamięć krótkotrwała) lub jeden z jego wariantów pochodnych. Dane o przychodach i saldzie muszą być wykorzystywane w połączeniu z danymi o kosztach do szkolenia sieci w zakresie przewidywania wyników biznesowych dla dowolnej sekwencji proponowanych zleceń dotyczących zasobów (w pełni szczegółowy plan budżetowy).
Funkcja strat musi odpowiednio równoważyć sortowane terminy z średnio- i długoterminowymi celami finansowymi. Ujemne dostępne środki pieniężne powinny spowodować wyraźny wzrost funkcji straty, aby nauczyć się takiego unikania podstawowych zagrożeń dla reputacji i kosztów kredytu.
Które kolumny w Twoich danych mają silną korelację z zwrotem z inwestycji, trudno jest z góry ustalić. Możesz natychmiast wykluczyć kolumny spełniające jedno z poniższych kryteriów.
Dane można zmniejszyć na inne sposoby
KMS (ograniczone maszyny Boltzmanna) mogą wyodrębniać funkcje z danych, a PCA mogą oświetlać kolumny o niskiej zawartości informacji, ale znaczenie kolumn pod względem ich korelacji z przychodami nie zostanie zidentyfikowane przy użyciu tych urządzeń w ich podstawowej formie.
źródło