Jeśli możesz nadal dodawać nowe dane (w oparciu o główną koncepcję, taką jak obszar, tj. Kod pocztowy), a wydajność twojego modelu poprawia się, wtedy jest to oczywiście dozwolone ... zakładając, że zależy ci tylko na ostatecznym wyniku.
Istnieją wskaźniki, które będą próbowały cię z tym poprowadzić, takie jak Akaike Information Criterion (AIC) lub porównywalne Bayesian Information Criterion (BIC). Pomagają one zasadniczo wybrać model na podstawie jego wydajności, ponosząc karę za wszystkie dodatkowe parametry, które są wprowadzane i które należy oszacować. AIC wygląda następująco:
A I C = 2 k - 2 ln( L^)
gdzie to liczba parametrów do oszacowania, tj. liczba zastosowanych cech, ponieważ każdy z nich będzie miał jeden współczynnik w regresji logistycznej. to maksymalna wartość Maksymalnego prawdopodobieństwa (równoważna optymalnemu wynikowi). BIC po prostu używa nieco inaczej do karania modeli.L kkL.^k
Kryteria te mogą pomóc ci powiedzieć, kiedy przestać, ponieważ możesz wypróbować modele o coraz większej liczbie parametrów i po prostu wziąć model o najlepszej wartości AIC lub BIC.
Jeśli nadal masz w modelu inne funkcje, które nie są związane z ZIP, mogą zostać potencjalnie przytłoczone - zależy to od używanego modelu. Mogą jednak również wyjaśniać pewne rzeczy dotyczące zestawu danych, których po prostu nie można zawrzeć w danych ZIP, takie jak powierzchnia podłogi domu (zakładając, że jest to względnie niezależne od kodu pocztowego).
W takim przypadku możesz porównać je do czegoś takiego jak Analiza głównych składników, gdzie zbiór funkcji wyjaśnia jeden wymiar wariancji w zbiorze danych, podczas gdy inne funkcje wyjaśniają inny wymiar. Bez względu na to, ile masz funkcji związanych z ZIP, nigdy nie możesz wyjaśnić znaczenia powierzchni podłogi.
Zwykle im bogatsze funkcje, tym lepiej.
Należy jednak pamiętać o jednej rzeczy: regresje zasadniczo nie działają dobrze z danymi, które są wysoce skorelowane (wielokoliniowość). Gdy rozszerzysz swoje funkcje w ten sposób, warto o tym pamiętać.
Istnieje wiele informacji na ten temat (i potencjalne sposoby złagodzenia), po prostu regresja Google i wielokoliniowość.
W skrócie,
źródło
Funkcje to informacje o Twoim modelu. Im więcej informacji, tym lepiej będzie w stanie wykonać i przewidzieć. Im mniej, tym trudniej przewidzieć wartości. Tak więc krótki naser jest tak. Zawsze warto mieć jak najwięcej funkcji. Jest to jednak zawsze granica, ponieważ przeciążenie informacji może również spowodować spalenie procesora, dlatego należy uważać na liczbę opracowywanych funkcji. Ponadto niepotrzebne funkcje tylko zwiększają wypalenie, więc zawsze dobrą praktyką jest czyszczenie niektórych funkcji. Chodzi o całą fazę wstępnego przetwarzania danych.
Pierwsza odpowiedź zawiera kilka dobrych szczegółów na ten temat. Jeśli chodzi o zatrzymanie cyklu, dobrze jest kilka miar i czynników, o których należy pamiętać, aby sprawdzić, gdzie twój model przestał działać lepiej, a są to miary takie jak RMSE. Prostym przykładem będzie
xgboost
regresja danych i określenie liczby cykli. Uruchom model, a otrzymasz RMSE dla każdego cyklu. Zmniejszy się do limitu, po którym będziesz mógł wywnioskować, że model osiągnął plateau po pewnym cyklu. Tak działa tuning i optymalizacja modelu.źródło