Korzystanie z modelu regresji do przewidywania: kiedy przestać?

9

Z moich miar eksperymentu obliczyłem prosty model regresji liniowej w celu wykonania prognoz. Przeczytałem, że nie należy obliczać prognoz dla punktów, które odbiegają zbyt daleko od dostępnych danych. Nie znalazłem jednak żadnych wskazówek, które pomogłyby mi dowiedzieć się, jak daleko mogę ekstrapolować. Na przykład, jeśli obliczę prędkość odczytu dla dysku o wielkości 50 GB, myślę, że wynik będzie zbliżony do rzeczywistości. Co powiesz na rozmiar dysku 100 GB, 500 GB? Skąd mam wiedzieć, czy moje prognozy są zbliżone do rzeczywistości?

Szczegóły mojego eksperymentu to:

Mierzę prędkość odczytu oprogramowania, używając innego rozmiaru dysku. Do tej pory mierzyłem go z 5 GB do 30 GB, zwiększając rozmiar dysku 5 GB między eksperymentami (łącznie 6 taktów).

Moje wyniki są liniowe, a standardowe błędy są, moim zdaniem, niewielkie.

Flanfl
źródło
2
Myślę, że aby uzyskać przydatne odpowiedzi, musisz znacznie rozwinąć i wyjaśnić swoje drugie zdanie.
rolando2
rolando2 ma rację. Co masz na myśli mówiąc „zbyt wiele prognoz”?
David Robinson
Nie mogę znaleźć dokładnych terminów, które zostały użyte w dokumencie, który przeczytałem. Pomysł jest „zbyt daleki od moich pierwotnych miar”. Więc zmierzyłem prędkość odczytu za pomocą dysku 30 GB. Jeśli przewiduję prędkość odczytu dla dysku 100 GB, czy to „za daleko”?
Flanfl
Odpowiedź Gunga jest wystarczająca do nakreślenia związanych z tym problemów. jedną dodatkową rzecz, która może pomóc w konkretnym przypadku, jest rozważenie fizycznego procesu związanego z czytaniem oprogramowania. Jakie operacje należy przeprowadzić? czy oprogramowanie musi organizować lub sortować dysk w ramach procesu odczytu? pytania te pomogą stworzyć podstawy do założenia liniowości
prawdopodobieństwo jest

Odpowiedzi:

19

Szukany termin to „ekstrapolacja”. Problem polega na tym, że bez względu na to, ile masz danych i ile masz poziomów pośrednich między punktami końcowymi na wielkości dysku (tj. Między 5 a 30), zawsze istnieje możliwość pewnego stopnia krzywizny w prawdziwej funkcji bazowej , że po prostu nie masz siły wykryć. W rezultacie, gdy ekstrapolujesz daleko od punktu końcowego, niewielki stopień krzywizny zostaje powiększony, ponieważ prawdziwa funkcja przesuwa się coraz dalej od linii dopasowania. Inną możliwością jest to, że prawdziwa funkcja naprawdę jest idealnie prosta w badanym zakresie, ale może istnieje punkt zmiany w pewnej odległości od punktu końcowego w badaniu. Tego rodzaju rzeczy nie można wykluczyć; pytanie brzmi, jak prawdopodobne są one i jak nieprecyzyjne byłyby twoje przewidywania, gdyby okazały się prawdziwe? Nie wiem, jak udzielić analitycznej odpowiedzi na te pytania. Mam przeczucie, że 500 jest bardzo daleko, kiedy badany zasięg wynosił [5, 30], ale nie ma żadnego prawdziwego powodu, aby sądzić, że moje przeczucia są bardziej opłacalne niż twoje. Standardowe formuły do ​​obliczania przedziałów predykcji pokażą ci rosnący interwał w miarę oddalania sięx¯ , pomocne może być sprawdzenie, jak wygląda ten interwał. Niemniej jednak należy pamiętać, że przyjmujesz teoretyczne założenie, że linia jest naprawdę idealnie prosta i pozostaje taka aż do wartości której użyjesz do przewidywania. Prawomocność tej prognozy zależy zarówno od danych i dopasowania, jak i od tego założenia. x

gung - Przywróć Monikę
źródło
2
Całkowicie się zgadzam (+1). Odpowiedź na to pytanie nie może być ściśle statystyczna. Istotna byłaby tutaj rozmowa z inżynierem oprogramowania i informatykiem!
Dominic Comtois
Dzięki za odpowiedź, to jest naprawdę pomocne. Jestem samoukiem, więc brakuje mi dość podstawowej wiedzy (np. Znajomości słownictwa).
Flanfl
Czy odwrotność szerokości przedziału ufności nie może być uważana za pewnego rodzaju wskaźnik „siły” przewidywania? Oczywiście musiałbyś wybrać dowolne wartości, aby z nich skorzystać.
naught101,
2
@ naught101, jeśli chcesz założyć, że linia regresji jest idealnie prosta, wówczas szerokość przedziału prognozy można uznać za miarę siły prognozy (w / szersze przedziały wskazujące słabsze predykcje), ale nadal jest w zależności od tego założenia.
Gung - Przywróć Monikę
7

Pozwolę sobie dodać kilka punktów do doskonałej odpowiedzi @ gung:

  • W zależności od dziedziny mogą obowiązywać odpowiednie normy (jak w DIN / EN lub ISO). Prawdopodobnie nie jest to problem z przewidywaniem prędkości odczytu dysku twardego, ale np. W chemii analitycznej regułą nie jest ekstrapolacja . Kropka. Jeśli chcesz sięgnąć nawet 500 GB, to wykonaj pomiary do 500 GB.

  • Zwykły sposób konfigurowania modelu liniowego ma dwa ważne założenia

    • Oczywiście, że funkcja jest liniowa. W praktyce zwykle nie jest zbyt dobrym założeniem, że liniowość rozciąga się na nieskończoność. Np. Czy możesz oczekiwać, że nadal znajdziesz liniowość, jeśli czytasz większe ilości niż wolumin dysku twardego?

    • Zwykle zakłada się również homoskedastyczność. Oznacza to, że bezwzględna ilość błędów / szumów nie zależy od zmiennej zależnej ( ), tutaj: ilość danych do odczytu. Nie jestem pewien co do odczytów z dysku twardego, ale doświadczam (chemia / chemometria) zwykle czegoś pomiędzy stałym absolutnym i stałym względnym hałasem (lub bardziej skomplikowanym zachowaniem z powodu różnych źródeł hałasu). Wszelkie odchylenia od stałej bezwzględnej wielkości reżimu hałasu będą oznaczały, że przedziały prognoz dla ekstrapolacji są rażąco błędne - zwykle będą one o wiele za wąskie.x

  • Nawet jeśli te założenia zostaną spełnione, zastanów się, jak duży jest faktycznie interwał przewidywania dla tego rodzaju ekstrapolacji:

    zakres kalibracji lm ekstrapolacja lm

    (Wziąłem kilka rzeczywistych danych kalibracyjnych z bardzo dobrego pomiaru, który miałem i dostosowałem go do twojego problemu).
    Należy zauważyć, że przedział predykcji przy = 500 jest już dwa razy tak duży jak całkowitej różnicy swoimi rozpiętości danych kalibracji! Jeśli nie masz tak wyjątkowo ładnego zestawu danych liniowych, interwał przewidywania po prostu „eksploduje”.xt

cbeleites niezadowoleni z SX
źródło
1
+1, w szczególności założenie homoscedastyczności jest miłym dodatkiem do dyskusji tutaj. (Mała uwaga, przez „kropkę”, czy masz na myśli Period. Jako sposób na podkreślenie ostateczności reguły podanej w poprzednim zdaniu?)
gung - Przywróć Monikę
@gung: Jeśli kropka to słowo, to właśnie to mam na myśli :-) dzięki.
cbeleites niezadowoleni z SX
2
Nazywanie kropki „kropką” jest tak naprawdę używane tylko w terminologii komputerowej, a szczególnie w przypadku adresów URL (np. „Stat krop dot stackexchange krop com”). Jest to dość nowe użycie w języku angielskim, prawdopodobnie około 20 lat.
gung - Przywróć Monikę
1
Dzięki za dodatkowe punkty. Skończyłem pracę jakiś czas temu, ale mam nadzieję, że obie odpowiedzi na to pytanie pomogą innym studentom!
Flanfl