Jak przedstawić zużycie kWh na rok względem średniej temperatury?

Chciałbym zasugerować, że ważne jest opracowanie fizycznie realistycznego, praktycznie użytecznego modelu kosztu energii. Będzie to działało lepiej w wykrywaniu zmian kosztów niż jakakolwiek wizualizacja surowych danych może być osiągnięta. Porównując to z rozwiązaniem oferowanym w SO , mamy bardzo ładne studium przypadku różnicy między dopasowaniem krzywej do danych a przeprowadzeniem znaczącej analizy statystycznej.

(Ta sugestia opiera się na dopasowaniu takiego modelu do własnego użytku domowego dziesięć lat temu i zastosowaniu go do śledzenia zmian w tym okresie. Pamiętaj, że po dopasowaniu modelu można go łatwo obliczyć w arkuszu kalkulacyjnym w celu śledzenia zmiany, więc nie powinniśmy czuć się ograniczeni przez (nie) możliwości oprogramowania arkusza kalkulacyjnego.)

W przypadku tych danych taki fizycznie wiarygodny model generuje zasadniczo inny obraz kosztów energii i wzorców zużycia niż prosty model alternatywny (kwadratowe dopasowanie codziennego użytkowania z najmniejszymi kwadratami do średniej miesięcznej temperatury). W związku z tym prostszego modelu nie można uznać za niezawodne narzędzie do rozumienia, przewidywania lub porównywania wzorców zużycia energii.

Analiza

Prawo chłodzenia Newtona mówi, że w dobrym przybliżeniu koszt ogrzewania (w jednostce czasu) powinien być wprost proporcjonalny do różnicy między temperaturą zewnętrzną a temperaturą wewnętrzną . Niech ta stała proporcjonalności będzie równa . Koszt chłodzenia powinien być również proporcjonalny do tej różnicy temperatur, z podobną - choć niekoniecznie identyczną - stałą proporcjonalności . (Każdy z nich zależy od właściwości izolacyjnych domu, a także od wydajności systemów ogrzewania i chłodzenia.) $t$ $t_0$ $-\alpha$ $\beta$

Oszacowanie i (które wyrażone są w kilowatach (lub dolarach) na stopień na jednostkę czasu) są jednymi z najważniejszych rzeczy, które można osiągnąć, $\alpha$ $\beta$ ponieważ pozwalają nam przewidzieć przyszłe koszty, a także zmierzyć wydajność dom i jego systemy energetyczne.

Ponieważ dane te dotyczą całkowitego zużycia energii elektrycznej, obejmują koszty niezwiązane z ogrzewaniem, takie jak oświetlenie, gotowanie, przetwarzanie i rozrywka. Interesujące jest również oszacowanie tego średniego podstawowego zużycia energii (na jednostkę czasu), które nazwiemy : zapewnia ono dolną granicę ilości energii, jaką można zaoszczędzić, i umożliwia przewidywanie przyszłych kosztów, gdy zostaną wprowadzone ulepszenia wydajności o znanej wielkości . (Na przykład po czterech latach wymieniłem piec na jeden, który twierdził, że jest o 30% bardziej wydajny - i rzeczywiście tak było). $\gamma$

Wreszcie, w przybliżeniu (brutto) założę, że dom jest utrzymywany w prawie stałej temperaturze przez cały rok. (W moim modelu osobistym zakładam dwie temperatury, , odpowiednio dla zimy i lata - ale w tym przykładzie nie ma jeszcze wystarczających danych, aby wiarygodnie oszacować obie z nich, a i tak byłyby całkiem blisko.) wartość pomaga ocenić konsekwencje utrzymania domu w nieco innej temperaturze, co jest jedną z ważnych opcji oszczędzania energii. $t_0$ $t_0 \le t_1$

Dane stanowią szczególnie ważną i interesującą komplikację : odzwierciedlają całkowite koszty w okresach wahań temperatur zewnętrznych - i zmieniają się znacznie, zwykle około jednej czwartej rocznego zakresu każdego miesiąca. Jak zobaczymy, tworzy to zasadniczą różnicę między opisanym właśnie prawidłowym modelem chwilowym a wartościami sum miesięcznych. Efekt jest szczególnie wyraźny w miesiącach pośrednich, w których ma miejsce (lub żadne) ogrzewanie i chłodzenie. Każdy model, który nie uwzględnia tej zmiany, błędnie „pomyślałby”, że koszty energii powinny być na poziomie stawki podstawowej w dowolnym miesiącu ze średnią temperaturą , ale rzeczywistość jest zupełnie inna. $\gamma$ $t_0$

Nie mamy (łatwo) szczegółowych informacji o miesięcznych wahaniach temperatury poza ich zakresami. Proponuję potraktować to z praktycznym podejściem, ale trochę niespójnym. Z wyjątkiem ekstremalnych temperatur, każdego miesiąca zwykle następuje stopniowy wzrost lub spadek temperatury. Oznacza to, że możemy przyjąć, że rozkład będzie w przybliżeniu jednolity. Gdy zakres zmiennej jednolitej ma długość , zmienna ta ma odchylenie standardowe . Korzystam z tej zależności, aby przekonwertować zakresy (z na ) na odchylenia standardowe. Ale w zasadzie, aby uzyskać ładnie zachowany model, obniżę wariancję na końcach tych zakresów, używając opcji Normalny $L$ $s = L/\sqrt{6}$ Avg. LowAvg. Highrozkłady (z tymi szacowanymi SD i średnimi podanymi przez Avg. Temp).

Wreszcie musimy ustandaryzować dane do wspólnego czasu jednostkowego. Chociaż jest to już obecne w Daily kWh Avg.zmiennej, brakuje jej precyzji, więc podzielmy sumę przez liczbę dni, aby odzyskać utraconą precyzję.

W ten sposób, model jednostkowej czas chłodzenia koszty przy temperaturze zewnętrznej jest $Y$ $t$

y (t) = γ + α (t - t_{0}) I (t < t_{0}) + β (t - t_{0}) I (t > t_{0}) + ε (t)

$y(t) = \gamma + \alpha(t-t_0)I(t\lt t_0) + \beta(t-t_0)I(t\gt t_0) + \varepsilon(t)$

gdzie jest funkcją wskaźnika, a reprezentuje wszystko, co w inny sposób nie zostało wyraźnie zapisane w tym modelu. Ma cztery parametry do oszacowania: i . (Jeśli jesteś naprawdę pewny co do możesz ustalić jego wartość zamiast ją szacować). $I$ $\varepsilon$ $\alpha,\beta,\gamma$ $t_0$ $t_0$

Odnotowano całkowite koszty podczas okresu czasu do gdy temperatura różni się w czasie będzie zatem $x_0$ $x_1$ $t(x)$ $x$

\begin{aligned} Cost (x_{0}, x_{1}) = \int_{x_{0}}^{x_{1}} y (t) d t \\ = \int_{x_{0}}^{x_{1}} (γ + α (t (x) - t_{0}) I (t (x) < t_{0}) + β (t (x) - t_{0}) I (t (x) > t_{0}) + ε (t (x))) t^{'} (x) d x . \end{aligned}

$\eqalign{ &\text{Cost}(x_0,x_1) = \int_{x_0}^{x_1} y(t)dt \\ &=\int_{x_0}^{x_1} \left(\gamma + \alpha(t(x)-t_0)I(t(x)\lt t_0) + \beta(t(x)-t_0)I(t(x)\gt t_0) + \varepsilon(t(x))\right) t^\prime(x) dx. }$

Jeśli model jest w ogóle dobry, wahania w powinny uśredniać się do wartości bliskiej zeru i będą się losowo zmieniać z miesiąca na miesiąc. Przybliżenie fluktuacji z rozkładem normalnym średniej (średnia miesięczna) i odchylenia standardowego (jak poprzednio podano z zakresu miesięcznego) i wykonanie całek daje $\varepsilon(t)$ $\bar\varepsilon$ $t(x)$ $\bar{t}$ $s(\bar t)$

\bar{y} (\bar{t}) = γ + (β - α) s (\bar{t})^{2} ϕ_{s} (\bar{t} - t_{0}) + (\bar{t} - t_{0}) (β + (α - β) Φ_{s} (t_{0} - \bar{t})) + \bar{ε} (\bar{t}) .

$\bar{y}(\bar{t}) = \gamma + (\beta-\alpha)s(\bar t)^2 \phi_s(\bar t-t_0) + (\bar{t}-t_0)\left(\beta + (\alpha-\beta)\Phi_s(t_0 - \bar{t})\right) + \bar\varepsilon(\bar{t}).$

W tym wzorze jest skumulowanym rozkładem Normalnej średniej zerowej i odchylenia standardowego ; to jego gęstość. $\Phi_s$ $s(\bar t)$ $\phi$

Model dopasowany

Model ten, choć wyraża nieliniowy związek między kosztami a temperaturą, jest jednak liniowy w zmiennych i . Ponieważ jednak jest on nieliniowy w , a nie jest znane, potrzebujemy procedury dopasowania nieliniowego. Aby to zilustrować, po prostu zrzuciłem go do maksymalizatora prawdopodobieństwa (używając do obliczeń), zakładając, że są niezależne i identycznie rozmieszczone, z normalnymi rozkładami średniej zerowej i wspólnego odchylenia standardowego . $\alpha,\beta,$ $\gamma$ $t_0$ $t_0$ R $\bar\varepsilon$ $\sigma$

W przypadku tych danych szacunki wynoszą

(\hat{α}, \hat{β}, \hat{γ}, \hat{t_{0}}, \hat{σ}) = (- 1.489, 1.371, 10.2, 63.4, 1.80) .

$(\hat\alpha,\hat\beta,\hat\gamma,\hat {t_0}, \hat\sigma) = (-1.489, 1.371, 10.2, 63.4, 1.80).$

To znaczy:

Koszt ogrzewania wynosi około kWh / dzień / stopień F. $1.49$
Koszt chłodzenia wynosi około kWh / dzień / stopień F. Chłodzenie jest nieco bardziej wydajne. $1.37$
Podstawowe zużycie energii (inne niż ogrzewanie / chłodzenie) wynosi kWh / dzień. (Liczba ta jest dość niepewna; dodatkowe dane pomogą ją lepiej określić). $10.2$
Dom jest utrzymywany w temperaturze blisko stopnia F. $63.4$
Inne warianty, które nie zostały wyraźnie uwzględnione w modelu, mają odchylenie standardowe wynoszące kWh / dzień. $1.80$

Przedziały ufności i inne ilościowe wyrażenia niepewności w tych szacunkach można uzyskać standardowymi metodami z mechanizmem maksymalnego prawdopodobieństwa.

Wyobrażanie sobie

Aby zilustrować ten model, poniższy rysunek przedstawia dane, model bazowy, dopasowanie do średnich miesięcznych i proste dopasowanie kwadratowe metodą najmniejszych kwadratów.

Postać

Dane miesięczne są wyświetlane jako ciemne krzyże. Poziome szare linie, na których leżą, pokazują miesięczne zakresy temperatur. Nasz podstawowy model, odzwierciedlający prawo Newtona, jest pokazany przez czerwone i niebieskie segmenty linii spotykające się w temperaturze . Nasze dopasowanie do danych nie jest krzywą , ponieważ zależy od zakresów temperatur. Jest zatem pokazany jako pojedyncze stałe niebieskie i czerwone punkty. (Niemniej jednak, ponieważ zakresy miesięczne niewiele się różnią, wydaje się, że punkty te wykreślają krzywą - prawie taką samą jak przerywana krzywa kwadratowa.) Wreszcie przerywana krzywa jest kwadratowo dopasowana do najmniejszych kwadratów (do ciemnych krzyży ). $t_0$

Zauważ, jak bardzo pasowania odbiegają od bazowego (chwilowego) modelu, szczególnie w średnich temperaturach! Jest to efekt miesięcznego uśredniania. (Pomyśl o wysokościach rozmazanych czerwonych i niebieskich linii na każdym poziomym szarym segmencie. W ekstremalnych temperaturach wszystko jest wyśrodkowane na liniach, ale w temperaturach środkowych obie strony „V” są uśredniane razem, odzwierciedlając potrzebę do ogrzewania w niektórych momentach i chłodzenia w innych momentach w ciągu miesiąca.)

Porównanie modeli

Oba pasowania - ten starannie dopracowany tutaj i prosty, łatwy, kwadratowy krój - są ściśle zgodne zarówno ze sobą, jak i z punktami danych. Kwadratowe dopasowanie nie jest tak dobre, ale nadal jest przyzwoite: skorygowana średnia resztkowa (dla trzech parametrów) wynosi kWh / dzień, podczas gdy skorygowana średnia resztkowa modelu prawa Newtona (dla czterech parametrów) wynosi kWh / dobę, około 5% mniej. Jeśli wszystko, co chcesz zrobić, to wykreślić krzywą przechodzącą przez punkty danych, zaleciłaby to prostota i względna wierność kwadratowego dopasowania. $2.07$ $1.97$

Jednak kwadratowe dopasowanie jest całkowicie bezużyteczne do uczenia się, co się dzieje! Jego formuła,

\bar{y} (\bar{t}) = 219.95 - 6.241 \bar{t} + 0.04879 (\bar{t})^{2},

$\bar y(\bar t) = 219.95 - 6.241 \bar t + 0.04879 (\bar t)^2,$

nie ujawnia nic bezpośredniego użycia. Szczerze mówiąc, moglibyśmy to trochę przeanalizować:

Jest to parabola z wierzchołkiem w stopni F. Możemy to potraktować jako oszacowanie stałej temperatury domu. Nie różni się znacząco od naszego pierwszego oszacowania na stopnia. Jednak przewidywany koszt w tej temperaturze wynosi kWh / dzień. Jest to dwukrotność podstawowego zużycia energii zgodnego z prawem Newtona. $\hat t_0 = 6.241/(2\times 0.04879) = 64.0$ $63.4$ $219.95 - 6.241(63.4) + 0.04879(63.4)^2 = 20.4$
Koszt krańcowy ogrzewania lub chłodzenia jest uzyskiwany z bezwzględnej wartości pochodnej, . Na przykład, stosując tę formułę, oszacowalibyśmy koszt ogrzewania domu, gdy temperatura zewnętrzna wynosi stopni, jako kWh / dzień / stopień F. Jest to dwukrotność wartości szacowanej dla Newtona prawo . $\bar{y}^\prime(\bar t) = -6.241 + 2(0.04879)\bar{t}$ $90$ $-6.241 + 2(0.04879)(90) = 2.54$

Podobnie koszt ogrzewania domu przy temperaturze zewnętrznej wynoszącej stopnie szacuje się na kWh / dzień / stopień F. Jest to ponad dwukrotność wartości oszacowanej według prawa Newtona. $32$ $|-6.241 + 2(0.04879)(32)| = 3.12$

W średnich temperaturach kwadratowe dopasowanie błądzi w przeciwnym kierunku. Rzeczywiście, w swoim wierzchołku w zakresie od do stopni przewiduje prawie zerowe krańcowe koszty ogrzewania lub chłodzenia, mimo że ta średnia temperatura obejmuje dni tak chłodne jak stopni i tak ciepłe jak stopni. (Niewiele osób czytających ten post będzie nadal mieć wyłączoną temperaturę stopni (= stopni C)!) $60$ $68$ $50$ $78$ $50$ $10$

Krótko mówiąc, choć wygląda tak dobrze w wizualizacji, dopasowanie kwadratowe rażąco błędnie szacuje podstawowe wielkości zainteresowania związane ze zużyciem energii. Jego stosowanie do oceny zmian w użyciu jest zatem problematyczne i należy go zniechęcać.

Obliczenie

Ten Rkod wykonał wszystkie obliczenia i kreślenie. Można go łatwo dostosować do podobnych zestawów danych.

#
# Read and process the raw data.
#
x <- read.csv("F:/temp/energy.csv")
x$Daily <- x$Usage / x$Length
x <- x[order(x$Temp), ]
#pairs(x)
#
# Fit a quadratic curve.
#
fit.quadratic <- lm(Daily ~ Temp+I(Temp^2), data=x)
# par(mfrow=c(2,2))
# plot(fit.quadratic)
# par(mfrow=c(1,1))
#
# Fit a simple but realistic heating-cooling model with maximum likelihood.
#
response <- function(theta, x, s) {
  alpha <- theta[1]; beta <- theta[2]; gamma <- theta[3]; t.0 <- theta[4]
  x <- x - t.0
  gamma + (beta-alpha)*s^2*dnorm(x, 0, s) +  x*(beta + (alpha-beta)*pnorm(-x, 0, s))
}
log.L <- function(theta, y, x, s) {
  #   theta = (alpha, beta, gamma, t.0, sigma)
  #   x = time
  #   s = estimated SD
  #   y = response
  y.hat <- response(theta, x, s)
  sigma <- theta[5]
  sum((((y - y.hat) / sigma) ^2 + log(2 * pi * sigma^2))/2)
}
theta <- c(alpha=-1, beta=5/4, gamma=20, t.0=65, sigma=2) # Initial guess
x$Spread <- (x$Temp.high - x$Temp.low)/sqrt(6)            # Uniform estimate
fit <- nlm(log.L, theta, y=x$Daily, x=x$Temp, x$Spread)
names(fit$estimate) <- names(theta)
#$
# Set up for plotting.
#
i.pad <- 10
plot(range(x$Temp)+c(-i.pad,i.pad), c(0, max(x$Daily)+20), type="n", 
     xlab="Temp", ylab="Cost, kWh/day",
     main="Data, Model, and Fits")
#
# Plot the data.
#
l <- matrix(mapply(function(l,r,h) {c(l,h,r,h,NA,NA)}, 
                   x$Temp.low, x$Temp.high, x$Daily), 2)
lines(l[1,], l[2,], col="Gray")
points(x$Temp, x$Daily, type="p", pch=3)
#
# Draw the models.
#
x0 <- seq(min(x$Temp)-i.pad, max(x$Temp)+i.pad, length.out=401)
lines(x0, cbind(1, x0, x0^2) %*% coef(fit.quadratic), lwd=3, lty=3)
#curve(response(fit$estimate, x, 0), add=TRUE, lwd=2, lty=1)
t.0 <- fit$estimate["t.0"]
alpha <- fit$estimate["alpha"]
beta <- fit$estimate["beta"]
gamma <- fit$estimate["gamma"]
cool <- "#1020c0"; heat <- "#c02010"
lines(c(t.0, 0), gamma + c(0, -alpha*t.0), lwd=2, lty=1, col=cool)
lines(c(t.0, 100), gamma + c(0, beta*(100-t.0)), lwd=2, lty=1, col=heat)
#
# Display the fit.
#
pred <- response(fit$estimate, x$Temp, x$Spread)
points(x$Temp, pred, pch=16, cex=1, col=ifelse(x$Temp < t.0, cool, heat))
#lines(lowess(x$Temp, pred, f=1/4))
#
# Estimate the residual standard deviations.
#
residuals <- x$Daily - pred
sqrt(sum(residuals^2) / (length(residuals) - 4))
sqrt(sum(resid(fit.quadratic)^2) / (length(residuals) - 3))

Whuber
źródło

To może być najlepsza odpowiedź na każde pytanie o przepełnienie stosu, które przeczytałem. Bardzo doceniam czas poświęcony na wyjaśnienie logiki i uzasadnienia rozwiązania.

Shawn

Fizyka jest bardziej owłosiona niż to. Rola przełącznika skraplacza i parownika w ogrzewaniu a chłodzeniu. Oznacza to, że działają jak dwa różne systemy, a nie jeden ciągły. Dni stopni nagrzewania, dni schładzania i dni osuszania to trzy osobne czynniki kształtujące koszty, w zależności od położenia geograficznego (myślę ak, wi, ca, az, mo i fl), a rok może działać nieciągle (koniec sezonu grzewczego nie jest to samo co początek chłodzenia). Przyzwoite statystyki dotyczące danych mówią, że jest 5 sezonów, a nie 4. Maj to jego własny sezon, przynajmniej w ciągu ostatnich 5 lat.

EngrStudent

@EngrStudent Wszystkie dobre punkty i bardzo mile widziane. Chciałbym utrzymywać, że przedstawione tutaj podejście, choć uproszczone, pokazuje, co jest potrzebne, aby położyć podwaliny pod te subtelniejsze efekty. Kiedy poradzisz sobie z dużymi terminami w modelu - i myślę, że nikt nie zaprzeczy, że temperatura musi być dominującym czynnikiem przyczyniającym się do kosztów - wtedy, jeśli zrobiłeś to w sensie fizycznym, możesz być w stanie zidentyfikować inne warunki a może nawet dokładnie oszacują ich skutki. Jeśli nie poradzisz sobie poprawnie z dużymi terminami, nie masz żadnej nadziei na scharakteryzowanie pozostałych.

whuber

Uwielbiam ten dobry fundament / analizę, proszę usłyszeć to jako aplauz, a nie krytykę. Proces grzania różni się od chłodzenia, więc niecałkowicie kwadratowy po obu stronach może być z tym sprzeczny. Cewka parownika znajduje się w pomieszczeniu podczas chłodzenia, a na zewnątrz podczas ogrzewania. W pompie ciepła występuje również cykl odszraniania i „podtrzymanie ciepła”. Ponadto kompresor musi ciężko pracować, aby walczyć z bardziej ekstremalną temperaturą zewnętrzną, więc nie tylko przenosisz więcej ciepła, ale także przenosisz go na wyższe wzgórze. To nie jest liniowe. Wilgotność jest duża i może wynosić 2/3 budżetu energetycznego. Infiltracja powietrza