Obliczanie średniego nachylenia: harmoniczna czy średnia arytmetyczna?

11

Muszę obliczyć średnie nachylenie procentowe wzrostu dla dużego zestawu danych, podstawowa metoda jest szczegółowo opisana tutaj. Zacząłem jednak zastanawiać się, czy średnia harmoniczna może być bardziej odpowiednia niż standardowa średnia arytmetyczna, ponieważ technicznie jest to tempo zmian. Nie widziałem tego w żadnej innej dyskusji na temat uśredniania nachylenia nad punktami, obszarami, liniami itp. Powinno to być dość proste do osiągnięcia.

edycja: Celem obliczenia średniego nachylenia w tym przypadku jest wygenerowanie jednego parametru (spośród wielu) do zastosowania w modelowaniu progów inicjacji kanału. Mam zestaw zebranych w terenie lokalizacji głowicy kanału, w których będę zbierał akumulację przepływu, różne średnie parametry zbocza itp. I użyję wielu regresji liniowej, aby spróbować opisać progi akumulacji w kategoriach innych parametrów.

Jay Guarneri
źródło
4
To zależy od tego, dlaczego obliczasz średnie nachylenie. Jaki jest cel Jaką fizyczną wielkość próbujesz zmierzyć? Chociaż wiele form wartości średnich jest uzasadnionych, należy uważać na średnią harmoniczną: powoduje ona problemy, gdy dowolne nachylenie wynosi zero, co często się zdarza.
whuber

Odpowiedzi:

10

Średnie nachylenie brzmi jak naturalna wielkość, ale jest to raczej dziwna rzecz. Na przykład średnie nachylenie płaskiej poziomej równiny wynosi zero, ale gdy dodasz odrobinę losowego, zerowego poziomu hałasu do DEM tej równiny, średnie nachylenie może tylko wzrosnąć . Inne dziwne zachowania to zależność średniego nachylenia od rozdzielczości DEM, którą tutaj udokumentowałem , i jej zależność od sposobu utworzenia DEM. Na przykład niektóre DEM utworzone z map konturowych są w rzeczywistości lekko tarasowane - z niewielkimi nagłymi skokami w miejscu, gdzie leżą linie konturowe - ale poza tym są dokładnymi reprezentacjami powierzchni na całej powierzchni. Te nagłe skoki, jeśli otrzymają zbyt dużą lub zbyt małą wagę w procesie uśredniania, mogą zmienić średnie nachylenie.

Zwiększenie ważenia jest istotne, ponieważ w efekcie średnia harmoniczna (i inne środki) różnicują w różny sposób zbocza. Aby to zrozumieć, rozważ średnią harmoniczną tylko dwóch liczb dodatnich x i y . Zgodnie z definicją,

Harmonic mean(x,y) = 1 / ((1/x + 1/y)/2) = x (y/(x+y)) + y (x/(x+y)) = a x + b y

gdzie wagi to a = y / (x + y) ib = x / (x + y). (Zasługują one na miano „wag”, ponieważ są dodatnie i sumują się do jedności. Dla średniej arytmetycznej wagi wynoszą a = 1/2 ib = 1/2). Oczywiście waga przypisana do x , równa y / (x + y), jest duża, gdy x jest małe w porównaniu do y . Zatem harmoniczna oznacza przeważenie mniejszych wartości.

Może to pomóc w poszerzeniu pytania. Średnia harmoniczna jest jedną z rodziny średnich parametryzowanych przez wartość rzeczywistą p . Podobnie jak średnia harmoniczna jest otrzymywany poprzez uśrednienie odwrotności z X i Y (a następnie biorąc odwrotność ich średnia), w ogóle możemy uśrednić uprawnienia PTH x i y (a następnie podjąć moc 1 / PTH rezultatu ). Przypadki p = 1 ip = -1 są odpowiednio średnimi arytmetycznymi i harmonicznymi. (Możemy zdefiniować średnią dla p = 0, przyjmując granice i tym samym uzyskać średnią geometryczną również jako członek tej rodziny.) Jako pzmniejsza się od 1, tym mniejsze wartości są coraz ważniejsze; a gdy p wzrasta od 1, coraz większe wartości są coraz ważniejsze. Wynika z tego, że średnia może wzrosnąć tylko wraz ze wzrostem p i musi maleć wraz ze spadkiem p . (Jest to widoczne na drugim rysunku poniżej, na którym wszystkie trzy linie są płaskie lub rosną od lewej do prawej.)

Z praktycznego punktu widzenia możemy zamiast tego zbadać zachowanie różnych środków na zboczach i dodać tę wiedzę do naszego zestawu narzędzi analitycznych: kiedy spodziewamy się, że zbocza wejdą w relację w taki sposób, że mniejsze zbocza powinny otrzymać więcej wpływ, możemy wybrać średnią z p mniejszą niż 1; i odwrotnie, możemy zwiększyć p powyżej 1, aby podkreślić największe zbocza. W tym celu rozważmy różne formy profili drenażowych w pobliżu punktu.

Aby pokazać, co może się wydarzyć, wziąłem pod uwagę trzy jakościowo różne lokalne tereny : jeden jest miejscem, gdzie wszystkie zbocza są równe (co stanowi dobrą referencję); innym jest to, gdzie lokalnie znajdujemy się na dnie miski: wokół nas zbocza są zerowe, ale następnie stopniowo się zwiększają i ostatecznie wokół krawędzi stają się dowolnie duże. Odwrotna sytuacja występuje, gdy pobliskie stoki są umiarkowane, ale oddalają się od nas. Wydaje się, że obejmuje to realistycznie szeroki zakres zachowań.

Oto wykresy pseudo-3D tych trzech rodzajów form odwodnienia:

Działki w 3D

Tutaj obliczyłem średnie nachylenie każdego - z tym samym kodowaniem kolorami - jako funkcję p , pozwalając p wahać się od -1 (średnia harmoniczna) do 2.

Nachylenie oznacza vs p

Oczywiście niebieska linia jest pozioma: bez względu na to, jaką wartość przyjmuje wartość p , średnia stałego nachylenia nie może być niczym innym niż stała (która została ustawiona na 1 dla odniesienia). Wysokie zbocza wokół odległej krawędzi czerwonej misy silnie wpływają na średnie zbocza, gdy p zmienia się: zauważ, jak duże stają się, gdy p przekroczy 1. Przekrój poziomy na trzeciej (złotozielonej) powierzchni powoduje średnią harmoniczną (p = - 1) równa zero.

Warto zauważyć, że względne położenia trzech krzywych zmieniają się przy p = 0 (średnia geometryczna): dla p większego niż 0 czerwona misa ma większe średnie nachylenia niż niebieski, natomiast dla ujemnego p czerwona misa ma mniejszą średnią stoki niż niebieski. Zatem wybór p może zmienić nawet względny ranking średnich nachyleń.

Głęboki wpływ średniej harmonicznej (p = -1) na kształt żółto-zielony powinien dać nam pauzę: pokazuje, że gdy w drenażu jest wystarczająca ilość małych zboczy, średnia harmoniczna może być tak mała, że ​​przytłacza jakikolwiek wpływ wszystkie pozostałe stoki.

W duchu eksploracyjnej analizy danych możesz rozważyć zmianę p - być może pozwalając, aby wahała się od 0 do nieco większej niż 1 w celu uniknięcia ekstremalnych wag - i znalezienie, która wartość tworzy najlepszy związek między średnim nachyleniem a zmienną modelują (np. progi inicjalizacji kanału). „Najlepsze” zwykle rozumiane jest w znaczeniu „najbardziej liniowego” lub „tworzenia stałych [homoscedastycznych] reszt” w modelu regresji.

Whuber
źródło
Dzięki za dokładną analizę! Muszę się nad tym zastanowić.
Jay Guarneri,
1

Podjąłem podejście empiryczne, aby znaleźć komplementarną odpowiedź na doskonałą odpowiedź teoretyczną Whucera. Postanowiłem obliczyć nachylenie w stopniach i średnią, używając średniej kątowej . Następnie obliczyłem średnie arytmetyczne i harmoniczne procentowego nachylenia, które utworzyłem zestaw punktów próbnych losowo rozmieszczonych w badanym obszarze. Zażądałem 2000 punktów przy minimalnej odległości 100 m, co dało 1326 punktów. Próbkowałem wartości każdego średniego rastra nachylenia w każdym punkcie i przeliczałem średnie procentowe na stopnie, stosując wzór Degrees = atan(percent/100). Zakładam tutaj, że średnia kątowa wytworzy „prawidłowe” średnie nachylenie w stopniach, a dowolna średnia procentowa, która zbliży się do niej, byłaby prawidłową procedurą.

Następnie porównałem wszystkie wartości niezerowe za pomocą testu Kruskala-Wallace'a (przy założeniu, że dla większości wartości zerowego nachylenia byłby zerowy we wszystkich trzech, a wartości zerowe maskowałyby różnice między metodami). Znalazłem znaczącą różnicę między tymi trzema (chi-kwadrat = 17,9570, DF = 2, p = 0,0001), więc dalej badałem dane, stosując Procedurę Dunna, stosując alfa = 0,05 (Elliot i Hynan 2011) . Rezultatem końcowym jest to, że średnia arytmetyczna i harmoniczna znacznie różnią się od siebie, ale niemniej znacznie różni się od średniej kątowej:

Comparison           Diff        SE        q         q(0.05)    Conclude                      
------------------------------------------------------------------------------                
arith     harm      164.12    38.78     4.23       2.394    Reject                            
arith     angular   75.3      38.8      1.94       2.394    Do not reject                     
angular   harm      88.82     38.68     2.3        2.394    Do not reject                     

Jeśli wszystkie moje założenia byłyby poprawne (bardzo dobrze mogą nie być), oznacza to, że chociaż harmoniczne i arytmetyczne tworzą między sobą różne wartości, oba są „bliskie sprzężenia” ze średnią kątową, aby były do ​​przyjęcia. Są tutaj dwa inne zastrzeżenia, o których mogę myśleć (proszę dodać inne, jeśli o nich myślisz):

  1. Większy rozmiar próbki może znaleźć znaczącą różnicę między średnią procentową a średnią kątową. Jednak mój rozmiar próbki wynosił ~ 1000 punktów tylko dla niezerowych wartości.
  2. Ponieważ moje punkty próbne zostały umieszczone bez uwzględnienia basenów drenażowych, może wystąpić pewna pseudo-replikacja, ponieważ każde średnie nachylenie będzie powiązane ze średnimi nachyleniami powyżej.
Jay Guarneri
źródło
1
To ciekawe (+1), ale uważaj na ograniczenia. (1) Tak, jeśli wybierzesz większy rozmiar próby, przekonasz się, że wszystkie różnice są znaczące. Dlatego nie ma sensu, aby przeprowadzić test hipotezy statystyczne: chcesz skupić się na wysokości różnicy pomiędzy procedurami. (2) Twoje wyniki zależą całkowicie od faktycznych właściwości twoich danych. Będą się różnić w zależności od innych zestawów danych. (3) Średnia kątowa jest przydatna jako odniesienie, ale w żadnym wypadku nie jest wartością preferowaną. To, co zastosować jako odniesienie, zależy całkowicie od tego, w jaki sposób zostanie wykorzystana w dalszych analizach lub mapowaniu.
whuber
0

Biorąc pod uwagę założenie, że żadne parametry definiujące nachylenie nie są znane, każdy statystyk powiedziałby, że używa nachylenia, które minimalizuje odchylenia RMS od danych. (Oczywiście przykłady Whubera nie kwalifikują się, ponieważ wybrał matematycznie wygenerowane kształty terenu, ale w przypadku prawdziwych kształtów terenu założenie nieznanych parametrów powinno być prawidłowe.)

johnsankey
źródło
Ta odpowiedź jest doceniana, ale myślę, że źle rozumie sytuację. Co najważniejsze, te nachylenia nie są używane do dopasowania krzywych: koncepcja „odchyleń RMS danych” po prostu nie ma zastosowania. Po drugie, wybrałem jakościowe typy ukształtowania terenu, aby objąć szerokie spektrum tego, co naprawdę będzie napotkane, więc utrzymuję, że podają przydatne informacje o tym, czego się spodziewać. Prawdziwe zestawy danych nie przyczyniają się zbytnio do zrozumienia tego, co się tutaj dzieje, ponieważ nie ma czegoś takiego jak „prawdziwe” średnie nachylenie. Głównym pytaniem jest, jakie średnie wartości będą przydatne lub pouczające.
whuber
1
BTW, uważam, że mam pewne kwalifikacje jako statystyk. To nie czyni mojej opinii na ten temat ani lepszą, ani gorszą: tak jak w przypadku każdego innego, muszę poprzeć to tak jasno i obiektywnie, jak to tylko możliwe, i jestem dość podatny na to, że się mylę i muszę zmienić zdanie: ). Po prostu oferuję ten punkt jako odpowiedź na twoją uwagę dotyczącą „dowolnego statystyki”.
whuber
Pytanie, które dopasowanie jest przydatne, twierdzę, zależy od tego, do czego ma być używane nachylenie. Na przykład w przypadku potencjalnego spadku terenu strome zbocza byłyby ważone wyżej w porównaniu do łagodnych nachyleń zgodnie z modelem potencjału spadku w stosunku do modelu spadku, wówczas podejście dopasowania RMS powinno być prawidłowe. Zastosowane zostaną inne modele wag pasujące do innych zastosowań. Krótko mówiąc, modeluj wszystko, co wiemy, za pomocą ważenia lub w inny sposób, a następnie polegaj na RMS, ponieważ model wszystkiego, czego nie robimy, jest tym, co sugeruję.
johnsankey
Zgadzam się z założeniem tego komentarza, John, ale nie rozumiem, jak podąża twój wniosek. Jeśli bardziej strome zbocza mają przyjmować większe ciężary, wydaje się, że RMS jest po prostu tym, czego nie chcesz robić, ponieważ waży wszystkie odchylenia jednakowo, niezależnie od zbocza. Co więcej, RMS, jako kwadratowa funkcja straty, nie może być uniwersalnym zamiennikiem tego, co mogą osiągnąć inne techniki, w tym nieliniowe ponowne wyrażanie nachylenia i zastosowanie alternatywnych funkcji strat (na przykład wykorzystywanych przez solidne metody dopasowania).
whuber
RMS obejmuje wagi
johnsankey