Muszę obliczyć średnie nachylenie procentowe wzrostu dla dużego zestawu danych, podstawowa metoda jest szczegółowo opisana tutaj. Zacząłem jednak zastanawiać się, czy średnia harmoniczna może być bardziej odpowiednia niż standardowa średnia arytmetyczna, ponieważ technicznie jest to tempo zmian. Nie widziałem tego w żadnej innej dyskusji na temat uśredniania nachylenia nad punktami, obszarami, liniami itp. Powinno to być dość proste do osiągnięcia.
edycja: Celem obliczenia średniego nachylenia w tym przypadku jest wygenerowanie jednego parametru (spośród wielu) do zastosowania w modelowaniu progów inicjacji kanału. Mam zestaw zebranych w terenie lokalizacji głowicy kanału, w których będę zbierał akumulację przepływu, różne średnie parametry zbocza itp. I użyję wielu regresji liniowej, aby spróbować opisać progi akumulacji w kategoriach innych parametrów.
źródło
Odpowiedzi:
Średnie nachylenie brzmi jak naturalna wielkość, ale jest to raczej dziwna rzecz. Na przykład średnie nachylenie płaskiej poziomej równiny wynosi zero, ale gdy dodasz odrobinę losowego, zerowego poziomu hałasu do DEM tej równiny, średnie nachylenie może tylko wzrosnąć . Inne dziwne zachowania to zależność średniego nachylenia od rozdzielczości DEM, którą tutaj udokumentowałem , i jej zależność od sposobu utworzenia DEM. Na przykład niektóre DEM utworzone z map konturowych są w rzeczywistości lekko tarasowane - z niewielkimi nagłymi skokami w miejscu, gdzie leżą linie konturowe - ale poza tym są dokładnymi reprezentacjami powierzchni na całej powierzchni. Te nagłe skoki, jeśli otrzymają zbyt dużą lub zbyt małą wagę w procesie uśredniania, mogą zmienić średnie nachylenie.
Zwiększenie ważenia jest istotne, ponieważ w efekcie średnia harmoniczna (i inne środki) różnicują w różny sposób zbocza. Aby to zrozumieć, rozważ średnią harmoniczną tylko dwóch liczb dodatnich x i y . Zgodnie z definicją,
gdzie wagi to a = y / (x + y) ib = x / (x + y). (Zasługują one na miano „wag”, ponieważ są dodatnie i sumują się do jedności. Dla średniej arytmetycznej wagi wynoszą a = 1/2 ib = 1/2). Oczywiście waga przypisana do x , równa y / (x + y), jest duża, gdy x jest małe w porównaniu do y . Zatem harmoniczna oznacza przeważenie mniejszych wartości.
Może to pomóc w poszerzeniu pytania. Średnia harmoniczna jest jedną z rodziny średnich parametryzowanych przez wartość rzeczywistą p . Podobnie jak średnia harmoniczna jest otrzymywany poprzez uśrednienie odwrotności z X i Y (a następnie biorąc odwrotność ich średnia), w ogóle możemy uśrednić uprawnienia PTH x i y (a następnie podjąć moc 1 / PTH rezultatu ). Przypadki p = 1 ip = -1 są odpowiednio średnimi arytmetycznymi i harmonicznymi. (Możemy zdefiniować średnią dla p = 0, przyjmując granice i tym samym uzyskać średnią geometryczną również jako członek tej rodziny.) Jako pzmniejsza się od 1, tym mniejsze wartości są coraz ważniejsze; a gdy p wzrasta od 1, coraz większe wartości są coraz ważniejsze. Wynika z tego, że średnia może wzrosnąć tylko wraz ze wzrostem p i musi maleć wraz ze spadkiem p . (Jest to widoczne na drugim rysunku poniżej, na którym wszystkie trzy linie są płaskie lub rosną od lewej do prawej.)
Z praktycznego punktu widzenia możemy zamiast tego zbadać zachowanie różnych środków na zboczach i dodać tę wiedzę do naszego zestawu narzędzi analitycznych: kiedy spodziewamy się, że zbocza wejdą w relację w taki sposób, że mniejsze zbocza powinny otrzymać więcej wpływ, możemy wybrać średnią z p mniejszą niż 1; i odwrotnie, możemy zwiększyć p powyżej 1, aby podkreślić największe zbocza. W tym celu rozważmy różne formy profili drenażowych w pobliżu punktu.
Aby pokazać, co może się wydarzyć, wziąłem pod uwagę trzy jakościowo różne lokalne tereny : jeden jest miejscem, gdzie wszystkie zbocza są równe (co stanowi dobrą referencję); innym jest to, gdzie lokalnie znajdujemy się na dnie miski: wokół nas zbocza są zerowe, ale następnie stopniowo się zwiększają i ostatecznie wokół krawędzi stają się dowolnie duże. Odwrotna sytuacja występuje, gdy pobliskie stoki są umiarkowane, ale oddalają się od nas. Wydaje się, że obejmuje to realistycznie szeroki zakres zachowań.
Oto wykresy pseudo-3D tych trzech rodzajów form odwodnienia:
Tutaj obliczyłem średnie nachylenie każdego - z tym samym kodowaniem kolorami - jako funkcję p , pozwalając p wahać się od -1 (średnia harmoniczna) do 2.
Oczywiście niebieska linia jest pozioma: bez względu na to, jaką wartość przyjmuje wartość p , średnia stałego nachylenia nie może być niczym innym niż stała (która została ustawiona na 1 dla odniesienia). Wysokie zbocza wokół odległej krawędzi czerwonej misy silnie wpływają na średnie zbocza, gdy p zmienia się: zauważ, jak duże stają się, gdy p przekroczy 1. Przekrój poziomy na trzeciej (złotozielonej) powierzchni powoduje średnią harmoniczną (p = - 1) równa zero.
Warto zauważyć, że względne położenia trzech krzywych zmieniają się przy p = 0 (średnia geometryczna): dla p większego niż 0 czerwona misa ma większe średnie nachylenia niż niebieski, natomiast dla ujemnego p czerwona misa ma mniejszą średnią stoki niż niebieski. Zatem wybór p może zmienić nawet względny ranking średnich nachyleń.
Głęboki wpływ średniej harmonicznej (p = -1) na kształt żółto-zielony powinien dać nam pauzę: pokazuje, że gdy w drenażu jest wystarczająca ilość małych zboczy, średnia harmoniczna może być tak mała, że przytłacza jakikolwiek wpływ wszystkie pozostałe stoki.
W duchu eksploracyjnej analizy danych możesz rozważyć zmianę p - być może pozwalając, aby wahała się od 0 do nieco większej niż 1 w celu uniknięcia ekstremalnych wag - i znalezienie, która wartość tworzy najlepszy związek między średnim nachyleniem a zmienną modelują (np. progi inicjalizacji kanału). „Najlepsze” zwykle rozumiane jest w znaczeniu „najbardziej liniowego” lub „tworzenia stałych [homoscedastycznych] reszt” w modelu regresji.
źródło
Podjąłem podejście empiryczne, aby znaleźć komplementarną odpowiedź na doskonałą odpowiedź teoretyczną Whucera. Postanowiłem obliczyć nachylenie w stopniach i średnią, używając średniej kątowej . Następnie obliczyłem średnie arytmetyczne i harmoniczne procentowego nachylenia, które utworzyłem zestaw punktów próbnych losowo rozmieszczonych w badanym obszarze. Zażądałem 2000 punktów przy minimalnej odległości 100 m, co dało 1326 punktów. Próbkowałem wartości każdego średniego rastra nachylenia w każdym punkcie i przeliczałem średnie procentowe na stopnie, stosując wzór
Degrees = atan(percent/100)
. Zakładam tutaj, że średnia kątowa wytworzy „prawidłowe” średnie nachylenie w stopniach, a dowolna średnia procentowa, która zbliży się do niej, byłaby prawidłową procedurą.Następnie porównałem wszystkie wartości niezerowe za pomocą testu Kruskala-Wallace'a (przy założeniu, że dla większości wartości zerowego nachylenia byłby zerowy we wszystkich trzech, a wartości zerowe maskowałyby różnice między metodami). Znalazłem znaczącą różnicę między tymi trzema (chi-kwadrat = 17,9570, DF = 2, p = 0,0001), więc dalej badałem dane, stosując Procedurę Dunna, stosując alfa = 0,05 (Elliot i Hynan 2011) . Rezultatem końcowym jest to, że średnia arytmetyczna i harmoniczna znacznie różnią się od siebie, ale niemniej znacznie różni się od średniej kątowej:
Jeśli wszystkie moje założenia byłyby poprawne (bardzo dobrze mogą nie być), oznacza to, że chociaż harmoniczne i arytmetyczne tworzą między sobą różne wartości, oba są „bliskie sprzężenia” ze średnią kątową, aby były do przyjęcia. Są tutaj dwa inne zastrzeżenia, o których mogę myśleć (proszę dodać inne, jeśli o nich myślisz):
źródło
Biorąc pod uwagę założenie, że żadne parametry definiujące nachylenie nie są znane, każdy statystyk powiedziałby, że używa nachylenia, które minimalizuje odchylenia RMS od danych. (Oczywiście przykłady Whubera nie kwalifikują się, ponieważ wybrał matematycznie wygenerowane kształty terenu, ale w przypadku prawdziwych kształtów terenu założenie nieznanych parametrów powinno być prawidłowe.)
źródło