Czy istnieje lepsza nazwa niż „średnia całki”?

12

Testuję czujniki położenia przepustnicy (TPS), które sprzedaje moja firma i drukuję wykres odpowiedzi napięcia na obrót wału przepustnicy. TPS jest czujnikiem obrotowym o zakresie 90 °, a wyjście jest jak potencjometr z pełnym otwarciem wynoszącym 5 V (lub wartością wejściową czujnika) i początkowym otwarciem o wartości między 0 a 0,5 V. Zbudowałem stanowisko testowe ze sterownikiem PIC32 do pomiaru napięcia co 0,75 °, a czarna linia łączy te pomiary.

Jeden z moich produktów ma tendencję do tworzenia lokalnych, niskich amplitud odchyleń od (i poniżej) idealnej linii. To pytanie dotyczy mojego algorytmu do kwantyfikacji tych zlokalizowanych „spadków”; Jaka jest dobra nazwa lub opis procesu pomiaru zanurzeń? (pełne wyjaśnienie poniżej) Na poniższym obrazku spadek występuje w lewej trzeciej części fabuły i jest marginalnym przypadkiem, czy zaliczę tę część, czy nie:

Wydrukuj podejrzaną część

Zbudowałem więc detektor zanurzenia ( przepełnienie stosu qa o algorytmie ), aby zmierzyć moje przeczucie. Początkowo myślałem, że mierzę „obszar”. Ten wykres jest oparty na powyższym wydruku i mojej próbie graficznego wyjaśnienia algorytmu. Zapad jest trwały dla 13 próbek między 17 a 31:

Próbkowane dane pokazane przy powiększeniu „dip”

Dane testowe idą do tablicy, a ja wykonuję kolejną tablicę do „wznoszenia” z jednego punktu danych do następnego, który nazywam . Korzystam z biblioteki, aby uzyskać średnią i standardowe odchylenie dla .deltasdeltas

Analiza tablicy jest przedstawiona na poniższym wykresie, na którym nachylenie jest usuwane z powyższego wykresu. Początkowo myślałem o tym jako o „normalizacji” lub „ujednoliceniu” danych, ponieważ oś x to równe kroki, a teraz pracuję wyłącznie nad wzrostem między punktami danych. Badając to pytanie, przypomniałem sobie, że jest to pochodna oryginalnych danych.deltasdydx

Analiza pochodnej ...?

Przechodzę przez aby znaleźć sekwencje, w których istnieje 5 lub więcej sąsiadujących wartości ujemnych. Niebieskie słupki to seria punktów danych, które są poniżej średniej wszystkich . Wartości niebieskich pasków to:deltasdeltas

0.7+1.2+1.3+1.4+1.8+2.5+2.9+3.0+2.5+2.0+1.5+1.0+1.2

Sumują się do , co reprezentuje obszar (lub całkę). Moją pierwszą myślą jest „Właśnie zintegrowałem pochodną”, co powinno oznaczać, że odzyskam oryginalne dane, choć jestem pewien, że istnieje na to termin.23

Zielona linia to średnia z tych „wartości poniżej średniej” znaleziona poprzez podzielenie obszaru przez długość zanurzenia:

23÷13=1.77

Podczas testowania ponad 100 części doszedłem do wniosku, że dopuszczalne są spadki ze średnią zieloną linią poniżej . Odchylenie standardowe obliczone dla całego zestawu danych nie było wystarczająco ścisłym testem dla tych spadków, ponieważ bez wystarczającej całkowitej powierzchni nadal mieściły się w limicie, który ustaliłem dla dobrych części. Obserwacyjnie wybrałem odchylenie standardowe jako najwyższe, na jakie pozwalam.2.63.0

Ustawienie odcięcia dla odchylenia standardowego na tyle surowego, aby zawiodło tę część, byłoby wówczas tak surowe, aby zawiodło części, które w innym przypadku wydają się mieć świetną fabułę. Mam też detektor szczytów, który zawodzi część, jeśli jakieś .|deltasavg|>avg+stddev

Minęło prawie 20 lat od Calc 1, więc nie przejmuj się , ale wydaje mi się, że profesor użył rachunku różniczkowego i równania przesunięcia, aby wyjaśnić, jak w wyścigach, zawodnik o mniejszym przyspieszeniu, który utrzymuje wyższą prędkość na zakręcie, może pokonać inną zawodnik mający większe przyspieszenie do następnego zakrętu: im szybsze przejście do poprzedniego zakrętu, tym wyższa prędkość początkowa oznacza, że ​​obszar pod jego prędkością (przemieszczenie) jest większy.

Aby przełożyć to na moje pytanie, czuję, że moja zielona linia byłaby jak przyspieszenie, druga pochodna oryginalnych danych.

Odwiedziłem wikipedię, aby ponownie przeczytać podstawy rachunku różniczkowego i definicji pochodnej i całki , nauczyłem się właściwego terminu na sumowanie obszaru pod krzywą za pomocą dyskretnych pomiarów jako Całka numeryczna . Znacznie więcej googlingu całki i prowadzę do tematu nieliniowości i cyfrowego przetwarzania sygnału. Uśrednianie całki wydaje się być popularnym miernikiem do kwantyfikacji danych .

Czy istnieje termin na średnią całki? ( , zielona linia)? 1.77
... lub w procesie wykorzystywania go do oceny danych?

Chris K.
źródło
Myślę, że „średni spadek” jest wystarczająco dobry. Nie ma wymiarów przyspieszenia, więc z pewnością nie ma z tym nic wspólnego.
ShreevatsaR
Byłbym wdzięczny za wszelkie spostrzeżenia lub komentarze na ten temat jako całość. Jestem trochę zaniepokojony tym, że ten pomiar „przeczucia” nie jest lepiej wyrażony matematycznie.
Chris K
Czy możesz dodać wszystkie punkty danych użyte do skonstruowania idealnej linii lub dodać nieco więcej informacji o tym, jak obliczana jest kropkowana czerwona linia, aby uzasadnić, że niebieskie paski są „deltami, które są poniżej średniej wszystkich punkty danych "? Jeśli jest to moralnie średnia odległość od średniej, to powinna istnieć nazwa w stylu przyspieszenia, zastępująca oczywiście różnicowanie przyjmowaniem średniej.
1
Migracja z Math.SE na wniosek OP: meta.stats.stackexchange.com/questions/1845/…
Willie Wong
1
Mogę dodać słowo „lokalny”, aby wyjaśnić, że krok 1 istnieje - zgadzam się z @Glen_b (inny Glen - cześć!), Że jest to ważne. Dlatego wstępnie sugerowałbym „lokalną średnią wadę”, w której właśnie połączyłem „odchylenie od idealnego” do „defektu”. Wydaje się odpowiednie.
Glen Wheeler,

Odpowiedzi:

3

Przede wszystkim jest to świetny opis twojego projektu i problemu. A ja jestem wielkim fanem domowej ramy pomiarowej, która jest super fajna ... dlaczego więc, na litość boską, ma znaczenie to, co nazywacie „uśrednianiem całek”?

W przypadku zainteresowania szerszym pozycjonowaniem swojej pracy to, co chciałbyś zrobić, jest często nazywane wykrywaniem anomalii . W najprostszym ustawieniu polega on na porównaniu wartości w szeregu czasowym ze standardowym odchyleniem poprzednich wartości. Zasadą jest, następnie, jeśli gdzie jest wartość w szereg, to standardowe odchylenie wszystkich poprzednich wartości między wartością i , a

x[n]>αSD(x[1:n1])=>x[n] is outlier
x[n]nthSD(x[1:n1])1st(n1)thαto wybrany przez Ciebie odpowiedni parametr, na przykład 1 lub 2, w zależności od czułości detektora. Możesz oczywiście dostosować tę formułę, aby działała tylko lokalnie (w pewnym przedziale długości ), h
x[n]>αSD(x[nh1:n1])=>x[n] is outlier

Jeśli dobrze zrozumiałem, szukasz sposobu na zautomatyzowanie testowania swoich urządzeń, to znaczy, zadeklaruj urządzenie jako dobre / wadliwe po przeprowadzeniu całego testu (narysowałem całą przekątną). W takim przypadku po prostu rozważ powyższe wzory jako porównanie ze standardowym odchyleniem wszystkich wartości.x[n]

Istnieją również inne reguły, które możesz rozważyć w celu sklasyfikowania urządzenia jako wadliwego:

  • jeśli jakieś odchylenie (delta) jest większe niż jakaś wielokrotność SD wszystkich delt
  • jeżeli kwadratowa suma odchyleń jest większa niż określony próg
  • jeśli stosunek sumy dodatnich i ujemnych delt nie jest w przybliżeniu równy (co może być przydatne, jeśli wolisz mniejsze błędy w obu kierunkach niż silne odchylenie w jednym kierunku)

Oczywiście możesz znaleźć więcej reguł i połączyć je za pomocą logiki boolowskiej, ale myślę, że możesz zajść bardzo daleko z trzema powyższymi.

Na koniec, po skonfigurowaniu, będziesz musiał przetestować klasyfikator (klasyfikator to system / model odwzorowujący dane wejściowe na klasę, w twoim przypadku dane każdego urządzenia, na „dobre” lub „ wadliwy"). Utwórz zestaw testowy, ręcznie oznaczając wydajność każdego urządzenia. Następnie spójrz na ROC , który w zasadzie mówi o przesunięciu między liczbą urządzeń, które Twój system prawidłowo odbiera ze zwróconego, w stosunku do liczby wadliwych urządzeń, które odbiera.

oznacza znaczenie
źródło
Wierzę, że „dlaczego, do licha, ma to znaczenie”, jest funkcją twojej własnej nazwy użytkownika. :) Dlaczego? Z tego samego powodu istnieje grzebień biodrowy: potrzebujemy słów, aby wyraźnie określić wszystko, co wyjątkowe w życiu. Imho, ta kontrola jakości jest przykładem tego, jak ograniczone jest słownictwo w zakresie statystyki. Musimy łączyć mylące lub sprzeczne deskryptory dla tego, co jest „dla oka” tak proste.
Chris K
Hehe, dobrze zauważony Sir! :) Jeśli pominąłem jakiekolwiek przedsięwzięcia w krainie kreatywnego brandingu, to tylko dlatego, że czułem się zmuszony wspierać zaradność i poświęcenie waszych wysiłków i pomysłów, a nie wymyślać próżne etykiety. Ponieważ nalegasz na nazwanie środka całki, strzeż się, że to, co uznajesz za „środek całki”, jest prostym środkiem twoich delt. Jako takie, twoje wartości odstające to po prostu „odchylenia od średniej” lub ewentualnie odchylenia od średniej lokalnej. Nie widzę przewagi myślenia w całkach, chyba że nie masz wystarczającej liczby punktów próbkowania.
oznacza-znaczący