Czym jest Ground Truth

30

W kontekście uczenia maszynowego widziałem, że termin „ Prawda naziemna” jest często używany. Dużo szukałem i znalazłem następującą definicję w Wikipedii :

W uczeniu maszynowym termin „podstawowa prawda” odnosi się do dokładności klasyfikacji zestawu szkoleniowego dla nadzorowanych technik uczenia się. Jest to wykorzystywane w modelach statystycznych do udowodnienia lub obalenia hipotez badawczych. Termin „ścieranie gruntu” odnosi się do procesu gromadzenia odpowiednich obiektywnych (możliwych do udowodnienia) danych dla tego testu. Porównaj ze złotym standardem.

Bayesowskie filtrowanie spamu jest częstym przykładem nadzorowanego uczenia się. W tym systemie algorytm uczy się ręcznie różnic między spamem a nie spamem. Zależy to od prawdziwej naziemnej wiadomości użytej do wyszkolenia algorytmu - niedokładności w podstawowej prawdzie będą korelować z niedokładnościami w wynikowych werdyktach dotyczących spamu / niemspamu.

Chodzi o to, że naprawdę nie mogę zrozumieć, co to znaczy. Czy to etykieta używana dla każdego obiektu danych lub funkcja docelowa, która nadaje etykietę każdemu obiektowi danych , czy może coś innego?

Głoska bezdźwięczna
źródło

Odpowiedzi:

25

Podstawową prawdą jest to, co zmierzyłeś dla zmiennej docelowej dla przykładów treningu i testowania.

Prawie cały czas możesz bezpiecznie traktować to tak samo jak etykietę.

W niektórych przypadkach nie jest dokładnie taki sam jak etykieta. Na przykład, jeśli powiększysz swój zestaw danych, istnieje subtelna różnica między podstawową prawdą (rzeczywistymi pomiarami) a tym, jak wzmocnione przykłady odnoszą się do przypisanych etykiet. Jednak to rozróżnienie zwykle nie stanowi problemu.

Podstawowa prawda może być błędna. Jest to pomiar, w którym mogą występować błędy. W niektórych scenariuszach ML może to być również subiektywny pomiar, w którym trudno jest określić podstawową obiektywną prawdę - np. Ekspertyzę lub analizę, którą chcesz zautomatyzować. Każdy model ML, który trenujesz, będzie ograniczony jakością naziemnej prawdy używanej do trenowania i testowania go, i jest to część wyjaśnienia w cytacie z Wikipedii. Dlatego też publikowane artykuły o ML powinny zawierać pełne opisy sposobu gromadzenia danych.

Neil Slater
źródło
Czy podczas treningu można modyfikować lub tworzyć gt (np. Problemy z segmentacją), biorąc pod uwagę informacje uzyskane (np. Z map wyników) z funkcji?
Alex
@Alex: Nie zwykle. Mogą występować pewne okoliczności, w których jeden poprawiony wynik lub półautomatyczny proces generuje prawdziwą prawdę dla następnego algorytmu w potoku. Jeśli jednak odwołujesz się do algorytmu zmieniającego swoje własne cele za pomocą jakiejś reguły, to zwykle nie jest to uważane za nową prawdę naziemną - zamiast tego prawdą naziemną byłyby oryginalne segmentacje przewidziane do treningu. Każde sprytne zautomatyzowane udoskonalenie byłoby zamiast tego częścią modelu.
Neil Slater,
Udoskonalenie interakcji z człowiekiem lub odniesienie do oryginalnych danych innych niż obraz (np. Niektóre obrazy źródłowe są generowane przy użyciu modelu 3D, dzięki czemu można stworzyć znacznie lepszą „prawdziwą” segmentację) może być nową prawdą podstawową. Chociaż być może chciałbyś oddzielić ideę naziemnej prawdy pierwszej generacji, użytej do zbudowania pierwszego modelu, od prawdy naziemnej drugiej generacji, która została poddana iteracji, i wykorzystano ją do zbudowania drugiego modelu, nawet jeśli drugi model to ta sama architektura przeszkoleni w zakresie informacji zwrotnej.
Neil Slater
„przeszkoleni w zakresie informacji zwrotnych” - blisko, ale nie do końca. Jeśli widziałeś model FCN, ostatnią warstwą jest mapa ocen, która jest połączona z funkcją utraty softmax logów wraz z mapą gt. To, co robię, to wziąć mapę wyników, wyodrębnić z niej niektóre dane (np. Liczbę binarnych obiektów blob argmax) i (jakoś) zmodyfikować maskę gt przed podłączeniem jej do funkcji utraty. Jak to jest legalne?
Alex
@Alex: To część twojego modelu, a nie nowa podstawowa prawda. Chyba że sam zdecydujesz, że celem nowego modelu jest poznanie połączonej funkcji. W takim przypadku jest to podstawowa prawda dla nowego modelu - jednak zdecydowanie należy zwrócić uwagę na złożone źródło tych danych, ponieważ zostało ono zmodyfikowane w stosunku do pierwotnego pomiaru w sposób zautomatyzowany.
Neil Slater
2

Prawda podstawowa: taką rzeczywistość chcesz przewidzieć w swoim modelu.

Może mieć trochę hałasu, ale chcesz, aby Twój model nauczył się bazowego wzorca w danych, który powoduje tę podstawową prawdę. Praktycznie twój model nigdy nie będzie w stanie przewidzieć prawdy naziemnej, ponieważ prawda naziemna również będzie miała hałas i żaden model nie zapewnia stuprocentowej dokładności, ale chcesz, aby Twój model był jak najbliżej.

Vivek Khetan
źródło