Interesuje mnie łączenie rekordów w 2 zestawach danych według imienia, nazwiska i roku urodzenia. Czy może to być wykonalne za pomocą algorytmu EM, a jeśli tak, to w jaki sposób?
Rozważ następujący zapis w 1. jako przykład: Carl McCarthy, 1967. Przeszukam wszystkie rekordy w 2. zbiorze danych i przypiszę odległość jaro-winkler między 1. imieniem a Carlem oraz odległość jaro-winkler między nazwiskiem a McCarthy. Odległość ta jest probabilistyczna, podobnie jak odległość między latami urodzenia. Łączymy te 3 prawdopodobieństwa (pomnożymy? Średnią?) W 1.
Teraz jest część reguły decyzyjnej. Pozwól nam uszeregować wszystkie prawdopodobieństwa od najwyższego do najniższego. Najpierw chcemy P (pierwsze trafienie jest zgodne)> = próg. Po drugie, chcemy również P (pierwsze trafienie jest zgodne) / P (drugie trafienie jest zgodne)> = próg, jeśli istnieje P (drugie trafienie jest zgodne). Po trzecie, chcemy, aby pierwsze trafienie w tym drugim zestawie danych było zgodne dla nie więcej niż 1 osoby w 1. zestawie danych z Carlem McCarthym, 1967.
Jak można ustalić te progi?
Wolę podejścia w Stata i / lub Perlu.
Zobacz na przykład:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf
(Mimo to nadal nie w pełni śledzę, dlaczego i jak oraz jakie są dane wejściowe i wyjściowe, a także założenia i stopień ich ograniczenia).
źródło
Odpowiedzi:
Absolutnie algorytm EM zastosowano do łączenia probabilistycznego. Istnieje wiele artykułów na ten temat, pomocne mogą być następujące informacje Winklera dotyczące szczegółów teoretycznych:
http://www.census.gov.edgekey.net/srd/papers/pdf/rr2000-05.pdf
Również oprogramowanie do łączenia danych opracowane przez Kevina Campbella jest już dostępne tutaj:
http://the-link-king.com/
Oprogramowanie można pobrać bezpłatnie, a Kevin Campbell oferuje wsparcie za opłatą. Kod jest napisany w SAS, więc potrzebujesz podstawowego pakietu SAS.
źródło
Istnieje oprogramowanie RELAIS, które rejestruje powiązania z:
Istnieje więcej dokumentacji na temat łączenia rekordów dostępnych w projekcie ESSnet Data Integration .
źródło