Imię: pierwsze, ewentualnie środkowe i nazwisko.
Jestem ciekawy, ile informacji możesz wydobyć z nazwy, używając publicznie dostępnych zestawów danych. Wiem, że możesz uzyskać następujące z dowolnym między niskim a wysokim prawdopodobieństwem (w zależności od danych wejściowych) przy użyciu danych ze spisu powszechnego w USA: 1) Płeć. 2) Wyścig.
Na przykład Facebook wykorzystał dokładnie to, aby z przyzwoitym poziomem dokładności ustalić rasową dystrybucję użytkowników ich witryny (https://www.facebook.com/note.php?note_id=205925658858).
Co jeszcze można wydobywać? Nie szukam niczego konkretnego, to bardzo otwarte pytanie, aby uspokoić moją ciekawość.
Moje przykłady są specyficzne dla Stanów Zjednoczonych, więc założymy, że imię i nazwisko osoby znajdującej się w USA; ale jeśli ktoś wie o publicznie dostępnych zestawach danych dla innych krajów, jestem dla nich więcej niż otwarty.
Nie jestem do końca pewien, czy jest to właściwe miejsce, jeśli tak nie jest, doceniłbym, gdyby ktoś mógł wskazać mi bardziej odpowiednie miejsce.
Mam nadzieję, że jest to interesujące pytanie i jest to właściwe miejsce!
Odpowiedzi:
To nie jest poważna odpowiedź, ale właśnie przypomniałem sobie coś z książki, którą przeczytałem rok temu. W Freakonomics jest rozdział poświęcony temu, co możesz powiedzieć o osobie z imienia. Rozdział oparty jest na pracy badawczej autora . Przyczyny i konsekwencje wyraźnie czarnych nazw
Myślę, że znalazłem fragment lub streszczenie tego w tym artykule
źródło
Z imienia należy przewidzieć region, wiek, status imigranta pierwszego pokolenia. Na podstawie nazwiska można było przewidzieć położenie geograficzne oryginalnego patronimu. Dla pełnego imienia i nazwiska można było przewidzieć status społeczny i ekonomiczny (Thurston Howell III).
źródło
Aby dodać tutaj inne sugestie, jednym z największych źródeł danych rodzinnych jest mnóstwo witryn genealogicznych. Myślę, że większość ludzi z Zachodu jest prawdopodobnie wymieniana przez niektórych członków rodziny, odległych lub w niektórych przypadkach na niektórych z nich, a każda taka inkluzja zawiera zwykle obszerne drzewo genealogiczne, wraz z miejscami, szczegółami urodzenia itp. Bardzo pouczające.
Jeśli dopasujesz te dane do wykresów znajomych na Facebooku, ponieważ ludzie zwykle dodają rodzeństwo / kuzynów (i rodziców / dzieci czasami), następnie użyj danych lokalizacyjnych z rolami i katalogami wyborczymi, zwykle możesz wskazać ludzi, nawet o wspólnych nazwiskach, i uzyskaj na nich zaskakująco dużą ilość danych.
źródło
Ostatni rozdział Freakonomics (2005, Steven D. Levitt i Stephen J. Dubner) prowadzi fascynującą dyskusję na temat nazwisk, szczególnie w odniesieniu do statusu społeczno-ekonomicznego i rasy.
Mają listę imion, które mogą, ale nie muszą dobrze korelować z analizą nazwisk przez FB. Opisują także, w jaki sposób wybór nazwy zmienia się diachronicznie (w czasie).
Kto wie - nazwisko rodziców może być dokładniejsze niż to, co ludzie zgłaszają w spisie powszechnym.
źródło
Powyżej masz wiele dobrych sugestii, więc wspomnę tylko o ciekawej anegdocie. Letni student (obecnie wybitny informatyk) w korporacyjnym laboratorium badawczym (które pozostanie bezimienne) spojrzał na dane z internetowej książki telefonicznej firmy i zbudował model prognostyczny oceny płac za pomocą znaków n-gramów z nazwisk. Najsilniejszym predyktorem było to, że ez_ wskazał niższą ocenę płac, co, jak sądzę, nie zachęcało go do rozmowy o ...
źródło
Prawdopodobnie możesz dowiedzieć się:
Co oznacza, że nigdy nie powinieneś nigdy używać niczego z powyższej listy do swoich haseł, tajnych pytań itp.
źródło
Darden i Robinson (1976) próbowali znaleźć strukturę językową, która kieruje skojarzeniami ludzi na temat imion mężczyzn. Poprosili dwie grupy podmiotów (studentów socjologii i oficerów marynarki wojennej), aby ocenili zestaw popularnych amerykańskich nazwisk według różnic semantycznych, takich jak twarde, twarde, szlachetne i miejsko-wiejskie. Poprosili także o ocenę podobieństwa między różnymi parami nazw, a w ramach walidacji skorelowali średnie z różnic semantycznych z wymiarami, które znaleźli, zarówno w trzech, jak i czterech rozwiązaniach D, stosując procedurę TORSCA MDS.
Autorzy odkryli, że ich trójwymiarowe rozwiązanie z grubsza odpowiada klasycznemu trio Osgood, które obejmuje aktywację, ocenę i siłę działania. W czterech wymiarach przestrzeń nieco lepiej pasuje do danych, a tutaj zinterpretowali strukturę jako zależną od „charakteru”, „dojrzałości”, „towarzyskości” i „męskości”, chociaż te skale nie wydają się tak dobrze zdefiniowane jak autorzy sugerowali. Zaskakującym odkryciem wynikającym z badania było to, że przynajmniej dla tych dwóch małych próbek (n = 83 i 21) nie pojawił się żaden wymiar, który odpowiadałby rozróżnieniu między danym imieniem a pseudonimem.
Darden, DK i Robinson, IE (1976). Wielowymiarowe skalowanie imion męskich: podejście socjolingwistyczne. Sociometry, 39 , 4, 422-431.
źródło
Ilość informacji, które można znaleźć, jest bardzo różna, od rasy i płci po różnego rodzaju dane osobowe. Najlepszym sposobem na uzyskanie informacji byłyby portale społecznościowe, takie jak Facebook, ponieważ zazwyczaj zawierają one więcej informacji niż bazy danych cencus.
źródło
Istnieje dość szeroki zakres informacji, które można uzyskać w zależności od używanych źródeł. Dane spisowe są oczywiste. Możesz także uzyskać informacje z Facebooka, MySpace i innych serwisów społecznościowych. Prawdopodobnie możesz również przeszukiwać publiczne archiwa informacyjne, by znaleźć wzmianki o ich nazwach. Być może nawet te witryny nieruchomości, które istnieją w niektórych stanach.
Jeśli chcesz zobaczyć przykład tego, co można zrobić w świecie rzeczywistym, zajrzyj na pipl.com
źródło
Możesz szukać dyplomów, prawa jazdy, danych policyjnych (czy to właściwe tłumaczenie?). Na Facebooku możesz znaleźć informacje o hobby, sporcie, ulubionej muzyce. Możesz także poszukać odsetka użytkowników mediów społecznościowych o danym nazwisku. (Byłbym zainteresowany tymi wynikami)
źródło
Nie zapomnij wyników Scrabble, np. Funkcja Scrabble Wolfram Alpha
źródło
Jeśli wiesz coś o lokalizacji osoby, jednym źródłem informacji są bazy danych rejestrujących wyborców. Dostępnych jest wiele baz danych rejestrujących wyborców (za opłatą; są firmy, które je wykupują i zapewniają dostęp do zapytań online za opłatą). Baza danych rejestrujących wyborców może zawierać adres osoby i / lub datę urodzenia. Informacje te mogą umożliwić wyszukiwanie osoby w innych bazach danych.
Istnieją jednak ograniczenia dotyczące tego, jak bardzo to pomaga. Może to być pomocne, jeśli znasz miasto lub powiat, w którym mieszka dana osoba, a jej nazwa jest dość nietypowa. Ale jeśli jest to pospolita nazwa lub jeśli nie wiesz, gdzie mieszkają, prawdopodobnie nie pomoże ci to.
źródło
jednym z największych źródeł publicznie dostępnych danych, w tym wielu innych przydatnych atrybutów, jest biuro urzędników hrabstwa ds. rejestrów własności nieruchomości. problem dotyczy zebrania wszystkich danych razem ... niektóre stany zapewniają centralną bazę danych, a inne nie.
źródło
Obecność środkowych inicjałów jest już dość interesująca i może nam powiedzieć coś o pochodzeniu etnicznym. http://blog.scraperwiki.com/2012/06/15/middle-names-in-the-united-states-over-time/
źródło