Ile informacji możesz wydobyć z imienia?

11

Imię: pierwsze, ewentualnie środkowe i nazwisko.

Jestem ciekawy, ile informacji możesz wydobyć z nazwy, używając publicznie dostępnych zestawów danych. Wiem, że możesz uzyskać następujące z dowolnym między niskim a wysokim prawdopodobieństwem (w zależności od danych wejściowych) przy użyciu danych ze spisu powszechnego w USA: 1) Płeć. 2) Wyścig.

Na przykład Facebook wykorzystał dokładnie to, aby z przyzwoitym poziomem dokładności ustalić rasową dystrybucję użytkowników ich witryny (https://www.facebook.com/note.php?note_id=205925658858).

Co jeszcze można wydobywać? Nie szukam niczego konkretnego, to bardzo otwarte pytanie, aby uspokoić moją ciekawość.

Moje przykłady są specyficzne dla Stanów Zjednoczonych, więc założymy, że imię i nazwisko osoby znajdującej się w USA; ale jeśli ktoś wie o publicznie dostępnych zestawach danych dla innych krajów, jestem dla nich więcej niż otwarty.

Nie jestem do końca pewien, czy jest to właściwe miejsce, jeśli tak nie jest, doceniłbym, gdyby ktoś mógł wskazać mi bardziej odpowiednie miejsce.

Mam nadzieję, że jest to interesujące pytanie i jest to właściwe miejsce!


źródło
2
przypuszczalnie mógłbyś również uzyskać informacje na temat położenia geograficznego, gdybyś mógł uzyskać odpowiednie pasujące dane? Możesz także użyć informacji o popularności imion w czasie (Google „kreator imienia dziecka”), aby
wyciągać
1
Połączyłem przeniesione pytanie z duplikatem.

Odpowiedzi:

12

To nie jest poważna odpowiedź, ale właśnie przypomniałem sobie coś z książki, którą przeczytałem rok temu. W Freakonomics jest rozdział poświęcony temu, co możesz powiedzieć o osobie z imienia. Rozdział oparty jest na pracy badawczej autora . Przyczyny i konsekwencje wyraźnie czarnych nazw

Myślę, że znalazłem fragment lub streszczenie tego w tym artykule

Dane pokazują, że średnio osoba o wyraźnie czarnym imieniu - bez względu na to, czy jest to kobieta o imieniu Imani, czy mężczyzna o imieniu DeShawn - ma gorsze wyniki życiowe niż kobieta o imieniu Molly lub mężczyzna o imieniu Jake. Ale to nie wina jego imienia. Gdyby dwaj czarni chłopcy, Jake Williams i DeShawn Williams, urodzili się w tej samej okolicy, w takich samych warunkach rodzinnych i ekonomicznych, prawdopodobnie mieliby podobne wyniki życiowe. Ale rodzice, którzy nazywają swojego syna Jake, nie mieszkają zwykle w tych samych dzielnicach ani nie dzielą się sytuacją ekonomiczną z rodzicami, którzy nazywają swojego syna DeShawna. I właśnie dlatego chłopiec o imieniu Jake będzie miał tendencję do zarabiania większych pieniędzy i zdobywania wykształcenia niż chłopiec o imieniu DeShawn. DeShawn ”


źródło
4

Z imienia należy przewidzieć region, wiek, status imigranta pierwszego pokolenia. Na podstawie nazwiska można było przewidzieć położenie geograficzne oryginalnego patronimu. Dla pełnego imienia i nazwiska można było przewidzieć status społeczny i ekonomiczny (Thurston Howell III).

fgregg
źródło
+1 tylko za pierwszą wzmiankę na tej stronie o postaci z Gilligan's Island.
rolando2
4

Aby dodać tutaj inne sugestie, jednym z największych źródeł danych rodzinnych jest mnóstwo witryn genealogicznych. Myślę, że większość ludzi z Zachodu jest prawdopodobnie wymieniana przez niektórych członków rodziny, odległych lub w niektórych przypadkach na niektórych z nich, a każda taka inkluzja zawiera zwykle obszerne drzewo genealogiczne, wraz z miejscami, szczegółami urodzenia itp. Bardzo pouczające.

Jeśli dopasujesz te dane do wykresów znajomych na Facebooku, ponieważ ludzie zwykle dodają rodzeństwo / kuzynów (i rodziców / dzieci czasami), następnie użyj danych lokalizacyjnych z rolami i katalogami wyborczymi, zwykle możesz wskazać ludzi, nawet o wspólnych nazwiskach, i uzyskaj na nich zaskakująco dużą ilość danych.


źródło
3

Ostatni rozdział Freakonomics (2005, Steven D. Levitt i Stephen J. Dubner) prowadzi fascynującą dyskusję na temat nazwisk, szczególnie w odniesieniu do statusu społeczno-ekonomicznego i rasy.

Mają listę imion, które mogą, ale nie muszą dobrze korelować z analizą nazwisk przez FB. Opisują także, w jaki sposób wybór nazwy zmienia się diachronicznie (w czasie).

Kto wie - nazwisko rodziców może być dokładniejsze niż to, co ludzie zgłaszają w spisie powszechnym.

rajah9
źródło
3

Powyżej masz wiele dobrych sugestii, więc wspomnę tylko o ciekawej anegdocie. Letni student (obecnie wybitny informatyk) w korporacyjnym laboratorium badawczym (które pozostanie bezimienne) spojrzał na dane z internetowej książki telefonicznej firmy i zbudował model prognostyczny oceny płac za pomocą znaków n-gramów z nazwisk. Najsilniejszym predyktorem było to, że ez_ wskazał niższą ocenę płac, co, jak sądzę, nie zachęcało go do rozmowy o ...

DavidDLewis
źródło
2

Prawdopodobnie możesz dowiedzieć się:

  1. Zawód i ewentualnie historia pracy, jeśli ktoś bierze udział w jakichkolwiek zawodowych dyskusjach (aktualną pracę zwykle można znaleźć w nazwie domeny w e-mailu lub podpisie, wyszukiwanie ujawniłoby również poprzednie)
  2. Krewni, jeśli ktoś utrzymuje profil w sieciach społecznościowych.
  3. Aktualna lokalizacja, przynajmniej do miasta.
  4. Pochodzenie etniczne, jeśli ktoś ma odrębne imię (np. Ktoś o nazwisku „Lubomir” jest prawdopodobnie związany z jednym ze słowiańskich krajów europejskich itp.).
  5. Data urodzenia z sieci społecznościowych - ludzie zwykle gratulują osobie w dniu jej urodzenia lub w jej pobliżu, a jeśli masz szczęście, dostaniesz również rok, w którym kończy się 25, 30, 35 itd., Ponieważ jedna z osób gratulujących prawdopodobnie wspomniałaby o tym jeśli nie dana osoba.
  6. Wykształcenie - z LinkedIn itp.
  7. Hobby, ulubione drużyny sportowe itp.
  8. Jeśli ktoś jest miłośnikiem zwierząt domowych, prawdopodobnie ma wszystkie swoje zwierzaki w sieciach społecznościowych.

Co oznacza, że nigdy nie powinieneś nigdy używać niczego z powyższej listy do swoich haseł, tajnych pytań itp.


źródło
A co z ludźmi o takich samych nazwach jak ty ... istnieje wiele „Dean Harding”, jeden z nich był nawet profesjonalnym piłkarzem! „DeanHarding” na Twitterze to nie ja, są setki „Dean Harding” na Facebooku itp. Itd.
Oczywiście zależy to od przypadku. Zazwyczaj można dowiedzieć się, który to zawód, miejsce itp., Chociaż widziałem przypadki, w których były 3 osoby o tym samym pełnym nazwisku, w tym samym zawodzie i mieszkające w przybliżeniu na tym samym obszarze. Potem oczywiście staje się trudniej :)
2

Darden i Robinson (1976) próbowali znaleźć strukturę językową, która kieruje skojarzeniami ludzi na temat imion mężczyzn. Poprosili dwie grupy podmiotów (studentów socjologii i oficerów marynarki wojennej), aby ocenili zestaw popularnych amerykańskich nazwisk według różnic semantycznych, takich jak twarde, twarde, szlachetne i miejsko-wiejskie. Poprosili także o ocenę podobieństwa między różnymi parami nazw, a w ramach walidacji skorelowali średnie z różnic semantycznych z wymiarami, które znaleźli, zarówno w trzech, jak i czterech rozwiązaniach D, stosując procedurę TORSCA MDS.

Autorzy odkryli, że ich trójwymiarowe rozwiązanie z grubsza odpowiada klasycznemu trio Osgood, które obejmuje aktywację, ocenę i siłę działania. W czterech wymiarach przestrzeń nieco lepiej pasuje do danych, a tutaj zinterpretowali strukturę jako zależną od „charakteru”, „dojrzałości”, „towarzyskości” i „męskości”, chociaż te skale nie wydają się tak dobrze zdefiniowane jak autorzy sugerowali. Zaskakującym odkryciem wynikającym z badania było to, że przynajmniej dla tych dwóch małych próbek (n = 83 i 21) nie pojawił się żaden wymiar, który odpowiadałby rozróżnieniu między danym imieniem a pseudonimem.

Darden, DK i Robinson, IE (1976). Wielowymiarowe skalowanie imion męskich: podejście socjolingwistyczne. Sociometry, 39 , 4, 422-431.

rolando2
źródło
1

Ilość informacji, które można znaleźć, jest bardzo różna, od rasy i płci po różnego rodzaju dane osobowe. Najlepszym sposobem na uzyskanie informacji byłyby portale społecznościowe, takie jak Facebook, ponieważ zazwyczaj zawierają one więcej informacji niż bazy danych cencus.


źródło
1

Istnieje dość szeroki zakres informacji, które można uzyskać w zależności od używanych źródeł. Dane spisowe są oczywiste. Możesz także uzyskać informacje z Facebooka, MySpace i innych serwisów społecznościowych. Prawdopodobnie możesz również przeszukiwać publiczne archiwa informacyjne, by znaleźć wzmianki o ich nazwach. Być może nawet te witryny nieruchomości, które istnieją w niektórych stanach.

Jeśli chcesz zobaczyć przykład tego, co można zrobić w świecie rzeczywistym, zajrzyj na pipl.com


źródło
Czy możesz nam powiedzieć, gdzie (w dowolnym miejscu na świecie) możemy znaleźć dane Spisu z nazwiskami ?
whuber
1

Możesz szukać dyplomów, prawa jazdy, danych policyjnych (czy to właściwe tłumaczenie?). Na Facebooku możesz znaleźć informacje o hobby, sporcie, ulubionej muzyce. Możesz także poszukać odsetka użytkowników mediów społecznościowych o danym nazwisku. (Byłbym zainteresowany tymi wynikami)

lcrmorin
źródło
0

Nie zapomnij wyników Scrabble, np. Funkcja Scrabble Wolfram Alpha

prototyp
źródło
1
Czy mógłbyś wyjaśnić, co to ma wspólnego z pytaniem oryginalnego plakatu?
DW
0

Jeśli wiesz coś o lokalizacji osoby, jednym źródłem informacji są bazy danych rejestrujących wyborców. Dostępnych jest wiele baz danych rejestrujących wyborców (za opłatą; są firmy, które je wykupują i zapewniają dostęp do zapytań online za opłatą). Baza danych rejestrujących wyborców może zawierać adres osoby i / lub datę urodzenia. Informacje te mogą umożliwić wyszukiwanie osoby w innych bazach danych.

Istnieją jednak ograniczenia dotyczące tego, jak bardzo to pomaga. Może to być pomocne, jeśli znasz miasto lub powiat, w którym mieszka dana osoba, a jej nazwa jest dość nietypowa. Ale jeśli jest to pospolita nazwa lub jeśli nie wiesz, gdzie mieszkają, prawdopodobnie nie pomoże ci to.

DW
źródło
0

jednym z największych źródeł publicznie dostępnych danych, w tym wielu innych przydatnych atrybutów, jest biuro urzędników hrabstwa ds. rejestrów własności nieruchomości. problem dotyczy zebrania wszystkich danych razem ... niektóre stany zapewniają centralną bazę danych, a inne nie.

NetConstructor.com
źródło