Publicznie dostępne zestawy danych / interfejsy API sieci społecznościowych

26

Jako rozszerzenie naszej wspaniałej listy publicznie dostępnych zestawów danych , chciałbym wiedzieć, czy istnieje jakakolwiek lista publicznie dostępnych zestawów danych / indeksujących interfejsów API sieci społecznościowej. Byłoby bardzo miło, gdyby oprócz linku do zestawu danych / API dodano cechy dostępnych danych. Takimi informacjami powinny być i nie są ograniczone do:

  • nazwa sieci społecznościowej;
  • jaki rodzaj informacji użytkownika dostarcza (posty, profil, sieć przyjaźni, ...);
  • czy pozwala na indeksowanie treści za pośrednictwem interfejsu API (i szybkość: 10 / min, 1k / miesiąc, ...);
  • czy po prostu zapewnia migawkę całego zestawu danych.

Wszelkie sugestie i dalsze cechy, które należy dodać, są bardzo mile widziane.

Rubens
źródło

Odpowiedzi:

20

Kilka słów o interfejsach API sieci społecznościowych. Około rok temu napisałem recenzję interfejsów API popularnych sieci społecznościowych dla badaczy. Niestety jest po rosyjsku. Oto podsumowanie:

Twitter ( https://dev.twitter.com/docs/api/1.1 )

  • dostępne są prawie wszystkie dane o tweetach / tekstach i użytkownikach;
  • brak danych socjodemograficznych;
  • świetny streaming API: przydatny do przetwarzania tekstu w czasie rzeczywistym;
  • wiele opakowań dla języków programowania;
  • uzyskanie struktury sieci (połączeń) jest możliwe, ale czasochłonne (1 żądanie na 1 minutę).

Facebook ( https://developers.facebook.com/docs/reference/api/ )

  • limity stawek: około 1 żądanie na sekundę;
  • dobrze udokumentowane, piaskownica obecna;
  • FQL (podobny do SQL) i graficzny interfejs API „regular Rest”;
  • obecne dane o przyjaźni i cechy socjodemograficzne;
  • wiele danych jest poza horyzontem zdarzeń : tylko dane znajomych i znajomych znajomych są mniej lub bardziej kompletne, prawie nic nie można było zbadać na temat losowego użytkownika;
  • niektóre dziwne błędy API i wygląda na to, że nikt się tym nie przejmuje (np. niektóre funkcje dostępne przez FQL, ale nie przez synonim Graph API).

Instagram ( http://instagram.com/developer/ )

  • limity stawek: 5000 wniosków na godzinę;
  • API czasu rzeczywistego (jak Streaming API dla Twittera, ale ze zdjęciami) - połączenie z nim jest trochę skomplikowane: używane są połączenia zwrotne;
  • brak danych socjodemograficznych;
  • zdjęcia, dostępne filtry danych;
  • nieoczekiwane niedoskonałości (np. możliwe jest zebranie tylko 150 komentarzy do posta / zdjęcia).

Foursquare ( https://developer.foursquare.com/overview/ )

  • limity stawek: 5000 wniosków na godzinę;
  • królestwo danych geosocjalnych :)
  • dość zamknięte z powodu problemów związanych z prywatnością. Aby zebrać dane do zameldowania, należy zbudować złożony parser współpracujący z interfejsami API 4sq, bit.ly i twitter;
  • ponownie: brak danych socjodemograficznych.

Google+ ( https://developers.google.com/+/api/latest/ )

  • około 5 żądań na sekundę (spróbuj zweryfikować);
  • główne metody: działania i ludzie;
  • podobnie jak na Facebooku, wiele danych osobowych przypadkowego użytkownika jest ukrytych;
  • brak danych połączeń użytkownika.

I poza konkursem: sprawdziłem sieci społecznościowe dla rosyjskich czytelników, a sieć nr 1 tutaj to vk.com . Jest przetłumaczony na wiele języków, ale popularny tylko w Rosji i innych krajach WNP. Link do dokumentacji API: http://vk.com/dev/ . I z mojego punktu widzenia jest to najlepszy wybór do badań domowych mediów społecznościowych. Przynajmniej w Rosji. Dlatego:

  • limity stawek: 3 wnioski na sekundę;
  • dostępny tekst publiczny i dane medialne;
  • dostępne dane socjodemograficzne: dla losowego poziomu dostępności użytkownika wynosi około 60-70%;
  • dostępne są również połączenia między użytkownikami: prawie wszystkie dane o przyjaźni dla przypadkowego użytkownika są dostępne;
  • niektóre specjalne metody: np. istnieje metoda uzyskania statusu online / offline dla konkretnego użytkownika w czasie rzeczywistym i można stworzyć harmonogram dla jego odbiorców.
sobach
źródło
1
Niesamowita wspaniałość! Tak naprawdę spodziewałem się, że coś takiego rozpłynie się w wielu odpowiedziach, a ty przyniosłeś całość: D Dzięki za odpowiedź. Dobra robota! :)
Rubens,
1
Pozostawiłem zakres LinkedIn, YouTube, Secret. Może inne sieci regionalne (QQ?). I chętnie uzyskamy wszelkie informacje na ich temat.
sobach
8

Nie jest to sieć społecznościowa, ale Stackexchange publikuje okresowo zrzut całej bazy danych:

Możesz wyodrębnić niektóre informacje społecznościowe, analizując, którzy użytkownicy pytają się i odpowiadają sobie nawzajem. Jedną fajną rzeczą jest to, że ponieważ posty są otagowane, możesz łatwo analizować społeczności podrzędne.

Małe stoły Bobby'ego
źródło
6

Dobra lista publicznie dostępnych zestawów danych sieci społecznościowych znajduje się na stronie Stanford Network Analysis Project:

Zestawy danych SNAP

Strona zawiera dane z internetowych sieci społecznościowych (Facebook, Twitter, Google Plus), sieci cytowań dla czasopism akademickich, sieci kupujących od Amazon i kilka innych sieci. Kierują, przekierowują i dwustronne wykresy, a wszystkie zestawy danych są migawkami, które można pobrać w postaci skompresowanej.

Ben
źródło
5

Przykład z Niemiec: Xing strona podobna do linksin, ale ograniczona do krajów niemieckojęzycznych.

Link do centrali programistów: https://dev.xing.com/overview

Zapewnia dostęp do: profili użytkowników, rozmów między użytkownikami (ograniczone do samego użytkownika), ogłoszeń o pracę, kontaktów i kontaktów kontaktów, wiadomości z sieci i niektórych interfejsów geolokalizacyjnych.

Tak, ma interfejs API, ale nie znalazłem informacji o stawce. Wydaje mi się jednak, że niektóre informacje są ograniczone do zgody użytkownika.

Christian Sauer
źródło
4

Network Repository ( http://networkrepository.com ) ma mnóstwo sieci społecznościowych, wykresów internetowych, sieci bio i mózgu itp. Co najlepsze, mają także interaktywne wizualne narzędzia analityczne do porównywania / odkrywania różnych sieci społecznościowych.

Stein
źródło
2

Mały zbiór takich linków można znaleźć tutaj . Wiele z nich to wykresy społecznościowe.

lgylym
źródło
Bardzo dziękuję za opublikowanie tego odniesienia, ale spodziewałem się, że odpowiedzi tutaj wskażą publicznie dostępny zestaw danych / interfejs API dla sieci społecznościowej, a także opisać, co zapewnia takie źródło (szybkość pobierania postów lub jaki rodzaj informacji o użytkownikach). Jak na twoją odpowiedź, myślę, że byłby bardzo mile widziany na liście dostępnych publicznie zestawów danych .
Rubens
0

Tekst tajski z różnych platform społecznościowych + etykiety nastrojów (pozytywne, neutralne, negatywne).

pakt
źródło