Pozyskiwanie danych z LinkedIn

11

Niedawno odkryłem nowy pakiet R do łączenia się z interfejsem API LinkedIn. Niestety interfejs API LinkedIn wydaje się dość ograniczony; na przykład można uzyskać tylko podstawowe dane o firmach, które są oddzielone od danych dotyczących osób fizycznych. Chciałbym uzyskać dane o wszystkich pracownikach danej firmy, co można zrobić ręcznie w witrynie, ale nie jest to możliwe za pośrednictwem interfejsu API.

import.io byłby idealny, gdyby rozpoznał podział na LinkedIn (patrz koniec strony).

Czy ktoś zna jakieś narzędzia lub techniki skrobania sieci mające zastosowanie do bieżącego formatu strony LinkedIn lub sposoby gięcia API w celu przeprowadzenia bardziej elastycznej analizy? Najlepiej w wersji R lub internetowej, ale z pewnością otwarta na inne podejścia.

Christopherlovell
źródło
2
Pozyskiwanie danych z sieci LinkedIn jest niezgodne z warunkami korzystania z usługi. Zobacz LinkedIn „DO” i „NIE” - NIE: „Używaj ręcznego lub zautomatyzowanego oprogramowania, urządzeń, skryptów robotów, innych środków lub procesów w celu uzyskania dostępu,„ zeskrobania ”,„ przeszukiwania ”lub„ pająka ”Usług lub dowolnego innego powiązane dane lub informacje; ”
Brian Spiering

Odpowiedzi:

3

Scrapy to świetna biblioteka Python, która pomaga szybciej zgarniać różne witryny i poprawiać strukturę kodu. Nie wszystkie witryny można analizować za pomocą klasycznych narzędzi, ponieważ mogą one korzystać z dynamicznego budowania treści JS. Do tego zadania lepiej jest użyć Selenium (jest to platforma testowa dla stron internetowych, ale także świetne narzędzie do skrobania stron internetowych). Dla tej biblioteki dostępne jest również opakowanie Pythona . W Google możesz znaleźć kilka sztuczek, które mogą pomóc Ci w użyciu Selenu w Scrapy i uczynić kod przejrzystym, uporządkowanym, a także możesz użyć świetnych narzędzi do Scrapy biblioteki .

Myślę, że Selenium byłby lepszym skrobakiem dla Linkedin niż klasyczne narzędzia. Istnieje wiele javascript i dynamicznych treści. Ponadto, jeśli chcesz dokonać uwierzytelnienia na swoim koncie i zeskrobać całą dostępną zawartość, będziesz mieć wiele problemów z klasycznym uwierzytelnianiem za pomocą prostych bibliotek, takich jak żądania lub urllib .

itdxer
źródło
1

Lubię rvest w połączeniu z chromowaną wtyczką SelectorGadget do wybierania odpowiednich sekcji.

Użyłem Rvest i zbudowałem małe skrypty do stronicowania na forach przez:

  1. Poszukaj obiektu „Page n Of m”
  2. Wyciąg m
  3. Na podstawie struktury strony utwórz listę łączy od 1 do m (np. Www.sample.com/strona1)
  4. Iteruj skrobak po pełnej liście linków
Rglish
źródło
0

Wybrałbym też piękną zupę, jeśli znasz Python. Jeśli wolisz kodować javascript / JQuery (i znasz węzeł.js), możesz chcieć pobrać CoffeeScript (sprawdź samouczek ) Już kilkakrotnie z powodzeniem korzystałem z niego do skrobania stron internetowych.

Hannes
źródło
0

lxml to przyjemna biblioteka do złomowania stron internetowych w Pythonie. Piękna zupa to opakowanie na lxml. Tak więc lxml jest szybszy niż złom i piękna zupa i ma znacznie łatwiejszą krzywą uczenia się.

To jest przykład skrobaka, który zbudowałem z nim do osobistego projektu, który może iterować po stronach internetowych.

Dawny33
źródło
0

BeautifulSoup nie działa na LinkedIn. Scrappy narusza zasady. Octoparse jest tylko dla Windows. Czy jest inny sposób? Chcę wyodrębnić dane podobnych osób dla konta danej osoby. Proszę pomóż!

Chinmay Joshi
źródło
1
Prześlij to jako komentarz lub zadaj nowe pytanie
christopherlovell
To ważna informacja, ale proszę usunąć zawarte w niej pytanie, jeśli ma to być odpowiedź.
Pithikos,