Niedawno odkryłem nowy pakiet R do łączenia się z interfejsem API LinkedIn. Niestety interfejs API LinkedIn wydaje się dość ograniczony; na przykład można uzyskać tylko podstawowe dane o firmach, które są oddzielone od danych dotyczących osób fizycznych. Chciałbym uzyskać dane o wszystkich pracownikach danej firmy, co można zrobić ręcznie w witrynie, ale nie jest to możliwe za pośrednictwem interfejsu API.
import.io byłby idealny, gdyby rozpoznał podział na LinkedIn (patrz koniec strony).
Czy ktoś zna jakieś narzędzia lub techniki skrobania sieci mające zastosowanie do bieżącego formatu strony LinkedIn lub sposoby gięcia API w celu przeprowadzenia bardziej elastycznej analizy? Najlepiej w wersji R lub internetowej, ale z pewnością otwarta na inne podejścia.
źródło
Odpowiedzi:
Piękna Zupa jest specjalnie zaprojektowana do indeksowania i skrobania stron internetowych, ale jest napisana dla Pythona, a nie R:
http://www.crummy.com/software/BeautifulSoup/bs4/doc/
źródło
Scrapy to świetna biblioteka Python, która pomaga szybciej zgarniać różne witryny i poprawiać strukturę kodu. Nie wszystkie witryny można analizować za pomocą klasycznych narzędzi, ponieważ mogą one korzystać z dynamicznego budowania treści JS. Do tego zadania lepiej jest użyć Selenium (jest to platforma testowa dla stron internetowych, ale także świetne narzędzie do skrobania stron internetowych). Dla tej biblioteki dostępne jest również opakowanie Pythona . W Google możesz znaleźć kilka sztuczek, które mogą pomóc Ci w użyciu Selenu w Scrapy i uczynić kod przejrzystym, uporządkowanym, a także możesz użyć świetnych narzędzi do Scrapy biblioteki .
Myślę, że Selenium byłby lepszym skrobakiem dla Linkedin niż klasyczne narzędzia. Istnieje wiele javascript i dynamicznych treści. Ponadto, jeśli chcesz dokonać uwierzytelnienia na swoim koncie i zeskrobać całą dostępną zawartość, będziesz mieć wiele problemów z klasycznym uwierzytelnianiem za pomocą prostych bibliotek, takich jak żądania lub urllib .
źródło
Lubię rvest w połączeniu z chromowaną wtyczką SelectorGadget do wybierania odpowiednich sekcji.
Użyłem Rvest i zbudowałem małe skrypty do stronicowania na forach przez:
źródło
Wybrałbym też piękną zupę, jeśli znasz Python. Jeśli wolisz kodować javascript / JQuery (i znasz węzeł.js), możesz chcieć pobrać CoffeeScript (sprawdź samouczek ) Już kilkakrotnie z powodzeniem korzystałem z niego do skrobania stron internetowych.
źródło
lxml to przyjemna biblioteka do złomowania stron internetowych w Pythonie. Piękna zupa to opakowanie na lxml. Tak więc lxml jest szybszy niż złom i piękna zupa i ma znacznie łatwiejszą krzywą uczenia się.
To jest przykład skrobaka, który zbudowałem z nim do osobistego projektu, który może iterować po stronach internetowych.
źródło
BeautifulSoup nie działa na LinkedIn. Scrappy narusza zasady. Octoparse jest tylko dla Windows. Czy jest inny sposób? Chcę wyodrębnić dane podobnych osób dla konta danej osoby. Proszę pomóż!
źródło
Tutaj dzielę się swoim doświadczeniem.
Octoparse to świetne darmowe narzędzie do skrobania stron internetowych . Użyłem go do zeskrobania danych Linkedin, a tutaj jest szczegółowy samouczek wideo, aby wyodrębnić dane z Linkedin .
źródło