Jak zeskrobać tabele html za pomocą pakietu XML?
Weźmy na przykład tę stronę Wikipedii o brazylijskiej drużynie piłkarskiej . Chciałbym przeczytać to w R i otrzymać tabelę „Lista wszystkich meczów rozegranych przez Brazylię przeciwko drużynom uznanym przez FIFA” w postaci data.frame. W jaki sposób mogę to zrobić?
Odpowiedzi:
… Lub krótsza próba:
wybrany stół jest najdłuższy na stronie
źródło
Edytowano, aby dodać:
Przykładowe dane wyjściowe
źródło
Inna opcja wykorzystująca Xpath.
Daje ten wynik
źródło
rvest
Wraz zxml2
to kolejny popularny pakiet do parsowania HTML stron internetowych.Składnia jest łatwiejsza w użyciu niż
xml
pakiet, a dla większości stron internetowych pakiet zawiera wszystkie potrzebne opcje.źródło