Jak parsować HTML / XML i wyciągać z niego
Analiza HTML to proces polegający na przeprowadzaniu serializacji dokumentu HTML i tworzeniu reprezentacji, z którą można pracować programowo - np. W celu wyodrębnienia z niego danych. Specyfikacja HTML definiuje standardowy algorytm parsowania HTML, który jest zaimplementowany we wszystkich głównych przeglądarkach.
Jak parsować HTML / XML i wyciągać z niego
Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby koncentrowało się na jednym problemie, edytując ten post . Zamknięte 6 lat temu . Zastanawiam się nad...
Szukałem rozwiązania, ale nic nie było istotne, więc oto mój problem: Chcę przeanalizować ciąg zawierający tekst HTML. Chcę to zrobić w JavaScript. Wypróbowałem tę bibliotekę, ale wygląda na to, że analizuje ona HTML mojej bieżącej strony, a nie ciąg znaków. Ponieważ kiedy wypróbuję poniższy kod,...
Wydaje się, że każde pytanie w przepełnieniu stosu, w którym pytający używa wyrażenia regularnego w celu pobrania informacji z HTML, nieuchronnie będzie miało „odpowiedź”, która mówi, aby nie używać wyrażenia regularnego do analizowania HTML. Dlaczego nie? Wiem, że istnieją „prawdziwe” parsery...
W obecnej formie to pytanie nie pasuje do naszego formatu pytań i odpowiedzi. Oczekujemy, że odpowiedzi poparte będą faktami, referencjami lub wiedzą fachową, ale to pytanie prawdopodobnie będzie wymagało debaty, argumentów, ankiet lub rozszerzonej dyskusji. Jeśli uważasz, że to...
Szukam modułu parsera HTML dla Pythona, który może pomóc mi uzyskać tagi w postaci list / słowników / obiektów Pythona. Jeśli mam dokument w formie: <html> <head>Heading</head> <body attr1='val1'> <div class='container'> <div id='class'>Something...
Jaki jest najlepszy sposób zaznaczenia całego tekstu między dwoma tagami - np. Tekst między wszystkimi tagami „przed” na
Codziennie widzę pytania pytające, jak przeanalizować lub wyodrębnić coś z jakiegoś ciągu HTML, a pierwsza odpowiedź / komentarz zawsze brzmi: „Nie używaj RegEx do analizowania HTML, żebyś nie poczuł gniewu!” (ta ostatnia część jest czasami pomijana). Jest to dla mnie dość mylące, zawsze...
Muszę przeanalizować (po stronie serwera) duże ilości stron HTML. Wszyscy zgadzamy się, że regexp nie jest właściwą drogą. Wydaje mi się, że javascript jest natywnym sposobem parsowania strony HTML, ale założenie to opiera się na kodzie po stronie serwera, który ma wszystkie możliwości DOM,...
Mam plik, który wygląda mniej więcej tak: <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="content_analyzer2" primary-key="id"> <type="global" /> </table> <table name="content_analyzer_items"...
Tagi mogą mieć wiele atrybutów. Kolejność, w jakiej atrybuty pojawiają się w kodzie, nie ma znaczenia. Na przykład: <a href="#" title="#"> <a title="#" href="#"> Jak mogę „znormalizować” kod HTML w JavaScript, aby kolejność atrybutów była zawsze taka sama? Nie obchodzi mnie, która...