Pytania oznaczone «html-parsing»

Analiza HTML to proces polegający na przeprowadzaniu serializacji dokumentu HTML i tworzeniu reprezentacji, z którą można pracować programowo - np. W celu wyodrębnienia z niego danych. Specyfikacja HTML definiuje standardowy algorytm parsowania HTML, który jest zaimplementowany we wszystkich głównych przeglądarkach.

2120

Jak parsujesz i przetwarzasz HTML / XML w PHP?

Jak parsować HTML / XML i wyciągać z niego

406

Opcje skrobania HTML? [Zamknięte]

Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby koncentrowało się na jednym problemie, edytując ten post . Zamknięte 6 lat temu . Zastanawiam się nad...

html web-scraping html-parsing html-content-extraction

258

Analizuj ciąg HTML za pomocą JS

Szukałem rozwiązania, ale nic nie było istotne, więc oto mój problem: Chcę przeanalizować ciąg zawierający tekst HTML. Chcę to zrobić w JavaScript. Wypróbowałem tę bibliotekę, ale wygląda na to, że analizuje ona HTML mojej bieżącej strony, a nie ciąg znaków. Ponieważ kiedy wypróbuję poniższy kod,...

javascript html dom html-parsing

207

Używanie wyrażeń regularnych do analizowania HTML: dlaczego nie?

Wydaje się, że każde pytanie w przepełnieniu stosu, w którym pytający używa wyrażenia regularnego w celu pobrania informacji z HTML, nieuchronnie będzie miało „odpowiedź”, która mówi, aby nie używać wyrażenia regularnego do analizowania HTML. Dlaczego nie? Wiem, że istnieją „prawdziwe” parsery...

regex html-parsing

194

Który parser HTML jest najlepszy? [Zamknięte]

W obecnej formie to pytanie nie pasuje do naszego formatu pytań i odpowiedzi. Oczekujemy, że odpowiedzi poparte będą faktami, referencjami lub wiedzą fachową, ale to pytanie prawdopodobnie będzie wymagało debaty, argumentów, ankiet lub rozszerzonej dyskusji. Jeśli uważasz, że to...

java html parsing html-parsing web-scraping

185

Analizowanie HTML za pomocą Pythona

Szukam modułu parsera HTML dla Pythona, który może pomóc mi uzyskać tagi w postaci list / słowników / obiektów Pythona. Jeśli mam dokument w formie: <html> <head>Heading</head> <body attr1='val1'> <div class='container'> <div id='class'>Something...

python xml-parsing html-parsing

143

Regex zaznacz cały tekst między tagami

Jaki jest najlepszy sposób zaznaczenia całego tekstu między dwoma tagami - np. Tekst między wszystkimi tagami „przed” na

html regex html-parsing

Jak działają analizy HTML, jeśli nie używają wyrażenia regularnego?

Codziennie widzę pytania pytające, jak przeanalizować lub wyodrębnić coś z jakiegoś ciągu HTML, a pierwsza odpowiedź / komentarz zawsze brzmi: „Nie używaj RegEx do analizowania HTML, żebyś nie poczuł gniewu!” (ta ostatnia część jest czasami pomijana). Jest to dla mnie dość mylące, zawsze...

html regex parsing html-parsing

Jak przeanalizować stronę HTML za pomocą Node.js.

Muszę przeanalizować (po stronie serwera) duże ilości stron HTML. Wszyscy zgadzamy się, że regexp nie jest właściwą drogą. Wydaje mi się, że javascript jest natywnym sposobem parsowania strony HTML, ale założenie to opiera się na kodzie po stronie serwera, który ma wszystkie możliwości DOM,...

node.js html-parsing server-side

Jak wyodrębnić ciąg następujący po wzorcu za pomocą grep, regex lub perl

Mam plik, który wygląda mniej więcej tak: <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="content_analyzer2" primary-key="id"> <type="global" /> </table> <table name="content_analyzer_items"...

regex perl sed html-parsing text-extraction

Jak znormalizować HTML w JavaScript lub jQuery?

Tagi mogą mieć wiele atrybutów. Kolejność, w jakiej atrybuty pojawiają się w kodzie, nie ma znaczenia. Na przykład: <a href="#" title="#"> <a title="#" href="#"> Jak mogę „znormalizować” kod HTML w JavaScript, aby kolejność atrybutów była zawsze taka sama? Nie obchodzi mnie, która...

javascript jquery html html-parsing