Pytania oznaczone «html-content-extraction»

406

Opcje skrobania HTML? [Zamknięte]

Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby koncentrowało się na jednym problemie, edytując ten post . Zamknięte 6 lat temu . Zastanawiam się nad...

243

Wyodrębnianie tekstu z pliku HTML za pomocą Pythona

Chciałbym wyodrębnić tekst z pliku HTML za pomocą Pythona. Chcę zasadniczo taki sam wynik, jaki uzyskałbym, gdy skopiowałem tekst z przeglądarki i wkleiłem go do notatnika. Chciałbym czegoś bardziej niezawodnego niż używanie wyrażeń regularnych, które mogą zawieść na źle sformatowanym HTML....

python html text html-content-extraction

130

Wyodrębnij część dopasowania wyrażenia regularnego

Chcę, aby wyrażenie regularne wyodrębniło tytuł ze strony HTML. Obecnie mam to: title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') Czy istnieje wyrażenie regularne do wyodrębniania...

python html regex html-content-extraction

125

BeautifulSoup Grab Widoczny tekst strony internetowej

Zasadniczo chcę używać BeautifulSoup do ścisłego przechwytywania widocznego tekstu na stronie internetowej. Na przykład ta strona internetowa jest moim przypadkiem testowym. I przede wszystkim chcę uzyskać tekst podstawowy (artykuł) i może nawet kilka nazw kart tu i tam. Wypróbowałem sugestię w tym...

python text beautifulsoup html-content-extraction