Chciałbym móc cotygodniowo tworzyć wersję offline witryny MediaWiki.
DumpHTML przedłużenie faktycznie robi to, co chcę, jak to zrzuca wszystkie artykuły i pliki multimedialne, ale nie widzę żadnych spis wszystkich artykułów to już po cenach dumpingowych, więc nie mogę poruszać się w wysypisko.
Czytając o funkcji zrzutu XML, którą posiada MediaWiki, zastanawiam się, czy byłoby możliwe użycie programu do przeglądania tych plików, a może ich konwersja do HTML?
Czy są też inne sposoby na stworzenie wersji offline witryny MediaWiki?
Main Page
i podążaj za linkami stamtąd.Odpowiedzi:
Możesz użyć narzędzia webcrawler, które zapisze stronę jako pliki HTML. Wszystkie linki zostaną przekonwertowane, więc możesz otworzyć stronę główną, powiedzmy, a następnie kliknąć linki i przejść do całej witryny.
Dostępnych jest wiele takich narzędzi. Używam wget , który jest oparty na linii poleceń i ma tysiące opcji, więc nie jest zbyt przyjazny. Jest jednak dość potężny.
Na przykład tutaj jest wiersz poleceń, którego użyłem do zrzucenia własnej strony mediawiki. Proponuję jednak zrozumieć każdą opcję przed samodzielnym użyciem:
źródło
Możesz pobrać
-pages-articles.xml.bz2
ze strony ze zrzutami Wikimedia i przetworzyć je za pomocą WikiTaxi (pobierz w lewym górnym rogu). Narzędzie do importowania Wikitaxi utworzy plik.taxi
(około 15 GB dla Wikipedii) z.bz2
pliku. Plik ten zostanie wykorzystany przez program WikiTaxi do wyszukiwania artykułów. Działanie jest bardzo podobne do działania przeglądarki.Lub możesz użyć Kiwix , szybszego w konfiguracji, ponieważ zapewnia on również przetworzone zrzuty (
.zim
pliki). Jak podano w komentarzu w celu przejęcia innych witryn MediaWiki dla kiwixmwoffliner
, może nie działać ze wszystkimi, ponieważ mogą mieć niestandardowe różnice, ale jest to jedyny wariant, z którym się spotkałem.Używanie materiałów Wikimedia
wget
nie jest dobrą praktyką. Jeśli zrobi to zbyt wiele osób, może to zalać witryny żądaniami.Później edytuj skrzynię, aby zdjęcia były także offline:
Projekt XOWA
Jeśli chcesz mieć kompletne lustro Wikipedii (w tym obrazy) nienaruszone pełne formatowanie HTML, które będzie pobierane za około 30 godzin , powinieneś użyć:
Angielska Wikipedia ma wiele danych. Istnieje ponad 13,9 miliona stron z ponad 20,0 GB tekstu, a także ponad 3,7 miliona miniatur.
XOWA :
Ale wersja offline jest bardzo podobna do wersji online, zawiera zdjęcia itp .: (Testowałem poniższy artykuł całkowicie offline)
Później edytuj, jeśli żadne z powyższych nie ma zastosowania
Jeśli wiki nie jest częścią Wikimedia lub nie ma zrzutu, na github istnieje projekt, który pobiera tę wiki za pomocą swojego API:
WikiTeam - archiwizujemy wiki, od Wikipedii do najmniejszych wiki
źródło