Jak zrzucić MediaWiki do użytku offline?

16

Chciałbym móc cotygodniowo tworzyć wersję offline witryny MediaWiki.

DumpHTML przedłużenie faktycznie robi to, co chcę, jak to zrzuca wszystkie artykuły i pliki multimedialne, ale nie widzę żadnych spis wszystkich artykułów to już po cenach dumpingowych, więc nie mogę poruszać się w wysypisko.

Czytając o funkcji zrzutu XML, którą posiada MediaWiki, zastanawiam się, czy byłoby możliwe użycie programu do przeglądania tych plików, a może ich konwersja do HTML?

Czy są też inne sposoby na stworzenie wersji offline witryny MediaWiki?

Sandra Schlichting
źródło
Czy naprawdę potrzebujesz indeksu? Po prostu zacznij od Main Pagei podążaj za linkami stamtąd.
Ilmari Karonen,
Oto instrukcje Cam Webb dotyczące tworzenia statycznej wersji strony MediaWiki. Oto moje , na wypadek, gdyby komukolwiek pomogły. Oba dają linki do wyniku statycznego ( tutaj moje ).
Michael Allan

Odpowiedzi:

8

Możesz użyć narzędzia webcrawler, które zapisze stronę jako pliki HTML. Wszystkie linki zostaną przekonwertowane, więc możesz otworzyć stronę główną, powiedzmy, a następnie kliknąć linki i przejść do całej witryny.

Dostępnych jest wiele takich narzędzi. Używam wget , który jest oparty na linii poleceń i ma tysiące opcji, więc nie jest zbyt przyjazny. Jest jednak dość potężny.

Na przykład tutaj jest wiersz poleceń, którego użyłem do zrzucenia własnej strony mediawiki. Proponuję jednak zrozumieć każdą opcję przed samodzielnym użyciem:

"c:\program files\wget\wget" -k -p -r -R '*Special*' -R '*Help*' -E http://example.com/wiki
paulmorriss
źródło
10

Możesz pobrać -pages-articles.xml.bz2ze strony ze zrzutami Wikimedia i przetworzyć je za pomocą WikiTaxi (pobierz w lewym górnym rogu). Narzędzie do importowania Wikitaxi utworzy plik .taxi(około 15 GB dla Wikipedii) z .bz2pliku. Plik ten zostanie wykorzystany przez program WikiTaxi do wyszukiwania artykułów. Działanie jest bardzo podobne do działania przeglądarki.

Lub możesz użyć Kiwix , szybszego w konfiguracji, ponieważ zapewnia on również przetworzone zrzuty ( .zimpliki). Jak podano w komentarzu w celu przejęcia innych witryn MediaWiki dla kiwix mwoffliner, może nie działać ze wszystkimi, ponieważ mogą mieć niestandardowe różnice, ale jest to jedyny wariant, z którym się spotkałem.

Używanie materiałów Wikimedia wgetnie jest dobrą praktyką. Jeśli zrobi to zbyt wiele osób, może to zalać witryny żądaniami.


Później edytuj skrzynię, aby zdjęcia były także offline:

Projekt XOWA

Jeśli chcesz mieć kompletne lustro Wikipedii (w tym obrazy) nienaruszone pełne formatowanie HTML, które będzie pobierane za około 30 godzin , powinieneś użyć:

Angielska Wikipedia ma wiele danych. Istnieje ponad 13,9 miliona stron z ponad 20,0 GB tekstu, a także ponad 3,7 miliona miniatur.

XOWA :

Konfiguracja tego wszystkiego na komputerze nie będzie szybkim procesem ... Sam import będzie wymagał 80 GB miejsca na dysku i pięciu godzin czasu przetwarzania dla wersji tekstowej. Jeśli chcesz również obrazy, liczby zwiększą się do 100 GB miejsca na dysku i 30 godzin czasu przetwarzania. Jednak gdy skończysz, będziesz mieć kompletną, najnowszą kopię angielskiej Wikipedii ze zdjęciami, które mogą zmieścić się na karcie SD o pojemności 128 GB.

Ale wersja offline jest bardzo podobna do wersji online, zawiera zdjęcia itp .: (Testowałem poniższy artykuł całkowicie offline) wprowadź opis zdjęcia tutaj


Później edytuj, jeśli żadne z powyższych nie ma zastosowania

Jeśli wiki nie jest częścią Wikimedia lub nie ma zrzutu, na github istnieje projekt, który pobiera tę wiki za pomocą swojego API:

WikiTeam - archiwizujemy wiki, od Wikipedii do najmniejszych wiki

Eduard Florinescu
źródło
1
W przypadku zrzucenia niestandardowej instalacji mediawiki, XOWA jest w stanie to zrobić (mogą wystąpić pewne problemy), po zapoznaniu się z artykułem xowa.org/home/wiki/App/Wiki_types/Wikia.com jest bardzo przydatny. Użycie Kiwix z niestandardowymi wiki jest jeszcze testowane (należy najpierw zrzucić wiki z github.com/kiwix/mwoffliner lub innym narzędziem)
schody ruchome