„View Source” - odpowiednik dla dokumentów Word?

11

Czasami dokumenty programu Word wydają się mniej lub bardziej zepsute, zwykle gdy układ staje się dość skomplikowany, a dokument zmieniał kilka razy ręce i / lub wersje. Objawami może być to, że nic nie dzieje się po naciśnięciu klawisza Backspacelub Enterw określonym miejscu dokumentu, w którym naprawdę powinien działać, lub że formatowanie wydaje się obowiązywać i resetować mniej więcej losowo. Myślę, że wszyscy tam byliśmy.

Często trudno jest dokładnie wiedzieć, co jest nie tak, ponieważ to, co dzieje się pod maską w programie Word, jest dość nieprzejrzyste. Możesz mieć dokument, który wygląda na pusty, ale w rzeczywistości stan podstawowy dotyczący formatowania itp. Może być dość złożony.

W takich przypadkach przydatne byłoby zajrzenie do kodu źródłowego za tym, co pokazano na stronie; jak w przeglądarce możesz zrobić View Source , a najlepiej móc edytować bezpośrednio w kodzie źródłowym, tak jak robiłbyś to podczas korzystania z Latex. Czy istnieje polecenie Wyświetl źródło lub narzędzie do dokumentów Microsoft Word?

Domyślam się, że nie ma takiego polecenia, inaczej bym o nim słyszał. Jeśli tak jest, czy ktoś ma jakieś dobre podejście, jeśli chodzi o opanowanie irytującego „ukrytego formatowania” w dokumencie Word ?

Podejrzewam, że mogą istnieć pewne różnice w formatach .doc i .docx; Jestem zainteresowany w obu przypadkach.

Godsmith
źródło

Odpowiedzi:

11

Jeśli formatowanie jest tym, co przede wszystkim Cię interesuje, Word ma dobrą wiedzę do sprawdzania wszystkich typów formatowania stosowanego do tekstu i obiektów o nazwie Formatowanie ujawnienia . W programach Word 2007 i 2010 skrót do tego panelu to Shift+ F1.

wprowadź opis zdjęcia tutaj

W przeciwnym razie, jeśli szukasz jeszcze głębszego zrozumienia formatu dokumentu, możesz spojrzeć na pliki XML dla plików DOCX.

  1. Znajdź swój dokument DOCX na dysku.
  2. Zmień rozszerzenie dokumentu z .docx na .zip.
  3. Kliknij dwukrotnie plik i otwórz go w domyślnym menedżerze archiwów.
  4. Przejdź do folderu „Word” w programie zip i otwórz Document.xml . Jest to kod, który stanowi większość zawartości dokumentu, chociaż inne pliki są również wykorzystywane w inny sposób, np. Do stylów lub informacji o czcionce.

Na pewno potrzebujesz porządnego edytora XML, aby wyświetlić dane, a nawet wtedy jest to dość skomplikowane i dla dużego dokumentu będzie bardzo, bardzo długie.

Jeśli chodzi o DOC, nie ma łatwego sposobu na „wyświetlenie źródła”, ponieważ jest to plik binarny złożony z oddzielnych strumieni, a zatem nie ma łatwego sposobu na wyświetlenie zawartości.

Adam
źródło
To całkiem przydatne, nie wiedziałem o tym. Szkoda, że ​​nie możesz zrobić tego samego dla plików .doc, ponieważ nadal tego używa moja firma. Dzięki za wyjaśnienie!
Godsmith
1
@Godsmith Możesz zapisać DOC jako DOCX za pomocą nowszej wersji Worda, a następnie powrócić do DOC po dokonaniu jakichkolwiek zmian. W tym procesie występuje utrata formatu, więc bądź ostrożny, ale może się okazać, że możesz wprowadzić zmiany lub naprawić problemy w typach DOC, wykonując to w DOCX.
ThisClark,
możesz także zapisywać dowolne pliki bezpośrednio jako html w MS Word. Alternatywnie możesz zapisać jako RTF i otworzyć plik RTF jako tekst
phuclv
3

Myślę, że format .doc jest dość trudny, więc nie mogę ci pomóc. Jednak .docx jest w rzeczywistości plikiem zip ze wszystkimi szczegółami przechowywanymi w plikach XML. Dlatego zmień nazwę pliku na .zip i spójrz na źródło!

Peter Albert
źródło
0

Jeśli chodzi o format binarny, taki jak * .doc, sprawy są trudniejsze. Możesz użyć mso-dumpera LibreOffice . Wystarczy sklonować rozwiązanie na komputerze lokalnym i uruchomić

python doc-dump.py \path\to\file.doc >output.xml

Teraz wszystkie rzeczy w pliku binarnym zostaną przekonwertowane na format xml w dokładnie takim formacie, jaki opisano w formacie pliku binarnego programu Word (.doc)

Istnieje również WordFileDump, który jest prostszy, ale nie tak potężny jak mso-dumper

Niestety służą one tylko do analizy struktury i nie ma narzędzia do ponownego złożenia danych wyjściowych xml z powrotem do pliku * .doc, więc gdy znajdziesz podstawową przyczynę, będziesz musiał użyć programu Word do edycji. Dlatego łatwiej byłoby przekonwertować na * .docx, zbadać plik * .docx, a następnie w razie potrzeby przekonwertować z powrotem na * .doc

Możesz też zapisać plik jako rtf, który jest plikiem tekstowym „czytelnym dla człowieka” zamiast xml pakietu Office. Alternatywnie zapisz plik słowa jako html

phuclv
źródło