Czasami dokumenty programu Word wydają się mniej lub bardziej zepsute, zwykle gdy układ staje się dość skomplikowany, a dokument zmieniał kilka razy ręce i / lub wersje. Objawami może być to, że nic nie dzieje się po naciśnięciu klawisza Backspacelub Enterw określonym miejscu dokumentu, w którym naprawdę powinien działać, lub że formatowanie wydaje się obowiązywać i resetować mniej więcej losowo. Myślę, że wszyscy tam byliśmy.
Często trudno jest dokładnie wiedzieć, co jest nie tak, ponieważ to, co dzieje się pod maską w programie Word, jest dość nieprzejrzyste. Możesz mieć dokument, który wygląda na pusty, ale w rzeczywistości stan podstawowy dotyczący formatowania itp. Może być dość złożony.
W takich przypadkach przydatne byłoby zajrzenie do kodu źródłowego za tym, co pokazano na stronie; jak w przeglądarce możesz zrobić View Source , a najlepiej móc edytować bezpośrednio w kodzie źródłowym, tak jak robiłbyś to podczas korzystania z Latex. Czy istnieje polecenie Wyświetl źródło lub narzędzie do dokumentów Microsoft Word?
Domyślam się, że nie ma takiego polecenia, inaczej bym o nim słyszał. Jeśli tak jest, czy ktoś ma jakieś dobre podejście, jeśli chodzi o opanowanie irytującego „ukrytego formatowania” w dokumencie Word ?
Podejrzewam, że mogą istnieć pewne różnice w formatach .doc i .docx; Jestem zainteresowany w obu przypadkach.
źródło
Myślę, że format .doc jest dość trudny, więc nie mogę ci pomóc. Jednak .docx jest w rzeczywistości plikiem zip ze wszystkimi szczegółami przechowywanymi w plikach XML. Dlatego zmień nazwę pliku na .zip i spójrz na źródło!
źródło
Jeśli chodzi o format binarny, taki jak * .doc, sprawy są trudniejsze. Możesz użyć mso-dumpera LibreOffice . Wystarczy sklonować rozwiązanie na komputerze lokalnym i uruchomić
Teraz wszystkie rzeczy w pliku binarnym zostaną przekonwertowane na format xml w dokładnie takim formacie, jaki opisano w formacie pliku binarnego programu Word (.doc)
Istnieje również WordFileDump, który jest prostszy, ale nie tak potężny jak mso-dumper
Niestety służą one tylko do analizy struktury i nie ma narzędzia do ponownego złożenia danych wyjściowych xml z powrotem do pliku * .doc, więc gdy znajdziesz podstawową przyczynę, będziesz musiał użyć programu Word do edycji. Dlatego łatwiej byłoby przekonwertować na * .docx, zbadać plik * .docx, a następnie w razie potrzeby przekonwertować z powrotem na * .doc
Możesz też zapisać plik jako rtf, który jest plikiem tekstowym „czytelnym dla człowieka” zamiast xml pakietu Office. Alternatywnie zapisz plik słowa jako html
źródło