Wiem du -sh
w popularnych systemach plików Linuksa. Ale jak to zrobić z HDFS?
hadoop
command-line
directory
hdfs
Cheng
źródło
źródło
hadoop fs -du -s -h /path/to/dir
wyświetla rozmiar katalogu w czytelnej formie.źródło
hdfs -du -s -h /path/to/dir
jest to bardziej odpowiednie.Rozszerzając na odpowiedzi Matt D i innych, polecenie może być do Apache Hadoop 3.0.0
Du zwraca trzy kolumny w następującym formacie:
Przykładowe polecenie:
Kod zakończenia: zwraca 0 w przypadku sukcesu i -1 w przypadku błędu.
źródło: Apache doc
źródło
Dzięki temu otrzymasz rozmiar w GB
źródło
Podczas próby obliczenia sumy określonej grupy plików w katalogu
-s
opcja nie działa (w Hadoop 2.7.1). Na przykład:Struktura katalogów:
Załóżmy, że każdy plik ma rozmiar 1 KB. Możesz podsumować cały katalog za pomocą:
Jeśli jednak chcę, aby suma wszystkich plików zawierających „count” była niewystarczająca.
Aby obejść ten problem, zwykle przekazuję dane wyjściowe przez awk.
źródło
Aby uzyskać rozmiar katalogu, można użyć hdfs dfs -du -s -h / $ yourDirectoryName . hdfs dfsadmin -report może służyć do wyświetlania szybkiego raportu magazynu na poziomie klastra.
źródło
% używanego miejsca w klastrze Hadoop
sudo -u hdfs hadoop fs –df
Pojemność w określonym folderze:
sudo -u hdfs hadoop fs -du -h /user
źródło
hadoop fs -du -h /user
(niesudo
sudo
nie jest potrzebny i powinien być używany oszczędnie.wersja hadoop 2.3.33:
źródło
hdfs dfs -count <dir>
informacje ze strony podręcznika:
źródło
Polecenie powinno być
hadoop fs -du -s -h \dirPath
-du [-s] [-h] ...: Pokazuje ilość miejsca w bajtach zajmowanego przez pliki, które pasują do określonego wzorca pliku.
-s : Zamiast pokazywać rozmiar każdego pojedynczego pliku, który pasuje do
wzorca, pokazuje całkowity (podsumowujący) rozmiar.
-h : formatuje rozmiary plików w sposób czytelny dla człowieka, a nie w postaci liczby bajtów. (Np. MB / GB / TB itp.)
Zauważ, że nawet bez opcji -s, to pokazuje tylko podsumowania rozmiarów o jeden poziom w głąb katalogu.
Dane wyjściowe są w formacie nazwa rozmiaru (pełna ścieżka)
źródło