Znajdź pliki o tej samej nazwie, ale o innej zawartości?

9

Chcę wygenerować listę plików, które mają:

  • Takie samo imię
  • Różne treści

w katalogu (w tym wszystkie katalogi i treści potomne).

Jak zrobić? Bash, perlu, wszystko jest w porządku.

Zatem dwa pliki o tej samej nazwie i tej samej zawartości nie powinny się wyświetlać.

Nicolas Raoul
źródło
Załóżmy, że istnieją trzy pliki o tej samej nazwie, a dwa z trzech są identyczne?
Kyle Jones,
@KyleJones: „trzy pliki o tej samej nazwie i dwa z trzech są identyczne”> Następnie należy dodać tę nazwę do listy
Nicolas Raoul

Odpowiedzi:

8

Aktualizacja: poprawiono literówkę w skrypcie: zmieniono print $NFna print $3; również uporządkowałem i dodałem kilka komentarzy.

Zakładając, że nazwy plików nie zawierają \n, następujące polecenie wypisuje posortowaną listę, która łamie się (jak w: łamie kontrolę sekcji ) w unikatowy file name, unikalny sposób md5sumi pokazuje odpowiednią grupę ścieżek do plików.

#!/bin/bash

# Choose which script to use for the final awk step 
out_script=out_all

# Print all duplicated file names, even when md5sum is the same 
out_all='{ if( p1 != $1 ) { print nl $1; print I $2 }
      else if( p2 != $2 ) { print I $2 }
      print I I $3; p1=$1; p2=$2; nl="\n" }
   END { printf nl}'

# Print only duplicated file names which have multiple md5sums.
out_only='{ if( p1 != $1 ) { if( multi ) { print pend }
                             multi=0; pend=$1 "\n" I $2 "\n" }
       else if( p2 != $2 ) { multi++; pend=pend I $2 "\n" } 
       pend=pend I I $3 "\n"; p1=$1; p2=$2 } 
   END { if( multi ) print pend }'

# The main pipeline 
find "${1:-.}" -type f -name '*' |  # awk for duplicate names
awk -F/ '{ if( name[$NF] ) { dname[$NF]++ }
           name[$NF]=name[$NF] $0 "\n" } 
     END { for( d in dname ) { printf name[d] } 
   }' |                             # standard md5sum output 
xargs -d'\n' md5sum |               # " "==text, "*"==binary
sed 's/ [ *]/\x00/' |               # prefix with file name  
awk -F/ '{ print $3 "\x00" $0 }' |  # sort by name. md5sum, path 
sort |                              # awk to print result
awk -F"\x00" -v"I=   " "${!out_script}"

Dane wyjściowe pokazujące tylko nazwy plików zawierające wiele md5 s

afile.html
   53232474d80cf50b606069a821374a0a
      ./test/afile.html
      ./test/dir.svn/afile.html
   6b1b4b5b7aa12cdbcc72a16215990417
      ./test/dir.svn/dir.show/afile.html

Dane wyjściowe pokazujące wszystkie pliki o tej samej nazwie.

afile.html
   53232474d80cf50b606069a821374a0a
      ./test/afile.html
      ./test/dir.svn/afile.html
   6b1b4b5b7aa12cdbcc72a16215990417
      ./test/dir.svn/dir.show/afile.html

fi    le.html
   53232474d80cf50b606069a821374a0a
      ./test/dir.svn/dir.show/fi    le.html
      ./test/dir.svn/dir.svn/fi    le.html

file.html
   53232474d80cf50b606069a821374a0a
      ./test/dir.show/dir.show/file.html
      ./test/dir.show/dir.svn/file.html

file.svn
   53232474d80cf50b606069a821374a0a
      ./test/dir.show/dir.show/file.svn
      ./test/dir.show/dir.svn/file.svn
      ./test/dir.svn/dir.show/file.svn
      ./test/dir.svn/dir.svn/file.svn

file.txt
   53232474d80cf50b606069a821374a0a
      ./test/dir.show/dir.show/file.txt
      ./test/dir.show/dir.svn/file.txt
      ./test/dir.svn/dir.show/file.txt
      ./test/dir.svn/dir.svn/file.txt
Peter.O
źródło
1

Oto skrypt Perla. Uruchom go w katalogu na górze drzewa, które chcesz przeszukać. Skrypt zależy od findi md5, ale ten ostatni można zastąpić programem sha1, sumlub dowolnym innym programem do haszowania plików, który akceptuje dane wejściowe na standardowym wyjściu i generuje skrót na standardowym wyjściu.

use strict;

my %files;
my %nfiles;
my $HASHER = 'md5';

sub
print_array
{
    for my $x (@_) {
        print "$x\n";
    }
}

open FINDOUTPUT, "find . -type f -print|" or die "find";

while (defined (my $line = <FINDOUTPUT>)) {
    chomp $line;
    my @segments = split /\//, $line;
    my $shortname = pop @segments;
    push @{ $files{$shortname} }, $line;
    $nfiles{$shortname}++;
}

for my $shortname (keys %files) {
    if ($nfiles{$shortname} < 2) {
        print_array @{ $files{$shortname} };
        next;
    }
    my %nhashes;
    my %revhashes;
    for my $file (@{ $files{$shortname} }) {
        my $hash = `$HASHER < $file`;
        $revhashes{$hash} = $file;
        $nhashes{$hash}++;
    }
    for my $hash (keys %nhashes) {
        if ($nhashes{$hash} < 2) {
            my $file = $revhashes{$hash};
            print "$file\n";
        }
    }
}
Kyle Jones
źródło
1

finddup to narzędzie może również pomóc w wylistowaniu plików o tych samych nazwach lub treści.

użytkownik379997
źródło
1

Dla tych, którzy chcą zobaczyć tylko listę nazw plików, tutaj jest odpowiednia część Peter.O jest odpowiedź :

find "${1:-.}" -type f -name '*' | 
awk -F/ '{ if( name[$NF] ) { dname[$NF]++ }
       name[$NF]=name[$NF] $0 "\n" } 
 END { for( d in dname ) { printf name[d] "\n" } 

} ”

Nie potrzebuję sum md5, ponieważ używam fslint-guiprzed skryptem, aby usunąć wszystkie duplikaty.

int_ua
źródło
na moim
Macu