Jak uzyskać wiersze, których n-ta kolumna zawiera m-tą kolumnę

Mam plik CSV zawierający domeny i wiadomości e-mail, takie jak to:

site1.com,mail.site1.com
site2.com,testmail.com
site3.com,mx.site3.com
site4.com,smtp.site4.com
site5.com,foomail.com
site6.com,barmail.com
site7.com,webmail.site7.com
site8.com,01mx.site8.com
site9.com,foobarmail.com
site10.com,mx-smtp222.site10.com

Chcę uzyskać wiersze, w których kolumna wiadomości zawiera kolumnę domen tego samego wiersza. W powyższym przykładzie dane wyjściowe powinny wynosić:

site1.com,mail.site1.com
site3.com,mx.site3.com
site4.com,smtp.site4.com
site7.com,webmail.site7.com
site8.com,01mx.site8.com
site10.com,mx-smtp222.site10.com

text-processing awk sed csv alrz
źródło

Odpowiedzi:

Z awk:

awk -F, '$2 ~ $1"$"' file.csv

-F, ustawia separator pól jako ,
$2 ~ $1"$"sprawdza, czy drugie pole kończy się na pierwszym polu; jeśli tak, wydrukuj rekord (akcja domyślna)

Dzięki grep, grepdomyślnie drukować tylko dopasowane linie:

grep -E '^([^,]+),.*\1$' file.csv

Z sed, drukowanie linii pasujących do warunku:

sed -nE '/^([^,]+),.*\1$/ p' file.csv

Przykład :

% cat file.txt
site1.com,mail.site1.com
site2.com,testmail.com
site3.com,mx.site3.com
site4.com,smtp.site4.com
site5.com,foomail.com
site6.com,barmail.com
site7.com,webmail.site7.com
site8.com,01mx.site8.com
site9.com,foobarmail.com
site10.com,mx-smtp222.site10.com

% awk -F, '$2 ~ $1"$"' file.txt
site1.com,mail.site1.com
site3.com,mx.site3.com
site4.com,smtp.site4.com
site7.com,webmail.site7.com
site8.com,01mx.site8.com
site10.com,mx-smtp222.site10.com

% grep -E '^([^,]+),.*\1$' file.txt
site1.com,mail.site1.com
site3.com,mx.site3.com
site4.com,smtp.site4.com
site7.com,webmail.site7.com
site8.com,01mx.site8.com
site10.com,mx-smtp222.site10.com


% sed -nE '/^([^,]+),.*\1$/ p' file.txt 
site1.com,mail.site1.com
site3.com,mx.site3.com
site4.com,smtp.site4.com
site7.com,webmail.site7.com
site8.com,01mx.site8.com
site10.com,mx-smtp222.site10.com

heemayl
źródło