How do you remove duplicates from a file in shell scripting?

在Shell脚本中处理并删除文件中的重复项可以通过多种方式实现。以下是一些常用的方法及其示例：

一种常见的方法是利用Unix/Linux系统中的 sort 和 uniq 命令。这种方法简单且易于实现。例如，如果你有一个包含重复行的文本文件 data.txt，你可以使用以下命令来删除重复项：

bash
sort data.txt | uniq > output.txt

这里，sort 命令首先对文件进行排序，排序是 uniq 命令删除重复行的前提。之后，uniq 抽出唯一的行，输出重定向到 output.txt 文件中。

awk 是一个强大的文本处理工具，也可以用来删除文件中的重复行。假设你不想改变文件中内容的原始顺序，可以使用以下 awk 命令：

bash
awk '!seen[$0]++' data.txt > output.txt

这里，awk 使用一个数组 seen 记录已经见过的行。如果一行在 seen 中未出现过，则打印出来。这样可以保持原始文件的行顺序。

虽然使用 sed 删除重复项不如上述方法常见，但它在某些特定情况下也可以实现。例如，如果重复项是连续的，你可以使用如下 sed 命令：

bash
sed '$!N; /^\(.*\)\n\1$/!P; D' data.txt > output.txt

这个 sed 脚本逐个处理输入行，比较当前行和下一行，如果不同则打印当前行。

perl 也是一个强大的文本处理工具。以下是使用 perl 删除文件中重复行的示例：

bash
perl -ne 'print if !$seen{$_}++' data.txt > output.txt

这段 perl 脚本的工作原理类似于 awk 示例，使用一个哈希表来跟踪哪些行已经被打印过。

选择哪种方法取决于具体需求，如是否需要保持原有的行顺序，是否对性能有特别要求等。通常，对于简单的任务，sort 和 uniq 的组合是最直接易懂的。对于需要保持原始顺序的情况，awk 或 perl 可能是更好的选择。

2024年7月17日 09:22 回复

1个答案