shell 统计大文件中某列每个字符出现的字数

最新推荐文章于 2025-12-15 12:00:00 发布

原创最新推荐文章于 2025-12-15 12:00:00 发布 · 754 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

收录于

linux 专栏收录该内容

19 篇文章

订阅专栏

本文介绍了一种使用Shell脚本处理大型数据集的方法，通过结合cut、sort、uniq及grep等命令来高效统计指定文件中特定列各字符出现次数。

对于几百万条记录的文件，用python处理起来会慢很多，这时候可以结合awk grep 等使用

需求：获取2020001082.snp_indel.hg19_multianno.pro.txt 文件中第十列中每次字符的个数

#!/bin/bash
#for i in `cut -f 10 2020001082.snp_indel.hg19_multianno.pro.txt|sort |uniq -d   # 这句总是报告代码最后一行的下面一行Syntax error: EOF in backquote substitution 错误提示 
cut -f 10 2020001082.snp_indel.hg19_multianno.pro.txt|sort |uniq -d|while read i
do
	echo -n "${i} number is \n"  >> count.result.txt
	awk '{print $10}' 2020001082.snp_indel.hg19_multianno.pro.txt|grep "${i}"|wc -l  >> count.result.txt
done