c++算法之数据结构篇（提高） - 哈夫曼树和哈夫曼编码

最新推荐文章于 2026-04-03 22:39:54 发布

原创最新推荐文章于 2026-04-03 22:39:54 发布 · 1.2k 阅读 ·

大模型引用 1 次

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

Hray12

关注

标签

#算法 #数据结构 #c++

分类游戏开发

一、哈夫曼编码的基本概念

1.1 什么是哈夫曼编码？生活中的比喻

想象一下你要给朋友发一封密信，但是这封信只能用数字0和1来写。你会怎么写呢？

最简单的方法就是给每个字母分配固定长度的二进制码：

A: 000
B: 001
C: 010
D: 011
E: 100
…

但这样效率很低！如果某些字母出现得特别频繁（比如英文中的E），而有些字母很少出现（比如Z），那么给所有字母都分配同样长度的编码就很浪费。

哈夫曼编码的聪明之处在于：出现频率高的字符用短编码，出现频率低的字符用长编码。就像我们平时说话，常用的词就说得快，不常用的词就说得慢一些。

1.2 哈夫曼编码的核心思想

哈夫曼编码是一种变长编码，它的核心思想是：

频率统计：统计每个字符在文本中出现的频率
构建哈夫曼树：根据频率构建一棵特殊的二叉树
生成编码：从根节点到每个叶子节点的路径就是该字符的编码

1.3 哈夫曼编码的特点

前缀码：没有任何一个编码是另一个编码的前缀
最优性：在所有可能的编码方案中，哈夫曼编码的平均编码长度最短
无损压缩：可以完全还原原始数据

二、哈夫曼树的基本概念

2.1 什么是哈夫曼树？

哈夫曼树是一棵带权路径长度最短的二叉树。听起来很复杂，其实很简单：

权值：就是字符出现的频率
路径长度：从根节点到该字符节点的边的数量
带权路径长度：权值 × 路径长度

哈夫曼树的目标是让所有字符的带权路径长度之和最小。

2.2 哈夫曼树的结构特点

哈夫曼树具有以下特点：

叶子节点：都是要编码的字符
内部节点：都是合并过程中产生的中间节点
没有度为1的节点：每个节点要么是叶子节点，要么有两个子节点
频率越高的字符离根越近：这样路径长度就短

三、哈夫曼树的构建过程（详细步骤）

3.1 准备工作

假设我们要对字符串 “ABRACADABRA” 进行哈夫曼编码。

第一步：统计字符频率

A: 5次
B: 2次  
R: 2次
C: 1次
D: 1次

3.2 构建过程详解

第1步：创建森林

把每个字符看作一棵独立的树，权值就是它的频率：

森林： [A(5)] [B(2)] [R(2)] [C(1)] [D(1)]

第2步：选择两棵权值最小的树

最小的两个是 C(1) 和 D(1)，合并它们：

新建节点： CD(2) = C(1) + D(1)
        CD(2)
       /     \
     C(1)    D(1)

森林： [A(5)] [B(2)] [R(2)] [CD(2)]

第3步：继续选择最小的两棵树

现在最小的两个是 B(2) 和 R(2)，合并它们：

新建节点： BR(4) = B(2) + R(2)
        BR(4)
       /     \
     B(2)    R(2)

森林： [A(5)] [BR(4)] [CD(2)]

第4步：继续选择最小的两棵树

现在最小的两个是 CD(2) 和 BR(4)，合并它们：

新建节点： BRC(6) = BR(4) + CD(2)
        BRC(6)
       /     \
    BR(4)    CD(2)
    /  \     /   \
  B(2) R(2) C(1) D(1)

森林： [A(5)] [BRC(6)]

第5步：最后合并

合并最后两棵树：

        ABRC(11)
        /      \
      A(5)     BRC(6)
              /     \
           BR(4)    CD(2)
           /  \     /   \
         B(2) R(2) C(1) D(1)

这就是最终的哈夫曼树！

3.3 生成哈夫曼编码

现在我们从根节点开始，左分支标记为0，右分支标记为1：

        ABRC(11)
        /  0   \  1
      A(5)     BRC(6)
              /  0   \  1
           BR(4)    CD(2)
           /  \     /   \
         B(2) R(2) C(1) D(1)

沿着路径走：

A: 0
B: 10
R: 11
C: 100
D: 101

四、C++实现哈夫曼编码

4.1 数据结构定义

#include <iostream>
#include <queue>
#include <unordered_map>
#include <vector>
#include <string>

using namespace std;

// 哈夫曼树节点结构
struct HuffmanNode {
    char data;              // 字符
    int freq;              // 频率
    HuffmanNode* left;     // 左子节点
    HuffmanNode* right;    // 右子节点
    
    // 构造函数
    HuffmanNode(char data, int freq) : data(data), freq(freq), left(nullptr), right(nullptr) {}
};

// 用于优先队列的比较函数
struct Compare {
    bool operator()(HuffmanNode* a, HuffmanNode* b) {
        return a->freq > b->freq;  // 最小堆
    }
};

4.2 构建哈夫曼树

// 构建哈夫曼树
HuffmanNode* buildHuffmanTree(const unordered_map<char, int>& freqMap) {
    // 创建优先队列（最小堆）
    priority_queue<HuffmanNode*, vector<HuffmanNode*>, Compare> minHeap;
    
    // 为每个字符创建节点并加入堆中
    for (auto pair : freqMap) {
        minHeap.push(new HuffmanNode(pair.first, pair.second));
    }
    
    // 构建哈夫曼树
    while (minHeap.size() > 1) {
        // 取出两个频率最小的节点
        HuffmanNode* left = minHeap.top();
        minHeap.pop();
        
        HuffmanNode* right = minHeap.top();
        minHeap.pop();
        
        // 创建新节点，频率为两个子节点频率之和
        HuffmanNode* newNode = new HuffmanNode('\0', left->freq + right->freq);
        newNode->left = left;
        newNode->right = right;
        
        // 将新节点加入堆中
        minHeap.push(newNode);
    }
    
    // 返回根节点
    return minHeap.top();
}

4.3 生成哈夫曼编码

// 生成哈夫曼编码
void generateCodes(HuffmanNode* root, string code, unordered_map<char, string>& huffmanCode) {
    if (root == nullptr) {
        return;
    }
    
    // 如果是叶子节点，存储编码
    if (!root->left && !root->right) {
        huffmanCode[root->data] = code;
    }
    
    // 递归生成左右子树的编码
    generateCodes(root->left, code + "0", huffmanCode);
    generateCodes(root->right, code + "1", huffmanCode);
}

4.4 统计字符频率

// 统计字符频率
unordered_map<char, int> buildFrequencyMap(const string& text) {
    unordered_map<char, int> freqMap;
    for (char ch : text) {
        freqMap[ch]++;
    }
    return freqMap;
}

4.5 完整的哈夫曼编码类

class HuffmanCoding {
private:
    HuffmanNode* root;
    unordered_map<char, string> huffmanCode;
    
public:
    HuffmanCoding() : root(nullptr) {}
    
    // 编码函数
    string encode(const string& text) {
        // 1. 统计频率
        unordered_map<char, int> freqMap = buildFrequencyMap(text);
        
        // 2. 构建哈夫曼树
        root = buildHuffmanTree(freqMap);
        
        // 3. 生成编码表
        generateCodes(root, "", huffmanCode);
        
        // 4. 生成编码后的字符串
        string encodedText = "";
        for (char ch : text) {
            encodedText += huffmanCode[ch];
        }
        
        return encodedText;
    }
    
    // 解码函数
    string decode(const string& encodedText) {
        string decodedText = "";
        HuffmanNode* current = root;
        
        for (char bit : encodedText) {
            if (bit == '0') {
                current = current->left;
            } else {
                current = current->right;
            }
            
            // 如果到达叶子节点
            if (!current->left && !current->right) {
                decodedText += current->data;
                current = root;
            }
        }
        
        return decodedText;
    }
    
    // 打印编码表
    void printCodeTable() {
        cout << "哈夫曼编码表：" << endl;
        for (auto pair : huffmanCode) {
            cout << pair.first << " : " << pair.second << endl;
        }
    }
    
    // 计算压缩率
    double calculateCompressionRatio(const string& originalText, const string& encodedText) {
        int originalBits = originalText.length() * 8;  // 假设原始用8位表示一个字符
        int compressedBits = encodedText.length();
        return (double)compressedBits / originalBits;
    }
};

4.6 使用示例

int main() {
    string text = "ABRACADABRA";
    
    HuffmanCoding huffman;
    
    cout << "原始文本: " << text << endl;
    
    // 编码
    string encodedText = huffman.encode(text);
    cout << "编码后: " << encodedText << endl;
    
    // 打印编码表
    huffman.printCodeTable();
    
    // 解码
    string decodedText = huffman.decode(encodedText);
    cout << "解码后: " << decodedText << endl;
    
    // 计算压缩率
    double compressionRatio = huffman.calculateCompressionRatio(text, encodedText);
    cout << "压缩率: " << compressionRatio * 100 << "%" << endl;
    
    return 0;
}

五、详细例子分析

5.1 完整的编码过程

让我们用 “ABRACADABRA” 来完整演示：

原始文本: ABRACADABRA

频率统计:

A: 5
B: 2
R: 2
C: 1
D: 1

构建哈夫曼树:

        ABRC(11)
        /  0   \  1
      A(5)     BRC(6)
              /  0   \  1
           BR(4)    CD(2)
           /  \     /   \
         B(2) R(2) C(1) D(1)

生成编码:

A: 0
B: 10
R: 11
C: 100
D: 101

编码过程:

A -> 0
B -> 10
R -> 11
A -> 0
C -> 100
A -> 0
D -> 101
A -> 0
B -> 10
R -> 11
A -> 0

最终编码: 010110010001010110

5.2 压缩效果分析

原始编码（假设每个字符用8位）:

11个字符 × 8位 = 88位

哈夫曼编码:

A: 5次 × 1位 = 5位
B: 2次 × 2位 = 4位
R: 2次 × 2位 = 4位
C: 1次 × 3位 = 3位
D: 1次 × 3位 = 3位
总计: 5 + 4 + 4 + 3 + 3 = 19位

压缩率: 19/88 = 21.6%

节省空间: 88 - 19 = 69位，节省了78.4%！

六、哈夫曼编码的优缺点

6.1 优点

压缩效率高：对于频率分布不均匀的数据，压缩效果很好
无损压缩：可以完全还原原始数据
前缀码特性：解码时不会产生歧义
实现简单：算法逻辑清晰，容易实现

6.2 缺点

需要两次遍历：第一次统计频率，第二次编码
需要存储编码表：增加了额外的存储开销
对频率敏感：如果频率分布均匀，压缩效果不佳
不适合小文件：编码表的开销可能超过压缩节省的空间

七、实际应用场景

7.1 文件压缩

哈夫曼编码是许多压缩算法的基础，如：

ZIP文件格式：使用哈夫曼编码作为压缩的一部分
JPEG图像压缩：对DCT系数进行哈夫曼编码
MP3音频压缩：对频谱数据进行哈夫曼编码

7.2 通信系统

在数据传输中，哈夫曼编码可以：

减少传输时间：压缩后的数据量更小
节省带宽：减少网络传输的负载
提高效率：在有限的带宽下传输更多信息

7.3 数据库系统

数据库中使用哈夫曼编码：

索引压缩：压缩索引数据以减少存储空间
数据压缩：对频繁访问的数据进行压缩

八、时间复杂度分析

8.1 构建哈夫曼树的时间复杂度

统计频率：O(n)，n是文本长度
构建优先队列：O(k)，k是不同字符的数量
构建哈夫曼树：O(k log k)，每次堆操作是O(log k)，共进行k-1次合并

总时间复杂度：O(n + k log k)

8.2 编码的时间复杂度

生成编码表：O(k)，遍历哈夫曼树
编码文本：O(n)，每个字符替换为对应的编码

总时间复杂度：O(n + k)

8.3 解码的时间复杂度

解码需要遍历编码后的字符串，时间复杂度为O(m)，其中m是编码后的长度。

九、优化和扩展

9.1 自适应哈夫曼编码

传统的哈夫曼编码需要预先知道字符频率，而自适应哈夫曼编码可以在编码过程中动态调整编码表。

9.2 哈夫曼编码的变种

规范哈夫曼编码：编码表更紧凑，便于存储
长度受限哈夫曼编码：限制编码的最大长度
字母表分割哈夫曼编码：将大字母表分割成小块分别编码

9.3 与其他压缩算法的结合

哈夫曼编码常与其他压缩算法结合使用：

LZ77 + 哈夫曼编码：如DEFLATE算法
LZW + 哈夫曼编码：如GIF图像格式
算术编码：在某些情况下比哈夫曼编码更高效

十、总结

哈夫曼编码是一种经典而高效的无损压缩算法，它的核心思想是为高频字符分配短编码，为低频字符分配长编码。通过构建最优二叉树（哈夫曼树），我们能够获得最短的平均编码长度。

10.1 关键要点回顾

频率统计：首先统计每个字符的出现频率
构建哈夫曼树：使用贪心算法，每次合并两个频率最小的子树
生成编码：从根到叶子的路径就是字符的编码
编码解码：使用编码表进行编码，使用哈夫曼树进行解码

10.2 实际应用建议

适合场景：频率分布不均匀的文本数据
不适合场景：频率均匀的数据或小文件
优化建议：考虑使用自适应哈夫曼编码或与其他算法结合

10.3 学习建议

动手实现：亲自编写代码能加深理解
调试过程：通过调试观察哈夫曼树的构建过程
实际应用：尝试对真实数据进行压缩测试

哈夫曼编码不仅是计算机科学中的一个重要算法，也是理解数据压缩原理的绝佳例子。掌握了哈夫曼编码，你就掌握了数据压缩的核心思想之一！