Python实现朴素贝叶斯分类器：从原理到优化

原创

于 2026-04-25 10:19:41 发布 · 256 阅读

标签

1. 项目概述：从零实现朴素贝叶斯分类器

三年前我第一次用scikit-learn的GaussianNB时，就被这个算法在文本分类任务上的效率震惊了——准确率85%的同时训练速度比SVM快20倍。但直到自己动手实现，才真正理解其精妙之处。本文将带你用Python从零构建一个完整的朴素贝叶斯分类器，不依赖任何机器学习库，包含数学推导、代码实现和实际应用技巧。

这个实现特别适合处理：

中小规模文本分类（如垃圾邮件识别）
多分类问题（如新闻主题分类）
需要快速原型验证的场景

2. 核心数学原理拆解

2.1 贝叶斯定理的工程化理解

贝叶斯公式P(y|X) = P(X|y)P(y)/P(X)在工程实践中常简化为：

posterior = likelihood * prior / evidence

实际计算时我们忽略证据项（因为对所有类别相同），最终比较的是：

import numpy as np

def predict(X):
    return np.argmax([np.log(class_prior) + 
                     np.sum(np.log(class_likelihood(X))) 
                     for class_likelihood in likelihood_functions])

关键技巧：使用对数运算避免下溢，将连乘转换为累加

2.2 特征条件独立假设的实现

"朴素"的核心在于假设特征间条件独立：

P(x1,x2|y) = P(x1|y)P(x2|y)

在代码中体现为：

# 计算类条件概率时对每个特征单独处理
for feature_idx in range(n_features):
    feature_values = X_train[:, feature_idx]
    for class_val in classes:
        # 计算该特征在当前类下的条件概率
        class_mask = (y_train == class_val)
        p = calculate_feature_probability(feature_values[class_mask])
        likelihoods[feature_idx][class_val] = p

3. 完整代码实现

3.1 高斯朴素贝叶斯实现

class GaussianNB:
    def __init__(self):
        self.class_priors = {}
        self.class_means = {}
        self.class_vars =

最低0.47元/天解锁文章