机器学习-sklearn-多项式回归-对函数拟合-看学习曲线（均方误差MSE）-pipeline

最新推荐文章于 2026-06-16 09:50:03 发布

原创

最新推荐文章于 2026-06-16 09:50:03 发布 · 1.5k 阅读

标签

#sklearn #机器学习 #回归 #python

收录于

本文介绍了如何使用sklearn库中的Pipeline进行多项式回归预测，以实现类似留存率预测的功能。通过创建Pipeline，进行数据划分，并利用学习曲线评估不同次数的多项式模型在训练集和测试集上的均方误差（MSE）。最终，通过学习曲线选择最佳的多项式次数以避免过拟合，并展示了完整的拟合过程。

上一篇说到了sql留存率的代码，那能不能做一个留存率预测呢？Hive-SQL取一个月用户留存率、留存用户数_lanston别熬夜了的博客-CSDN博客

可以用到sklearn-库中的pipeline库进行多项式回归预测，此类预测还可用与一些有趋势的线性或非线性预测，类似于波士顿放假变化趋势和牛市的时候股价上升趋势等等。

代码如下：

首先读取数据

import pandas as pd
import numpy as np
import math
df = pd.read_excel('留存.xlsx')
X = df['X']
Y = df['Y']

定义一个多项式函数，主要返回pipeline ，代码如下

from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline


def PolynomialRegression(degree):
    return Pipeline([
        ("poly", PolynomialFeatures(degree)),
        ("std_scaler", StandardScaler()),
        ("line_reg", LinearRegression())
    ])



# 创建管道对象
pipe = PolynomialRegre