举个栗子!Minitab 技巧(7):用 Minitab 实现最小二乘法回归分析

published: 2023-10-16

企业分析场景中,我们难免需要研究两个或多个变量之间是否存在某种关系。举个例子,零售批发或交通运输等行业往往需要分析单位时间下的运输效能。

比如,随着单位桶数变化,运输时间会如何增加?按常理而言,桶数越多,所花时间也越多。但如何描述两个变量之间的关系?系数是多少?桶数每增加一个单位,又会增加多少时间?

面对上述场景,Minitab 提供了多种推理回归方法(如最小二乘法),可快速帮助我们检验变量之间的关系,客观评估拟合值是否达到最优。下面,我们就以“桶数与时间的关系”为例,进行分析推导与验证。


本期《举个栗子!Minitab 技巧》,我们就来分享方法:用 Minitab 实现最小二乘法回归分析

为方便学习,栗子使用下图所示数据源。掌握栗子方法后,数据粉可尝试使用自己的数据。如需跟随实操,可通过页面右侧获取数据源。


具体步骤如下:


01 使用散点图简单观察数据关系

打开 Minitab 统计软件,导入示例数据。

单击选择菜单栏中的“图形”-“散点图”选项。

在弹出的“散点图”对话框中,选择“简单”,然后单击“确定”。

在第二个弹窗中,将Y变量设置为“时间”,将X变量设置为“桶数”,单击“确定”。

通过观察生成的散点图,可见数据之间呈现出一种浅层的线性关系。初步验证:随着桶数的增加,时间也会增加。但是,应该如何描述这样的线性关系呢?


02 用最小二乘法进行模拟推导

首先,需要确认采取什么方法来模拟线性关系。在此,我们选用最小二乘法进行模拟。以一元线性回归为例,公式包含以下内容:

i=1,2…n (εi 代表残差,残差指的是观测值与拟合值的差)

然后,通过最小二乘法来估算 β0 和 β1 ,使得这些点跟线之间的距离最小。

在本例中,自变量是桶数,因变量是时间。因此需要计算每个时间样本点到直线上时间的距离。根据换算,可以得到以下公式:

以第一个数据点为例,了解到(7,58)对应数值为(58-β0-β1*7)² ,后续数值以此类推。通过对 β0 和 β1 求偏导数,得到以下两个等式:

则:

得到:

为了简化计算方式,我们引入三个交叉项 lxy、lxx 和 lyy。

整理以上几项,得到:

把以上几个项带入 β0 和 β1 ,得到以下公式:

最后,根据之前的推论来计算数值。经过计算,最终得到如下结果:


03 用 Minitab 进行回归分析验证

对照使用最小二乘法计算所得的数值,Minitab 是否会得到同样的结果?接下来,我们使用 Minitab 来进行实操验证,看看随着桶数变化,时间会如何增加。

将示例数据导入 Minitab 后,单击选择菜单栏中的“统计”-“回归”-“拟合线图”选项。

在弹出的对话框中,将响应(Y)设置为“时间”,预测变量(X)设置为“桶数”,回归模型类型设置为“线性”,然后单击“确定”。

在 Minitab 返回的视图中,可以看到:时间=1.287+8.035 桶数,就是我们所需验证的线性关系。

可见,Minitab 的分析结果与使用最小二乘法推导的结果保持一致,且操作更简便直观。

综上所述,我们验证了时间和桶数之间存在线性关系:随着桶数每增加 1 个单位,所需的搬运时间增加 8 秒左右。

今天的 Minitab 技巧,你 Get 到了吗?赶快打开软件试试看吧~


更多相关信息,请访问专题页: Minitab中文版入门教程