在进行线性回归时,为什么最小二乘法是最优方法?

【王芊的回答(27票)】:

最小二乘的假设是高斯噪声，最大似然估计推导出来的，你不妨推一遍，Andrew Ng的视频里也有讲过

你说的距离之和其实是一范数，是拉普拉斯噪声推导出来的

具体用那种，看噪声的分布假设是什么

【JichunSi的回答(39票)】:

谢邀。

不是很同意@王芊的说法。

首先跟题主说一下，最小二乘法的“最优”也要看应用情景的。

实际上最小二乘法更准确的说是一个正交投影（orthogonal projection），而这个投影的很多优良性质不需要假设正态分布。

这里正交投影的意思是，在x所张成的线性空间里面找一个向量使得其与y的距离最小。

即使没有正态分布的假设，OLS也是对conditional expectation的最优线性预测。

也有人提到了BLUE，回想一下，证明BLUE的时候我们并没有用正态分布的假定。

如果从统计推断角度来说，小样本情况下的统计推断还需要正态的假设，大样本是不需要的。

最小二乘之所以是“最优”，仅仅是因为用这个方法做出来的刚好是正交投影而已。

但是还有很多其他方法，比如中位数回归：

最小化的就是绝对值。而且中位数回归在某些方面有比最小二乘更好的性质，比如对异常值稳健等等。当然，如果误差分布对称，中位数回归的

跟最小二乘得到的结果是渐进相等的。

感兴趣可以看一下这篇文章：JSTOR: Journal of Economic Literature, Vol. 29, No. 1 (Mar., 1991), pp. 34-50

还是那句话，都在做回归，但是首先你得明确自己做回归的目的才能找到那个“最优”的回归方法。

【知乎用户的回答(2票)】:

通常做回归拟合时，都要求最大限度的拟合数据，也就是常说的经验风险最小，这样的拟合过程中用到极大似然原则，而在假定误差

符合正态分布（高斯分布）的情况下，最小二乘等价于极大似然

推荐看陈希儒的数理统计简史，里面有讲到最小二乘法的来历，以及相应的解释

最小二乘法比高斯分布先出现，但是最开始只是一个经验，并没有太多的理论证明，而等到

高斯发现正态分布以后，从极大似然的角度，推导出了最小二乘法

【知乎用户的回答(6票)】:

最小二乘法可以让你只需要估计一次就能得到各个右手边变量对左手边变量的“纯”影响。

假设你的模型是

且满足最小二乘法的所有假设。如果你把

里的“点”（这里一“点”指一列）分成两组，

的话，那么当你要估计

里的

（

对

“纯”的影响）时，你可以有两种做法：

先用最小二乘法估计

，计算出残差

——这一步把

中可以被

解释的那部分“去掉”了。然后再用最小二乘法去估计

，计算出残差

——这一步把

中可以被

解释的那部分“去掉”了。最后再用一次最小二乘法去估计

，得到

对

的“纯”影响

。

直接用一次最小二乘法去估计你的模型，得到

。

而其实通过这两种方法得到的

，

：这就是 Frisch-Waugh-Lovell 定理。它是最小二乘法之所以经久不衰的最最最根本的原因之一。

【zcwgaizhili的回答(5票)】:

你说的应该只是一部分。

高斯马尔科夫定理中，ols是blue，也就是最佳、线性、无偏，估计。

所谓的最佳，就是方差最小。ols是所有线性无偏估计中方差最小的。但是高斯马尔科夫定理不成立的情况下，例如异方差，ols即使无偏估计，也不能保证方差最小。

从你的问题补充上看，这条直线保证与每个点的距离之和最小，其实是假设这些点平均来说本来就该落在这条直线上，只是因为一些随机因素从这条直线上蹦出来了，因为这些随机因素是同分布的，所以蹦出来的距离和波动都应该差不多。

但是如果这些点的波动越来越大呢？随着x的提高，这些点蹦出直线的波动越来越大，可以想象这些点近似一个45度的从原点出发的圆锥，这时候什么样的直线能够拟合这些点？

这时候就应该对每一个x加一个权重，由于方差越大的波动越大，对这个x加一个较小的权重，这种加权最小二乘法，才能了blue。

所以ols的优良性质是有前提条件的。比异方差更强的假设是服从正态分布。这种情况下，其实ols不但是最佳线性无偏估计，而且在所有非线性和线性估计中，它都是方差最小的。但是不满足这些假设的情况下，ols的最优就无从谈起。

【mtPractices的回答(2票)】:

（我之前也往往会把最小二乘法的目标函数与距离混淆）

1 如果是做线性回归，那么是一类统计问题。

在统计学中，高斯-马尔可夫定理解释了在统计评价指标中，为什么最小二乘法是最佳线性无偏估计。

可参见维基百科http://zh.wikipedia.org/wiki/%E9%AB%98%E6%96%AF%EF%BC%8D%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E5%AE%9A%E7%90%86

根据你后面的问题，有可能你对统计方面的一些知识还不太熟悉。

最小二乘法是数学中会经常用到的一种方法，是通过误差的最小平方和得到拟合函数的参数。

(知乎上的数学公式输入语句还不全），你可以去维基上搜索关于最小二乘法的定义。

由于是误差就是预测值与观测值的差，其平方和与二维空间中的欧式距离是一样的，所以可以使用欧几里得度量去表达；

2 所以在最简单的一元线性函数

拟合中，最小二乘法的目标函数就简化成，每个点与直线上的估计值的距离（二维欧式距离）之和最小；

******************************************

3 也不是你说的点到直线的距离之和最小；

我想，做线性回归分析的这些点是样本点，所以你应该考虑的是样本点与它的估计值之间的误差，而点到直线的距离，往往很多时候点到直线的垂线所交的垂足，并不是样本点的估计值，所以从统计上来看意义不大；

【马拉轰的回答(2票)】:

我能想到的原因有三个：

一，最小二乘问题直接解矩阵就能算，用起来简便。

二，假设误差iid正态分布，最小二乘给出的参数是最大似然估计。正态分布最常用，有各种好性质。

三，假设误差同方差，零均值，不相关，最小二乘给出的参数是最好无偏估计，最好的定义是参数方差最小。(Gauss-Markov Th.)

实际上后两条的假设一般都是不成立的，常用的真正原因是第一条。

【EarthsonLu的回答(2票)】:

这其实主要问题在于，你拟合的是一个函数，还是仅仅是一条直线。

一次函数和几何上的一条直线，虽然看起来一样，但意义却是不同的。对函数来说，偏差是|y-f(x)|，而不是点到直线的欧式距离。

- - - -

另外，由中心极限定理，误差往往都满足高斯分布（误差往往是很多扰动共同作用的）。这里最小二乘得到该分布的极大似然估计。

【LinglaiLi的回答(1票)】:

这个问题提得有问题：什么叫“最优”方法？凭啥说这条直线比另一条更优？要回答这个问题，首先要给出“最优”的定义是什么：最小化误差平方和（2范数）可以，最小化你说的误差距离和（1范数）也可以，还有其他许多最优的准则：例如加入各种regulation项...所以没有统一的“最优”。这个问题是，你首先得定义一个合理的目标函数（例如提到的2范数，1范数等等），而最小化该目标函数的解就是某个意义下的最优。没有哪一个目标函数比另外的目标函数更优，每一个合理的目标函数有其适用范围并且可以在数学上证明其特性，例如@王芊提到的。一个核心问题是，使用误差平方和作为目标函数时，200多年前的高斯就发现可以求导得到唯一的显式解，而这个解法也因此被称作最小二乘法，人们进一步研究时发现在高斯噪声等条件下可以得到一些漂亮的结论：如最小二乘解等价于最大似然估计，最佳线性无偏估计等（说得不太严格，请参考教材和@马拉轰等人的回答）。而是用其他目标函数，很难显式得到最优解——而近年来凸优化的发展，使用1范数等目标函数也可以有成熟算法求得其最优解。

总结：(1)首先你得定义什么叫最优，即定义一个合理（make sense）的误差目标函数去最小化；（2）然后，你得有算法求得该目标函数对应的最优解。

【shenshore的回答(0票)】:

除了以上，最小方差也是最大似然估计

【唐荣宽的回答(0票)】:

在假设了噪声符合高斯分布时，利用最大似然估计（MLE）推导得出就是最小化方差（最小二乘法）,当然此时方差估计是有偏的（bias），容易产生过拟合。

【李玛乐的回答(0票)】:

你说的那种度量方法叫总体最小二乘（TLS）。普通的最小二乘并没有考虑输入数据的噪声，回归的度量因此只与预测输出和观测值之间的差异有关。但是总体最小二乘认为输入数据也包含噪音的成分，因此回归的目标考虑了输入数据的噪声，简单来说，最佳回归直线的是“每个点到直线的距离最短”。

下图说明了最小二乘（LS）与总体最小二乘（TLS）的区别

【yangliu的回答(0票)】:

题主提到：

每个点到直线的距离之和最小这个根据欧式空间下点到直线的距离定义，用数学式子表示出来就是L2-norm的minimization.

然后最小二乘是这个最优化式的解析解。

【冯俊晨的回答(0票)】:

在经典假设(正态分布不是必要条件)下，OLS是Best Linear Unbiased Estimator，即无偏估计量中标准误(standard error)最小的。建议题主拿任何一本入门级计量书籍看一下，可以从伍德里奇的经典《现代计量经济学:导论》开始

【陈无左的回答(0票)】:

1。椭圆分布的极大似然估计是最小二乘估计，反之不尽然。

2。对误差的概率建模决定取什么样的误差样本分布，不必椭圆。

3。估计作为从样本到估计值的函数，常以上述误差分布的极大似然估计充当，但不必。

4。经典统计推断理论给出极大似然估计量在无穷大样本量下的许多优良性质。Cramer曾说过mle是可以普遍构造的最好的估计量。

【LiHe的回答(0票)】:

对统计这块儿忘了不少，就单纯说下最小二乘法吧，其基本理念是拟合数据和原始数据之间的二范数最小，你可以你理解为“距离”，也就是所有拟合数据与实测数据的距离之和最小。

在某些情况下真的就是最佳啊，但是其实也会出现不稳定的情况，而且真的很常见：当数据中出现错误的样本或者偏差很大需要舍弃的样本时，最小二乘就会得出非常不理想的结果。

有回答说中位数法会更稳定，我想也是这个原因，舍弃了坏点，能够更好的拟合。

浅见，望引玉。

【管清文的回答(0票)】:

不同意楼上@王芊的说法，我个人是这么认为的：

对于线性回归，无论用LSE(最小二乘估计)还是MLE(极大似然估计)，都是基于不同的假设而已，LSE是直接假设object function，而MLE假设的是distribution，这里在gauss noise下，他们恰好formula相同而已。anyway，他们都不一定会match ground truth。

至于假设是否靠谱，我们还得通过假设实验进行验证。

【知乎用户的回答(0票)】:

因为考虑的函数是方差

原文地址:知乎

【王芊的回答(27票)】:

最小二乘的假设是高斯噪声，最大似然估计推导出来的，你不妨推一遍，Andrew Ng的视频里也有讲过

你说的距离之和其实是一范数，是拉普拉斯噪声推导出来的

具体用那种，看噪声的分布假设是什么

【JichunSi的回答(39票)】:

谢邀。

不是很同意@王芊的说法。

首先跟题主说一下，最小二乘法的“最优”也要看应用情景的。

实际上最小二乘法更准确的说是一个正交投影（orthogonal projection），而这个投影的很多优良性质不需要假设正态分布。

这里正交投影的意思是，在x所张成的线性空间里面找一个向量使得其与y的距离最小。

即使没有正态分布的假设，OLS也是对conditional expectation的最优线性预测。

也有人提到了BLUE，回想一下，证明BLUE的时候我们并没有用正态分布的假定。

如果从统计推断角度来说，小样本情况下的统计推断还需要正态的假设，大样本是不需要的。

最小二乘之所以是“最优”，仅仅是因为用这个方法做出来的刚好是正交投影而已。

但是还有很多其他方法，比如中位数回归：

最小化的就是绝对值。而且中位数回归在某些方面有比最小二乘更好的性质，比如对异常值稳健等等。当然，如果误差分布对称，中位数回归的

跟最小二乘得到的结果是渐进相等的。

感兴趣可以看一下这篇文章：JSTOR: Journal of Economic Literature, Vol. 29, No. 1 (Mar., 1991), pp. 34-50

还是那句话，都在做回归，但是首先你得明确自己做回归的目的才能找到那个“最优”的回归方法。

【知乎用户的回答(2票)】:

通常做回归拟合时，都要求最大限度的拟合数据，也就是常说的经验风险最小，这样的拟合过程中用到极大似然原则，而在假定误差

符合正态分布（高斯分布）的情况下，最小二乘等价于极大似然

推荐看陈希儒的数理统计简史，里面有讲到最小二乘法的来历，以及相应的解释

最小二乘法比高斯分布先出现，但是最开始只是一个经验，并没有太多的理论证明，而等到

高斯发现正态分布以后，从极大似然的角度，推导出了最小二乘法

【知乎用户的回答(6票)】:

最小二乘法可以让你只需要估计一次就能得到各个右手边变量对左手边变量的“纯”影响。

假设你的模型是

且满足最小二乘法的所有假设。如果你把

里的“点”（这里一“点”指一列）分成两组，

的话，那么当你要估计

里的

（

对

“纯”的影响）时，你可以有两种做法：

先用最小二乘法估计

，计算出残差

——这一步把

中可以被

解释的那部分“去掉”了。然后再用最小二乘法去估计

，计算出残差

——这一步把

中可以被

解释的那部分“去掉”了。最后再用一次最小二乘法去估计

，得到

对

的“纯”影响

。

直接用一次最小二乘法去估计你的模型，得到

。

而其实通过这两种方法得到的

，

：这就是 Frisch-Waugh-Lovell 定理。它是最小二乘法之所以经久不衰的最最最根本的原因之一。

【zcwgaizhili的回答(5票)】:

你说的应该只是一部分。

高斯马尔科夫定理中，ols是blue，也就是最佳、线性、无偏，估计。

这时候就应该对每一个x加一个权重，由于方差越大的波动越大，对这个x加一个较小的权重，这种加权最小二乘法，才能了blue。

【mtPractices的回答(2票)】:

（我之前也往往会把最小二乘法的目标函数与距离混淆）

1 如果是做线性回归，那么是一类统计问题。

在统计学中，高斯-马尔可夫定理解释了在统计评价指标中，为什么最小二乘法是最佳线性无偏估计。

可参见维基百科http://zh.wikipedia.org/wiki/%E9%AB%98%E6%96%AF%EF%BC%8D%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E5%AE%9A%E7%90%86

根据你后面的问题，有可能你对统计方面的一些知识还不太熟悉。

最小二乘法是数学中会经常用到的一种方法，是通过误差的最小平方和得到拟合函数的参数。

(知乎上的数学公式输入语句还不全），你可以去维基上搜索关于最小二乘法的定义。

由于是误差就是预测值与观测值的差，其平方和与二维空间中的欧式距离是一样的，所以可以使用欧几里得度量去表达；

2 所以在最简单的一元线性函数

拟合中，最小二乘法的目标函数就简化成，每个点与直线上的估计值的距离（二维欧式距离）之和最小；

******************************************

3 也不是你说的点到直线的距离之和最小；

【马拉轰的回答(2票)】:

我能想到的原因有三个：

一，最小二乘问题直接解矩阵就能算，用起来简便。

二，假设误差iid正态分布，最小二乘给出的参数是最大似然估计。正态分布最常用，有各种好性质。

三，假设误差同方差，零均值，不相关，最小二乘给出的参数是最好无偏估计，最好的定义是参数方差最小。(Gauss-Markov Th.)

实际上后两条的假设一般都是不成立的，常用的真正原因是第一条。

【EarthsonLu的回答(2票)】:

这其实主要问题在于，你拟合的是一个函数，还是仅仅是一条直线。

一次函数和几何上的一条直线，虽然看起来一样，但意义却是不同的。对函数来说，偏差是|y-f(x)|，而不是点到直线的欧式距离。

- - - -

另外，由中心极限定理，误差往往都满足高斯分布（误差往往是很多扰动共同作用的）。这里最小二乘得到该分布的极大似然估计。

【LinglaiLi的回答(1票)】:

总结：(1)首先你得定义什么叫最优，即定义一个合理（make sense）的误差目标函数去最小化；（2）然后，你得有算法求得该目标函数对应的最优解。

【shenshore的回答(0票)】:

除了以上，最小方差也是最大似然估计

【唐荣宽的回答(0票)】:

【李玛乐的回答(0票)】:

下图说明了最小二乘（LS）与总体最小二乘（TLS）的区别

【yangliu的回答(0票)】:

题主提到：

每个点到直线的距离之和最小这个根据欧式空间下点到直线的距离定义，用数学式子表示出来就是L2-norm的minimization.

然后最小二乘是这个最优化式的解析解。

【冯俊晨的回答(0票)】:

【陈无左的回答(0票)】:

1。椭圆分布的极大似然估计是最小二乘估计，反之不尽然。

2。对误差的概率建模决定取什么样的误差样本分布，不必椭圆。

3。估计作为从样本到估计值的函数，常以上述误差分布的极大似然估计充当，但不必。

4。经典统计推断理论给出极大似然估计量在无穷大样本量下的许多优良性质。Cramer曾说过mle是可以普遍构造的最好的估计量。

【LiHe的回答(0票)】:

有回答说中位数法会更稳定，我想也是这个原因，舍弃了坏点，能够更好的拟合。

浅见，望引玉。

【管清文的回答(0票)】:

不同意楼上@王芊的说法，我个人是这么认为的：

至于假设是否靠谱，我们还得通过假设实验进行验证。

【知乎用户的回答(0票)】:

因为考虑的函数是方差

原文地址:知乎

在进行线性回归时,为什么最小二乘法是最优方法?

相关内容

热门内容

标签