相关系数与协方差的关系

探究协方差与相关系数

罗燕

摘要:协方差Cov(X,Y)是描述二维随机变量两个分量间相互关联程度的一个特征数,如果将协方差相应标准化变量就得到相关系数Corr(X,Y)。从而可以引进相关系数Corr(X,Y)去刻画二维随机变量两个分量间相互关联程度。且事实表明,相关系数明显被广泛应用。本文的目的在于从协方差与相关系数的关系的角度去探讨协方差与相关系数的优缺点,并具体介绍协方差和相关系数这两个描述二维随机变量间相关性的特征数。 关键字:协方差Cov(X,Y) 相关系数Corr(X,Y) 相互关联程度

1 协方差、相关系数的定义及性质

设(X ,Y)是一个二维随机变量,若E{ [ X-E(X) ] [ Y-E(Y) ] }存在,则称此数学期望为X与Y的协方差,并记为Cov(X,Y)=E{ [ X-E(X) ] [ Y-E(Y) ] },特别有Cov(X,X)=Var(X)。

从协方差的定义可以看出,它是X的偏差“X-E(X) ”与Y的偏差“Y-E(Y)”的乘积的数学期望。由于偏差可正可负,故协方差也可正可负,也可为零,其具体表现如下:

·当Cov(X,Y)>0时,称X与Y正相关,这时两个偏差 [ X-E(X) ] 与[ Y-E(Y) ] 同时增加或同时减少,由于E(X)与E(Y)都是常数,故等价于X与Y同时增加或同时减少,这就是正相关的含义。

·当Cov(X,Y)

·当Cov(X,Y)=0时,称X与Y不相关。

也就是说,协方差就是用来描述二维随机变量X与Y相互关联程度的一个特征数。协方差Cov(X,Y)是有量纲的量,譬如X表示人的身高,单位是米(m),Y表示人的体重,单位是公斤(kg),则Cov(X,Y)带有量纲(m·kg)。为了消除量纲的影响,对协方差除以相同量纲的量,就得到一个新的概念—相关系数,它的定义如下:

设(X ,Y)是一个二维随机变量,且Var(X)>0,Var(Y)>0.则称

Cov(X,Y)

(X)(Y)Cov(X,Y) Corr(X,Y)==σxσ y

为X与Y的(线性)相关系数。

利用施瓦茨不等式我们不难得到-1≤Corr(X,Y)≤1.也就是说相关系数是介于-1到1之间的,并且可以对它作以下几点说明:

·若Corr(X,Y)=0,则称X与Y不相关。不相关是指X与Y没有线性关系,但也有可能有其他关系,比如平方关系、立方关系等。

·若Corr(X,Y)=1,则称X与Y完全正相关;若Corr(X,Y)=-1,则称X与Y完全,负相关。

·若0

2 协方差与相关系数的一致性

从协方差与相关系数的定义和性质我们不难发现,协方差与相关系数都是反映X与Y相关程度的量。也就是说,他们有异曲同工之效。在刻画二维随机变量两个分量间相互关联程度时,他们保持了一致性。这一点我可以给出以下两个例子来说明。

例一 设随机变量X和Y独立同服从参数为λ的泊松分布,令

U=2X+Y, V=2X-Y。

求U和V的协方差及相关系数。

解:因为

Var(U)=Var(2X+Y)=5λ,Var(V)=Var(2X-Y)=5λ.

所以

Cov(U,V)=Cov(2X+Y,2X-Y)

=Cov(2X,2X)+Cov(Y,2X)-Cov(2X,Y)-Cov(Y,Y)

=3λ

由此得

Corr(U,V)=Cov(U,V)

(U)(V)=3λ

5λ=3

5

服从参数为λ的泊松分布中得λ>0,由协方差Cov(U,V)=3λ是恒大于0的,再由相关

3系数Corr(U,V)=,就很好的说明协方差与相关系数均可以反映二维随机变量关联程度。5

我们再看下一个例题,看能否能出这个结论呢?

例二 将一枚硬币重复掷n次,以X和Y分别表示正面向上和反面向上的次数,试求X 和Y的协方差和相关系数。

解:因为X+Y=n,且X~b(n,1/2),Y~b(n,1/2),所以

n Var(X) =Var(Y)=, 4

n Cov(X,Y)=Cov(X ,n-X)=-Cov(X,X)=- 4

Corr(X,Y)= Cov(X,Y)

(X)(Y)=-n

n=-1

4

我们假定n=1,Cov(X,Y)=-1

4

我们可以得出,随着n的增大,协方差Cov(X,Y)就越来越小,随之X与Y的负相关性就表;n=100,Cov(X,Y)=-25;n=10000,Cov(X,Y)=-2500„„现得越来越强烈。就有limCov(X,Y)=-∞,X与Y间是完全负相关的。 n→∞

又由于Corr(X,Y)=-1,表明X与Y间是完全负相关的。其实,这个结论早就蕴含在线性关系式X+Y=n之中了。

综上,就说明:在某种情况下,协方差和相关系数在反映X与Y间的关联程度时保持

一致性。若是这样的话,研究相关系数似乎有点多余了。因为,我们已经有一个可以反映X与Y间的关联程度的量了(即协方差),那我们能否找出相关系数更优秀的地方呢? 3 协方差与相关系数的“矛盾性”

Corr(X,Y)越接近1,则线性相关程度越高;Corr(X,Y)越接近0,则线性相关程度越低。而协方差看不出这一点。若协方差很小,而其两个标准差σX和σY也很小,则其比

值就不一定小,下面我们来看实例。

例三 已知随机向量(X,Y)的联合密度函数为

8

3, 0

求X,Y的协方差及相关系数。

解:先计算两个边际密度函数,再分别计算E(X)、E(X2)、E(Y)、E(Y2)、 Var(X)、Var(Y)及E(XY)。

最后得协方差和相关系数为

Cov(X,Y)=E(XY)-E(X)E(Y)=0.0471

Corr(X,Y)=Cov(X,Y)p(x,y)={

σxσ=0.8243 y

这个协方差很小,但其相关系数并不小。从相关系数Corr(X,Y)=0.8243看,X与Y有相当程度的正相关;但从相应的协方差Cov(X,Y)=0.0471看,X与Y的相关性很微弱,几乎可以忽略不计。造成这种错觉的原因在于没有考虑标准差,若两个标准差都很小,即使协方差小一些,相关系数也能显示一定程度的相关性。由此可见,在协方差的基础上加工形成的相关系数是更为重要的相关性的特征数。

参考文献

[1] 茆诗松,程依明,濮晓龙.概率论与数理统计教程.北京:高等教育出版社,2004

[2] 董永权,王占民.关于相关系数ρ的几点注释.唐山 063000

[3] 谢明文,关于协方差、相关系数与相关性的关系.四川成都 610074

探究协方差与相关系数

罗燕

摘要:协方差Cov(X,Y)是描述二维随机变量两个分量间相互关联程度的一个特征数,如果将协方差相应标准化变量就得到相关系数Corr(X,Y)。从而可以引进相关系数Corr(X,Y)去刻画二维随机变量两个分量间相互关联程度。且事实表明,相关系数明显被广泛应用。本文的目的在于从协方差与相关系数的关系的角度去探讨协方差与相关系数的优缺点,并具体介绍协方差和相关系数这两个描述二维随机变量间相关性的特征数。 关键字:协方差Cov(X,Y) 相关系数Corr(X,Y) 相互关联程度

1 协方差、相关系数的定义及性质

设(X ,Y)是一个二维随机变量,若E{ [ X-E(X) ] [ Y-E(Y) ] }存在,则称此数学期望为X与Y的协方差,并记为Cov(X,Y)=E{ [ X-E(X) ] [ Y-E(Y) ] },特别有Cov(X,X)=Var(X)。

从协方差的定义可以看出,它是X的偏差“X-E(X) ”与Y的偏差“Y-E(Y)”的乘积的数学期望。由于偏差可正可负,故协方差也可正可负,也可为零,其具体表现如下:

·当Cov(X,Y)>0时,称X与Y正相关,这时两个偏差 [ X-E(X) ] 与[ Y-E(Y) ] 同时增加或同时减少,由于E(X)与E(Y)都是常数,故等价于X与Y同时增加或同时减少,这就是正相关的含义。

·当Cov(X,Y)

·当Cov(X,Y)=0时,称X与Y不相关。

也就是说,协方差就是用来描述二维随机变量X与Y相互关联程度的一个特征数。协方差Cov(X,Y)是有量纲的量,譬如X表示人的身高,单位是米(m),Y表示人的体重,单位是公斤(kg),则Cov(X,Y)带有量纲(m·kg)。为了消除量纲的影响,对协方差除以相同量纲的量,就得到一个新的概念—相关系数,它的定义如下:

设(X ,Y)是一个二维随机变量,且Var(X)>0,Var(Y)>0.则称

Cov(X,Y)

(X)(Y)Cov(X,Y) Corr(X,Y)==σxσ y

为X与Y的(线性)相关系数。

利用施瓦茨不等式我们不难得到-1≤Corr(X,Y)≤1.也就是说相关系数是介于-1到1之间的,并且可以对它作以下几点说明:

·若Corr(X,Y)=0,则称X与Y不相关。不相关是指X与Y没有线性关系,但也有可能有其他关系,比如平方关系、立方关系等。

·若Corr(X,Y)=1,则称X与Y完全正相关;若Corr(X,Y)=-1,则称X与Y完全,负相关。

·若0

2 协方差与相关系数的一致性

从协方差与相关系数的定义和性质我们不难发现,协方差与相关系数都是反映X与Y相关程度的量。也就是说,他们有异曲同工之效。在刻画二维随机变量两个分量间相互关联程度时,他们保持了一致性。这一点我可以给出以下两个例子来说明。

例一 设随机变量X和Y独立同服从参数为λ的泊松分布,令

U=2X+Y, V=2X-Y。

求U和V的协方差及相关系数。

解:因为

Var(U)=Var(2X+Y)=5λ,Var(V)=Var(2X-Y)=5λ.

所以

Cov(U,V)=Cov(2X+Y,2X-Y)

=Cov(2X,2X)+Cov(Y,2X)-Cov(2X,Y)-Cov(Y,Y)

=3λ

由此得

Corr(U,V)=Cov(U,V)

(U)(V)=3λ

5λ=3

5

服从参数为λ的泊松分布中得λ>0,由协方差Cov(U,V)=3λ是恒大于0的,再由相关

3系数Corr(U,V)=,就很好的说明协方差与相关系数均可以反映二维随机变量关联程度。5

我们再看下一个例题,看能否能出这个结论呢?

例二 将一枚硬币重复掷n次,以X和Y分别表示正面向上和反面向上的次数,试求X 和Y的协方差和相关系数。

解:因为X+Y=n,且X~b(n,1/2),Y~b(n,1/2),所以

n Var(X) =Var(Y)=, 4

n Cov(X,Y)=Cov(X ,n-X)=-Cov(X,X)=- 4

Corr(X,Y)= Cov(X,Y)

(X)(Y)=-n

n=-1

4

我们假定n=1,Cov(X,Y)=-1

4

我们可以得出,随着n的增大,协方差Cov(X,Y)就越来越小,随之X与Y的负相关性就表;n=100,Cov(X,Y)=-25;n=10000,Cov(X,Y)=-2500„„现得越来越强烈。就有limCov(X,Y)=-∞,X与Y间是完全负相关的。 n→∞

又由于Corr(X,Y)=-1,表明X与Y间是完全负相关的。其实,这个结论早就蕴含在线性关系式X+Y=n之中了。

综上,就说明:在某种情况下,协方差和相关系数在反映X与Y间的关联程度时保持

一致性。若是这样的话,研究相关系数似乎有点多余了。因为,我们已经有一个可以反映X与Y间的关联程度的量了(即协方差),那我们能否找出相关系数更优秀的地方呢? 3 协方差与相关系数的“矛盾性”

Corr(X,Y)越接近1,则线性相关程度越高;Corr(X,Y)越接近0,则线性相关程度越低。而协方差看不出这一点。若协方差很小,而其两个标准差σX和σY也很小,则其比

值就不一定小,下面我们来看实例。

例三 已知随机向量(X,Y)的联合密度函数为

8

3, 0

求X,Y的协方差及相关系数。

解:先计算两个边际密度函数,再分别计算E(X)、E(X2)、E(Y)、E(Y2)、 Var(X)、Var(Y)及E(XY)。

最后得协方差和相关系数为

Cov(X,Y)=E(XY)-E(X)E(Y)=0.0471

Corr(X,Y)=Cov(X,Y)p(x,y)={

σxσ=0.8243 y

这个协方差很小,但其相关系数并不小。从相关系数Corr(X,Y)=0.8243看,X与Y有相当程度的正相关;但从相应的协方差Cov(X,Y)=0.0471看,X与Y的相关性很微弱,几乎可以忽略不计。造成这种错觉的原因在于没有考虑标准差,若两个标准差都很小,即使协方差小一些,相关系数也能显示一定程度的相关性。由此可见,在协方差的基础上加工形成的相关系数是更为重要的相关性的特征数。

参考文献

[1] 茆诗松,程依明,濮晓龙.概率论与数理统计教程.北京:高等教育出版社,2004

[2] 董永权,王占民.关于相关系数ρ的几点注释.唐山 063000

[3] 谢明文,关于协方差、相关系数与相关性的关系.四川成都 610074


相关内容

  • 协方差矩阵和相关矩阵
  • 一.协方差矩阵 变量说明: 设为一组随机变量,这些随机变量构成随机向量 ,每个随机变量有m个样本,则有样本矩阵 x11x21 M.  . xn1x12 ...xn2..........x1mx2m. .xnm 其中对应着每个随机向量X的样本向量,对应着第i个随机单变 ...

  • 计量经济学思考题答案
  • 计量经济学思考题答案 第一章 绪论 1.1怎样理解产生于西方国家的计量经济学能够在中国的经济理论研究和现代化建设中发挥重要作用? 答:计量经济学的产生源于对经济问题的定量研究,这是社会经济发展到一定阶段的客观需要.计量经济学的发展是与现代科学技术成就结合在一起的,它反映了社会化大生产对各种经济因素和 ...

  • 我国东部地区NDVI与气温_降水的关系研究_王永立
  • 第25卷 第6期 热 带 气 象 学 报 V ol.25,No.6 2009年12月 JOURNAL OF TROPICAL METEOROLOGY Dec. ,2009 文章编号:1004-4965(2009)06-0725-08 我国东部地区NDVI 与气温.降水的关系研究 王永立, 范广洲, ...

  • 国债期限溢价与股权溢价之间动态相关性分析
  • 摘 要:鉴于国债期限溢价与股权溢价之间的相关关系具有时变性特征,本文运用BEKK-MGARCH.ADCC-MGARCH等模型从条件相关系数角度考察国债期限溢价与股权溢价之间的动态相关性.经验分析结果发现,在描述两者的相关性动态变化方面,考虑非对称性的ADCC-MGARCH模型优于BEKK-MGARC ...

  • 第9章SPSS的线性回归分析
  • 第9章SPSS 的线性回归分析 学习目标 1. 掌握线型回归分析的主要目标, 了解回归方程的最小二乘法估计的基本设计思路. 2. 熟练掌握线性回归分析的具体操作,能够读懂基本分析结果,掌握计算结果之间的 数量关系,并能够写出回归方程.对回归方程进行各种统计检验. 3. 了解多元线性回归分析哦那个自变 ...

  • 计量经济学知识点(超全版)
  • 1.经济变量:经济变量是用来描述经济因素数量水平的指标.(3分) 2.解释变量:是用来解释作为研究对象的变量(即因变量)为什么变动.如何变动的变量.(2分)它对因变量的变动做出解释,表现为方程所描述的因果关系中的"因".(1分) 3.被解释变量:是作为研究对象的变量.(1分)它的 ...

  • 计量经济学庞浩第二版河北金融学院考试重点
  • 1.5一个完整的计量经济模型应包括哪些基本要素?你能举一个例子吗? 答:一个完整的计量经济模型应包括三个基本要素:经济变量.参数和随机误差项. 例如研究消费函数的计量经济模型:Y?α?βX?u 其中,Y为居民消费支出,X为居民家庭收入,二者是经济变量:α和β为参数:u是随机误差项. 1.10你能分别 ...

  • 计量经济学题库(全)
  • 一.名词解释(每小题3分,共12分) 1.OLS 2.异方差3.多重共线性4.序列相关性 5.相关系数 6.工具变量法:7.计量经济学8.RSS 9最小样本容量 10差分法: 二.单项选择题(每小题1分,共20分) 1. 计量经济模型是指 ( ) A.投入产出模型 B.数学规划模型 C.包含随机方程 ...

  • 主成分分析法的原理应用及计算步骤
  • 一.概述 在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费.经费支出等之间会存在较高的相关性:学生综合评价研究中的专业基础课成绩与专业课成绩.获奖学金次数等之间也会存在较高的相关性.而变量之间信息的高度重叠 ...