PDF download 下载PDF文件 PDF download 下载PDF文件

协方差是统计学中使用的一种数值,用于描述两个变量间的线性关系。两个变量的协方差越大,它们在一系列数据点范围内的取值所呈现出的趋势就越相近(换句话说,两个变量的曲线距离彼此较近)。一般来说,两组数值x和y的协方差可以用这个公式计算: 1/(n -1)Σ(x i - x avg )(y i - y avg ) 。其中n为样本量,x i 是每个x点的取值,x avg 为x的平均值,y i 和y avg 也类似。

部分 1
部分 1 的 2:

使用标准方差公式

PDF download 下载PDF文件
  1. 你只需要两个变量x和y的一系列取值就可以计算出方差。如果你使用的是一个图上的数据点,你的数据应该来自图上的一系列(x,y)交点。或者,则需要通过数学方法找出两个变量的一一对应值。
    • 记下相对应的x/y数据对的数量。这就是“n”,即样本大小,计算方差时需要用到。
    • 举个例子,假设我们开了一家熟食店,需要确定所发出的优惠券是否会对销量产生影响。我们可以将x定义为“在优惠日发放出去的优惠券数量”,将y定义为“当日销量”。
    • 为了方便起见,我们使用上图中的表格作为参考,即,第一天我们发放出x=1优惠券,卖出y=8,第二天发放x=3优惠券,卖出y=6,等等。
  2. 在得到一系列x/y取值之后,剩下的工作就不多了。首先计算x的平均值,将所有的x值相加再除以样本量(进一步参考我们关于计算平均值的文章)。
    • 在我们的例子中,我们需要将上表中“x”栏中的数值相加,再除以数值的个数。计算1+3+2+5…,最终得到44。再除以9,得到44/9 = 4.89 就是x的平均值。见下:

      1 + 3 + 2 + 5 + 8 + 7 + 12 + 2 + 4 = 44
      44/9 = 4.89

  3. 下一步是计算y的平均值,和计算x的平均值方法一样:把y的值相加,除以样本量。
    • 在我们的例子中,应该计算8+6+9+4...得到49。除以样本量,得到49/9 = 5.44 即为y的平均值。见下:

      8 + 6 + 9 + 4 + 3 + 3 + 2 + 7 + 7 = 49
      49/9 = 5.44

  4. 注意公式中的sigma(Σ)符号,意思是每个x值都要减去平均值,再加起来(y也一样)。计算量比较大,所以需要非常仔细,避免出错。
    • 在我们的例子中,需要如下计算:

      1/(n -1)Σ(x i - x avg )(y i - y avg )

      (1/8)(((1 - 4.89)+(3 - 4.89)+(2 - 4.89)+(5 - 4.89)+(8 - 4.89)+(7 - 4.89)+(12 - 4.89)+(2 - 4.89)+(4 - 4.89))((8 - 5.44)+(6 - 5.44)+(9 - 5.44)+(4 - 5.44)+(3 - 5.44)+(3 - 5.44)+(2 - 5.44)+(7 - 5.44)+(7 - 5.44))

      (1/8)((-0.01)((8 - 5.44)+(6 - 5.44)+(9 - 5.44)+(4 - 5.44)+(3 - 5.44)+(3 - 5.44)+(2 - 5.44)+(7 - 5.44)+(7 - 5.44))

      (1/8)(-0.01)(0.04) = 0.00005

    • 下文会提到,我们的答案 0.00005 非常接近0,意味着发放出的优惠券数量对熟食店的销量在实质上 没有影响
    广告
部分 2
部分 2 的 2:

使用协方差值

PDF download 下载PDF文件
  1. 协方差值永远介于 1和-1 之间。在这个范围外的值说明计算出错了。根据协方差值接近1或-1的程度得出结论。例如,如果协方差值正好等于1,则两个变量完全正相关。也就是说,一个变量会随着另一个变量的增加而增加(减少而减少)。这种关系是完全线性的——无论变量取值多大或多小,两个变量之间的关系都一样。
    • 举个例子,考虑出售柠檬水这一简单的生意。每杯柠檬水卖3元。如果x代表卖出的柠檬水杯数,y代表收入,则y永远会随着x的增加而增加。见下:

      卖出10杯柠檬水:x = 10, y = ¥30
      卖出100杯柠檬水:x = 100, y = ¥300
      卖出一百万杯柠檬水:x = 1,000,000, y = ¥3,000,000
      无论x值多大,y永远等于3(x)。因此,可以说x和y 完全正相关 ,也就是相关系数等于1。

  2. 2
    协方差值等于-1意味着完全负相关。 另一方面,如果协方差值为-1,则两个变量完全负相关。 [1] 换句话说,一个变量的增加会导致另一个变量减小,反之亦然。跟上文一样,这个关系也是线性的。两个变量分离的比率不随时间变化。
    • 举个例子,假设我们正在管理一个油井,总共能钻出一万桶油。x等于已经钻出的桶数,y等于还在油井里的桶数,那么只要x增加,y就减小。换句话说,已经钻出来的油绝对不可能回到井内。 [2] 见下:

      钻出一桶油: x = 1, y = 9,999
      已钻出2000桶油:x = 2,000, y = 8,000。
      已钻出10000桶油:x = 10,000, y = 0。
      只要x增加,y就以相同的速率减少。这个关系是线性的——每钻出一桶油就意味着地下的油少了一桶。因此我们说x和y 完全负相关 ,也就是说相关系数为-1。

  3. 如果协方差为0,说明两个变量不相关。 [3] 换句话说,我们不会预测一个变量增加或减少将导致另一个变量的增加或减少。两个变量间没有线性关系,但仍然可能存在非线性关系。
    • 举个例子,假设一个人正在接受针对一种病毒性疾病的顺势疗法。如果x表示用药剂量(以茶匙计),y表示病人血管中的病毒载量(以每毫升国际单位(IU/mL)计),我们没法预测y会随着x的增加而增加或减少。y的波动与x完全独立 [4] 。见下:

      摄入一茶匙:x = 1, y = 615。
      摄入10茶匙:x = 10 y = 700。
      摄入20茶匙:x = 20, y = 455。
      x增加,无法预测y会增加还是减少。两者之间的关系不明——有时候摄入药量多,会使得病毒载量减少,但有时候会使得病毒载量增加。因此,我们可以认为x和y 几乎不相关

  4. 大部分协方差值都不会严格等于1,-1或0,通常会介于它们之间。根据一个协方差值接近某一个基准值的程度,可以判断其是正相关还是负相关。
    • 例如,协方差值0.8意味着高度正相关,尽管不是完全相关。也就是说,如果x增加,y通常会增加,x减小,y通常会减小,尽管这个关系不是完全稳定的。
    广告

小提示

  • 阅读关于散点图的文章和计算相关系数的文章,可以得到相关信息。
  • 协方差方程往往用于对比股票——投资者希望知道某两只股票会不会随着彼此波动。要回答这个问题,你只需要一张对比两只股票在一段时间内每日走势的表,见下:

    A公司(x): (1.6 + 1.9 + 2.1 + 3.2 + 0.5 + 0.4 + 0.6)/7 = 1.47
    B公司(y): (2.0 + 2.4 + 2.6 + 3.6 + 0.9 + 0.8 + 1.0)/7 = 1.9

    (1/n-1)(Σ(x i - x avg )(y i - y avg )

    (1/6)(((1.6 - 1.47)+(1.9 - 1.47)+(2.1 - 1.47)+(3.2 - 1.47)+(0.5 - 1.47)+(0.4 - 1.47)+(0.6 - 1.47))((2.0 - 1.78)+(2.4 - 1.78)+(2.6 - 1.78)+(3.6 - 1.78)+(0.9 - 1.78)+(0.8 - 1.78)+(1.0 - 1.78))

    (1/6)((0.01)(0.84))

    (1/6)(0.084) = 0.14


广告

关于本wikiHow

本页面已经被访问过77,172次。

这篇文章对你有帮助吗?

广告