PDF 다운로드
PDF 다운로드
분산은 데이터 세트가 얼마나 분산되어 있는지 계산한 값입니다. 낮은 분산은 데이터를 과적하고 있다는 신호일 수 있으므로, 통계 모델을 생성할 때 유용합니다. 분산 계산은 까다롭긴 하지만 일단 수식을 배우고 올바른 숫자를 대입하기만 하면 답을 찾을 수 있습니다.
단계
-
표본 데이터 세트를 작성하십시오. 대부분의 경우 통계학자는 표본 또는 연구중인 모집단의 일부 자료만 다룰 수 있습니다. 예를 들어 통계학자는 "독일의 모든 자동차 가격" 자료를 분석하는 대신 몇 천대의 자동차에 대한 표본의 비용을 찾을 수 있습니다. 독일 자동차 비용 전체를 충분히 추정할 수 있지만 실제 수치와 정확히 일치하지는 않습니다.
- 예: 카페테리아에서 매일 판매되는 머핀 수를 분석하려면, 6일동안 무작위로 표본을 채집하여 다음의 결과를 얻습니다. 38, 37, 36, 28, 18, 14, 12, 11, 10.7, 9.9. 카페테리아가 개장한 후 매일 데이터를 수집한 것이 아니기 때문에 이것은 전체 자료가 아닌 표본입니다.
- 모집단의 모든 데이터가 있는 경우 아래의 방법으로 넘어가세요 .
-
샘플 분산 수식을 작성합니다. 데이터 세트의 분산은 데이터 내의 자료가 얼마나 분산되어 있는지 알려줍니다. 분산이 0에 가까울수록 자료들이 더 밀접하게 모여 있습니다. 표본 데이터 세트로 작업을 할 때는 다음 공식을 사용하여 분산을 계산하세요 [1] X 출처 검색하기
- = ∑[( - x̅) ] / (n - 1)
- 가 분산입니다. 분산은 항상 제곱 단위로 계산됩니다.
- 은 데이터 집합의 항을 나타냅니다.
- "합"을 의미하는 ∑는 의 각 값에 대해 다음 항을 계산한 다음 함께 더하라는 의미입니다.
- x̅는 표본의 평균입니다.
- n은 데이터 포인트의 수입니다.
-
표본의 평균을 계산합시다 . 기호 x̅ 또는 "x-바"는 샘플의 평균을 나타냅니다. [2] X 출처 검색하기 평균을 구하는 식을 이용해 계산하십시오. 모든 데이터 포인트를 함께 더한 다음 데이터 포인트의 수로 나눕니다.
- 예:
먼저 데이터 포인트를 더합니다: 17 + 15 + 23 + 7 + 9 + 13 = 84
다음으로 합을 데이터 포인트 의 수(이 경우 6)로 나눕니다: 84 ÷ 6 = 14.
샘플 평균 = x̅ = 14 . - 평균을 데이터의 "중심점"으로 생각할 수 있습니다. 데이터가 평균 주위에 모였다면, 분산은 낮고, 평균에서 멀어지면 분산이 높은 것입니다.
- 예:
먼저 데이터 포인트를 더합니다: 17 + 15 + 23 + 7 + 9 + 13 = 84
-
각 데이터 포인트에서 평균을 뺍니다. 이제 -x̅를 계산해야 합니다. 여기서 는 데이터 세트의 각 숫자입니다. 각 답변은 평균과의 편차 또는 간단히 평균에서 얼마나 멀리 떨어져 있는지 알려줍니다. [3] X 출처 검색하기 .
- 예:
- x̅ = 17 - 14 = 3
- x̅ = 15 - 14 = 1
- x̅ = 23 - 14 = 9
- x̅ = 7 - 14 = -7
- x̅ = 9 - 14 = -5
- x̅ = 13 - 14 = -1 - 모든 편차의 합은 0이므로 계산을 쉽게 확인할 수 있습니다. 평균의 정의에 따라, 음수 편차(평균보다 작은 숫자까지의 거리)가 양수 편차(평균보다 큰 수까지의 거리)를 정확하게 없애기 때문입니다.
- 예:
-
각 결과를 제곱합니다. 위에서 언급했듯이 현재 편차 목록( -x̅)의 합계는 0입니다. 즉, "평균 편차"도 항상 0이므로 데이터가 얼마나 분산되었는지에 대해서는 아무 것도 알려주지 않습니다. 이 문제를 해결하려면 각 편차의 제곱을 찾으십시오. 이렇게 하면 모두 양수가 되므로 음수 및 양수 값은 더 이상 0으로 상쇄되지 않습니다. [4] X 출처 검색하기
- 예:
( - x̅)
- x̅)
9 2 = 81
(-7) 2 = 49
(-5) 2 = 25
(-1) 2 = 1 - 표본의 각 데이터 포인트에 대해 ( -x̅) 를 구했습니다.
- 예:
-
제곱 값의 합을 구하십시오. 이제 전체 수식의 분자를 계산할 차례입니다: ∑[( - x̅) ]. 대문자 시그마 ∑는 의 각 값에 대해 다음 항의 값을 합산하라는 뜻입니다. 이미 표본에서 의 각 값에 대해 ( -x̅) 을 계산했으므로 결과를 함께 합하기만 하면 됩니다.
- 예: 9 + 1 + 81 + 49 + 25 + 1 = 166 .
-
n - 1로 나눕니다. 여기서 n은 데이터 포인트 개수입니다. 오래 전에 통계학자들은 표본의 분산을 계산할 때 단순히 n으로 나눴습니다. 이는 제곱 편차의 평균값을 제공하며, 해당 표본의 분산을 구하는 것입니다. 그러나 표본은 더 많은 데이터의 추정치일 뿐입니다. 다른 임의의 표본을 취하여 동일한 계산을 수행하면 다른 결과를 얻을 수 있습니다. 알려진 바에 따르면 n 대신 n-1로 나누면 더 큰 자료의 분산을 더 잘 추정할 수 있습니다. 이 특징은 아주 일반적이어서 오늘날 표본 분산의 정의가 되었습니다. [5] X 출처 검색하기
- 예:
표본에 데이터 포인트가 6개 있으므로, n = 6.
표본의 분산 = 33.2
- 예:
표본에 데이터 포인트가 6개 있으므로, n = 6.
-
분산과 표준 편차를 이해합니다. 수식에 지수가 있으므로 분산은 원래 데이터의 제곱 단위로 측정됩니다. 이 숫자를 직관적으로 이해하기 어려울 수 있습니다. 대신 표준 편차를 사용하는 것이 종종 유용합니다. 표준 편차는 편차의 제곱근이므로, 편차를 배우느라 고생한 것을 써먹으면 됩니다. 표본의 분산이 이고 샘플의 표준 편차가 인 이유입니다.
- 예를 들어, 위의 표본 표준 편차는 = s = √33.2 = 5.76입니다.
광고
-
모집단 데이터 세트로 시작하십시오. "모집단"이라는 용어는 전체 관련 데이터를 나타냅니다. 예를 들어, 인천 시민의 나이를 연구하는 경우, 모집단은 모든 인천 시민의 나이를 의미합니다. 일반적으로 이와 같은 큰 데이터 세트에는 스프레드시트를 사용하지만, 지금은 작은 데이터 세트를 예로 들겠습니다.
- 예:
수족관 하나에 정확히 6개의 어항이 있습니다. 여섯 개의 어항에는 각자 다음과 같은 수의 물고기가 있습니다:
- 예:
수족관 하나에 정확히 6개의 어항이 있습니다. 여섯 개의 어항에는 각자 다음과 같은 수의 물고기가 있습니다:
-
모집단 분산 공식을 씁니다. 모집단에 필요한 모든 데이터가 포함되어 있으므로, 이 공식은 모집단의 정확한 분산을 계산합니다. 표본 분산(추정치)과 구별하기 위해 통계학자들은 다른 변수를 사용합니다. [6] X 출처 검색하기
- σ = (∑( - μ) ) / n
- σ = 모집단 분산입니다. 이것은 소문자 시그마이며, 제곱입니다. 분산은 제곱 단위로 측정됩니다.
- 은 데이터 집합의 항을 나타냅니다.
- ∑ 안의 항은 의 각 값에 대해 계산 한 후 합산됩니다.
- μ는 모집단 평균입니다
- n은 모집단의 데이터 포인트 수입니다.
-
모집단의 평균을 찾으십시오. 모집단을 분석할 때 기호 μ("mu")는 산술 평균을 나타냅니다. 평균을 구하려면 모든 데이터 포인트를 더한 다음 데이터 포인트의 개수로 나눕니다.
- 여기서 "평균"을 일반적 평균으로 생각할 수 있지만, 평균이라는 단어는 수학에서 여러 정의를 가지고 있으므로 주의하십시오.
- 예: 평균 = μ = = 10.5
-
각 데이터 포인트에서 평균을 뺍니다. 평균에 가까운 데이터 포인트는 0에 가까운 차이를 가집니다. 각 데이터 포인트로 빼기를 반복하면 데이터가 얼마나 분산되어 있는지 알 수 있습니다.
- 예:
- μ = 5 - 10.5 = -5.5
- μ = 5 - 10.5 = -5.5
- μ = 8 - 10.5 = -2.5
- μ = 12 - 10.5 = 1.5
- μ = 15 - 10.5 = 4.5
- μ = 18 - 10.5 = 7.5
- 예:
-
각 결과를 제곱합니다. 현재 이전 계산 결과의 일부 숫자는 음수이고 일부는 양수입니다. 데이터를 숫자 줄에 그림으로 표시하면 이 두 범주는 평균의 왼쪽 숫자와 평균의 오른쪽 숫자를 나타냅니다. 이 두 수 그룹은 서로 상쇄되므로 분산 계산에는 적합하지 않습니다. 각 숫자를 제곱하여 모두 양수로 만듭니다.
- 예:
( - μ) 1에서 6까지 i 의 모든 값을 계산합니다:
(-5.5) = 30.25
(-5.5) = 30.25
(-2.5) = 6.25
(1.5) = 2.25
(4.5) = 20.25
(7.5) = 56.25
- 예:
-
결과의 평균을 찾으십시오. 이제 데이터 포인트가 평균에서 얼마나 멀리 떨어져 있는지에 대한 값을(간접적으로) 구했습니다. 이 값을 모두 더한 다음, 데이터 개수로 나누어 평균을 구하십시오.
- 예:
모집단의 분산 = 24.25
- 예:
-
계산 결과를 공식에 다시 적용시킵니다. 이 방법의 처음에 있던 수식과 이 값이 어떻게 맞는지 모르겠다면, 전체 수식을 전체적으로 작성해 보십시오.
- 평균과 제곱 편차의 값을 구하고 난 후, ( - μ) , ( - μ) 와 같은 값이 ( - μ) 까지 있을 것이며, 가 마지막 데이터입니다.
- 이 값의 평균을 구하려면 값을 합산하여 n으로 나눕니다: ( ( - μ) + ( - μ) + ( -μ) ) / n
- 분자를 시그마 표기로 다시 적은 결과는 (∑( - μ) ) / n 이며, 이는 분산 공식입니다.
광고
팁
- 분산은 해석하기 어렵기 때문에, 이 값은 일반적으로 표준 편차를 계산하기 위한 시작점으로 계산됩니다.
- 샘플을 분석할 때 분모에서 "n"대신 "n-1"을 사용하는 것은 베셀 보정이라고 하는 것입니다. 표본은 전체 모집단의 추정치일 뿐이며 표본의 평균은 해당 추정치에 맞게 편향됩니다. 베셀 보정은 이 편향을 제거합니다. [7] X 출처 검색하기 특정 값만 분산 공식에 사용되는 표본 평균 (x̅)을 이루기 때문에, 일단 n-1 개의 데이터 포인트를 나열하면 최종 n 번째의 데이터가 이미 제한되어 있다는 사실 때문입니다. [8] X 출처 검색하기
광고
출처
- ↑ https://www.youtube.com/watch?v=VgKHjVDK0uM
- ↑ http://stattrek.com/statistics/notation.aspx
- ↑ http://www.mathsisfun.com/data/standard-deviation.html
- ↑ https://www.youtube.com/watch?v=sOb9b_AtwDg
- ↑ https://www.youtube.com/watch?v=sOb9b_AtwDg
- ↑ https://www.youtube.com/watch?v=VgKHjVDK0uM
- ↑ http://datapigtechnologies.com/blog/index.php/understanding-standard-deviation-2/
- ↑ http://www.statsdirect.com/help/default.htm#basics/degrees_freedom.htm
이 위키하우에 대하여
이 문서는 44,722 번 조회 되었습니다.
광고