A variância mede o espalhamento de um conjunto de dados. Uma baixa variância indica que os valores do conjunto estão aglomerados com proximidade uns dos outros. A alta variância, por sua vez, indica que os números estão mais espalhados. Esse conceito tem diversos usos na estatística. Por exemplo, comparar a variância entre dois conjuntos de dados (como resultados de pacientes homens e mulheres) é uma forma de observar se uma determinada variável causa algum efeito perceptível. [1] X Fonte de pesquisa Ela também é bastante útil na criação de modelos estatísticos, já que uma baixa variância pode ser sinal de que você está sobreajustando os dados. [2] X Fonte de pesquisa
Passos
-
Escreva o conjunto de dados de sua amostra. Na maioria dos casos, estatísticos têm acesso apenas a uma amostra, ou um subconjunto da população que estão estudando. Por exemplo, em vez de analisar a população "custo de todos os carros na Alemanha", um estatístico poderá analisar uma amostra aleatória de alguns milhares de carros. Ele pode usar essa amostra para obter uma estimativa dos custos de carros alemães, mas o resultado provavelmente não equivalerá aos valores reais com precisão.
- Exemplo: ao analisar a quantidade de bolinhos vendidos diariamente em uma cafeteria, você pode amostrar seis dias aleatórios e obter os seguintes resultados: 17, 15, 23, 7, 9, 13 . Essa é uma amostra, e não uma população, já que não há dados relativos a todos os dias em que a cafeteria estava aberta.
- Se você tiver todos os pontos de dados de uma população, pule para o método abaixo .
-
Escreva a fórmula de variância da amostra. A variância de um conjunto de dados diz a você quão espalhados eles estão. Quanto mais próxima de zero, mais próximos estarão uns dos outros. Ao trabalhar com conjuntos de dados amostrais, use a seguinte fórmula para calcular a variância: [3] X Fonte de pesquisa
- = ∑[( - x̅) ] / (n - 1)
- representa a variância, que é sempre medida em unidades elevadas ao quadrado.
- representa um termo de seu conjunto de dados.
- ∑, que significa "somatória", leva você a calcular os seguintes termos para cada valor de e, a seguir, somá-los em conjunto.
- x̅ representa o valor médio da amostra.
- n é a quantidade de pontos de dados presentes na amostra.
-
Calcule a média da amostra . O símbolo x̅ ou "x barra" se refere à média aritmética de uma amostra. [4] X Fonte de pesquisa Calcule-o como se ele fosse qualquer outro tipo de média: some todos os dados existentes e divida o resultado pela quantidade deles.
- Exemplo:
inicialmente, some os pontos de dados: 17 + 15 + 23 + 7 + 9 + 13 = 84.
A seguir, divida a sua resposta por sua quantidade, ou seis, nesse caso: 84 ÷ 6 = 14.
Média aritmética da amostra = x̅ = 14 . - Você pode pensar na média aritmética como se ela representasse o "ponto central" do conjunto de dados. Se eles estiverem aglomerados ao redor da média, isso indica que a variância é baixa. Caso estejam bem espalhados e distantes, a variância é alta.
- Exemplo:
inicialmente, some os pontos de dados: 17 + 15 + 23 + 7 + 9 + 13 = 84.
-
Subtraia a média de cada um dos dados. Agora é o momento de calcular - x̅, onde representa cada número presente no conjunto de dados. Cada resposta indica o desvio existente entre o número e a média aritmética ou, em outras palavras, qual é a distância entre eles. [5] X Fonte de pesquisa .
- Exemplo:
- x̅ = 17 - 14 = 3
- x̅ = 15 - 14 = 1
- x̅ = 23 - 14 = 9
- x̅ = 7 - 14 = -7
- x̅ = 9 - 14 = -5
- x̅ = 13 - 14 = -1 - É fácil revisar o trabalho feito, já que as respostas somadas devem resultar em zero. Isso acontece por conta da definição de média aritmética, uma vez que as respostas negativas (distância entre a média e os números menores) cancelam com precisão as respostas positivas (distância entre a média e os números maiores).
- Exemplo:
-
Eleve cada resultado ao quadrado. Como descrito acima, a lista atual de desvios ( - x̅) se soma para resultar em zero. Isso significa que o "desvio médio" também será sempre zero, o que nada nos diz sobre a dispersão dos dados. Para solucionar esse problema, encontre o quadrado de cada desvio. Isso transformará todos em números positivos, de modo que negativos e positivos não mais se cancelarão em zero. [6] X Fonte de pesquisa
- Exemplo:
( - x̅)
- x̅)
9 2 = 81
(-7) 2 = 49
(-5) 2 = 25
(-1) 2 = 1 - Você agora tem o valor ( - x̅) para cada ponto de dados da amostra.
- Exemplo:
-
Encontre a soma dos valores elevados ao quadrado. Agora, calcularemos todo o numerador da fórmula: ∑[( - x̅) ]. O sigma maiúsculo, ∑, leva-nos a somar o valor do seguinte termo para cada valor de . Você já calculou ( - x̅) para cada valor de presente na amostra, e agora só falta somar os resultados.
- Exemplo: 9 + 1 + 81 + 49 + 25 + 1 = 166 .
-
Divida por n - 1, onde n representa a quantidade de pontos de dados. Há muito tempo, estatísticos dividiam por n ao calcular a variância de uma amostra. Isso dá a você o valor médio do desvio elevado ao quadrado, que se combina perfeitamente com a variância da amostra. Ainda assim, lembre-se de que uma amostra representa apenas uma estimativa de uma população maior. Se você tomar outra amostra aleatória e fizer os mesmos cálculos, obterá um resultado completamente diferente. Desse modo, dividir por n - 1 em vez de usar apenas n dará a você uma melhor estimativa da variância de uma população maior, que é o que você está interessado em descobrir. Essa correção é tão comum que passou a ser a definição mais aceita da variância de uma amostra. [7] X Fonte de pesquisa
- Exemplo:
há seis pontos de dados nessa amostra, de modo que n = 6.
Variância da amostra = 33,2
- Exemplo:
há seis pontos de dados nessa amostra, de modo que n = 6.
-
Entenda os conceitos de variância e desvio-padrão. Observe que, como há um expoente na fórmula, a variância é medida na unidade quadrada do dado original. Isso pode dificultar um entendimento meramente intuitivo. Em vez dessa abordagem, é geralmente útil usar o desvio-padrão. Mesmo assim, você não desperdiçou esforços, já que ele é definido como raiz quadrada da variância. É por essa razão que a variância de uma amostra é escrita como e o desvio-padrão da amostra como .
- Por exemplo, o desvio-padrão da amostra anterior é s = √33,2 = 5,76.
Publicidade
-
Comece com o conjunto de dados de uma população. O termo "população" se refere ao conjunto total de observações relevantes. Por exemplo, se você está estudando a idade dos residentes em São Paulo, a população incluiria a idade de cada um dos cidadãos residindo nesse estado. Para um conjunto de dados extenso como esse, você normalmente deveria criar uma planilha, mas aqui está um conjunto de dados menor como exemplo:
- Exemplo:
há exatamente seis aquários em uma sala do zoológico municipal. Os seis aquários contêm a seguinte quantidade de peixes:
- Exemplo:
há exatamente seis aquários em uma sala do zoológico municipal. Os seis aquários contêm a seguinte quantidade de peixes:
-
Escreva a fórmula para a variância da população. Como uma população contém todos os dados de que você precisa, essa fórmula dá a você sua variância com precisão. Para distingui-la da variância da amostra (que é apenas uma estimativa), estatísticos usam variáveis diferentes: [8] X Fonte de pesquisa
- σ = (∑( - μ) ) / n
- σ = variância da população. Aqui, temos um sigma minúsculo elevado ao quadrado, pois a variância é medida em unidades ao quadrado.
- representa um termo de seu conjunto de dados.
- Os termos dentro de ∑ serão calculados para cada e, a seguir, somados.
- μ representa a média da população.
- n representa a quantidade de pontos de dados na população.
-
Encontre a média aritmética da população. Ao analisar uma população, o símbolo μ ("mu") representa a média aritmética. Para encontrá-la, some todos os pontos de dados e divida o resultado por sua quantidade.
- Você pode pensar na média aritmética como sendo um ponto médio, mas lembre-se de que há muitas definições de média na matemática.
- Exemplo: média = μ = = 10,5
-
Subtraia a média de cada ponto de dados. Os pontos de dados próximos à média resultarão em uma diferença próxima a zero. Refaça o problema de subtração com cada ponto de dados e você começará a entender a dispersão da amostra.
- Exemplo:
- μ = 5 - 10,5 = -5,5
- μ = 5 - 10,5 = -5,5
- μ = 8 - 10,5 = -2,5
- μ = 12 - 10,5 = 1,5
- μ = 15 - 10,5 = 4,5
- μ = 18 - 10,5 = 7,5
- Exemplo:
-
Eleve cada resposta ao quadrado. Agora, alguns dos números do último passo serão negativos e alguns, positivos. Se você visualizar os dados em uma linha numérica, essas duas categorias representarão os números à esquerda e à direita da média, respectivamente. Isso não é útil para o cálculo da variância, já que ambos os grupos cancelam um ao outro. Eleve cada valor ao quadrado para torná-los todos positivos.
- Exemplo:
( - μ) para cada valor de i de 1 a 6:
(-5,5) = 30,25
(-5,5) = 30,25
(-2,5) = 6,25
(1,5) = 2,25
(4,5) = 20,25
(7,5) = 56,25
- Exemplo:
-
Encontre a média aritmética dos resultados. Agora, você tem um valor para cada ponto de dados que está (indiretamente) relacionado com a distância à qual está da média aritmética. Para obter a média desses valores, some-os e divida-os por sua quantidade.
- Exemplo:
Variância da população = 24,25
- Exemplo:
-
Use o resultado na fórmula. Se você não sabe ao certo como isso se relaciona com a fórmula presente no início do método, tente escrever o problema de forma extensa:
- Depois de ter encontrado a diferença das médias e dos quadrados, você terá os valores ( - μ) , ( - μ) e assim por diante até chegar em ( - μ) , where , que representa o último ponto de dados do conjunto.
- Para encontrar a média desses valores, some-os e divida o resultado por n: ( ( - μ) + ( - μ) + ... + ( - μ) ) / n
- Depois de reescrever o numerador na notação sigma, você terá (∑( - μ) ) / n , a fórmula usada para o cálculo da variância.
Publicidade
Dicas
- Como é difícil interpretar a variância, esse valor é geralmente usado como ponto inicial do cálculo do desvio-padrão.
- Usar "n - 1" em vez de "n" no denominador, ao analisar amostras, representa uma técnica denominada Correção de Bessel. A amostra representa apenas uma estimativa da população inteira, e a média da amostra é influenciada para se adequar a essa estimativa. Essa correção, por sua vez, remove essa influência. Isso tem relação com o fato de que, ao ter listado n - 1 pontos de dados, o enésimo ponto final já foi limitado, já que apenas alguns valores resultarão na média da amostra (x̅) usada na fórmula da variância. [9] X Fonte de pesquisa
Referências
- ↑ http://sphweb.bumc.bu.edu/otlt/MPH-Modules/BS/BS704_HypothesisTesting-ANOVA/BS704_HypothesisTesting-Anova_print.html
- ↑ http://insidebigdata.com/2014/10/22/ask-data-scientist-bias-vs-variance-tradeoff/
- ↑ https://www.youtube.com/watch?v=VgKHjVDK0uM
- ↑ http://stattrek.com/statistics/notation.aspx
- ↑ http://www.mathsisfun.com/data/standard-deviation.html
- ↑ https://www.youtube.com/watch?v=sOb9b_AtwDg
- ↑ https://www.youtube.com/watch?v=sOb9b_AtwDg
- ↑ https://www.youtube.com/watch?v=VgKHjVDK0uM
- ↑ http://www.statsdirect.com/help/default.htm#basics/degrees_freedom.htm