Dado o histograma abaixo, calcular a média, a variância, a moda, a mediana e o 1o quartil

Subsecções
  • 2.1 Tipos de dado
  • 2.2 Dados qualitativos
    • 2.2.1 Tabulando dados
    • 2.2.2 Resumindo numericamente
    • 2.2.3 Gr�ficos de Barras
    • 2.2.4 Gr�fico de setores

  • 2.3 Dados quantitativos
    • 2.3.1 Histograma
    • 2.3.2 Resumindo numericamente
    • 2.3.3 M�dia, vari�ncia e desvio padr�o
    • 2.3.4 A mediana e a amplitude inter-quartis
    • 2.3.5 Box-and-Whisker Plots
    • 2.3.6 A moda

  • 2.4 Dados m�ltiplos
    • 2.4.1 Gr�ficos de pontos
    • 2.4.2 Gr�fico temporal
    • 2.4.3 Ladder plot

  • 2.5 Exerc�cios 1

2.1 Tipos de dado

A interpretação das listas de números a olho é muito difícil. Ao invés disso, nós deveríamos produzir um resumo verbal ou numérico e/ou usar métodos gráficos para descrever os pontos principais dos dados.

O método mais apropriado dependerá da natureza dos dados, e aqui podemos distinguir dois tipos principais:

  1. Dados qualitativos ou categóricos que podem ser:
    1. nominais, por exemplo
      • sexo: masculino, feminino
      • classificação de fósseis
    2. ordinais, i.e. categorias ordenadas, tais como
      • salinidade: baixa, média, alta
      • abundância: dominante, abundante, frequente, ocasional, raro
  2. Dados quantitativos ou numéricos que podem ser:
    1. discretos, i.e. contagens ou número inteiros, por exemplo
      • número de ovos postos pela tartaruga marinha
      • número de ataques de asma no ano passado
    2. contínuos, i.e. medidas numa escala contínua, tais como
      • volume, área, peso, massa
      • velocidade de corrente

As distinções são menos rígidas do que a descrição acima insinua. Por exemplo, em geral nós trataríamos idade como uma variável contínua, mas se a idade for registrada pelo ano mais próximo, podemos trata-la como discreta, e se separarmos a amostra em ``crianças'', ``adultos jovens'', ``idade média'', ``velhos'', por exemplo, então temos faixa etária como uma variável ordenada categórica. No entanto, em geral é recomendado manter os dados em sua forma original, categorizando os dados somente para propósitos de apresentação.

2.2 Dados qualitativos

Para sumarizar dados qualitativos numericamente, utiliza-se contagens, proporções, percentagens, taxas por 1000, taxas por 1.000.000, etc, dependendo da escala apropriada. Por exemplo, se encontrarmos que 70 de 140 estudantes de geologia são homens, poderíamos relatar a taxa como uma proporção (0.5) ou provavelmente ainda melhor como um percentual (50%). Se encontrarmos que 7 de uma amostra de 5000 pessoas são portadores de uma doença rara poderíamos expressar isto como uma proporção observada (0.0014) ou percentual (0.14%), mas melhor seria 1.4 casos por mil.

2.2.1 Tabulando dados

Frequentemente o primeiro passo da descrição de dados é criar uma tabela de frequência. Por exemplo, as espécies de ``woodlice'' caindo numa armadilha foram:

Num relatório, a segunda coluna não seria mostrada, e os dados seriam sumarizados num formato mais simples como mostrado abaixo. Se o maioria dos dados caem em poucas categorias, então é conveniente colapssar algumas das categorias com somente uma ou duas observações em outra categoria chamada ``outros''.

Table showing the species of 27 woodlice that fell in a pit-fall trap:

Tabelas simples como esta são na maioria das vezes suficientes para descrever dados qualitativos especialmente quando existem somente duas ou três categorias.

2.2.2 Resumindo numericamente

Considere o seguinte conjunto de dados que mostra os escores de abundância médios DAFOR de ocorrência de Nardus stricta em 100 áreas investigadas em Exmoor.

A moda de um conjunto de dados categóricos é a categoria que tem o maior percentual de dados. Ela deve ser usada cuidadosamente como uma medida resumo global porque é muito dependente da forma como os dados são categorizados. Para os dados de ``woodlice'' a moda é Oniscus. Para os dados acima, a categoria modal é ``Abundante'', mas por muito pouco.

A mediana, bem como a moda, podem ser calculadas para dados ordenados. Este é valor do ``meio'', mais comumente usado para dados quantitativos. A mediana não faz sentido para os dados ``woodlice''. Para os dados de abundância, a categoria mediana é ``Frequente'', porque 50% dos dados estão em categorias superiores, e menos do que 50% estão em categorias inferiores. A mediana é mais robusta do que a moda pois é menos sensível à categorização adotada.

2.2.3 Gráficos de Barras

Dados qualitativos, particularmente quando as categorias são ordenadas, são usualmente bem ilustrados num simples gráfico de barras onde a altura da barra é igual à frequência.

2.2.4 Gráfico de setores

Gráfico de setores também podem ser úteis para apresentação de dados categóricos ordenados. Os setores do gráfico são desenhados de tal forma que eles tenham área proporcional à frequência. Então para os dados ``woodlice'', os ângulos seriam para Oniscus, etc.

2.3 Dados quantitativos

2.3.1 Histograma

De longe o método mais comum de apresentação de dados numéricos é o histograma, relacionado com o gráfico de barras para dados categóricos. As áreas dos retângulos resultantes devem ser proporcionais à frequência.

Algumas vezes é conveniente agregar classes de frequência nos extremos da distribuição de forma que os intervalos têm larguras diferentes. Cuidado ao fazer isso - um intervalos que é duas vezes a largura de um outro deve tem altura igual à metada de sua frequência (para preservar a área contida dentro do intervalo) Da mesma forma um intervalo que é três vezes a largura dos outros deve ter um terço da altura de sua frequência observada.

Exemplo. 150 peixes mortos foram encontrados vítimas de contaminção do rio e seus comprimentos foram medidos em milímetros. As medidas foram expressas na forma de tabela de frequência.

O histograma construído desses dados é mostrado abaixo.

Gráfico de Ramos-e-Folhas

Um método gráfico que merece ser mais amplamente utilizado quando a quantidade de dados não é muito grande é o gráfico de ramos-e-folhas como ilustrado a seguir.

Exemplo. Um estudo geoquímico realizado utilizando amostras compostas de sedimentos de corrente com granulometria de 100-150 mesh e profundidade de 40cm, provenientes de riachos correndo sobre granulitos, revelou os seguintes resultados em ppm de Cr

Uma vez que a escala tenha sido determinada, a qual define os ``ramos'' à esquerda da linha veritcal, podemos facilmente escrever os dados no gráfico de ramos-e-folhas como no diagrama esquerdo; como um refinamento podemos então ordenar as ``folhas'' no diagrama à direita:

9 4        
10 6 0      
11 5 4 1 8  
12 5 9 6 0  
13 7 0 7 6 5
14 1 3 0 7  
15 2 4 8 8  
16 5 6 6    
17 4 0      
18 2 4      
9 4        
10 0 6      
11 1 4 5 8  
12 0 5 6 9  
13 0 5 6 7 7
14 0 1 3 7  
15 2 4 8 8  
16 5 6 6    
17 0 4      
18 2 4      

Acima os ramos são números inteiros e as folhas são valores depois do ponto decimal, mas isto não é essencial em geral; por exemplo, os ramos podem representar centenas e as folhas dezenas (com unidades arredondadas para o decimal mais próximo; as folhas devem ter um único dígito). Nota: é importante escrever as folhas em colunas igualmente espaçadas, caso contrário pode resultar uma figura distorcida.

O gráfico de ramos-e-folhas fornece um resumo visual dos dados sem que haja de fato a perda de qualquer informação.

Compare-o com um histograma para os mesmos dados:

2.3.2 Resumindo numericamente

Para resumir numericamente dados quantitativos o objetivo é escolher medidas apropriadas de locação (``qual o tamanho dos números involvidos?'') e de dispersão (``quanta variação existe?'') para os tipos de dados.

Existem três escolhas principais para a medida de locação, a chamada ``3 Ms'', as quais estão ligadas a certas medidas de dispersão como segue:

2.3.3 Média, variância e desvio padrão

Para resumir dados quantitativos aproximadamente simétricos, é usual calcular a média aritmética como uma medida de locação. Se são os valores dos dados, então podemos escrever a média como

onde ` ' e frequentemente é simplificada para ou até mesmo que significa `adicione todos os valores de '.

A variância é definida como o `desvio quadrático médio da média' e é calculada de uma amostra de dados como

A segunda versão é mais fácil de ser calculada, embora muitas calculadoras têm funções prontas para o cálculo de variâncias, e é raro ter que realisar todos os passos manualmente. Comumente as calculadoras fornecerão a raiz quadrada da variância, o desvio padrão, i.e.


a qual é medida nas mesmas unidades dos dados originais.

Uma informção útil é que para qualquer conjunto de dados, pelo menos 75% deles fica dentro de uma distância de 2 desvio padrão da média, i.e. entre e .

Exemplo. Sete homens foram pesados, e os resultados em kg foram:

57.0, 62.9, 63.5, 64.1, 66.1, 67.1, 73.6.

A média é ,

a variância é

e o desvio padrão é .

2.3.4 A mediana e a amplitude inter-quartis

Uma outra forma de sumarizar dados é em termos dos quantis ou percentis. Essas medidas são particularmente úteis para dados não simétricos. A mediana (ou percentil 50) é definida como o valor que divide os dados ordenados ao meio, i.e. metade dos dados têm valores maiores do que a mediana, a outra metade tem valores menores do que a mediana. Adicionalmente, os quartis inferior e superior, Q1 e Q3, são definidos como os valores abaixo dos quais estão um quarto e três quartos, respectivamente, dos dados. Estes três valores são frequentemente usados para resumir os dados juntamente com o mínimo e o máximo. Eles são obtidos ordenando os dados do menor para o maior, e então conta-se o número apropriado de observações: ou seja é , e para o quartil inferior, mediana e quartil superior, respectivamente. Para um número par de observações, a mediana é a média dos valores do meio (e analogamente para os quartis inferior e superior).

A medidade de dispersão é a amplitude inter-quartis, IQR Q3 Q1, i.e. é a diferença entre o quartil superior e o inferior.

Exemplo. O número de crianças em 19 famílias foi

0, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 7, 8, 10

A mediana é o (19+1) / 2 = valor, i.e. 3 crianças.

O quartil inferior e superior são os valores e , i.e. 2 e 6 crianças, portanto amplitude inter-quartil é de 4 crianças. Note que 50% dos dados estão entre os quartis inferior e superior.

2.3.5 Box-and-Whisker Plots

Box-and-Whisker plots ou simplesmente box-plots são simples representações diagramáticas dos cinco números sumários: (mínimo, quartil inferior, mediana, quartil superior, máximo). Um box-plot para os dados geoquímicos fica como mostrado a seguir.

2.3.6 A moda

Nem todos os conjuntos de dados são suficientemente balanceados para o cálculo da média ou mediana. Algumas vezes, especialmente para dados de contagem, um único valor domina a amostra. A medida de locação apropriada é então a moda, a qual é o valor que ocorre com maior frequência. A proporção da amostra a qual toma este valor modal deveria ser utilizada no lugar de uma medida formal de dispersão.

Algumas vezes, podemos distinguir claramente `picos' na frequência dos valores registrados. Neste caso (chamado bimodal) deveríamos apresentar ambas as localizações. Dados deste tipo são particularmente difíceis de resumir (e analisar).

Exemplo. Dez pessoas registraram o número de copos de cerveja que eles tomaram num determinado sábado:

0, 0, 0, 0, 0, 1, 2, 3, 3, 6

A moda é 0 copos de cerveja, a qual foi obtida pela metade da amostra. Poderiamos adicionar mais informação separando a amostra e dizendo que daqueles que tomaram cerveja a mediana foi de 3 copos.

2.4 Dados múltiplos

Os resultados de um estudo tipicamente envolverão mais do que uma única amostra de dados como discutido até aqui. Representações gráficas são úteis para comparar grupos de dados ou para verificar se exitem relações entre eles. Existem muitas possibilidades, mas a mais adequada dependerá das peculiaridades de cada conjunto de dados.

Além dos exemplos abaixo, podemos criar combinações de métodos já discutidos. Por exemplo, se medirmos as alturas e pesos de uma amostra de pessoas, podemos produzir box-plots de altura lado a lado para homens e mulheres, ou gráficos ramo-e-folhas lado a lado (com as alturas dos homens à esquerda do ramo, e as alturas das mulheres à direita), ou um histograma acima do outro (com a mesma escala no eixo x de forma que eles possam ser facilmente comparados). Para um número diferente de grupos, uma série de box-plots verticais funciona bem como um símples resumo dos dados.

Para combinações de dados categóricos, uma série de gráficos de setores podem ser produzidos, i.e. dois gráficos de setores, um para homens e um para mulheres.

2.4.1 Gráficos de pontos

Para avaliar se existe uma relação entre duas variáveis contínuas, podemos produzir um gráfico de pontos. É importante que o eixo x faça sentido. Em geral faz pouco sentido unir os pontos, exceto onde o eixo x representa tempo (veja abaixo). Símbolos diferentes podem ser usados para diferentes grupos para adicionar uma nova dimensão ao gráfico. O gráfico abaixo mostra alturas e pesos de estudantes do sexo masculino e feminino.

Para mais do que duas variáveis, pode-se produzir gráficos entre todos os pares possíveis para produzir uma matriz de gráficos de pontos.

2.4.2 Gráfico temporal

Um caso especial de um gráfico de pontos é um gráfico temporal onde `tempo' está no eixo x. As medidas são feitas ao longo do tempo. Nestes casos é usual unir pontos sucessivos por retas, e é em geral uma boa prática deixar o eixo x mais longo do que o eixo y.

Abaixo mostramos as temperaturas diárias médias em Philadelphia, USA nos dois primeiros meses de 1980.

2.4.3 Ladder plot

O ladder plot não é um gráfico do tipo padrão mas pode ser útil para visualizar dados pareados. Considere o seguinte exemplo.

Um ornitologista deseja saber se um determinado local é usado por pássaros migratórios de uma certa raça para engorda antes de migrar. Ele captura alguns pássaros em Agosto e pesa-os, então em Setembro ele tenta re-capturar os mesmos pássaros e faz novas medidas. Ele re-capturou 10 dos pássaros duas vezes, ambos em Agosto e Setembro. A tabela abaixo mostra as massas desses pássaros.

O ladder plot destes dados fica como segue:

É muito mais fácil ver do gráfico do que da tabela que os pássaros tendem a engordar, e que aqueles que não engordaram tenderam a ser os maiores que provavelmente não necessitam de uma engorda extra.

2.5 Exercícios 1

  1. Descreva de forma concisa os seguintes dados usando suas palavras e algumas estatísticas descritivas, apontando características principais observadas.
    1. As notas (de um total de 100 e ordenadas por tamanho) de 20 estudantes de estatística no primeiro exame do semestre:

      30 35 37 40 40 49 51 54 54 55
      57 58 60 60 62 62 65 67 74 89

    2. O número de faltas de 20 trabalhadores num ano (ordenados por tamanho):

      0 0 0 0 0 0 0 1 1 1
      2 2 3 3 4 5 5 5 8 45

    3. O número de exemplares de um jornal mensal em particular lidos por 20 pessoas num ano:

      0 1 11 0 0 0 2 12 0 0
      12 1 0 0 0 0 12 0 11 0

  2. Produza um gráfico ramos-e-folhas para apresentação dos dados de altura (em metros) de 20 mulheres sendo estudadas para uma certa condição médica.

    1.52 1.60 1.57 1.52 1.60
    1.75 1.73 1.63 1.55 1.63
    1.65 1.55 1.65 1.60 1.68
    2.50 1.52 1.65 1.60 1.65

  3. Os dados a seguir fornecem a concentração de um determinado poluente (ppm) em 8 pontos de um afluente medidos antes e uma hora depois de um acidente ambiental:

    Faça um gráfico destes dados, e use o gráfico para ajudar a avaliar se o acidente provocou um aumento significativo nos níveis do poluente no afluente.
  4. A tabela abaixo fornece o número de grânulos de arenito por cm em 20 amostras tomadas de uma certa localidade (A) e 20 amostras tomadas de uma outra localidade (B).

    1. Calcule as médias e desvios-padrão desses duas amostras.
    2. Faça histogramas dos dois conjuntos de dados, e compare-os.
    3. Qual é o mínimo, máximo, mediana, quartil inferior e quartil superior de cada grupo?
    4. Usando sua resposta ao item (c), construa boxplots para os dois conjuntos de dados - um diretamento acime do outro, ou lado a lado para facilitar a comparação.
    5. Para cada grupo, o dado é aproximadamente simétrico ou assimétrico? Se assimétrico, em que direção?
    6. Você acha que existe uma diferença real entre os números de grânulos de arenito nas duas localidades, ou você acha que as diferenças observadas poderiam ter simplesmente ocorrido como uma consequência dos grupos consistirem de somente 20 amostras cada?
    7. Descreva as principais características dos dados em uma ou duas sentenças.
  5. O percentual de açúcar e sal em 9 cereais matinais mais populares foram medidos, com os seguintes resultados:

    1. Faça um gráfico desses dados para investigar a relação entre o conteúdo de açúcar e sal nos cereais matinais.
    2. Comente brevemente qualquer padrão observado nos dados.
Paulo Justiniano Ribeiro Jr

Como calcular a moda de um histograma?

Para se calcular a moda, basta obter o ponto central do intervalo de maior freqüência. No caso do exemplo, o intervalo de maior freqüência é o quarto, que vai de 5,5 a 6,0. Seu ponto central é 5,75 и . Também se pode falar de intervalo ou classe modal.

Como calcular a média a mediana e moda?

A moda é o valor que mais se repete em um conjunto. A mediana é o valor central de um conjunto quando colocamos seus dados em ordem. A média é calculada quando somamos todos os termos de um conjunto e dividimos o resultado pelo número de elementos desse conjunto.

Toplist

Última postagem

Tag