Matemática

O que é distribuição de dados? – Definição e Tipos

O que é uma distribuição de dados?

Conheça Mia. Como parte de um curso de pesquisa da faculdade, ela coletou e organizou informações sobre os alunos no campus. Ela estava tão orgulhosa da quantidade de informações que coletou que Mia mal podia esperar para compartilhar com seu professor! Mas, primeiro, ela teve que organizar os dados de uma forma útil e concisa. Para fazer isso, Mia criou uma distribuição de dados.

Distribuições de dados são freqüentemente usadas em estatísticas. Eles são métodos gráficos de organização e exibição de informações úteis. Existem vários tipos de distribuição de dados. Nesta lição, vamos nos concentrar em gráficos de pontos, histogramas, gráficos de caixa e gráficos de contagem.

Dot Plots

Os gráficos de pontos mostram valores numéricos plotados em uma escala. Cada ponto representa um valor no conjunto de dados. No exemplo abaixo, as classificações de atendimento ao cliente variam de 0 a 9. Os pontos nos informam a frequência , ou taxa de ocorrência, dos clientes que deram cada classificação. Se você olhar a classificação 5, verá que três clientes deram essa classificação e, se olhar a classificação 9, oito clientes deram essa classificação. Também podemos ver que as classificações foram fornecidas por cinquenta clientes, um ponto para cada cliente.


Exemplo de um gráfico de pontos
data1

Agora imagine que as classificações foram fornecidas por quinhentos clientes. Não seria prático ou útil ter uma distribuição de quinhentos pontos. Por esse motivo, os gráficos de pontos são usados ​​para dados que possuem um número relativamente pequeno de valores.

Histogramas

Os histogramas exibem dados em intervalos, com cada barra representando um intervalo de valores numéricos. A altura da barra informa a frequência dos valores que se enquadram nessa faixa. No exemplo abaixo, a primeira barra representa cerejeiras pretas com entre 18 e 20 metros de altura. A barra sobe para três, então há três árvores que têm entre 18 e 20 metros.


Exemplo de um histograma
data2

Os histogramas são uma excelente forma de exibir grandes quantidades de dados. Se você tiver um conjunto de dados que inclui milhares de valores, pode simplesmente ajustar o intervalo de frequência para acomodar uma escala maior, em vez de apenas 0-10.

Box Plot

Os gráficos de caixa são representações retangulares de dados. Eles não fornecem a frequência dos valores, mas fornecem outras informações úteis sobre um conjunto de dados. Por causa das marcações usadas, os gráficos de caixa são freqüentemente chamados de gráficos de caixa e bigode . Ler este tipo de representação de dados é fácil. A parte da caixa representa os 50% intermediários dos dados. A linha vertical na caixa é a mediana, ou o valor médio do conjunto de dados. Os bigodes esquerdo e direito que se estendem da caixa representam os 25% inferior e superior dos dados, respectivamente.

No exemplo abaixo, a linha verde nos diz que 25% dos estados dos EUA têm entre 0 e 100.000 milhas quadradas de área. A linha vermelha representa 25% dos estados dos EUA que têm uma área de aproximadamente 220.000 a 1.550.000 milhas quadradas. A caixa mostra que os 50% intermediários estão entre 100.000 e 220.000 milhas quadradas, com um valor médio de aproximadamente 150.000 milhas quadradas.


Exemplo de box plot
data3

Embora os gráficos de caixa forneçam informações estatísticas úteis sobre um conjunto de dados, eles não fornecem o número ou a frequência dos valores como os histogramas ou os gráficos de pontos fornecem.

Tally Charts

Um gráfico de contagem consiste em uma tabela com marcas de contagem que mostram a frequência de ocorrências em cada categoria. Uma linha é marcada para cada ocorrência. Cada quinta linha é marcada através das quatro anteriores para designar um grupo de cinco marcas. Isso se torna útil ao contar as marcações em cada categoria. No gráfico de contagem abaixo, os dados mostram a frequência de problemas de pintura. Contando o número de marcas de contagem, podemos ver que houve treze ocorrências de lascas de tinta, três ocorrências de bolhas, etc.


Exemplo de um gráfico de contagem
data4

Os gráficos de contagem são uma forma conveniente de organizar os dados à medida que são coletados e podem ser usados ​​para qualquer tipo de dados. No entanto, não seria útil para coletar e organizar grandes quantidades de dados.

Resumo da lição

As distribuições de dados são usadas para organizar e exibir informações sobre um conjunto de dados coletados. Distribuições comuns incluem gráficos de contagem, gráficos de pontos, gráficos de caixa e histogramas. A seleção de uma distribuição apropriada dependerá do tipo e da quantidade de dados que serão exibidos, pois cada distribuição tem diferentes pontos fortes e fracos.