Negocio

Dados univariados: definição, análise e exemplos

Definição de Dados Univariados

Quantos meses leva para o abacate produzir seus frutos? Quais doenças causam o maior número de mortes? Qual é o número máximo de crianças que podem viajar com segurança em um ônibus escolar? Qual é o patrimônio líquido típico de uma família americana? Cada uma dessas questões pode ser respondida usando dados univariados. Dados univariados são uma coleção de informações caracterizadas por ou dependendo de apenas uma variável aleatória.

Veja, por exemplo, a última pergunta: qual é o patrimônio líquido típico de uma família americana? Estamos interessados ​​em como as respostas variam de pessoa para pessoa quando questionadas sobre o patrimônio líquido de sua família. Apenas, ninguém responderia a esta pergunta fornecendo todas as respostas recebidas para a pergunta. Em vez disso, gostaríamos de resumir os dados usando estatísticas que representam a maioria das pessoas na população para as quais a pergunta está sendo feita.

Razões para usar dados univariados

Os dados são coletados com o propósito de responder a uma pergunta, ou mais especificamente, a uma pergunta de pesquisa. Os dados univariados não respondem a perguntas de pesquisa sobre as relações entre as variáveis, mas sim são usados ​​para descrever uma característica ou atributo que varia de observação para observação. Para descrever como o patrimônio líquido varia, usaríamos dados univariados para encontrar as estatísticas que representam o valor central para todas as famílias americanas, juntamente com como os outros valores se propagam a partir desse valor central.

Um pesquisador gostaria de conduzir uma análise univariada para dois propósitos. O primeiro objetivo seria responder a uma pergunta de pesquisa que exige um estudo descritivo sobre como uma característica ou atributo varia, como descrever como o patrimônio líquido varia de uma família americana para uma família americana.

Um segundo objetivo seria examinar como cada característica ou atributo varia antes de incluir duas variáveis ​​em um estudo usando dados bivariados ou mais de duas variáveis ​​em um estudo usando dados multivariados ( dados bivariados sendo para um relacionamento de 2 variáveis ​​e dados multivariados sendo para um relacionamento de mais de 2 variáveis). Por exemplo, seria benéfico examinar como o patrimônio líquido por família varia antes de incluí-lo em uma análise que o correlacione com uma segunda variável, digamos, realização educacional.

Uma análise de pesquisa univariada

As estatísticas usadas para resumir dados univariados descrevem o centro de dados e a distribuição. Existem muitas opções para exibir esses resumos. As ilustrações mais frequentemente usadas de dados univariados são:

  • Distribuições de freqüência
  • Histogramas
  • Parcelas de caule e folha
  • Parcelas de caixa e bigode
  • Gráfico de setores

Cada uma das medidas de tendências centrais nos diz algo diferente sobre os dados, e cada medida tem vantagens e desvantagens em seu uso.

A média, que é calculada como a soma de todos os pontos de dados dividida pelo número total de pontos de dados, é a única medida que considera todos os dados no conjunto para determinar o ponto central; também é conhecido como média. A desvantagem de usar a média é que, ao usar todos os dados, valores muito pequenos ou muito grandes influenciam fortemente o cálculo. Em 2010, o patrimônio líquido médio por família americana foi estimado em $ 463.800 pelo Federal Reserve.

A mediana, que é encontrada colocando todos os pontos de dados em ordem e localizando o valor que está no centro de todos os outros valores, não é influenciada por valores extremos. A mediana é um bom indicador do centro porque metade dos valores fica acima da mediana e a outra metade fica abaixo. A desvantagem de usar a mediana é encontrar a mediana, o que é demorado para grandes conjuntos de dados, a menos que se use uma calculadora ou programa de computador. Em 2010, o Federal Reserve estimou que o patrimônio líquido médio por família americana era de $ 57.000.

renda_média_média

Em um conjunto de dados normalmente distribuído, a média e a mediana seriam iguais ou, pelo menos, muito próximas. Qual dessas duas medidas de centro representaria o patrimônio líquido de sua família: $ 463.800 ou $ 57.000?

O modo, que é o valor ou valores que aparecem no conjunto de dados com mais frequência, não é usado com frequência com dados numéricos. Com dados numéricos, pode não haver um modo ou pode haver muitos modos. Pegue o exemplo do patrimônio líquido da família, você pode ter tantos pontos de dados para o valor $ 100.000 quanto você tem para $ 101.000 e $ 102.000, etc.

Resumo da lição

Dados univariados são uma coleção de informações caracterizadas por ou dependendo de apenas uma variável aleatória. Este tipo de dados não responde a perguntas de pesquisa sobre relações entre variáveis, mas sim é usado para descrever uma característica ou atributo que varia de observação para observação. Isso se opõe aos dados bivariados , que são para um relacionamento de 2 variáveis ​​e aos dados multivariados , que são para um relacionamento de mais de 2 variáveis.

Descrever dados univariados requer análises univariadas. Um pesquisador usaria dados univariados para um estudo descritivo sobre como uma característica ou atributo varia ou para examinar como cada característica ou atributo varia antes de incluir aquela variável em um estudo com duas ou mais variáveis. Uma análise univariada descreve a média, mediana, moda e intervalo dos dados.

Os dados univariados podem ser ilustrados usando:

  • Distribuições de freqüência
  • Histogramas
  • Parcelas de caule e folha
  • Parcelas de caixa e bigode
  • Gráfico de setores