Artigo escrito com a colaboração de Maísa Andrade.

Em nosso dia a dia nos deparamos com diversas dúvidas a cerca de qual gráfico utilizar para apresentar e descrever os resultados encontrados nas análises.

Por isso vamos apresentar diferentes gráficos para os vários tipos de dados, mas, antes disso, é importante relembrar alguns detalhes para melhorar os gráficos esteticamente:

  • adicionar rótulos aos eixos;
  • adicionar título;
  • passar o máximo de informação de forma clara;
  • ter cuidado com o uso das cores;
  • ter um padrão nas apresentações;
  • evite rótulos longos, ou gire-os horizontalmente;
  • muitas vezes, ordenar os dados traz um resultado mais satisfatório.

Dados categóricos

Variável de texto

Para apresentar uma variável de texto (livre), pode ser utilizada a nuvem de palavras. Neste exemplo, a pergunta feita foi “quais são seus motivos para ser docente?”.

nuvem de palavras

Porém, a nuvem de palavras sozinha têm sido bem criticada no meio científico, então o ideal é que ela venha sempre acompanhada de um gráfico de barras com a frequência de cada palavra, como mostrado abaixo.

gráfico de barras para complementar a nuvem de palavras

Dois ou mais níveis

Quando tivermos apenas uma variável categórica, com dois ou mais níveis, o gráfico mais adequado será o gráfico de barras.

gráfico de barras

Likert

Quando os dados estiverem em escala Likert, pode-se utilizar gráfico de barras com intervalo de confiança, tornando possível a comparação entre as médias.

escala Likert

Binárias

Quando as variáveis forem binárias ou estiverem em escala Likert e quiser comparar uma com as outras, pode-se utilizar o gráfico Likert. Em alguns casos, ele é melhor que o gráfico de barras com intervalo de confiança, pois, quando a escala tiver poucos elementos, não é ideal trata-lá como “numérica”, fazendo o IC.

gráfico Likert para variáveis binárias

Subgrupos

Caso queira avaliar como a amostra se comporta de acordo com grupos, poderá ser utilizado o dendrograma. Ele também pode ser utilizado para variáveis numéricas.

dendograma para representar subgrupos

Duas ou mais variáveis

Para comparar duas ou mais variáveis categóricas, pode-se usar o gráfico de barras agrupado. Deve-se tomar cuidado com a largura das barras, e o espaço entre elas, de forma que fique claro a agrupamento.

Um gráfico interessante para ilustrar o relacionamento entre variáveis é o Diagrama de Sankey, que mostra o fluxo de dados de uma variável para outra. Alguns cuidados ao utilizar este gráfico:

  • a posição dos nós é muito importante. Deve-se apresentar o gráfico de modo que não fique poluído. Para isso existem algoritmos que minimizam o número de cruzamentos entre os links;
  • é aconselhável descartar conexões fracas para tornar o gráfico mais organizado.
Diagrama de Sankey

Dados catégoricos e numéricos

Lollipop

O gráfico de pirulito é basicamente um gráfico de barras, porém com a “barra” transformada em uma linha e um ponto. Ele mostra a relação entre uma variável numérica e uma variável categórica. Além disso, pode ser utilizado para representar um gráfico de barras com muitas barras, ou o gráfico de radar, que tem sido bastante criticado no meio científico.

gráfico de pirulito

Dados Numéricos

Uma variável

Para descrever uma variável numérica, pode-se utilizar um histograma, um gráfico de densidade ou uma combinação dos dois.

histograma e gráfico de densidade

O histograma e o gráfico de densidade podem ser utilizados para apresentar a distribuição de mais de uma variável. Quando ele é utilizado com apenas duas variáveis, pode-se utilizar os gráficos espelhados.

histograma e gráfico de densidade espelhados

Porém, se houver muitas variáveis, o correto é utilizar gráficos de violino (+2000 linhas) ou boxplots (-2000 linhas), para não causar poluição visual.

boxplot e gráfico violino

Violino com boxplot

Pode ser útil incluir um boxplot no gráfico do violino para visualizar a distribuição dos dados e suas estatísticas resumidas.

boxplot e violino juntos

Ordenado

Para descrever dados numéricos ordenados, pode ser usado um gráfico de pontos ou um gráfico de linhas (que apenas liga os pontos). Pode-se também, incrementá-lo, fazendo um gráfico de área.

gráfico de linha

Duas ou mais variáveis

Gráfico de dispersão

Utilizado geralmente para apresentar a distribuição dos pontos de acordo com duas variáveis numéricas. É útil para evidenciar um padrão de comportamento entre subgrupos e tendência linear.

scatterplot

Gráfico de contagem

Quando existem muitos pontos sobrepostos no gráfico de dispersão, uma alternativa é utilizar o gráfico de contagens. Nele, o tamanho do círculo aumenta proporcionalmente à quantidade de pontos sobrepostos.

Mapa de calor

Pelo mapa de calor pode-se ter uma visão geral dos dados, e visualizar em quais pontos ele possui os maiores valores para determinada variável, como a altitude, no exemplo a seguir.

heatmap

Gráfico de superfície

Utilizando os mesmos dados do gráfico anterior para fazer um gráfico de superfície, com base no mapa de calor, temos um resultado interessante.

Gráfico de superfície

Gráfico de calor com dendograma

O heatmap também pode ser utilizado para a análise de cluster junto a um dendograma.

gráfico de calor com dendograma

Gráfico bolha

O gráfico de bolha é um gráfico de dispersão em que uma terceira dimensão é adicionada. O valor de uma variável numérica adicional é representado pelo tamanho dos pontos.

gráfico bolha

Correlograma

O correlograma representa a matriz de correlação, que permite analisar a relação entre cada par de variáveis numéricas em um conjunto de dados.

correlograma

PCA

Através da análise de componentes principais, é possível chegar a gráficos que mostram as inter-relações entre um grande número de variáveis e explicar essas variáveis como suas componentes.

Esse artigo foi útil para você? Você pode ler mais sobre o assunto no From Data to Viz e, se estiver programando em R, pode encontrar o código completo para boas visualizações no ggplot2 neste link aqui. Curta a Oper nas redes sociais para não perder nenhuma outra novidade.

0 respostas

Deixe uma resposta

Quer participar dessa discussão?
Sinta-se livre para contribuir!

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *