Gráfico de Dispersão: Como Criar e Analisar na Prática

Aprenda a criar gráfico de dispersão na prática com apenas 4 passos.
Aprenda-a-criar-grafico-de-dispersao-na-pratica-com-apenas-4-passos.-

O gráfico de dispersão, uma ferramenta visual fundamental em estatística e diversas áreas, desempenha um papel vital na análise de dados. Representando pontos em um plano, ele nos ajuda a identificar padrões, tendências e correlações entre duas variáveis quantitativas.

Neste artigo, vamos explorar de maneira direta e prática o que o gráfico de dispersão significa, como interpretar seus resultados e como aplicá-lo em diferentes situações. Prepare-se para uma exploração simples, porém profunda, desse recurso visual valioso.

O que é um Gráfico de Dispersão?

Um gráfico de dispersão é uma representação visual de pontos em um plano cartesiano, onde cada ponto corresponde a uma observação de duas variáveis diferentes. O eixo horizontal (x) representa uma variável, enquanto o eixo vertical (y) representa a outra. Essa representação facilita a identificação de padrões e relações entre as variáveis.

Vantagens

  1. Identificação de Padrões Visuais: Facilitam a identificação de padrões visuais nos dados. Se há uma tendência crescente, decrescente ou aparentemente aleatória, isso se torna evidente no gráfico.
  2. Correlação entre Variáveis: São eficazes para avaliar a correlação entre duas variáveis. Se os pontos se alinham em uma direção específica, indica uma correlação positiva ou negativa, dependendo da inclinação.
  3. Detecção de Outliers: Outliers, ou pontos discrepantes, podem ser prontamente identificados Eles geralmente se destacam visualmente, indicando observações que se desviam significativamente do padrão geral.
  4. Análise de Tendências e Padrões Lineares: Quando os pontos formam uma linha ou seguem uma tendência específica, isso sugere uma relação linear entre as variáveis. Isso é particularmente útil em análises de regressão.
  5. Visualização de Clusters: Em conjuntos de dados complexos, os gráficos de dispersão podem revelar a presença de clusters ou grupos de pontos que compartilham características semelhantes.
  6. Exploração de Relações Causais: Embora os gráficos de dispersão não estabeleçam causalidade, eles podem ser usados para explorar relações potenciais entre variáveis, fornecendo pistas para investigações mais aprofundadas.
  7. Análise de Resíduos: Ao analisar a qualidade de modelos de regressão, os gráficos de dispersão de resíduos podem ser úteis para verificar se os resíduos (diferenças entre os valores observados e previstos) são distribuídos aleatoriamente.
  8. Comparação entre Grupos: Se os dados podem ser categorizados em diferentes grupos, os gráficos de dispersão permitem comparar as relações entre variáveis dentro de cada grupo, destacando possíveis diferenças.

Desvantagens

  1. Limitado a Duas Variáveis: É específico para a análise de duas variáveis, o que pode ser limitante quando lidamos com conjuntos de dados mais complexos que envolvem múltiplas variáveis.
  2. Interpretação Subjetiva: A interpretação dos padrões pode ser subjetiva, dependendo da experiência e perspectiva do observador, o que pode levar a conclusões divergentes.
  3. Influência de Escala e Unidades: Mudanças na escala ou nas unidades dos eixos podem alterar a percepção visual da relação entre as variáveis, impactando a interpretação do gráfico.
  4. Incapacidade de Provar Causalidade: Embora mostre correlações, não é capaz de provar causalidade entre as variáveis, sendo necessária uma análise mais aprofundada para esse fim.
  5. Não Adequado para Dados Categóricos: É mais apropriado para variáveis quantitativas e pode não ser a escolha ideal para representar relações entre variáveis categóricas.

Dicas para Utilizar Gráficos de Dispersão Efetivamente

  • Escolha de Cores e Marcadores: Utilize cores e marcadores distintos para destacar diferentes grupos ou características nos dados.
  • Adição de Linhas de Tendência: Para facilitar a interpretação, adicione linhas de tendência que melhor se ajustem aos dados.
  • Rótulos e Títulos Claros: Garanta que os eixos estejam rotulados adequadamente e que o título do gráfico seja informativo.

Tipos de Correlação Encontradas

No gráfico, padrões e disposições dos pontos revelam diversas correlações entre as variáveis. A tabela abaixo destaca algumas das correlações comuns identificadas nesse tipo de gráfico:

Tipo de CorrelaçãoPadrãoSignificado
Correlação PositivaOs pontos no gráfico sobem da esquerda para a direita.À medida que uma variável aumenta, a outra também tende a aumentar.
Correlação NegativaOs pontos no gráfico descem da esquerda para a direita.À medida que uma variável aumenta, a outra tende a diminuir.
Correlação Linear ForteOs pontos formam uma linha reta clara.Existe uma relação linear forte entre as variáveis.
Correlação Linear FracaOs pontos formam uma linha reta, mas não de maneira muito clara.A relação linear entre as variáveis é mais fraca.
Correlação Não LinearOs pontos formam uma curva ou outro padrão não linear.A relação entre as variáveis não segue uma linha reta.
Correlação Nula (ou Muito Fraca)Os pontos estão dispersos sem seguir uma direção clara.Não há evidência visual de correlação entre as variáveis.
Correlação em Forma de “U” ou “V”Os pontos formam uma distribuição em forma de “U” ou “V”.Pode indicar uma relação não linear complexa.
Correlação de ClusterOs pontos formam grupos ou clusters distintos.Há subgrupos nos dados com relações internas mais fortes.
Correlação EspiralOs pontos formam uma espiral.Indica uma correlação que segue um padrão espiral.
Correlação OscilanteOs pontos exibem uma oscilação periódica.Pode indicar uma correlação que segue um padrão cíclico.

Tabela de Correlações em Gráficos de Dispersão

Exemplo na Prática

Vamos desenvolver um exemplo prático utilizando dados reais provenientes de uma base de dados contendo informações sobre o peso e colesterol de clientes. Para este experimento, utilizaremos a base de dados de clientes que já passou por um algoritmo de Machine Learning de Clusterização (k-means), e os resultados já estão disponíveis.

Passo 1: Realizar Download do Arquivo de Clientes

Clique no botão abaixo para realizar o download da base de clientes.

Passo 2: Importar Bibliotecas Necessárias


Vamos importar as bibliotecas necessárias para conduzir nosso experimento. Utilizaremos as seguintes: Pandas, Seaborn e Matplotlib.

  1. Pandas
    • Biblioteca Python essencial para manipulação eficiente de dados. Com suas estruturas de dados poderosas, como o DataFrame, torna-se fácil importar, limpar e organizar dados tabulares.
  2. Matplotlib
    • É uma biblioteca de visualização de dados em Python. Essencial para a criação de gráficos simples e complexos, fornece controle total sobre a estética e a personalização dos gráficos.
  3. Seaborn:
    • Seaborn é uma extensão do Matplotlib, focada na criação de gráficos estatísticos atraentes. Oferece uma interface simples para visualizações mais elaboradas, facilitando a compreensão de padrões nos dados.

Caso precise de orientações sobre como instalar uma biblioteca em Python, confira nosso tutorial clicando aqui.

import pandas as pd
import matplotlib.plyplot as plt
import seaborn as sns

Passo 3: Carregando o Arquivo de Clientes

Para fazer a leitura do arquivo vamos utilizar o camando read_csv da biblioteca pandas.

df = pd.read_csv('dados_clientes_clusterizado.csv', sep=';')

Prévia dos dados:

Passo 4: Criando Gráfico de Dispersão

Agora que os dados foram armazenados na variável df, estamos prontos para desenvolver o código que irá gerar o gráfico.

# Criando Scatter Plot
sns.set(style='darkgrid')    # Ajuste opcional para um fundo branco com linhas de grade
plt.figure(figsize=(10, 6))  # Ajuste opcional para o tamanho do gráfico

# Scatter Plot com legenda na parte superior direita e cores personalizadas
scatter_plot = sns.scatterplot(data=df, 
                               x='peso', 
                               y='colesterol', 
                               hue='nome_cluster', 
                               palette={'Risco Baixo': 'green', 
                                        'Risco Moderado': 'orange', 
                                        'Risco Alto': 'red'})

# Adicionando legenda na parte superior direita com fundo branco
scatter_plot.legend(loc='center right', facecolor='white')

# Nomeando o gráfico
plt.title('Distribuição de Clientes por Peso e Colesterol com Linha de Tendência')

# Exibindo o gráfico
plt.show()

Visualização do Gráfico gerado:

Interpretando o Gráfico de Dispersão

Análise dos Dados

Mediante a análise dos dados representados no gráfico, destacam-se 3 pontos significativos:

  1. Correlação Positiva:
    • Ao observar o gráfico de dispersão, é possível notar que, em geral, à medida que o peso aumenta, há uma tendência de aumento nos níveis de colesterol.
  2. Padrão Linear:
    • A relação entre peso e colesterol parece seguir um padrão linear, sugerindo uma correlação positiva moderadamente forte.
  3. Presença de Outliers:
    • Alguns pontos podem ser identificados como outliers, indicando observações com peso mais baixo e níveis de colesterol mais altos, e vice-versa. Esses pontos atípicos podem influenciar a análise.

Adicionando Linha de Tendência

Vamos adicionar a linha de tendência para uma análise mais precisa e visual para o nosso gráfico. Basta acrescentar o código abaixo.

sns.regplot(data=cluster_clientes, x='peso', y='colesterol', scatter=False, color='black')

Percebam que ao incluir a linha de tendência, torna-se mais evidente a representação global da tendência presente nos dados.

Recomendação

Caso queira aprofundar mais sobre analise de dados, sugiro a leitura do livro abaixo.

Para outras recomendações de leitura e livros grátis clique aqui.

Conclusão

Neste artigo, entendemos o que é um gráfico de dispersao, exploramos de maneira prática como utilizar as bibliotecas Pandas, Seaborn e Matplotlib para análise e visualização de dados. Através do exemplo de clientes com dados de peso e colesterol, pudemos identificar correlações, padrões lineares, e até mesmo a presença de outliers.

Agradeço pela sua participação e interesse no tutorial. Espero que essa experiência tenha sido útil para você compreender melhor a aplicação dessas ferramentas na análise de dados.

Se este artigo foi útil, por favor, considere compartilhá-lo para que mais pessoas possam aproveitar essas informações. Fique à vontade para explorar mais e experimentar com os códigos fornecidos. Obrigado!

Compartilhe!

2 comentários

  1. Olá professor.

    Estava realizando uma atividade com os códigos que vc disponibilizou, porém esbarrou em um erro recorrente.
    name ‘cluster_clientes’ is not defined – acredito que teria que definir o cluster cliente reconhecendo como dataframe, e classificar as colunas. Poderia verificar se é isso mesmo?

    • Fala Thiago, Tudo bem?
      Acredito que você esta falando do desafio né?
      Sim! Você precisa fazer exatamente isso. ☺ \0/
      Crie o DataFrame e utilize as colunas para realizar a clusterização, além de gerar o gráfico.
      Certifique-se de verificar o nome que atribuiu ao DataFrame e utilize as colunas que foram criadas por você.

      Qualquer dúvida estou a disposição meu amigo!
      Abraço!

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *