Coleta de Dados em 3 Passos com Python: Simples e Direto para Listas de Arquivos

Lessa DataTech - Coleta de Dados em Lista de Arquivos

Como profissionais de dados, frequentemente nos deparamos com o desafio de coletar informações dispersas em uma variedade de arquivos. Seja por necessidade de integração de dados ou por análises mais abrangentes, a habilidade de consolidar dados de diferentes fontes torna-se crucial. Neste artigo, exploraremos como criar um código em Python para coletar dados em uma lista de arquivos e armazená-los de maneira eficiente em um único repositório, simplificando assim o processo de análise de dados.

Conteúdo

Coleta de Dados em Diferentes Fontes

No cotidiano do profissional de dados, é comum lidar com informações provenientes de diversas fontes, como planilhas, arquivos CSV, bancos de dados e APIs. Cada fonte possui seu formato e estrutura específicos, o que pode tornar o processo de coleta e organização desafiador. No entanto, a capacidade de integrar essas informações é fundamental para obter insights mais abrangentes e embasar decisões informadas. Para esta demonstração, utilizaremos um conjunto de dados fictício que inclui notas de alunos organizadas por estados. Você pode acessar este conjunto de dados e outros disponíveis através deste link.

Passo 1: Identificar o Local onde os Arquivos estão Armazenados

Quando se trata de extrair dados de uma lista de arquivos, o primeiro passo essencial é identificar o local onde esses arquivos estão armazenados. Esta etapa fundamental estabelece a base para uma coleta de dados eficiente e bem-sucedida.

Para começar, é crucial conhecer o caminho do diretório que contém os arquivos que você deseja extrair. Seja em seu sistema local ou em um servidor remoto, entender a localização dos dados é o ponto de partida para simplificar o processo de extração.

Dicas Práticas:

Utilize a variável PATH para definir o caminho do diretório em seu código.
Certifique-se de ajustar o caminho conforme a estrutura específica do seu sistema de arquivos.
Verifique a consistência e disponibilidade dos arquivos no diretório identificado.

Vamos lá para o nosso código!

import os
import pandas as pd

PATH = '../datasets/estados/'
lista_path = os.listdir(PATH)

Neste exemplo, estou especificando que meus arquivos estão localizados na pasta “datasets/estados” dentro do diretório do projeto em desenvolvimento. No entanto, essa referência à pasta pode ser modificada para indicar um endereço de servidor ou o caminho completo da sua localização no sistema. Por exemplo, poderia ser algo como “C:\Users\Leandro\Downloads”.

Os arquivos em questão já foram baixados e descompactados previamente, e encontram-se armazenados dentro da pasta mencionada. Se você deseja aprender a realizar o download automático e a descompactação dos arquivos de forma automatizada, clique aqui para obter mais informações sobre o procedimento.

Passo 2: Leitura e Processamento dos Arquivos CSV

No segundo passo, avançamos na exploração do código, concentrando-nos na leitura e processamento dos arquivos CSV. A ideia geral é percorrer a lista de arquivos, construir o caminho completo de cada arquivo, verificar se é um arquivo CSV, e, se for, ler esse arquivo utilizando o Pandas. Em seguida, os DataFrames resultantes são adicionados a uma lista consolidada

Vamos detalhar cada linha do código:

lista_df = [] # cria uma lista vazia
for arquivo in lista_path:
    local_arquivo = os.path.join(PATH, arquivo)
    if arquivo.endswith('.csv'):
        df = pd.read_csv(local_arquivo, sep = ';', encoding='latin-1')       
        lista_df.append(df)

Essencialmente, este passo visa preparar os dados para a fase final de consolidação. Ao ler cada arquivo individualmente, garantimos que os dados estejam prontos para serem integrados e analisados em conjunto. Isso simplifica o processo de extração e cria uma base sólida para a próxima etapa, que é a concatenação dos DataFrames para formar um conjunto de dados unificado.

Passo 3: Concatenação dos DataFrames para Consolidação Final

No terceiro e último passo, a etapa crucial de consolidar os DataFrames individuais é realizada. A linha de código chave para essa operação é:

df = pd.concat(lista_df)

Aqui, a função pd.concat do Pandas é empregada para concatenar todos os DataFrames presentes na lista lista_df. Essa concatenação resulta em um único DataFrame, que contém todos os dados coletados a partir dos arquivos individuais.

Essencialmente, este passo é responsável por unir as informações dispersas nos diversos arquivos em um conjunto de dados coeso. O DataFrame final, representado pela variável df, agora contém todas as notas dos alunos agrupadas por estados, prontas para serem exploradas e analisadas de forma holística. Ao concluir este passo, o processo de coleta, leitura e consolidação de dados provenientes de uma lista de arquivos é concluído com sucesso.

Conclusão

Neste post, percorremos um processo de três passos para coletar e consolidar dados provenientes de uma lista de arquivos utilizando Python. Iniciamos identificando o local dos arquivos, avançamos para a leitura e processamento individual de cada arquivo CSV, e finalmente, concluímos consolidando os dados em um único DataFrame.

A abordagem modular desses passos permite uma flexibilidade significativa, tornando-a aplicável a diversas situações e conjuntos de dados. Ao implementar este código, os profissionais de dados podem economizar tempo e esforço na preparação dos dados para análises mais avançadas.

A utilização de bibliotecas como Pandas e os recursos eficientes do Python para manipulação de dados proporcionam uma solução robusta e acessível. Além disso, a aplicabilidade deste guia vai além do exemplo apresentado, podendo ser adaptado para diferentes contextos e tipos de dados.

Ao compreender e aplicar esses passos, os profissionais podem otimizar o processo de coleta e consolidação de dados, contribuindo para análises mais abrangentes e informadas. A simplicidade desta abordagem destaca o poder do Python na manipulação de dados e reforça a importância de estratégias eficientes para lidar com conjuntos de dados diversos e dispersos.

Se este artigo foi útil, por favor, considere compartilhá-lo para que mais pessoas possam aproveitar essas informações. Fique à vontade para explorar mais e experimentar com os códigos fornecidos. Obrigado!