Transformação

Esta página ainda está sendo construída. Se quiser contribuir com o guia, acesse o nosso repositório.

Métodos e Atributos da Estrutura de DataFrame

Um DataFrame é uma estrutura de dados que organiza dados em uma tabela bidimensional de linhas e colunas, similar a uma planilha. Essa é a estrutura de dados mais comum usada na manipulação dos dados, geralmente utilizando pandas.

Alguns métodos descritivos sobre os dados de um DataFrame pandas são apresentados abaixo:

import pandas as pd

df = pd.read_csv("dados.csv")

# Mostrar colunas disponíveis no DataFrame
print(df.columns)

# Mostrar resumo dos dados, como número de colunas, tipos de dados, etc. no DataFrame
print(data.info())

# Mostrar uma descrição estatística dos dados no DataFrame
print(data.describe())

Como Lidar com Datasets Grandes

Como os computadores atuais têm um limite de memória muito baixo, entre 8 GB e 32 GB, geralmente. Quando lidamos com arquivos de dezenas de GB ou até TB, é inviável simplesmente carregá-los na memória, tanto pelo consumo de recursos, quanto pelo tempo necessário para realizar as operações.

Dessa forma, é importante aplicar os conceitos de streaming e sharding para ou consumir os dados aos poucos ou filtrá-los o máximo possível antes de carregá-los na memória (ainda assim, sem garantias de que os dados filtrados não terão um volume absurdo).

A biblioteca pandas fornece algumas maneiras de lidar com esse problema, por meio do parâmetro chunksize, que lê $n$ linhas por vez de um arquivo. Isso permite trabalhar com múltiplos DataFrames, cada um trazendo uma parcela dos dados.

Importando um Dataset Grande

import pandas as pd

for chunk in pd.read_csv(
    "dados.csv",
    chunksize=1000,  # Representa a quantidade de linhas por chunk
):
    # Realize suas manipulações aqui, considerando o chunk como um DataFrame com
    # a mesma estrutura do arquivo "dados.csv"

Keyboard shortcuts

Guia do Analista de Dados da SEPLAN/RR

Transformação

Métodos e Atributos da Estrutura de DataFrame

Como Lidar com Datasets Grandes

Importando um Dataset Grande