Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

Extração

Esta página ainda está sendo construída. Se quiser contribuir com o guia, acesse o nosso repositório.

Consumo de Arquivos CSV

Arquivos CSV são compatíveis com diversos softwares de leitura de planilha, como Microsoft Excel e LibreOffice Calc. Porém, quando trabalhamos com automação, temos que manipular os arquivos através de código, usando bibliotecas como pandas e polars. Assim, temos alguns comandos básicos abaixo:

Abrir o Arquivo CSV como DataFrame, Mostrando Suas Primeiras Linhas

import pandas as pd

df = pd.read_csv("arquivo.csv")
print(df.head())

Filtrar Colunas Específicas de um DataFrame

cols = [
  "id",
  "nome",
  "host_id",
  "bairro",
  "tipo_de_quarto",
  "preco",
  "estadia_minima",
]

hotel_data = pd.read_csv(
  "hotel_data.csv",
  usecols=cols,
)

Outras Parâmetros de Leitura do Arquivo

# Declara o separador usado para ler os dados do CSV (O separador padrão é a
# vírgula)
pd.read_csv("data.csv", sep=";")

# Declara a linha que será utilizada como cabeçalho do DataFrame (A linha padrão
# é a primeira)
pd.read_csv("data.csv", header=3)

# Declara o tipo dos dados nas colunas do DataFrame. Não é aconselhável utilizar
# os tipos padrão do Python, como int ou float, mas sim os tipos anuláveis
# (nullable) indicados na documentação do pandas, como "Int64" e "Float64"
pd.read_csv("data.csv", dtype={
  "id": "Int64",
  "price": "Float64",
})