Bem-vindo ao repositório Databricks do Zero! Este espaço foi criado com o objetivo de facilitar o aprendizado e acelerar a jornada de quem está começando no ecossistema Databricks, combinando teoria e prática em exemplos simples, claros e organizados.
Aqui você encontrará conteúdos fundamentais para dominar os principais conceitos relacionados à engenharia de dados com Apache Spark, Delta Lake e orquestração de pipelines, usando o Databricks como plataforma central.
📁 Estrutura de Pastas e Conteúdos Cada pasta contém notebooks, explicações e exemplos práticos com foco em iniciantes. Veja abaixo os temas disponíveis:
- 01_sql-com-spark-sql [Já disponível ✅]
- 📘 Aprendendo SQL com Spark SQL: Explore como escrever queries SQL no ambiente distribuído do Spark. Aprenda comandos básicos e avançados, criação de tabelas temporárias, filtros, joins, agregações, CTE, WINDOW FUNCTIONS e muito mais.
- 02_python-com-pyspark [... em construção 🛠️]
- 🐍 Aprendendo Python com PySpark: Introdução à API Python do Spark. Ideal para quem já conhece um pouco de Python e quer começar a manipular dados com DataFrames, RDDs, funções de transformação (withColumn, filter, groupBy), UDFs e muito mais.
- 03_delta-tables [... em construção 🛠️]
- 💾 Propriedades da Delta Tables: Entenda o que são Delta Tables e por que são tão poderosas no Databricks. Aqui você aprende sobre ACID transactions, versionamento, tabela otimizada, vacuum, time travel, merge, entre outros.
- 04_tabelas-e-views [... em construção 🛠️]
- 🗂️ Tabelas e Views no Databricks: Diferença entre tabelas Managed e External, como criar Views (Temporary, Global, Materialized), quando e por que usar cada uma.
- 05_arquitetura-medalhao [... em construção 🛠️]
- 🏛️ Arquitetura Medalhão: Aprenda os princípios da arquitetura Bronze-Silver-Gold (medalhão), como organizar camadas de dados, boas práticas de particionamento e governança de dados.
📦 Requisitos
- Conta no
,
ou Databricks Workspace de sua empresa
- Familiaridade básica com SQL e Python (não é obrigatório)
- Git instalado (para clonar o repositório)
🚀 Como usar Clone o repositório:
git clone https://github.com/seu-usuario/databricks-do-zero.git
Importe os notebooks diretamente no Databricks através da interface web (Drag & Drop ou pela CLI).
Siga a ordem dos diretórios recomendada acima.