Skip to content

jooguilhermesc/databricks-basics

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 

Repository files navigation

📚 Databricks do Zero — Base de Conhecimento para Iniciantes

Bem-vindo ao repositório Databricks do Zero! Este espaço foi criado com o objetivo de facilitar o aprendizado e acelerar a jornada de quem está começando no ecossistema Databricks, combinando teoria e prática em exemplos simples, claros e organizados.

Aqui você encontrará conteúdos fundamentais para dominar os principais conceitos relacionados à engenharia de dados com Apache Spark, Delta Lake e orquestração de pipelines, usando o Databricks como plataforma central.

📁 Estrutura de Pastas e Conteúdos Cada pasta contém notebooks, explicações e exemplos práticos com foco em iniciantes. Veja abaixo os temas disponíveis:

  1. 01_sql-com-spark-sql [Já disponível ✅]
  • 📘 Aprendendo SQL com Spark SQL: Explore como escrever queries SQL no ambiente distribuído do Spark. Aprenda comandos básicos e avançados, criação de tabelas temporárias, filtros, joins, agregações, CTE, WINDOW FUNCTIONS e muito mais.
  1. 02_python-com-pyspark [... em construção 🛠️]
  • 🐍 Aprendendo Python com PySpark: Introdução à API Python do Spark. Ideal para quem já conhece um pouco de Python e quer começar a manipular dados com DataFrames, RDDs, funções de transformação (withColumn, filter, groupBy), UDFs e muito mais.
  1. 03_delta-tables [... em construção 🛠️]
  • 💾 Propriedades da Delta Tables: Entenda o que são Delta Tables e por que são tão poderosas no Databricks. Aqui você aprende sobre ACID transactions, versionamento, tabela otimizada, vacuum, time travel, merge, entre outros.
  1. 04_tabelas-e-views [... em construção 🛠️]
  • 🗂️ Tabelas e Views no Databricks: Diferença entre tabelas Managed e External, como criar Views (Temporary, Global, Materialized), quando e por que usar cada uma.
  1. 05_arquitetura-medalhao [... em construção 🛠️]
  • 🏛️ Arquitetura Medalhão: Aprenda os princípios da arquitetura Bronze-Silver-Gold (medalhão), como organizar camadas de dados, boas práticas de particionamento e governança de dados.

📦 Requisitos

  • Conta no Databricks Free Edition, Databricks Community Edition ou Databricks Workspace de sua empresa
  • Familiaridade básica com SQL e Python (não é obrigatório)
  • Git instalado (para clonar o repositório)

🚀 Como usar Clone o repositório:

git clone https://github.com/seu-usuario/databricks-do-zero.git

Importe os notebooks diretamente no Databricks através da interface web (Drag & Drop ou pela CLI).

Siga a ordem dos diretórios recomendada acima.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors