Arquitetura de Medalhão: organize dados em camadas confiáveis 

Foto de Davi Yokogawa

Davi Yokogawa

Cientista de Dados

Você confia plenamente nos dados que chegam até o seu dashboard? Se a resposta for “às vezes” ou “depende”, o problema provavelmente está antes da análise, na forma como os dados são organizados ao longo do pipeline.

Dados brutos e dados prontos para decisão são coisas muito diferentes. Misturá-los em um mesmo ambiente é um dos erros mais comuns em arquiteturas analíticas, e o preço aparece na forma de inconsistências, retrabalho e análises que não refletem a realidade. À medida que o volume de dados cresce, esse problema se multiplica.

A Arquitetura de Medalhão resolve exatamente isso: separando os dados em camadas progressivas de qualidade, cada uma com uma função clara. Ao longo deste artigo, você vai entender como funcionam as camadas Bronze, Silver e Gold, quais ferramentas suportam essa implementação e como avaliar se essa abordagem faz sentido para a sua operação.

O que é a Arquitetura de Medalhão

A Arquitetura de Medalhão organiza os dados em três camadas sequenciais, Bronze, Silver e Gold, que representam diferentes estágios de processamento e refinamento. O dado entra bruto pela Bronze, é limpo e estruturado na Silver, e chega pronto para análise na Gold.

Popularizada pelo Databricks como padrão de referência para o modelo Data Lakehouse, a arquitetura nasceu da necessidade de escalar ambientes analíticos sem abrir mão de qualidade, governança e rastreabilidade. Com o avanço do Delta Lake e do Apache Spark, o modelo se consolidou como uma das abordagens mais adotadas em pipelines modernos de dados (Databricks, 2024).

O que distingue essa arquitetura de soluções mais simples é sua capacidade de controlar a qualidade do dado em cada estágio do pipeline. Quando um dado chega com erro, é possível identificar exatamente onde o problema ocorreu, corrigir na origem e reprocessar sem perda de histórico. Essa rastreabilidade é o que transforma dados brutos em ativos confiáveis para decisão.

As três camadas da Arquitetura de Medalhão

Diagrama da Arquitetura de Medalhão com camadas Bronze, Silver e Gold

Camada Bronze: o arquivo fiel dos dados brutos

A camada Bronze é onde os dados chegam exatamente como foram ingeridos das fontes originais, sem transformação, sem limpeza, sem perda de informação. Seu papel é preservar a integridade total do dado original e funcionar como repositório histórico: qualquer reprocessamento futuro parte daqui, sem necessidade de reler os sistemas de origem.

Logs de servidores, dados de sensores IoT, transações brutas de e-commerce e feeds de APIs externas chegam direto para a Bronze. O Databricks recomenda armazenar os campos nessa camada como string ou VARIANT, protegendo a arquitetura contra mudanças inesperadas de schema nas fontes. Streams de ingestão contínua também são configurados aqui, tratando a maioria das fontes como append-only (Microsoft Learn, 2024).

Camada Silver: estrutura e confiabilidade para análise

Na camada Silver, os dados passam por limpeza, normalização e transformação. Inconsistências são corrigidas, duplicidades eliminadas, valores nulos tratados, e tabelas relacionadas são integradas. O resultado é uma base confiável e bem estruturada, pronta para alimentar análises e aplicações analíticas, sem que cientistas de dados precisem lidar com os dados brutos.

Um exemplo prático: em uma operação que ingere dados do Kafka, Salesforce e armazenamento em nuvem na Bronze, a Silver une registros de clientes e transações em um dataset consolidado, e integra contas e oportunidades do Salesforce em uma visão unificada de account_opportunities. Analistas e times de dados trabalham diretamente com esses conjuntos, com qualidade garantida.

As operações típicas nessa camada incluem, por exemplo, a normalização de formatos de data, a correção de erros de entrada e o join de tabelas relacionais. Além disso, todo esse processo é realizado mantendo a granularidade original dos dados, de modo que nenhuma informação relevante seja descartada ao longo do processo.

Camada Gold: dados prontos para decisão

A camada Gold é onde o valor analítico se materializa. Os dados já limpos e estruturados são aqui agregados, enriquecidos e modelados para responder a perguntas de negócio específicas. Dashboards executivos, relatórios financeiros, modelos de machine learning e análises preditivas consomem dados diretamente da Gold.

Diferente das camadas anteriores, a Gold usa modelos desnormalizados e otimizados para leitura rápida, com menos joins. Cada conjunto de dados costuma ser construído para um público específico: o time de operações tem o seu, o financeiro tem o seu, o marketing tem o seu. Isso reduz o tempo de resposta nas consultas e garante que cada stakeholder acesse as informações no formato mais útil.

Processos e ferramentas na implementação

ETL ou ELT: qual abordagem faz sentido

Pipelines de ETL (Extract, Transform, Load) e ELT (Extract, Load, Transform) são o motor que move os dados entre as camadas. A diferença está em onde a transformação acontece: no ETL, antes de carregar no destino; no ELT, após o carregamento.

Em ambientes de big data, o ELT costuma ser preferido pela flexibilidade. Ferramentas como Apache Spark e Databricks suportam esse modelo com eficiência, permitindo processamento paralelo em larga escala. Boas práticas incluem operações idempotentes, tratamento adequado de erros e testes automatizados para garantir consistência ao longo do pipeline.

Armazenamento: Data Lakes, Data Warehouses e cloud

O modelo em camadas pode ser implementado em diferentes infraestruturas. Data Lakes são adequados para volumes altos de dados brutos e semiestruturados; Data Warehouses, para consultas analíticas rápidas em dados estruturados. A cloud é a escolha predominante pela escalabilidade e flexibilidade, com serviços como Amazon S3, Google Cloud Storage e Azure Data Lake sendoos mais utilizados.

O Delta Lake, desenvolvido pela Databricks, adiciona capacidades críticas a essa infraestrutura: transações ACID, schema enforcement e Time Travel, que permitem rastrear versões históricas dos dados e reverter alterações quando necessário. Junto com a funcionalidade de Change Data Feed, o Delta Lake se tornou uma peça central na implementação confiável da arquitetura em ambientes de produção.

Governança de dados em cada camada

Governança não é um passo final, ela precisa estar presente desde a Bronze. Isso inclui políticas de acesso por camada, auditorias de uso e monitoramento contínuo da qualidade dos dados.

O Unity Catalog, do Databricks, permite organizar tabelas em catálogos e schemas separados por camada, facilitando o controle de acesso e a rastreabilidade de ponta a ponta. O Apache Ranger cumpre função semelhante em ambientes Hadoop e ecossistemas mais abertos. Além das ferramentas, práticas como catalogação de dados, documentação rigorosa e automação de auditoriassão fundamentais para manter a integridade e a segurança do pipeline ao longo do tempo.

Vantagens e limitações do modelo em camadas

Vantagens e Desvantagens da Arquitetura de Medalhão

O que justifica a adoção

A principal força da Arquitetura de Medalhão está na separação clara de responsabilidades. Cada camada tem uma função específica, o que simplifica desenvolvimento, manutenção e diagnóstico de problemas. A qualidade do dado cresce progressivamente, e o controle sobre cada estágio do pipeline é total.

A escalabilidade também conta a favor. A arquitetura cresce junto com a operação: novas fontes, novos casos de uso e maiores volumes entram no pipeline sem que o modelo precise ser reestruturado. Do ponto de vista de custos, a separação em camadas permite armazenar os dados brutos de forma econômica na Bronze, concentrando os recursos computacionais mais caros nascamadas Silver e Gold, onde o valor é efetivamente gerado.

Onde o modelo exige atenção

A complexidade de implementação é real. Construir e manter pipelines ETL/ELT bem estruturados, integrar ferramentas diversas e configurar políticas de governança exige equipe técnica capacitada e planejamento cuidadoso desde o início.

Outro ponto de atenção é a latência. Como os dados percorrem múltiplas camadas antes de ficarem disponíveis para análise, cenários que exigem dados em tempo real precisam de uma abordagem complementar. Soluções híbridas, que combinam a Arquitetura de Medalhão com técnicas de streaming, são uma saída cada vez mais adotada para esse tipo de demanda.

Como o modelo se compara a outras arquiteturas de dados

Data Warehouses tradicionais

Data Warehouses são altamente otimizados para consultas rápidas em dados estruturados e organizados. Funcionam bem para relatórios empresariais e análises históricas em ambientes onde a maioria dos dados já chega estruturada. A limitação aparece quando o volume cresce ou quando os dados chegam em formatos variados, situações em que a rigidez do DW tradicional pode se tornar um gargalo.

Data Lakes

Um Data Lake armazena qualquer tipo de dado, estruturado ou não, sem transformações prévias. Sendo assim, a flexibilidade é máxima, mas sem governança e organização adequadas, o repositório pode se transformar em um “lago de dados sujos”, difícil de usar e com qualidade incerta. A Arquitetura de Medalhão pode ser entendida como uma evolução do Data Lake, adicionando as camadas quedão sentido, rastreabilidade e qualidade ao dado armazenado.

Data Lakehouse

O Data Lakehouse é a convergência entre Data Lake e Data Warehouse: armazena dados em seus formatos originais com as capacidades de governança e performance de consulta de um warehouse. A Arquitetura de Medalhão é, na prática, o modelo de organização interna de um Data Lakehouse, estruturando o fluxo de Bronze a Gold para garantir qualidade em cada estágio.

Quando esse modelo é a escolha certa

A abordagem faz mais sentido quando a operação precisa lidar com grande variedade de dados em diferentes estágios de maturidade, quando escalabilidade é prioridade e quando a qualidade dos dados ao longo do pipeline precisa ser controlada. É especialmente adequada para projetos que integram fontes heterogêneas, como logs de eventos, dados de sensores, transações e sistemas CRM, com a necessidade de transformá-los em insights confiáveis para análise.

Data Warehouses tradicionais ainda são mais indicados quando os dados já chegam estruturados e o desempenho de consulta é a prioridade central. Data Lakes puros fazem mais sentido quando o foco é armazenamento massivo e flexível, sem necessidade imediata de refinamento.

Tendências e o que esperar nos próximos anos

A arquitetura continua evoluindo. A integração com inteligência artificial e machine learning é uma das tendências mais claras: as camadas Gold são cada vez mais usadas para alimentar modelos preditivos avançados e pipelines de análise em tempo real.

A automação dos pipelines, por meio de práticas DataOps e plataformas serverless, tende a reduzir a complexidade operacional do modelo. A pressão por mais transparência e controle, com regulamentações de proteção de dados cada vez mais exigentes em diferentes países, também reforça a importância de uma governança construída desde o início, em cada camada, e não comocamada extra no final.

Para organizações que estão começando, as orientações práticas são claras: entender o tipo de dado com que se trabalha e os resultados analíticos que se quer alcançar; investir em ferramentas como Apache Spark, Delta Lake e Unity Catalog; estabelecer políticas de governança desde a Bronze; e adotar uma implementação iterativa, que evolua com as necessidades reais da operação.

Conclusão

A Arquitetura de Medalhão não é apenas uma solução técnica. É uma forma de estruturar dados com clareza, intenção e governança. Ao separar dados brutos, processados e prontos para consumo analítico em camadas com responsabilidades distintas, as organizações ganham controle sobre a qualidade da informação em cada estágio do pipeline, reduzindo os riscos de análisesincorretas chegarem à tomada de decisão.

Em um ambiente onde a confiança nos dados é cada vez mais determinante para o sucesso estratégico, construir essa fundação com cuidado é um investimento que se reflete diretamente na qualidade das decisões.

Quer estruturar a arquitetura de dados da sua operação? Fale com a Oper ou explore outros conteúdos sobre engenharia e governança de dados no blog.

Fontes: Databricks — What is Medallion Architecture (databricks.com/glossary/medallion-architecture) | Microsoft Learn — Arquitetura Medallion Lakehouse, PT-BR (learn.microsoft.com/pt-br/azure/databricks/lakehouse/medallion) | Armbrust et al. (2021), Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics, CIDR 2021.

Gostou do conteúdo?

Receba novos insights sobre dados, analytics e estratégia direto no seu email.

Botão WhatsApp

Política de Privacidade

PARA VOCÊ ENTENDER MELHOR O QUE FAZEMOS COM AS SUAS INFORMAÇÕES

Fizemos o máximo para explicar de forma clara e simples quais dados pessoais precisaremos de você e o que vamos fazer com cada um deles. Por isso, separamos abaixo os pontos mais importantes, que também podem ser lidos de forma bem completa e detalhada nas nossas Políticas de Privacidade.

Além disso, estamos sempre disponíveis para tirar qualquer dúvida que você tenha por meio do e-mail contato@operdata.com.br, ou pelos telefones (31) 99744-7949; (31) 98601-0085; (31) 99213-3873; (31) 98484-5242.

1) Como faremos a segurança de seus dados?

A Oper se preocupa muito com a segurança de seus dados pessoais. Por isso, implementa todas as medidas sugeridas pela Autoridade Nacional de Proteção de Dados (ANPD) em seu Guia Orientativo para Agentes de Tratamento de Pequeno Porte, o que compreende uma variedade de tecnologias e procedimentos de segurança para ajudar a proteger as suas informações.

Para garantir que suas informações sejam armazenadas em ambiente seguro, a Oper utiliza servidores Cloud dedicado cujo acesso é restrito. Com isso, essa empresa passa a ter acesso aos seus dados somente para armazená-los assim que você os fornece na Oper. Além disso, o uso deste servidor pode implicar em uma transferência internacional dos seus dados pessoais para o país sede do servidor: Estados Unidos.

2) Quais dados precisa nos informar em nosso site? 

Para solicitar o contato de nossos consultores para solicitação dos serviços da Oper serão requeridas as seguintes informações: nome, telefone, e-mail e nome da empresa.

3) Com quem compartilhamos seus dados pessoais?

Nós iremos compartilhar os seus dados pessoais com as empresas referenciadas nestas políticas, com o objetivo de aprimoramento e execução dos serviços do site. Salvo nos casos citados, em caso de consentimento legal do titular dos dados pessoais e por força de ordem judicial ou determinação legal, nós não iremos compartilhar seus dados com terceiros.

4) Seus registros de acesso serão coletados?

Quando você entra em nosso site, colhemos seus registros de acesso, ou seja, conjunto de informações referentes à data e hora de uso de uma determinada aplicação de internet a partir de um determinado endereço IP, estas informações serão mantidas pela Oper, sob sigilo, em ambiente controlado e de segurança, pelo prazo mínimo de 06 (seis) meses, nos termos da Lei n. 12.965/2014, e artigo 7º, II, da Lei 13709/18.

5) Registros de comunicações serão armazenados?

Nós iremos armazenar também as conversas que você tiver conosco em nossos canais de comunicação, pois isso irá melhorar o seu atendimento e torná-lo mais eficiente. Sem esse histórico, provavelmente todas as vezes que você entrasse em contato teria que repetir o que já nos passou anteriormente.

6) Como seus dados serão tratados?

Todos os seus dados são tratados com finalidades específicas e de acordo com a Lei de Proteção de Dados Pessoais. Todas essas informações estão descritas em uma tabela, para facilitar a sua visualização, nas nossas Políticas de Privacidade.

7) Quais são seus direitos?

Mesmo que você já tenha nos fornecido seus dados pessoais, você possui total direito de, a qualquer momento: confirmar a existência de tratamento dos seus dados; acessar os seus dados; corrigir os seus dados; tornar anônimo os dados; bloquear ou eliminar os dados desnecessários, excessivos ou tratados em desconformidade com a Lei; pedir a portabilidade dos dados a outro fornecedor; eliminar dados, exceto aqueles exigidos por lei; obter informação sobre quem a Oper realizou uso compartilhado de dados; obter informação sobre a possibilidade de não fornecer consentimento e sobre as consequências da negativa; e voltar atrás e revogar o seu consentimento.

8) Essas condições poderão mudar?

Nossa Política de Privacidade poderá mudar, mas você sempre poderá acessar a versão mais atualizada do nosso site. Além disso, se formos realizar alguma ação que a lei exija sua autorização, você receberá um aviso antes para poder aceitar ou recusar.

9) Qual é o conteúdo das Políticas de Privacidade?

A Política de Privacidade a seguir está dividida da seguinte forma para facilitar o seu acesso à informação:


a) Data de Disponibilização do Texto;
b) Explicação dos Termos Técnicos ou em Língua Estrangeira;
c) Privacidade do Usuário e Operadores de Dados Terceirizados;
d) Coleta de Dados;
e) Tratamento de Dados Pessoais;
f) Compartilhamento dos Dados Pessoais dos Usuários;
g) Exclusão de Dados;
h) Direitos do Titular dos Dados Pessoais;
i) Segurança;
j) Mudanças na Política de Privacidade;
k) Canal de Comunicação sobre Privacidade;
l) Contato.