Por Dentro da Besta: A Engenharia e Evolução do Amazon S3

O Amazon S3 é frequentemente chamado de "espinha dorsal" da internet, mas poucos compreendem a escala colossal de suas operações. Lançado originalmente em 14 de março de 2006 com a premissa simples de fornecer armazenamento "infinito", o serviço cresceu para gerenciar mais de 500 trilhões de objetos e centenas de exabytes de dados. Para visualizar essa escala, se empilhássemos todos os discos rígidos do S3 uns sobre os outros, eles iriam até a Estação Espacial Internacional e voltariam. O que começou como uma arquitetura rudimentar de seis microsserviços evoluiu para um ecossistema complexo de mais de 300 microsserviços altamente desacoplados, um processo que os engenheiros descrevem como "reconstruir o avião durante o voo".

No centro da proposta de valor do S3 está sua incrível garantia de durabilidade de 99,999999999% (onze noves). Alcançar isso sem o custo proibitivo de triplicar o hardware de armazenamento exigiu uma mudança da replicação simples para o Erasure Coding (Código de Apagamento). O S3 utiliza algoritmos baseados em códigos Reed-Solomon, especificamente um design 5+4 onde os dados são divididos em fragmentos e paridade. Isso permite que o sistema tolere a perda simultânea de uma Zona de Disponibilidade inteira e um nó adicional em outra zona sem perder dados, mantendo a resiliência contra falhas correlacionadas.

Um momento crucial na história do S3 ocorreu em dezembro de 2020, quando o serviço migrou de um modelo de consistência eventual para consistência forte em todas as requisições. Anteriormente, o sistema priorizava a disponibilidade, o que significava que uma listagem de objetos poderia não refletir imediatamente uma gravação recente. A equipe de engenharia resolveu isso implementando uma nova estrutura de dados de "journal" replicado e um protocolo de coerência de cache com tolerância a falhas. Surpreendentemente, essa atualização arquitetônica massiva foi lançada sem tempo de inatividade e sem custo adicional para os clientes.

Para lidar com o fluxo massivo de milhões de requisições por segundo, o S3 emprega escalonamento horizontal inteligente. O sistema particiona o índice com base nos prefixos das chaves dos objetos. Inicialmente, as chaves residem em uma única partição, mas à medida que o tráfego aumenta, o S3 divide automaticamente essas partições para suportar maior throughput — até 3.500 requisições de escrita ou 5.500 de leitura por segundo por prefixo. Essa "evolubilidade" permite que o S3 trate a escala como uma vantagem, onde a performance realmente melhora à medida que o sistema cresce e as cargas de trabalho se tornam mais decorrelacionadas.

Nos bastidores, a camada de armazenamento físico também passou por uma transformação. Embora historicamente construídos em C++, os novos nós de armazenamento utilizam o "ShardStore", um motor escrito em Rust para garantir segurança de memória e alta performance concorrente. O ShardStore gerencia dados em unidades chamadas "extents" e usa árvores LSM (Log-Structured Merge) para mapear identificadores de shards para localizações físicas. Para garantir a correção nessa escala, a AWS emprega "métodos formais leves", usando modelos matemáticos para verificar a lógica do código e prevenir bugs de concorrência antes que cheguem à produção.

Em 2024, o S3 evoluiu além do simples armazenamento de objetos para se tornar uma plataforma de dados ativa para IA e analytics. O lançamento do Amazon S3 Tables fornece suporte nativo para o formato Apache Iceberg, automatizando tarefas de manutenção como compactação. Além disso, o S3 lançou suporte para Vetores, um novo primitivo projetado para armazenar embeddings semânticos para aplicações de IA, permitindo buscas de similaridade de alta dimensão diretamente na camada de armazenamento.

A segurança no S3 não é apenas sobre permissões, mas sobre certeza matemática. O serviço utiliza ferramentas de raciocínio automatizado como o Zelkova para traduzir políticas de IAM e de bucket em fórmulas lógicas, verificando se os controles de acesso se comportam exatamente como pretendido. Essa abordagem foi estendida para garantir que aplicações de IA generativa construídas na AWS não violem políticas de segurança, tratando a segurança como um problema de correção provável.

Em última análise, a liderança do S3 o descreve como um "organismo vivo" que continua mudando de forma com base em como o mundo usa dados. Desde suas origens como um simples "saco de bits" até um sistema sofisticado que suporta consultas SQL e busca vetorial, o S3 demonstra que, em sistemas distribuídos de hiperescala, a simplicidade da interface do usuário esconde uma das façanhas de engenharia mais complexas e robustas da história.

Fontes

Amazon S3 - Wikipedia & AWS re:Invent 2024 announcements
From Bits to Tables: The Evolution of S3 Storage
S3-like Object Storage - Book Notes
The History of Amazon S3 - CloudSee Drive
AWS re:Invent 2024 announcements and keynote updates
AWS re:Invent 2024 - The Candid Startup
How Amazon S3 Stores 100 Trillion Objects Without Losing One
Our Origins - AWS & Erasure Coding sources
Optimizing Performance Of Amazon S3
Amazon S3 Update – Strong Read-After-Write Consistency
Import from Amazon S3 Vectors to OpenSearch Serverless
ShardStore: A "new storage backend for Amazon S3" on 40k lines of Rust
Cloud Storage Deep Dive (Part 2) & S3 Tables announcements
How does Amazon S3 ensure data Durability and Availability?
Erasure Coding — This is how cloud providers store multiple copies
Understanding erasure coding
What is Amazon S3? & Automated Reasoning sources
Amazon S3 Strong Consistency
Deep dive on Amazon S3 (PDF)
Amazon S3 Metadata now supports metadata for all your S3 objects
Millions of Tiny Databases - USENIX
How automated reasoning helps Amazon S3 innovate at scale
Erasure Coding | System Design - AlgoMaster.io
Erasure Coding Chapter - AlgoMaster.io
How Amazon S3 Stores 100 Trillion Objects Without Losing One (Ajit Singh)
Request Routing and Performance (Partition Keys)
Better Key Design & Partitioning
How S3 is built - Transcript (Milan, VP of Data & Analytics at AWS)
Stack of drives to ISS (Transcript)
S3 Origins & Eventual Consistency (Transcript)
Eventual Consistency rationale (Transcript)
S3 Basic Architecture (Put/Get) (Transcript)
Replicated Journal & Strong Consistency implementation (Transcript)
Failure Allowance & Cache Coherency (Transcript)
No cost for Strong Consistency (Transcript)
Automated Reasoning & Formal Methods (Transcript)
Proofing correctness on check-ins (Transcript)
Math saves you at scale (Transcript)
Correlated Failures (Transcript)
S3 Tables & SQL (Transcript)
S3 Vectors & Embeddings (Transcript)
Vectors as a new primitive (Transcript)
Scale is to your advantage (Transcript)
Product Shape & Coherency (Transcript)
S3 as a living organism (Transcript)

🎵 Podcast en Spotify

Fontes