Apache Flink: Processamento de Streams em Tempo Real na Era dos Dados em Movimento

O Desafio do Processamento em Tempo Real

O mundo digital gera dados em movimento o tempo todo — cliques em sites, transações financeiras, leituras de sensores IoT, logs de servidores, atualizações de redes sociais. Processar esses fluxos contínuos de dados com latência baixa e alta confiabilidade é um dos maiores desafios da engenharia de dados moderna.

É aqui que o Apache Flink se destaca. Diferente de abordagens tradicionais como o Apache Spark Streaming (que trata streams como micro-batches), o Flink foi projetado desde o início como um motor true streaming — cada evento é processado individualmente no momento em que chega, sem aguardar janelas temporais artificiais.

Arquitetura e Conceitos Fundamentais do Flink

Processamento verdadeiro evento a evento

O Flink opera sobre o conceito de DataStream, uma sequência imutável de registros que pode ser consumida em tempo real. Cada operador no grafo de processamento reage a eventos assim que eles chegam, permitindo latências da ordem de milissegundos:

DataStream<Event> clicks = env
  .addSource(new KafkaSource<>(...))
  .keyBy(event -> event.getUserId())
  .window(TumblingProcessingTimeWindows.of(Time.minutes(1)))
  .aggregate(new ClickCountAggregate())
  .map(count -> new Alert(count));

clicks.sinkTo(new ConsoleSink());

Checkpointing e consistência exatamente-uma-vez

Uma das características mais impressionantes do Flink é seu sistema de checkpointing distribuído. Baseado no algoritmo Chandy-Lamport, o Flink tira snapshots consistentes do estado de todo o pipeline sem pausar o processamento:

// Checkpoints são habilitados por padrão
// Configuração personalizada:
StreamExecutionEnvironment env =
  StreamExecutionEnvironment.getExecutionEnvironment();

env.enableCheckpointing(5000); // checkpoint a cada 5 segundos
env.setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE);

// Quando uma falha ocorre, o Flink restaura o estado
// do último checkpoint bem-sucedido e reprocessa
// exatamente os eventos necessários

Isso garante que, mesmo em caso de falhas de hardware ou rede, cada evento seja processado exatamente uma vez — sem duplicatas e sem perdas.

Gerenciamento de estado

A capacidade de manter estado rico dentro do pipeline é o que diferencia o Flink de sistemas simples de streaming. O Flink oferece múltiplos backends de estado (RocksDB, Heap) e suporte a consultas ao estado em execução:

public class FraudDetector
    extends KeyedProcessFunction<Long, Transaction, Alert> {

  private ValueState<Double> lastAmount;

  @Override
  public void open(Configuration parameters) {
    ValueStateDescriptor<Double> desc =
      new ValueStateDescriptor<>("last-amount", Types.DOUBLE);
    lastAmount = getRuntimeContext().getState(desc);
  }

  @Override
  public void processElement(
      Transaction transaction,
      Context context,
      Collector<Alert> out) throws Exception {

    Double previous = lastAmount.value();
    if (previous != null && transaction.getAmount() > previous * 10) {
      out.collect(new Alert(transaction));
    }
    lastAmount.update(transaction.getAmount());
  }
}

Conectores: integração com o ecossistema

O Flink possui conectores nativos para as fontes de dados mais populares:

Apache Kafka — consumo e produção de tópicos com offset tracking automático
Amazon Kinesis — integração direta com o serviço de streaming da AWS
RabbitMQ e Pulsar — mensageria tradicional e de alta performance
JDBC e PostgreSQL — leitura e escrita em bancos relacionais
Elasticsearch — indexação em tempo real para busca e dashboards
S3, GCS e HDFS — sinks para data lakes distribuídos

Flink SQL: consultas declarativas em streams

Uma das funcionalidades mais acessíveis do Flink é o suporte a SQL sobre streams. Você pode escrever consultas SQL que operam sobre fluxos de dados como se fossem tabelas tradicionais:

-- Criar tabela virtual sobre tópico Kafka
CREATE TABLE clicks (
  user_id BIGINT,
  page_url STRING,
  event_time TIMESTAMP(3),
  WATERMARK FOR event_time AS event_time - INTERVAL '5' SECOND
) WITH (
  'connector' = 'kafka',
  'topic' = 'clicks',
  'properties.bootstrap.servers' = 'localhost:9092',
  'format' = 'json'
);

-- Consulta contínua: top 10 páginas por minuto
SELECT
  page_url,
  COUNT(*) AS total_clicks,
  TUMBLE_END(event_time, INTERVAL '1' MINUTE) AS window_end
FROM clicks
GROUP BY
  page_url,
  TUMBLE(event_time, INTERVAL '1' MINUTE)
ORDER BY total_clicks DESC
LIMIT 10;

Essa consulta roda continuamente e emite resultados atualizados a cada minuto — sem escrever uma linha de código Java ou Scala.

Event Time Processing: lidando com eventos atrasados

No mundo real, eventos frequentemente chegam atrasados ou fora de ordem. O Flink possui suporte sofisticado a event time processing, onde cada evento carrega seu próprio timestamp:

.assignTimestampsAndWatermarks(
  WatermarkStrategy
    .<Event>forBoundedOutOfOrderness(Duration.ofSeconds(10))
    .withTimestampAssigner((event, ts) -> event.getTimestamp())
)

O conceito de Watermarks é o coração dessa funcionalidade. Um watermark é uma marca temporal que indica "até este ponto, todos os eventos com timestamp menor ou igual já devem ter chegado". Eventos que chegam após o watermark podem ser descartados ou enviados para uma stream lateral (side output) para processamento separado.

Deploy: Kubernetes e Apache Flink

O Flink roda nativamente no Kubernetes através do Flink Kubernetes Operator, que gerencia o ciclo de vida completo dos jobs:

# flink-job.yaml
apiVersion: flink.apache.org/v1beta1
kind: FlinkDeployment
metadata:
  name: fraud-detection
spec:
  image: registry.exemplo.com/flink-jobs:latest
  flinkVersion: v1_19
  flinkConfiguration:
    taskmanager.numberOfTaskSlots: "4"
  jobManager:
    resource:
      memory: "2048m"
      cpu: 1
  taskManager:
    resource:
      memory: "4096m"
      cpu: 2
  job:
    jarURI: local:///opt/flink/usrlib/fraud-detection.jar
    entryClass: com.exemplo.FraudDetectionJob
    parallelism: 4
    upgradeMode: savepoint

kubectl apply -f flink-job.yaml
kubectl get flinkdeployment

Flink vs Kafka Streams vs Spark Streaming

Cada ferramenta tem seu lugar no ecossistema de streaming:

Apache Flink — ideal para pipelines complexos com estado, joins entre múltiplas streams, processamento orientado a eventos e requisitos rigorosos de exatamente-uma-vez. Melhor escolha para cenários de missão crítica.
Kafka Streams — excelente para pipelines embutidos na aplicação que já usa Kafka. Mais leve, mas limitado ao ecossistema Kafka. Ótimo para microsserviços que processam streams.
Spark Streaming (micro-batches) — bom para cenários onde a latência de segundos é aceitável e você já tem investimento no ecossistema Spark. Processa dados em mini-lotes de 1 a 10 segundos.

Casos de uso reais

Alibaba — processa mais de 2 bilhões de eventos por dia com Flink para detectar fraudes em tempo real durante o Singles' Day
Uber — utiliza Flink para processar streams de geolocalização e calcular preços dinâmicos em tempo real
Netflix — monitora infraestrutura e logs de CDN com Flink para detectar anomalias de qualidade de streaming
ING Bank — opera pipelines de detecção de fraudes bancárias com requisitos de latência subsegundo e consistência exatamente-uma-vez
Delivery Hero — processa eventos de pedidos e entregas em tempo real para otimizar rotas e prever demandas

Boas práticas em produção

Dimensionamento de paralelismo — o paralelismo ideal depende da partição dos dados de entrada. Comece com o mesmo número de partições Kafka e ajuste monitorando backpressure.
Monitoramento de backpressure — o Flink expõe métricas de backpressure via REST API. Use Prometheus + Grafana para alertar quando o pipeline não consegue processar na mesma velocidade da chegada de dados.
Savepoints para atualizações — sempre tire um savepoint antes de atualizar a lógica do job em produção. Isso permite rollback instantâneo.
RocksDB como state backend — para estados grandes (acima de 10 GB), prefira RocksDB ao heap da JVM. RocksDB faz spill para disco e evita OOM.
Evite operações com estado ilimitado — se seu estado cresce indefinidamente, implemente políticas de TTL ou use janelas deslizantes com expiração.

Conclusão

O Apache Flink representa o estado da arte em processamento de streams. Sua arquitetura verdadeiramente orientada a eventos, combinada com checkpointing consistente, gerenciamento de estado rico e suporte a SQL sobre streams, faz dele a escolha ideal para organizações que precisam processar dados em movimento com baixa latência e alta confiabilidade.

Se você está construindo sistemas que exigem respostas em milissegundos a eventos — detecção de fraudes, monitoramento em tempo real, pipelines de analytics contínuos — o Apache Flink merece um lugar de destaque no seu stack de engenharia de dados. Comece com docker run flink:1.19 e explore o poder do processamento verdadeiramente em tempo real.

Data science

Entrar em contato

Entre em contato