Já ouviu sobre Data Gravity ?

Falla Turma,

Um tempo atrás escrevi sobre Data Lake e Virtualização de Dados, que juntos se complementam em uma visão de arquitetura Data Lake MultiCloud.

Buut, um outro aspecto bem interessante em arquiteturas dessa magnitude e que impacta não só como será o Lift and Shift mas também toda a estratégia da empresa perante a Cloud é a tal da Gravidade dos Dados. Já ouviu esse termo?

Gravidade de Dados, segundo um artigo da Forbes de 2019:

Muito viajado? (haha)
Vamos tentar traduzir isso para o nosso mundo. A Gravidade dos Dados descreve o efeito que, à medida que os dados se acumulam, há uma maior probabilidade de que serviços e aplicativos sejam atraídos para esses dados, tendo essencialmente o mesmo efeito que a gravidade tem nos objetos ao redor do planeta. À medida que a massa e a densidade aumentam, aumenta também a força da atração gravitacional e, à medida que as coisas se aproximam da massa, elas aceleram em direção a ela em velocidade crescente. Embora os serviços e aplicativos tenham sua própria gravidade, os dados são os mais massivos e densos, o que significa que eles têm mais gravidade. Se os dados se tornarem grandes o suficiente, pode se tornar praticamente impossível se mover. Geralmente, à medida que serviços e aplicativos interagem com os dados, eles causam um crescimento ainda mais rápido dos próprios dados, criando um ciclo contínuo de crescimento dos dados.

Data Gravity — Why Should Marketers Care? - Clarisights - Medium

Vamos criar um cenário para facilitar o entendimento:
Imagine uma empresa, onde toda sua Infraestrutura é OnPremise. A gravidade do dado está 100% nesta infraestrutura, correto? Todos os dados são gerados e consumidos pelos sistemas que estão sob está infraestrutura física ou virtual, tudo dentro do mesmo “Data Center”.

Agora, imagine que essa empresa passe a utilizar Cloud e decrete que todo sistema novo deve ser criado na Cloud Publica.
Todos os dados (gravidade) ainda estão no mundo OnPremise, logo todo sistema novo que precise desses dados necessitará de integração entre Cloud e OnPremise. Com isso, podemos adicionar algumas variáveis a essa arquitetura como, latência, volume e principalmente custo (trafegar, principalmente fazer data out na Cloud custa alguns Trumps).

Como eu resolvo essa equação? Mudando a gravidade dos Dados 🙂
E como eu mudo a gravidade dos dados? Levando, gerando e consumindo dados na Cloud (neste exemplo hipotético).

Na pratica, no começo a gravidade está na OnPremise, com o tempo as aplicação vão sendo migradas para a cloud, deixando de gerar dados no OnPremise e principalmente passando a consumir dados na Cloud de aplicações que já estão lá…. com o tempo, todo mundo estará gerando e consumindo dados na Cloud, o resultado? O centro de gravidade dos dados foi alterado.

Data gravity defined and equated - DXC Blogs

Como isso impacta na arquitetura MultiCloud?

A questão de como e onde armazenar os dados com mais eficiência será um ponto decisivo para o sucesso do Data Lake. Mover grandes volumes de dados não é uma tarefa simples e quando se trata de nuvem outras variáveis são adicionadas a equação, como latência, volume e principalmente custo. A comunicação e transferência de dados será algo constante nesse tipo de arquitetura, por isso, o desenvolvimentopensar na gravidade no momento da geração e consumo dos dados.

O vídeo abaixo demonstra a curva da gravidade do espaço, mas o conceito se aplica para os dados. Quanto mais “pesado” fica a gravidade dos dados, mais sistemas se juntaram a ela, gerando mais dados, e consequentemente, aumentando gradativamente a gravidade dos dados.

Fica aqui uma provação: Já pensou o quanto isso é complexo em ambientes MultiCloud? O quanto a arquitetura precisa ser planejada? todas as variaveis, latência, volume, disponibilidade, custo.. precisam ser calculadas.

Essa é a graça do nosso mundo de TI. Quanto mais avançamos, mais interessante fica 🙂

Alguns links de referência bem interessantes sobre o assunto:

Bons estudos
Garetti

Comente sobre isso: