#01 – Big Data Clusters (SQL 2019) – Start Here

Fallaa Guys,

Nos últimos dias a Microsoft anunciou o preview do SQL Server 2019, com muitas atualizações na engine em performance, segurança, alta disponibilidade entre outros. Algumas novidades também foram apresentadas e pelo menos para mim, que já venho estudando desde março (via Early Adoption Program) o BIG DATA CLUSTERS está animal, na primeira versão já demonstra uma robustez incrível e com certeza ainda teremos muitas atualizações nessa engine.

O Big Data Clusters (ou BDC, para os mais íntimos) nasceu para facilitar o gerenciamento de um ambiente de Big Data, fornecendo elementos de um Data Lake como ferramentas de sistemas de armazenamento distribuído (HDFS) e processamento em Apache Spark integrado totalmente com a engine do SQL Server, tudo isso sob uma infraestrutura escalável em execução no Docker com Kubernetes. Além da virtualização dos dados, na mesma engine conseguimos treinar e operacionalizar modelos de Machine Learning (ML), isso no ponto de vista de Pipeline é muito bom, pois, toda a preparação de dados envolve muitas fontes e tipos de dados diferentes com tempestividades distintas, o BDC tem o objetivo de resolver isso, facilitando a vida do Ciêntistas de Dados e fornecendo ferramentas para o Engenheiro de dados pavimentar todo esse caminho, com muita robustez escalabilidade em processamento e armazenamento.

O BDC através da engine Polybase permite a virtualização dos dados (Data virtualization and Data Federation) habilitando consultas em fontes de dados externas, como MongoDB, Oracle, Teradata, CosmosDB, Hadoop (HDFS), Azure Blob Storage entre outros, podendo atráves da virtualização de dados executar consultas entre o mundo SQL (Transacional) e NOSQL, já pensou fazer um INNER JOIN entre uma tabela SQL com um(ou milhares) arquivos no HDFS ?

Para aguçar a curiosidade de vocês, da uma olhada na Arquitetura do BDC… Mas fique tranquilo, nos próximos posts vamos descer o nível nessas camadas, entendendo os conceitos e também na prática.

Arquitetura marcro BDC

Observe que a arquitetura é dividida basicamente em três camadas (Control Plane, Compute Plane, Data Plane) tudo sendo orquestrado pelo cluster Kubernetes. Cada camada tem seu objetivo (respectivamente pelo nome) e detém os serviços responsáveis para isso. Por exemplo, a camada Compute Plane é responsável pelo processamento dos dados, ou seja, quando vamos acessar o HDFS para consultar determinados dados consumimos essa camada, atráves da engine do Polybase. E sabe o que é bacana?, essa camada assim como as outras estão orientadas em pods, ou seja, podemos escalar caso seja necessário… isso é incrível.

A imagem abaixo, representa a arquitetura com demais componentes já incluíndo fontes externas, gateway de acessos, controller, etc.

Achou complicado? Calma… vou criar uma série de posts dividindo em “episódios” detalhando cada um desses conceitos, seguindo uma linha lógica como:

  • Big Data Cluster (SQL 2019) – Start Here
  • Introdução ao Big Data Cluster (SQL Server 2019)
  • The Big Data Landscape (Conceitos do mundo de Big Data)
  • Arquitetura e Componentes do BDC
  • Instalação e Configuração do BDC (no AKS)
  • Gerenciamento e Monitoração
  • Segurança
  • Cases de Uso (Bora fazer umas ingestões, criar uns modelos de ML)

Tudo isso com muito hands-on, muito SQL, muito Azure e muito conceito novo. Para quem veio do mundo de DBA (assim como eu), entender o BDC é sair da caixinha, olhar para o SQL Server como uma Plataforma de Dados escalável e não somente como uma engine (muito foda por sinal) de banco de dados realcional (RDBMS). Além desses tópicos que listei acima, tem diversos assuntos que também vamos tocar, como Data Lake, Azure Kubernetes Services (AKS), Data Virtualization, Data Federation, Pipelines, entre outros… esses eu também vou tentar criar posts ou passar referências de documentação para servir como apoio nos estudos. A ídeia é gerar o máximo de conteúdo sobre BDC e também dos itens relacionados, para ajudar na compreenção do todo.

Espero que essa sequência de posts ajude você a compreender o BDC e também o mundo Big Data em si, afinal, tecnologia é o meio e não o fim.

Print (“Até o proximo post”)
Luiz Henrique Garetti
www.dataisbig.com.br

2 thoughts on “#01 – Big Data Clusters (SQL 2019) – Start Here

Comente sobre isso: