Implantação de Bancos de Dados Distribuídos em um Cluster de Baixo Consumo

Explorar o uso de um cluster de dispositivos de baixo consumo para a implantação de aplicações distribuídas.

Os avanços tecnológicos, a mobilidade dos dispositivos e a popularização de con- ceitos como a IoT (Internet of Things), tem feito com que o volume de dados gerados esteja crescendo em proporções nunca antes vistas. Essa variedade de dados digitais proveni- ente das mais diversas fontes aliada a sua grande e crescente quantidade, representa o que é denominado de Big Data, termo que vem ganhando cada vez mais importância tanto no âmbito científico quanto na indústria. Segundo o levantamento realizado pela IDC em 2018, espera-se que para o ano de 2025 o volume de dados global chegue a 175 zettabytes, além disso estima-se que 33% desse total serão dados que necessitarão processamento em tempo real.

Nesse cenário, com o aumento do volume de dados também cresce a demanda por ferramentas e tecnologias cada vez mais poderosas e adaptáveis a esse novo paradigma. Dessa forma, começam a surgir diversos problemas nos tradicionais RDBMS, por não terem sido projetados para lidar facilmente com o rápido e exponencial crescimento do volume de dados característico de Big Data. Assim, novas tecnologias de armazenamento como NoSQL (bancos de dados não relacionais) surgem como uma opção mais adaptável ao cenário de Big Data, pois características como a capacidade de lidar com grandes volumes de dados, fácil escalabilidade horizontal e modelo de dados livre de esquema têm motivado a grande adoção desses bancos de dados para tal finalidade. Entretanto, a escalabilidade de armazenamento e processamento desses ambientes exige estruturas de hardware mais robustas e numerosas, ocasionando no aumento do investimento, espaço e consumo energético da infraestrutura como um todo.

Diversos estudos têm avaliado a viabilidade do uso dos SBCs (Computadores de Placa Única, na sigla em inglês) enquanto uma promissora alternativa aos data centers convencionais. Trabalhos como o de (JOHNSTON et al., 2018), apontam que a utilização de dispositivos de baixo consumo como os SBCs podem ser uma opção para minimi- zar problemas comuns de infraestrutura. Isso porque tais dispositivos permitem que em uma única placa seja possível o encapsulamento de todos os recursos de um computa- dor funcional e com relativo bom poder de processamento que, ao serem interconectados em forma de cluster, podem replicar características dos grandes data centers. Quando comparados com estruturas de processamento de dados tradicionais, relata que esses dispositivos são opções compactas, de baixo consumo energético e de baixo custo que entregam uma boa relação entre poder computacional e consumo energético.

Seguindo essa mesma linha, neste trabalho são avaliados três bancos de dados distribuídos executando sobre um cluster composto por 15 dispositivos Raspberry Pi 3 B. Cada um dos três bancos de dados representa uma categoria da classificação proposta pelo teorema de CAP, sendo escolhidos o Cassandra, o Hbase e o PostgreSQL com Citus para representar as classificações AP, CP e CA, respectivamente. O ambiente distribuído no qual os bancos de dados são executados conta com uma camada de virtualização por contêineres Docker juntamente ao Docker Swarm no papel de orquestrador. Os desempe- nhos dos três bancos de dados são avaliados através dos resultados obtidos para tempo de execução, latência e throughput, por uma ferramenta de benchmark específica para esse tipo de aplicação, o YCSB.

References

2023

  1. An evaluation of relational and NoSQL distributed databases on a low-power cluster
    Lucas Ferreira Silva, and João V. F. Lima
    The Journal of Supercomputing, Aug 2023
    CAPES Qualis A2

2021

  1. An evaluation of Cassandra NoSQL database on a low-power cluster
    Lucas Ferreira Da Silva, and João V. F. Lima
    In 2021 International Symposium on Computer Architecture and High Performance Computing Workshops (SBAC-PADW), Aug 2021