O que é um Data Lake?

De acordo com a Wikipedia, Data Lake é “um sistema ou repositório de dados armazenados em seu formato natural/bruto”. O nome por trás do conceito é creditado a James Dixon, CTO da Pentaho.

Em um Data Lake todos os dados são mantidos de maneira não estruturada, em sua forma bruta (ou seja, não são analisados ou processados) e não há hierarquia ou organização entre as partes individuais dos dados.

Cada elemento de dados em um lago recebe um identificador exclusivo e é marcado com um conjunto de tags de metadados estendidas. Quando surge uma pergunta comercial, o Data Lake pode ser consultado em busca de dados relevantes.

A proposta por trás da utilização de um Lago de Dados é abrigar e ter acesso, em um só lugar, a um alto número de dados brutos, em diferentes formatos. Por isso, para quem precisa armazenar qualquer tipo de dados (dashboards, planilhas, dados em tempo real etc.), seja na escala que for, o Data Lake é considerado como o repositório ideal.

Ok, entendemos o que é Data Lake. Qual a diferença para Data Warehouse?

Data Lake x Data Warehouse

Tanto Data Lakes quanto Data Warehouses são usados para armazenar dados, mas cada um tem uma abordagem própria. Talvez, o ponto de maior diferença entre eles seja que, enquanto em um Data Lake os dados são armazenados de forma bruta e não processada, o Data Warehouse armazena dados processados ​​e refinados.

Quando falo em “dados brutos” (ou raw data), me refiro aos dados que ainda não foram processados ​​para uma finalidade. Dados brutos e não processados ​​são maleáveis, podem ser analisados ​​rapidamente para qualquer finalidade e são ideais para Aprendizado da Máquina.

Espaço

Os Data Warehouses, ao armazenar apenas dados processados, economizam espaço de armazenamento. Outro ponto importante é que eles não mantém dados que nunca poderão ser usados, ao contrário do Data Lake. Por isso, lagos de dados normalmente exigem uma capacidade de armazenamento muito maior do que os warehouses.

Insights

Como os lagos permitem um armazenamento maior de elementos de diferentes tipos, eles possibilitam que novas informações sejam descobertas. Com isso, é possível obter insights valiosos para tomadas de decisão. Todavia, se o Data Lake estiver desorganizado, a análise dos dados pode tomar muito tempo.

Utilidade

Data Warehouses são indicados quando há uma enorme quantidade de dados de sistemas operacionais que precisam estar prontamente disponíveis para análise. Como em um Lago de Dados os dados são brutos e podem se originar de fontes externas aos sistemas operacionais da empresa, eles não são adequados para o usuário médio de análise de negócios.

Segurança

Não posso deixar de mencionar a segurança: além de a segurança para Data Warehouses ter atingido a maturidade, existe a preocupação de que, como em um Data Lake os dados são armazenados em um único repositório, os mesmos ficam, por consequência, mais vulneráveis.

Colaboração

Por fim, para concluir a análise das diferenças entre Data Lake e Data Warehouse, vem o fator colaboração. Em warehouses é normal os dados ficarem isolados e não serem acessados pela maioria dos funcionários.

Os Data Lakes são mais colaborativos, uma vez que permitem o compartilhamento da informação com vários usuários.

Data Lake ou Data Warehouse: qual escolher?

Depende, e em muitos casos ambos, Data Lake e Data Warehouse, são necessários. Muitos especialistas dizem que se a empresa já possui um Data Warehouse ela não precisa “jogar tudo para o alto” e adotar um Data Lake.

Com o passar do tempo, é possível ter um Lago de Dados juntamente com o Data Warehouse e, num futuro, optar apenas pelo Data Lake, se for o caso.

Este post foi útil para você? Comente e compartilhe! Aproveite e acompanhe outros artigos acessando o blog da Scurra.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *