Conceito

Com a evolução da tenologia os armazenamentos de dados tem ficado cada vez mais complicados, pois são terabytes sendo armazenados semanalmente por grandes industrias a todo momento. Esse grande volume de dados vem sendo estudados cada dia mais por grandes nomes na área.

Uma das dificuldades do Big Data é encontrar seu conceito. É possível vê-lo de maneiras totalmente divergentes em cada blog que se lê, ou seja, se você ler 10 materiais sobre Big Data, provavelmente cada um trará conceitos diferentes. Dentre as matérias, ao se tirar um mínimo comum se verá que o Big Data, na sua raiz, fala em tratar um grande volume de dados com grande velocidade. No entanto, se repara que essa definição é bastante abstrata pelo simples fato de que para uma pessoa A, por exemplo, um grande volume seja um gigabyte e para uma pessoa B um grande volume seja um terabyte e o mesmo pode acontecer ao se referenciar a velocidade e o tempo de resposta de uma requisição.

Assim, o grande desafio do Big Data é estar administrando um grande volume de dados e minerando informações em um menor tempo de requisição. Com o grande volume de dados, fazer com que a aplicação cresça à medida que é necessário é uma ótima estratégia, assim, uma escalabilidade vertical (em que se aumenta o poder do hardware, como aumento de memória e de processamento de uma única máquina) ou horizontal (em que se aumenta a quantidade de máquinas) deve ser analisada. Apesar de ser mais complexa, a escalabilidade horizontal acaba sendo muito barata, sem falar de ser mais fácil de crescer ou diminuir os recursos por demanda.


Bando de dados a ser usado para o Big Data

Para armazenar as informações com a escalabilidade horizontal, os bancos NoSQL são uma ótima estratégia. Uma diferença entre os bancos NoSQL e SQL é que o primeiro possui uma grande variedade de bancos e cada um com características diferentes. Em termo de arquitetura, os bancos NoSQL podem ser distribuídos ou não, embora sejam mais populares do tipo distribuído. Sua forma de armazenamento pode ser apenas em memória, apenas em disco rígido ou configurável (vale apena lembrar que banco apenas na memória são muito rápidos, no entanto são volúveis, já os somente no HD tem informações permanentes, porém o I/O é muito alto). Outra característica divergente entre os bancos NoSQL está na forma do armazenamento que são: chave-valor, documento, família de coluna e grafos. Os bancos NoSQL costumam ser muito rápidos na leitura e na escrita, no entanto, possuem uma grande deficiência por parte das buscas. Estas normalmente são feitas apenas pela chave, para isso usar um serviço para terceirizar o serviço pode ser uma boa ideia, como o framework Lucene.

Elementos do Big Data

Cases em uso no Brasil ou no mundo

Big Data e curiosidades

Exemplos de Aplicação

Expectativas de mercado

Referências bibliográficas