Linha 63: Linha 63:


= Referências bibliográficas =
= Referências bibliográficas =
<br>[http://www.the-data-mine.com/Misc/IntroductionToDataMining]
<br>[http://www.the-data-mine.com/Misc/IntroductionToDataMining] http://www.the-data-mine.com/Misc/IntroductionToDataMining
<p>[ftp://ftp.inf.puc-rio.br/pub/docs/techreports/02_10_cortes.pdf]</p>
<p>[ftp://ftp.inf.puc-rio.br/pub/docs/techreports/02_10_cortes.pdf]</p>
<p>[http://www.alvoconhecimento.com.br/saiba-o-que-e-data-mining/]</p>
<p>[http://www.alvoconhecimento.com.br/saiba-o-que-e-data-mining/]</p>

Edição das 00h07min de 19 de abril de 2016

Esta pesquisa deve fornecer um conteúdo atualizado sobre o tema acima. Não esqueça de incluir as  
referëncias (fontes) no último item, reforçando que não deve ser um Copy/Paste e sim uma síntese 
das pesquisas que fizer.


Conceito


O data mining ou mineração de dados é um processo de análise, que tem como função principal a varredura de grandes quantidades de dados na busca de padrões e na detecção de relação entre informações, gerando,à partir dos dados captados, novos sub-grupos de dados,havendo sempre a cooperação e interação entre humanos e computadores para que o processo ocorra.

Os dados explorados são normalmente ligados a pesquisas científicas, negócios e mercado. Outra definição que ajuda a entender este conceito de data mining é a que aparace no artigo “Knowledge Discovery in Databases: An Overview” (W. Frawley, G. Piatetsky-Shapiro e C. Matheus; Al Magazine,1992) : “…É a extração não trivial de informação implícita, previamente desconhecida e potencialmente útil a partir de dados”. Já numa linguagem mais simples,é possível classificá-lo como um agregador e organizador de dados.

Data Mining x BigData


Big Data é um termo que se refere a um grande conjunto de dados não estruturados que todo o planeta está produzindo atualmente. De acordo com o Gartner Group, são produzidos diariamente 15 petabytes de dados estruturados e não estruturados (1 petabyte = 1.000.0000 gigabytes).

O Data Mining chega nessa era de dados digitais e de Big Data para fazer a mineração, a varredura desses dados para melhor entendê-los e, consequentemente, para melhor usá-los nos negócios e aréas de pesquisas. O diretor de Business Intelligence, Jorge Mendes, da MJV Tecnologia & Inovação ajuda a entender a relação entre Big Data e Data Mining: “Se Big Data é o conceito da explosão de dados, Data Mining é a forma como se trata esses dados, criando processos e parâmetros para melhor interpretá-los”.


Técnicas


A mineração de dados faz parte de um processo maior de pesquisa denominado Busca de Conhecimento em Banco de Dados (Knowledge discovery in Database - KDD),mas se tornou mais conhecido que o próprio KDD por ser a etapa onde são aplicadas as técnicas de busca de conhecimento.

Os métodos (técnicas) de mineração de dados são tradicionalmente agrupados em aprendizado supervisionado (preditivo) e não-supervisionado (descritivo).A diferença entre os dois se encontra no fato de que os métodos não-supervisionados não precisam de uma pré-categorização para os registros, ou seja, não precisam de um atributo alvo. As tarefas de agrupamento (identifica e aproxima os registros similares) e associação (identifica quais atributos estão relacionados) são consideradas como não-supervisionadas. Já no aprendizado supervisionado ,os métodos são providos com um conjunto de dados que possuem uma variável alvo pré-estabelecida. As tarefas que são comumente usadas nos métodos supervisionados são as de classificação (identifica a qual classe um registro pertence) e regressão (parecido com classificação, porém é usada quando o registro é identificado por um valor numérico e não um categórico).

De acordo com o livro “Data Mining: Concepts and Techniques” (HAN, J; KAMBER, M. . Elsevier, 2006), os métodos são classificados de acordo com as tarefas que realizam. A seguir estão presentes as técnicas e seu principal modelo:

  • ASSOCIAÇÔES: É uma das técnicas mais conhecidas de mineração de dados, identifica o relacionamento dos itens mais frequentes em um determinado conjunto de dados, e permite obter,por exemplo, resultados do tipo: SE compra leite e pão TAMBÉM compra manteiga.
    • Mineração de Itens Frequentes (Frequent Itemset Mining): essa técnica pode ser visualizada em duas etapas: primeiro, um conjunto de itens frequentes (Frequent Itemset) é criado, respeitando um valor mínimo de frequência para os itens e então depois, as regras de associação são geradas pela mineração desse conjunto.
  • CLASSIFICAÇÕES: As técnicas de classificação podem ser supervisionadas e não-supervisionadas. São usadas para prever valores de variáveis do tipo categóricas.Usada para classificar clientes de um banco,por exemplo.
    • Árvores de decisões (Decisions Trees): funciona como um fluxograma em forma de árvore, onde cada nó indica um teste feito sobre um valor (compras > 30, por exemplo). As ligações entre os nós representam os valores possíveis do teste do nó superior, e as folhas indicam a classe (categoria) a qual o registro pertence. A seguir, um pequeno exemplo de árvore de decisão:

  • AGRUPAMENTOS: As técnicas de agrupamento são consideradas como não supervisionadas. Dado um conjunto de registros, são gerados agrupamentos, contendo os registros mais semelhantes.Os elementos de um agrupamento são considerados similares aos elementos no mesmo agrupamento e diferentes aos elementos nos outros agrupamentos
    • Métodos Hierárquicos (Hierarchical Methods): a ideia básica dos métodos hierárquicos é criar o agrupamento por meio da aglomeração ou da divisão dos elementos do conjunto. A forma gerada por estes métodos é um gráfico em formato de árvore.

Etapas


As fases e as atividades da mineração de dados são, nos dias de hoje, padronizadas e definidas por diversos processos.Apesar das pequenas diferenças,todos possuem a mesma estrutura. Basicamente, as etapas são:

  • 1 - Entendimento dos negócios: entender qual o objetivo que se deseja atingir com a mineração de dados. Esse entendimento vai ajudar nas próximas fases.
  • 2 - Entendimento dos dados: é necessário conhecer os dados visando descrever de forma clara o problema, identificar os dados relevantes para o problema em questão e verificar se as variáveis relevantes para o projeto não são dependentes entre si.Tudo isso é necessário,pois as fontes fornecedoras dos dados podem vir de diversos locais e possuírem diversos formatos.
  • 3 - Preparação dos dados: como os dados possuem diversas origens possíveis,normalmente nem todos estão prontos para que as técnicas de mineração sejam aplicadas.Dependendo da qualidade dos dados em questão,é necessário que algumas ações sejam realizadas,como:filtrar, combinar e preencher valores vazios.
  • 4 - Modelagem: aplicação das técnicas de mineração,sendo que as selecionadas depende do objetivos estipulados anteriormente.
  • 5 - Avaliação: Sendo necessário a participação de especialistas nos dados, conhecedores do negócio e tomadores de decisão,nessa etapa diversas ferramentas gráficas são utilizadas para visualização e análise dos resultados obtidos na modelagem.
  • 6 - Distribuição: Depois de executado o modelo com os dados reais e completos é necessário que os envolvidos conheçam os resultados.


Exemplos


No dia a dia das grandes empresas,o Data Mining pode ser utilizado para uma grande variedade de contextos de tomada de decisão nos negócios, como: no markenting,onde as aplicações incluem a análise do comportamento do consumidor com base em padrões de compra, podendo determinar as estratégias de marketing, incluindo propaganda, localização de lojas e projetos de catálogos; na manufatura, onde as aplicações envolvem otimizações de recursos como equipamentos,força de trabalho e matéria-prima.

Na área de pesquisas, o Data Mining também é de suma importância,aparecendo nas áreas: da saúde, onde as aplicações incluem a análise da eficácia de certos tratamentos,podendo, assim, otimizar os processos dentro de um hospital e a análise de efeitos colaterais de drogas; na área biomédica, onde diversos diversos aparelhos de diagnósticos estão sendo desenvolvidos segundo os padrões encontrados em populações observadas ao longo de vários anos, com o objetivo de detectar e identificar grupos de riscos para os pacientes e trabalhar na prevenção de possíveis doenças.

Ferramentas


Com o aumento da procura de como organizar e usar os dados armazenados, algumas ferramentas foram desenvolvidas no intuito de tornar o uso do Data Mining uma tarefa menos técnica, e com isto possibilitar que profissionais de outras áreas possam fazer usa dela.Algumas dessas ferramentas são:

  • Clementine: Uma das ferramentas líder de mercado, desenvolvida pela SPSS, o Clementine suporta o processo CRISP-DM, além de possuir outras facilidades.
  • WEKA: É uma das melhores ferramentas livre. Possui uma série de algoritmos para as tarefas de mineração. Os algoritmos podem ser aplicados diretamente da ferramenta, ou utilizados por programas Java. Fornece as funcionalidades para pré-processamento, classificação, regressão, agrupamento, regras de associação e visualização.
  • Oracle Data Mining (ODM): É uma ferramenta para a Mineração de Dados desenvolvida pela Oracle para o uso em seu banco de dados ORACLE.

Referências bibliográficas


[1] http://www.the-data-mine.com/Misc/IntroductionToDataMining

[2]

[3]

[4]

[5]

[6]

[7]