Mineração de Dados: mudanças entre as edições

Edição atual tal como às 18h13min de 22 de maio de 2017

1 Conceito

A mineração de dados é o processo de descoberta de informações acionáveis em grandes conjuntos de dados. A mineração de dados usa análise matemática para derivar padrões e tendências que existem nos dados. Normalmente, esses padrões não podem ser descobertos com a exploração de dados tradicional pelo fato de as relações serem muito complexas ou por haver muitos dados.

1.1 Tipos de informação

Associações: São ocorrências ligadas a um único evento. Por exemplo:um estudos de modelos de compra em supermercados pode revelar que, na compra de salgadinhos de milho, compra-se também um refrigerante tipo cola em 65% das vezes: mas, quando há uma promoção, o refrigerante é comprado em 85% das vezes.Com essas informações, os gerentes podem tomar decisões mais acertadas pois aprenderam a respeito da rentabilidade de uma promoção.

Sequências: Na sequência os eventos estão ligados ao longo do tempo. Pode-se descobrir, por exemplo, que quando se compra uma casa, em 65% as vezes se adquire uma nova geladeira no período de duas semanas; e que em 45% das vezes, um fogão também é comprado um mês após a compra da residência.

Classificação: Reconhece modelos que descrevem o grupo ao qual o item pertence por meio do exame dos itens já classificados e pela inferência de um conjunto de regras. Exemplo: empresas de operadoras de cartões de crédito e companhias telefônicas preocupam-se com a perda de clientes regulares, a classificação pode ajudar a descobrir as características de clientes que provavelmente virão abandona-las e oferecer um modelo para ajudar os gerentes a prever quem são, de modo que se elabore antecipadamente campanhas especiais para reter esses clientes.

Aglomeração (clustering): Funciona de maneira semelhante a classificação quando ainda não foram definidos grupos. Uma ferramenta de data mining descobrirá diferentes agrupamentos dentro da massa de dados. Por exemplo ao encontrar grupos de afinidades para cartões bancários ou ao dividir o banco de dados em categorias de clientes com base na demografia e em investimentos pessoais.

Prognóstico: Embora todas essas aplicações envolvam previsões, os prognósticos as utilizam de modo diferente. Partem de uma série de valores existentes para prever quais serão os outros valores. Por exemplo um prognóstico pode descobrir padrões nos dados que ajudam os gerentes a estimar o valor futuro de variáveis com números de vendas.

1.2 Exemplos

Utilizando as técnicas da mineração de dados, um programa de obtenção de conhecimento depois de examinar milhares de alunos forneceu a seguinte regra: se o candidato é do sexo feminino, trabalha e teve aprovação com boas notas no vestibular, então não efetivava a matrícula. Estranho, ninguém havia pensado nisso. Mas uma reflexão justifica a regra oferecida pelo programa: de acordo com os costumes do Rio de Janeiro, uma mulher em idade de vestibular, se trabalha é porque precisa, e neste caso deve ter feito inscrição para ingressar na universidade pública gratuita. Se teve boas notas provavelmente foi aprovada na universidade pública onde efetivará matrícula. Claro que há exceções: pessoas que moram em frente à PUC, pessoas mais velhas, de alto poder aquisitivo e que voltaram a estudar por outras razões que ter uma profissão, etc.. Mas a grande maioria obedece à regra anunciada.

2 Referências Bibliográficas

https://msdn.microsoft.com/pt-br/library/ms174949.aspx https://pt.wikipedia.org/wiki/Minera%C3%A7%C3%A3o_de_dados#Tipos_de_informa.C3.A7.C3.A3o_obtidos_com_a_Minera.C3.A7.C3.A3o_de_Dados

@@ Linha 1: / Linha 1: @@
- Esta pesquisa deve fornecer um conteúdo atualizado sobre o tema acima. Não esqueça de incluir as
+Conceito
- referëncias (fontes) no último item, reforçando que não deve ser um Copy/Paste e sim uma síntese
- das pesquisas que fizer.
-<br>
-= Conceito =
+A mineração de dados é o processo de descoberta de informações acionáveis em grandes conjuntos de dados. A mineração de dados usa análise matemática para derivar padrões e tendências que existem nos dados. Normalmente, esses padrões não podem ser descobertos com a exploração de dados tradicional pelo fato de as relações serem muito complexas ou por haver muitos dados.
-<br>
-O data mining ou mineração de dados é um processo de análise, que tem como função principal a varredura de grandes quantidades de dados na busca de padrões e na detecção de relação entre informações, gerando,à partir dos dados captados, novos sub-grupos de dados,havendo sempre a cooperação e interação entre humanos e computadores para que o processo ocorra.
-<p>Os dados explorados são normalmente ligados a pesquisas científicas, negócios e mercado.
-Outra definição que ajuda a entender este conceito de data mining é a que aparace no artigo “Knowledge Discovery in Databases: An Overview” (W. Frawley, G. Piatetsky-Shapiro e C. Matheus; Al Magazine,1992) : “…É a extração não trivial de informação implícita, previamente desconhecida e potencialmente útil a partir de dados”. Já numa linguagem mais simples,é possível classificá-lo como um agregador e organizador de dados.</p>
-[[Arquivo:datamining.jpg]]
+.1 Tipos de informação
-= Data Mining x BigData =
+'''Associações:''' São ocorrências ligadas a um único evento. Por exemplo:um estudos de modelos de compra em supermercados pode revelar que, na compra de salgadinhos de milho, compra-se também um refrigerante tipo cola em 65% das vezes: mas, quando há uma promoção, o refrigerante é comprado em 85% das vezes.Com essas informações, os gerentes podem tomar decisões mais acertadas pois aprenderam a respeito da rentabilidade de uma promoção.
-<br>Big Data é um termo que se refere a um grande conjunto de dados não estruturados que todo o planeta está produzindo atualmente. De acordo com o Gartner Group, são produzidos diariamente 15 petabytes de dados estruturados e não estruturados (1 petabyte = 1.000.0000 gigabytes).
-<p>O Data Mining chega nessa era de dados digitais e de Big Data para fazer a mineração, a varredura desses dados para melhor entendê-los e, consequentemente, para melhor usá-los nos negócios e aréas de pesquisas. O diretor de Business Intelligence, Jorge Mendes, da MJV Tecnologia & Inovação ajuda a entender a relação entre Big Data e Data Mining: “Se Big Data é o conceito da explosão de dados, Data Mining é a forma como se trata esses dados, criando processos e parâmetros para melhor interpretá-los”.</p>
+'''Sequências:''' Na sequência os eventos estão ligados ao longo do tempo. Pode-se descobrir, por exemplo, que quando se compra uma casa, em 65% as vezes se adquire uma nova geladeira no período de duas semanas; e que em 45% das vezes, um fogão também é comprado um mês após a compra da residência.
-[[Arquivo:Bxd.jpg]]
+'''Classificação:''' Reconhece modelos que descrevem o grupo ao qual o item pertence por meio do exame dos itens já classificados e pela inferência de um conjunto de regras. Exemplo: empresas de operadoras de cartões de crédito e companhias telefônicas preocupam-se com a perda de clientes regulares, a classificação pode ajudar a descobrir as características de clientes que provavelmente virão abandona-las e oferecer um modelo para ajudar os gerentes a prever quem são, de modo que se elabore antecipadamente campanhas especiais para reter esses clientes.
-= Técnicas =
+'''Aglomeração (clustering):''' Funciona de maneira semelhante a classificação quando ainda não foram definidos grupos. Uma ferramenta de data mining descobrirá diferentes agrupamentos dentro da massa de dados. Por exemplo ao encontrar grupos de afinidades para cartões bancários ou ao dividir o banco de dados em categorias de clientes com base na demografia e em investimentos pessoais.
-<br>
-A mineração de dados faz parte de um processo maior de pesquisa denominado Busca de Conhecimento em Banco de Dados (Knowledge discovery in Database - KDD),mas se tornou mais conhecido que o próprio KDD por ser a etapa onde são aplicadas as técnicas de busca de conhecimento.
-<p>Os métodos (técnicas) de mineração de dados são tradicionalmente agrupados em '''aprendizado supervisionado''' (preditivo) e '''não-supervisionado''' (descritivo).A diferença entre os dois se encontra no fato de que os métodos não-supervisionados não precisam de uma pré-categorização para os registros, ou seja, não precisam de um atributo alvo. As tarefas de agrupamento (identifica e aproxima os registros similares) e associação (identifica quais atributos estão relacionados) são consideradas como não-supervisionadas. Já no aprendizado supervisionado ,os métodos são providos com um conjunto de dados que possuem uma variável alvo pré-estabelecida. As tarefas que são comumente usadas nos métodos supervisionados são as de classificação (identifica a qual classe um registro pertence) e regressão (parecido com classificação, porém é usada quando o registro é identificado por um valor numérico e não um categórico).</p>
-<p>De acordo com o livro “Data Mining: Concepts and Techniques” (HAN, J; KAMBER, M. . Elsevier, 2006), os métodos são classificados de acordo com as tarefas que realizam. A seguir estão presentes as técnicas e seu principal modelo:</p>
-*'''ASSOCIAÇÔES''': É uma das técnicas mais conhecidas de mineração de dados, identifica o relacionamento dos itens mais frequentes em um determinado conjunto de dados, e permite obter,por exemplo, resultados do tipo: SE compra leite e pão TAMBÉM compra manteiga.
-**''Mineração de Itens Frequentes (Frequent Itemset Mining)'': essa técnica pode ser visualizada em duas etapas: primeiro, um conjunto de itens frequentes (Frequent Itemset) é criado, respeitando um valor mínimo de frequência para os itens e então depois, as regras de associação são geradas pela mineração desse conjunto.
-*CLASSIFICAÇÕES: As técnicas de classificação podem ser supervisionadas e não-supervisionadas. São usadas para prever valores de variáveis do tipo categóricas.Usada para classificar clientes de um banco,por exemplo.
-**''Árvores de decisões (Decisions Trees)'': funciona como um fluxograma em forma de árvore, onde cada nó indica um teste feito sobre um valor (compras > 30, por exemplo). As ligações entre os nós representam os valores possíveis do teste do nó superior, e as folhas indicam a classe (categoria) a qual o registro pertence.
-[[Arquivo:Arvore.jpg]]
+'''Prognóstico:''' Embora todas essas aplicações envolvam previsões, os prognósticos as utilizam de modo diferente. Partem de uma série de valores existentes para prever quais serão os outros valores. Por exemplo um prognóstico pode descobrir padrões nos dados que ajudam os gerentes a estimar o valor futuro de variáveis com números de vendas.
-*'''AGRUPAMENTOS''': As técnicas de agrupamento são consideradas como não supervisionadas. Dado um conjunto de registros, são gerados agrupamentos, contendo os registros mais semelhantes.Os elementos de um agrupamento são considerados similares aos elementos no mesmo agrupamento e diferentes aos elementos nos outros agrupamentos
+.2 Exemplos
-**''Métodos Hierárquicos (Hierarchical Methods)'': a ideia básica dos métodos hierárquicos é criar o agrupamento por meio da aglomeração ou da divisão dos elementos do conjunto. A forma gerada por estes métodos é um gráfico em formato de árvore.
-[[Arquivo:Metodo.jpg]]
+Utilizando as técnicas da mineração de dados, um programa de obtenção de conhecimento depois de examinar milhares de alunos forneceu a seguinte regra: se o candidato é do sexo feminino, trabalha e teve aprovação com boas notas no vestibular, então não efetivava a matrícula. Estranho, ninguém havia pensado nisso. Mas uma reflexão justifica a regra oferecida pelo programa: de acordo com os costumes do Rio de Janeiro, uma mulher em idade de vestibular, se trabalha é porque precisa, e neste caso deve ter feito inscrição para ingressar na universidade pública gratuita. Se teve boas notas provavelmente foi aprovada na universidade pública onde efetivará matrícula. Claro que há exceções: pessoas que moram em frente à PUC, pessoas mais velhas, de alto poder aquisitivo e que voltaram a estudar por outras razões que ter uma profissão, etc.. Mas a grande maioria obedece à regra anunciada.
-= Etapas =
+Referências Bibliográficas
-<br>As fases e as atividades da mineração de dados são, nos dias de hoje, padronizadas e definidas por diversos processos.Apesar das pequenas diferenças,todos possuem a mesma estrutura. Basicamente, as etapas são:
-*'''1 - Entendimento dos negócios''': entender qual o objetivo que se deseja atingir com a mineração de dados. Esse entendimento vai ajudar nas próximas fases.
+https://msdn.microsoft.com/pt-br/library/ms174949.aspx
-*'''2 - Entendimento dos dados''': é necessário conhecer os dados visando descrever de forma clara o problema, identificar os dados relevantes para o problema em questão e verificar se as variáveis relevantes para o projeto não são dependentes entre si.Tudo isso é necessário,pois as fontes fornecedoras dos dados podem vir de diversos locais e possuírem diversos formatos.
+https://pt.wikipedia.org/wiki/Minera%C3%A7%C3%A3o_de_dados#Tipos_de_informa.C3.A7.C3.A3o_obtidos_com_a_Minera.C3.A7.C3.A3o_de_Dados
-*'''3 - Preparação dos dados''': como os dados possuem diversas origens possíveis,normalmente nem todos estão prontos para que as técnicas de mineração sejam aplicadas.Dependendo da qualidade dos dados em questão,é necessário que algumas ações sejam realizadas,como:filtrar, combinar e preencher valores vazios.
-*'''4 - Modelagem''': aplicação das técnicas de mineração,sendo que as selecionadas depende do objetivos estipulados anteriormente.
-*'''5 - Avaliação''': Sendo necessário a participação de especialistas nos dados, conhecedores do negócio e tomadores de decisão,nessa etapa diversas ferramentas gráficas são utilizadas para visualização e análise dos resultados obtidos na modelagem.
-*'''6 - Distribuição''': Depois de executado o modelo com os dados reais e completos é necessário que os envolvidos conheçam os resultados.
-[[Arquivo:B1.png]]
-= Exemplos =
-<br>
-= Ferramentas =
-<br>
-= Referências bibliográficas =
-<br>