O conceito de mineração de dados tornou-se popular em. Wiki de Loginom de Mineração de Dados

Enviar seu bom trabalho na base de conhecimento é simples. Use o formulário abaixo

Estudantes, estudantes de pós-graduação, jovens cientistas que usam a base de conhecimento em seus estudos e trabalhos ficarão muito gratos a você.

Documentos Semelhantes

    Classificação de tarefas de DataMining. Elaboração de relatórios e resumos. Características do Data Miner no Statistica. O problema da classificação, agrupamento e regressão. Ferramentas de Análise Statistica Data Miner. A essência do problema é a busca de regras de associação. Análise de preditores de sobrevivência.

    trabalho de conclusão de curso, adicionado em 19/05/2011

    Descrição funcionalidade Tecnologias de Data Mining como processos para descoberta de dados desconhecidos. O estudo de sistemas de inferência de regras de associação e mecanismos de algoritmos de redes neurais. Descrição de algoritmos de agrupamento e escopos de Mineração de Dados.

    teste, adicionado em 14/06/2013

    Noções básicas para clustering. Usando Data Mining como forma de “descobrir conhecimento em banco de dados”. Escolha de algoritmos de agrupamento. Recuperando dados do armazenamento de banco de dados de oficina remota. Agrupar alunos e tarefas.

    trabalho de conclusão de curso, adicionado em 10/07/2017

    Mineração de dados, história do desenvolvimento de mineração de dados e descoberta de conhecimento. Elementos tecnológicos e métodos de mineração de dados. Etapas na descoberta do conhecimento. Detecção de alterações e desvios. Disciplinas relacionadas, recuperação de informação e extração de texto.

    relatório, adicionado em 16/06/2012

    Análise de problemas decorrentes da aplicação de métodos e algoritmos de agrupamento. Algoritmos básicos de agrupamento. RapidMiner como ambiente para aprendizado de máquina e análise de dados. Avaliando a qualidade do agrupamento usando métodos de mineração de dados.

    trabalho de conclusão de curso, adicionado em 22/10/2012

    Melhorar as tecnologias de gravação e armazenamento de dados. A especificidade dos requisitos modernos para o tratamento de dados de informação. O conceito de padrões que refletem fragmentos de relacionamentos multidimensionais em dados está no centro da moderna tecnologia de mineração de dados.

    teste, adicionado em 02/09/2010

    Análise do uso de redes neurais para prever a situação e tomar decisões no mercado de ações usando o pacote de software de modelagem de redes neurais Trajan 3.0. Transformação de dados primários, tabelas. Avaliação ergonômica do programa.

    tese, adicionada em 27/06/2011

    Dificuldades em usar algoritmos evolutivos. Construção de sistemas computacionais baseados nos princípios da seleção natural. Desvantagens dos algoritmos genéticos. Exemplos de algoritmos evolutivos. Direções e seções de modelagem evolutiva.

    A Mineração de Dados é dividida em dois grandes grupos de acordo com o princípio de trabalhar com os dados iniciais de treinamento. Nesta classificação nível superior determinado com base no fato de os dados serem armazenados após a mineração de dados ou destilados para uso posterior.

    1. Uso direto dos dados, ou salvando dados.

    Neste caso, os dados iniciais são armazenados de forma explícita e detalhada e são utilizados diretamente nas etapas e/ou análise de exceção. O problema com esse grupo de métodos é que, ao usá-los, pode ser difícil analisar bancos de dados muito grandes.

    Métodos deste grupo: análise de agrupamento, método do vizinho mais próximo, método dos k-vizinhos mais próximos, raciocínio por analogia.

    2. Identificação e uso de formalizados padrões, ou modelo de destilação.

    Com tecnologia padrões de destilação uma amostra (template) de informação é extraída dos dados de origem e convertida em algumas construções formais, cuja forma depende do método de Data Mining utilizado. Este processo é realizado na fase pesquisa gratuita, o primeiro grupo de métodos carece, em princípio, dessa etapa. Nos palcos modelagem preditiva e análise de exceção os resultados do estágio são usados pesquisa gratuita, eles são muito mais compactos que os próprios bancos de dados. Vale lembrar que as construções desses modelos podem ser interpretáveis ​​pelo analista ou não interpretáveis ​​("caixas pretas").

    Métodos deste grupo: métodos lógicos; métodos de visualização; métodos de tabulação cruzada; métodos baseados em equações.

    Os métodos lógicos, ou métodos de indução lógica, incluem: consultas e análises fuzzy; regras simbólicas; Árvores de decisão; algorítmos genéticos.

    Os métodos desse grupo são talvez os mais interpretáveis ​​- eles elaboram os padrões encontrados, na maioria dos casos, de forma bastante transparente do ponto de vista do usuário. As regras resultantes podem incluir variáveis ​​contínuas e discretas. Deve-se notar que as árvores de decisão podem ser facilmente convertidas em conjuntos de regras simbólicas gerando uma regra ao longo do caminho desde a raiz da árvore até a sua raiz. vértice terminal. Árvores de decisão e regras são de fato jeitos diferentes soluções para o mesmo problema e diferem apenas em suas capacidades. Além disso, a implementação das regras é feita por algoritmos mais lentos do que a indução de árvores de decisão.

    Métodos de tabulação cruzada: agentes, redes Bayesianas (confiança), visualização de tabulação cruzada. O último método não corresponde exatamente a uma das propriedades do Data Mining - pesquisa independente padrões sistema analítico. No entanto, o fornecimento de informações na forma de cross-tabs proporciona a implementação da principal tarefa da Mineração de Dados - a busca por padrões, portanto esse método também pode ser considerado um dos métodos de Mineração de Dados.

    Métodos baseados em equações.

    Os métodos deste grupo expressam os padrões revelados na forma de expressões matemáticas - equações. Portanto, eles só podem trabalhar com variáveis ​​numéricas e variáveis ​​de outros tipos devem ser codificadas de acordo. Isso limita um pouco a aplicação dos métodos desse grupo, porém, são amplamente utilizados na resolução de diversos problemas, principalmente problemas de previsão.

    Os principais métodos deste grupo: métodos estatísticos e redes neurais

    Os métodos estatísticos são mais frequentemente usados ​​para resolver problemas de previsão. Existem muitos métodos de análise estatística de dados, entre eles, por exemplo, análise de correlação e regressão, correlação de séries temporais, identificação de tendências em séries temporais, análise harmônica.

    Outra classificação divide toda a variedade de métodos de Data Mining em dois grupos: métodos estatísticos e métodos cibernéticos. Este esquema de separação é baseado em diferentes abordagens de aprendizagem modelos matemáticos.

    Deve-se notar que existem duas abordagens para classificar os métodos estatísticos como Data Mining. O primeiro se opõe aos métodos estatísticos e Data Mining, seus defensores consideram os métodos estatísticos clássicos como uma área separada de análise de dados. De acordo com a segunda abordagem, os métodos de análise estatística fazem parte do conjunto de ferramentas matemáticas de Data Mining. A maioria das fontes autorizadas adota a segunda abordagem.

    Nesta classificação, distinguem-se dois grupos de métodos:

    • métodos estatísticos baseados no uso da experiência média acumulada, que se reflete em dados retrospectivos;
    • métodos cibernéticos, incluindo muitas abordagens matemáticas heterogêneas.

    A desvantagem de tal classificação é que os algoritmos estatísticos e cibernéticos, de uma forma ou de outra, dependem de uma comparação da experiência estatística com os resultados do monitoramento da situação atual.

    A vantagem de tal classificação é sua conveniência para interpretação - ela é usada na descrição dos meios matemáticos da abordagem moderna para extraindo conhecimento a partir de matrizes de observações iniciais (operacionais e retrospectivas), ou seja, em tarefas de Mineração de Dados.

    Vamos dar uma olhada nos grupos acima.

    Mineração de dados de métodos estatísticos

    Nestes métodos são quatro seções inter-relacionadas:

    • análise preliminar da natureza dos dados estatísticos (testando as hipóteses de estacionariedade, normalidade, independência, homogeneidade, avaliação do tipo de função de distribuição, seus parâmetros, etc.);
    • identificando links e padrões(análise de regressão linear e não linear, análise de correlação, etc.);
    • análise estatística multivariada (análise discriminante linear e não linear, análise de cluster, análise de componentes, análise fatorial e etc);
    • modelos dinâmicos e previsão com base em séries temporais.

    O arsenal de métodos estatísticos Data Mining é classificado em quatro grupos de métodos:

    1. Análise descritiva e descrição dos dados iniciais.
    2. Análise de relacionamento (análise de correlação e regressão, análise fatorial, análise de variação).
    3. Análise estatística multivariada (análise de componentes, análise discriminante, análise de regressão multivariada, correlações canônicas, etc.).
    4. Análise de séries temporais ( modelos dinâmicos e previsão).

    Métodos de mineração de dados cibernéticos

    A segunda direção do Data Mining é um conjunto de abordagens unidas pela ideia da matemática computacional e o uso da teoria da inteligência artificial.

    O que é Mineração de Dados

    O banco de dados corporativo de qualquer empresa moderna geralmente contém um conjunto de tabelas que armazenam registros sobre determinados fatos ou objetos (por exemplo, sobre mercadorias, suas vendas, clientes, faturas). Como regra, cada entrada em tal tabela descreve um determinado objeto ou fato. Por exemplo, uma entrada na tabela de vendas reflete o fato de que tal e tal produto foi vendido para tal e tal cliente por tal e tal gerente naquele momento e, em geral, não contém nada além dessas informações. No entanto, o agregado um grande número esses registros acumulados ao longo de vários anos podem se tornar uma fonte de informações adicionais muito mais valiosas que não podem ser obtidas com base em um registro específico, ou seja, informações sobre padrões, tendências ou interdependências entre quaisquer dados. Exemplos de tais informações são informações sobre como as vendas de um determinado produto dependem do dia da semana, hora do dia ou estação do ano, quais categorias de compradores compram com mais frequência um determinado produto, qual parte dos compradores de um determinado produto compra outro específico. produto, qual categoria de clientes mais frequentemente não paga o empréstimo no prazo.

    Esse tipo de informação geralmente é usado em previsões, planejamento estratégico, análise de risco e seu valor para a empresa é muito alto. Aparentemente, é por isso que o processo de busca por ele foi chamado de Data Mining (mining em inglês significa “mineração”, e a busca por padrões em um enorme conjunto de dados reais é realmente semelhante a isso). O termo Data Mining não se refere tanto a uma tecnologia específica quanto ao próprio processo de busca de correlações, tendências, relacionamentos e padrões por meio de diversos algoritmos matemáticos e estatísticos: agrupamento, criação de subamostras, regressão e análise de correlação. O objetivo desta pesquisa é apresentar os dados de uma forma que reflita claramente os processos de negócios, bem como construir um modelo que possa ser usado para prever processos críticos para o planejamento de negócios (por exemplo, a dinâmica da demanda por determinados bens ou serviços ou a dependência da sua compra de certas características do consumidor).

    Observe que a estatística matemática tradicional, que por muito tempo permaneceu a principal ferramenta de análise de dados, bem como as ferramentas de processamento analítico online (OLAP), sobre as quais já escrevemos muitas vezes (veja materiais sobre este tópico em nosso CD), podem nem sempre ser usado com sucesso para resolver tais problemas. Normalmente, métodos estatísticos e OLAP são usados ​​para testar hipóteses pré-formuladas. No entanto, muitas vezes é a formulação da hipótese que acaba por ser a mais Tarefa desafiante ao implementar a análise de negócios para a tomada de decisões subsequentes, pois nem todos os padrões nos dados são óbvios à primeira vista.

    A base da moderna tecnologia de mineração de dados é o conceito de padrões que refletem os padrões inerentes às subamostras de dados. Os padrões são pesquisados ​​por métodos que não usam suposições a priori sobre essas subamostras. Enquanto as análises estatísticas ou aplicações OLAP costumam formular perguntas como “Qual é o número médio de faturas não pagas pelos clientes deste serviço?”, a mineração de dados, via de regra, significa respostas para perguntas como “Existe uma categoria típica de clientes que não pagar contas?” . Ao mesmo tempo, é a resposta à segunda pergunta que muitas vezes fornece uma abordagem menos trivial à política de marketing e à organização do trabalho com os clientes.

    Uma característica importante da Mineração de Dados é o não padrão e a não obviedade dos padrões que estão sendo buscados. Em outras palavras, as ferramentas de Data Mining diferem das ferramentas de processamento de dados estatísticos e das ferramentas OLAP, pois ao invés de verificar as interdependências que os usuários pressupõem, eles são capazes de encontrar tais interdependências por conta própria com base nos dados disponíveis e construir hipóteses sobre sua natureza.

    Note-se que a utilização de ferramentas de Data Mining não exclui a utilização de ferramentas estatísticas e ferramentas OLAP, uma vez que os resultados do tratamento de dados utilizando estas últimas, em regra, contribuem para uma melhor compreensão da natureza dos padrões que devem ser procurado.

    Dados iniciais para mineração de dados

    O uso de Data Mining justifica-se se houver uma quantidade de dados suficientemente grande, idealmente contida em um data warehouse corretamente projetado (na verdade, os próprios data warehouses geralmente são criados para resolver problemas de análise e previsão relacionados ao suporte à decisão). Também escrevemos repetidamente sobre os princípios de construção de data warehouses; materiais relevantes podem ser encontrados em nosso CD, portanto, não nos deteremos neste assunto. Relembramos apenas que os dados no armazenamento são um conjunto reabastecido, comum a toda a empresa e que permite restaurar um quadro das suas atividades a qualquer momento. Observe também que a estrutura de dados de armazenamento é projetada de forma que a execução de solicitações a ela seja realizada da maneira mais eficiente possível. No entanto, existem ferramentas de Data Mining que podem buscar padrões, correlações e tendências não apenas em data warehouses, mas também em cubos OLAP, ou seja, em conjuntos de dados estatísticos pré-processados.

    Tipos de padrões revelados por métodos de mineração de dados

    De acordo com V.A.Dyuk, existem cinco tipos padrão de padrões identificados pelos métodos de mineração de dados:

    Associação - uma alta probabilidade de conectar eventos entre si (por exemplo, um produto geralmente é comprado junto com outro);

    Sequência - uma alta probabilidade de uma cadeia de eventos relacionados no tempo (por exemplo, dentro de um determinado período após a compra de um produto, outro será adquirido com alto grau de probabilidade);

    Classificação - existem signos que caracterizam o grupo ao qual este ou aquele evento ou objeto pertence (geralmente, certas regras são formuladas com base na análise de eventos já classificados);

    O agrupamento é um padrão semelhante à classificação e difere dela porque os próprios grupos não são definidos neste caso - eles são detectados automaticamente durante o processamento de dados;

    Padrões temporais - a presença de padrões na dinâmica do comportamento de certos dados (um exemplo típico são as flutuações sazonais na demanda por certos bens ou serviços) usados ​​para previsão.

    Métodos de mineração de dados em mineração de dados

    Hoje há um grande número de diferentes métodos de mineração de dados. Com base na classificação acima proposta por V.A. Dyuk, entre eles estão:

    Análise de regressão, dispersão e correlação (implementada nos pacotes estatísticos mais modernos, em particular nos produtos do SAS Institute, StatSoft, etc.);

    Métodos de análise em uma área temática específica baseados em modelos empíricos (frequentemente usados, por exemplo, em ferramentas de análise financeira de baixo custo);

    Algoritmos de rede neural, cuja ideia se baseia em uma analogia com o funcionamento do tecido nervoso e reside no fato de que os parâmetros iniciais são considerados como sinais que são transformados de acordo com as conexões existentes entre os "neurônios", e como resposta resultante da análise, a resposta de toda a rede aos dados iniciais. Os links neste caso são criados usando o chamado aprendizado em rede por meio de uma grande amostra contendo tanto os dados originais quanto as respostas corretas;

    Algoritmos - a escolha de um análogo próximo dos dados originais dos dados históricos já disponíveis. Também chamado de método do vizinho mais próximo;

    Árvores de decisão - uma estrutura hierárquica baseada num conjunto de questões que implicam a resposta “Sim” ou “Não”; no entanto Por aqui o processamento de dados nem sempre encontra padrões existentes de forma ideal, é bastante utilizado em sistemas de previsão devido à clareza da resposta recebida;

    Os modelos de cluster (às vezes também chamados de modelos de segmentação) são usados ​​para agrupar eventos semelhantes em grupos com base nos valores semelhantes de vários campos em um conjunto de dados; também são muito populares na criação de sistemas de previsão;

    Algoritmos de busca limitados que calculam as frequências de combinações de eventos lógicos simples em subgrupos de dados;

    Programação evolutiva - busca e geração de um algoritmo que expresse a interdependência dos dados, baseado em um algoritmo inicialmente especificado, modificado no processo de busca; às vezes, a busca de interdependências é realizada entre certos tipos de funções (por exemplo, polinômios).

    Você pode ler mais sobre esses e outros algoritmos de Data Mining, bem como sobre as ferramentas que os implementam, no livro “Data Mining: curso de treinamento»V.A.Dyuk e A.P.Samoilenko, publicado pela editora "Piter" em 2001. Hoje é um dos poucos livros em russo dedicados a esse problema.

    Principais fabricantes de ferramentas de mineração de dados

    As ferramentas de Data Mining, como a maioria das ferramentas de Business Intelligence, tradicionalmente pertencem a ferramentas de software caras - o preço de algumas delas chega a várias dezenas de milhares de dólares. Assim, até recentemente, os principais consumidores desta tecnologia eram bancos, financeiras e seguradoras, grandes tradings, e as principais tarefas que requeriam o uso de Data Mining eram consideradas a avaliação de riscos de crédito e seguros e o desenvolvimento de um plano de marketing. política, planos tarifários e outros princípios de trabalho com clientes. Nos últimos anos, a situação sofreu algumas mudanças: o mercado Programas Ferramentas de mineração de dados relativamente baratas de vários fornecedores surgiram, tornando essa tecnologia disponível para pequenas e médias empresas que nunca haviam pensado nisso antes.

    As ferramentas modernas de Business Intelligence incluem geradores de relatórios, processamento analítico dados, ferramentas de desenvolvimento de BI (plataformas de BI) e os chamados Enterprise BI Suites - ferramentas de análise e processamento de dados em toda a empresa que permitem realizar um conjunto de ações relacionadas à análise e relatórios de dados e, muitas vezes, incluem um conjunto integrado de BI ferramentas e ferramentas de desenvolvimento de aplicativos de BI. Este último, via de regra, contém ferramentas de relatórios e ferramentas OLAP e, muitas vezes, ferramentas de mineração de dados.

    De acordo com analistas do Gartner Group, Business Objects, Cognos, Information Builders são os líderes no mercado de análise e processamento de dados em escala empresarial, e a Microsoft e a Oracle também reivindicam a liderança (Fig. 1). Quanto às ferramentas de desenvolvimento de soluções de BI, os principais candidatos à liderança nesta área são Microsoft e SAS Institute (Fig. 2).

    Observe que as ferramentas de Business Intelligence da Microsoft são produtos relativamente baratos disponíveis para uma ampla variedade de empresas. É por isso que vamos considerar alguns aspectos práticos do uso de Data Mining usando os produtos desta empresa como exemplo nas partes subsequentes deste artigo.

    Literatura:

    1. Duque V.A. Mineração de dados - mineração de dados. - http://www.olap.ru/basic/dm2.asp .

    2. Dyuk V.A., Samoylenko A.P. Mineração de Dados: curso de treinamento. - São Petersburgo: Peter, 2001.

    3. B. de Ville. Mineração de Dados Microsoft. Imprensa Digital, 2001.

    O desenvolvimento de métodos para registro e armazenamento de dados levou a um rápido aumento no volume de informações coletadas e analisadas. Os volumes de dados são tão impressionantes que simplesmente não é possível para uma pessoa analisá-los por conta própria, embora a necessidade de tal análise seja bastante óbvia, porque esses dados "brutos" contêm conhecimento que pode ser usado para tomar decisões. Para realizar a análise automática de dados, utiliza-se a Mineração de Dados.

    Data Mining é o processo de descoberta de conhecimento previamente desconhecido, não trivial, praticamente útil e acessível em dados brutos, que é necessário para a tomada de decisões em diversas áreas da atividade humana. A Mineração de Dados é uma das etapas da Descoberta de Conhecimento em Bancos de Dados.

    As informações encontradas no processo de aplicação dos métodos de Data Mining devem ser não triviais e previamente desconhecidas, por exemplo, as vendas médias não são. O conhecimento deve descrever novos relacionamentos entre propriedades, prever os valores de alguns recursos com base em outros e assim por diante. O conhecimento encontrado deve ser aplicável a novos dados com algum grau de certeza. A utilidade está no fato de que esse conhecimento pode trazer certos benefícios quando aplicado. O conhecimento deve estar em uma forma que seja compreensível para o usuário, não para um matemático. Por exemplo, as construções lógicas "se... então..." são mais facilmente percebidas por uma pessoa. Além disso, tais regras podem ser usadas em vários SGBDs como consultas SQL. No caso em que o conhecimento extraído não seja transparente para o usuário, deve haver métodos de pós-processamento que permitam trazê-lo para uma forma interpretável.

    Os algoritmos usados ​​em Data Mining requerem muitos cálculos. Anteriormente, isso era um impedimento para a aplicação prática generalizada de Mineração de Dados, mas o crescimento de produtividade de hoje processadores modernos removeu a urgência deste problema. Agora, em um tempo razoável, é possível realizar uma análise qualitativa de centenas de milhares e milhões de registros.

    Tarefas resolvidas por métodos de mineração de dados:

    1. Classificação- esta é a atribuição de objetos (observações, eventos) a uma das classes conhecidas anteriormente.
    2. Regressão, incluindo problemas de previsão. Estabelecer a dependência da saída contínua em variáveis ​​de entrada.
    3. Agrupamentoé um agrupamento de objetos (observações, eventos) baseado em dados (propriedades) que descrevem a essência desses objetos. Os objetos dentro de um cluster devem ser "semelhantes" entre si e diferentes dos objetos incluídos em outros clusters. Quanto mais objetos semelhantes dentro de um cluster e quanto mais diferenças entre os clusters, mais preciso será o clustering.
    4. Associação– identificar padrões entre eventos relacionados. Um exemplo de tal padrão é uma regra que indica que o evento Y segue do evento X. Tais regras são chamadas associativas. Esse problema foi proposto pela primeira vez para encontrar padrões típicos de compras em supermercados, por isso às vezes também é chamado de análise de cesta de mercado.
    5. Padrões Sequenciais– estabelecimento de padrões entre eventos relacionados ao tempo, ou seja, detecção de dependência que, se ocorrer o evento X, depois Tempo dado evento Y ocorrerá.
    6. Análise de variação– identificação dos padrões menos característicos.

    Os problemas de análise de negócios são formulados de forma diferente, mas a solução para a maioria deles se resume a uma ou outra tarefa de Data Mining ou uma combinação delas. Por exemplo, a avaliação de risco é uma solução para um problema de regressão ou classificação, a segmentação de mercado é um agrupamento, a estimulação da demanda é uma regra de associação. Na verdade, as tarefas de Data Mining são os elementos a partir dos quais você pode montar uma solução para a grande maioria dos problemas reais de negócios.

    Para resolver os problemas acima, vários métodos e algoritmos de Data Mining são utilizados. Tendo em vista que a Mineração de Dados se desenvolveu e está se desenvolvendo na interseção de disciplinas como estatística, teoria da informação, aprendizado de máquina, teoria de banco de dados, é bastante natural que a maioria dos algoritmos e métodos de Mineração de Dados tenham sido desenvolvidos com base em vários métodos dessas disciplinas. Por exemplo, o procedimento de agrupamento k-means foi simplesmente emprestado das estatísticas. Os seguintes métodos de Data Mining ganharam grande popularidade: redes neurais, árvores de decisão, algoritmos de clustering, incluindo os escaláveis, algoritmos para detectar links associativos entre eventos, etc.

    Deductor é uma plataforma analítica que inclui um conjunto completo de ferramentas para resolver problemas de Data Mining: regressão linear, redes neurais supervisionadas, redes neurais não supervisionadas, árvores de decisão, busca por regras de associação e muitas outras. Para muitos mecanismos, são fornecidos visualizadores especializados que facilitam muito o uso do modelo resultante e a interpretação dos resultados. Ponto forte plataforma não é apenas a implementação de algoritmos de análise modernos, mas também a capacidade de combinar arbitrariamente vários mecanismos de análise.

    O que é Mineração de Dados

    Classificação de tarefas de mineração de dados

    A tarefa de procurar regras de associação

    Problema de cluster

    Recursos do Data Miner no Statistica 8

    Ferramentas de Análise STATISTICA Data Miner

    Um exemplo de trabalho em Data Minin

    Crie relatórios e resumos

    Classificando informações

    Análise dos preços dos lotes residenciais

    Análise do Preditor de Sobrevivência

    Conclusão


    O que é Mineração de Dados

    Moderno termo de computador Data Mining é traduzido como "extração de informação" ou "data mining". Muitas vezes, junto com a Mineração de Dados, são encontrados os termos Descoberta de Conhecimento ("descoberta de conhecimento") e Data Warehouse ("armazém de dados"). O surgimento desses termos, que são parte integrante da Mineração de Dados, está associado a uma nova rodada no desenvolvimento de ferramentas e métodos de processamento e armazenamento de dados. Portanto, o objetivo da Mineração de Dados é identificar regras e padrões ocultos em grandes (muito grandes) quantidades de dados.

    O fato é que a própria mente humana não está adaptada para a percepção de enormes conjuntos de informações heterogêneas. Em média, uma pessoa, com exceção de alguns indivíduos, não é capaz de capturar mais de dois ou três relacionamentos, mesmo em pequenas amostras. Mas a estatística tradicional, que por muito tempo reivindicou o papel de principal ferramenta de análise de dados, muitas vezes também falha ao resolver problemas de Vida real. Opera com características médias da amostra, que muitas vezes são valores fictícios (solvência média do cliente, quando, dependendo da função de risco ou função de perda, é preciso ser capaz de prever a solvência e intenções do cliente; média intensidade do sinal, enquanto você está interessado nas características e fundo dos picos do sinal, etc. d.).

    Portanto, métodos estatística matemática são úteis principalmente para testar hipóteses pré-formuladas, enquanto a definição de uma hipótese às vezes é uma tarefa bastante complexa e demorada. Tecnologias modernas Informações do processo de Mineração de Dados para busca automática templates (padrões) característicos de quaisquer fragmentos de dados multidimensionais heterogêneos. Ao contrário do processamento de dados analíticos online (OLAP), na Mineração de Dados, o ônus de formular hipóteses e identificar padrões incomuns (inesperados) é transferido do humano para o computador. A mineração de dados não é um, mas uma combinação de um grande número de diferentes métodos de descoberta de conhecimento. A escolha do método geralmente depende do tipo de dados disponíveis e de quais informações você está tentando obter. Aqui, por exemplo, estão alguns métodos: associação (combinação), classificação, agrupamento, análise e previsão de séries temporais, redes neurais, etc.

    Consideremos as propriedades do conhecimento a ser descoberto, dadas na definição, com mais detalhes.

    O conhecimento deve ser novo, anteriormente desconhecido. O esforço gasto na descoberta do conhecimento que já é conhecido pelo usuário não compensa. Portanto, é um conhecimento novo, anteriormente desconhecido, que tem valor.

    O conhecimento não deve ser trivial. Os resultados da análise devem refletir padrões não óbvios e inesperados nos dados que compõem o chamado conhecimento oculto. Resultados que podem ser obtidos mais maneiras simples(por exemplo, por inspeção visual) não justificam o uso de métodos poderosos de Data Mining.

    O conhecimento deve ser praticamente útil. O conhecimento encontrado deve ser aplicável, inclusive em novos dados, com um grau de confiabilidade suficientemente alto. A utilidade está no fato de que esse conhecimento pode trazer algum benefício em sua aplicação.

    O conhecimento deve ser acessível à compreensão humana. Os padrões encontrados devem ser logicamente explicáveis, caso contrário existe a possibilidade de que sejam aleatórios. Além disso, o conhecimento descoberto deve ser apresentado em uma forma humanamente compreensível.

    Na Mineração de Dados, os modelos são usados ​​para representar o conhecimento adquirido. Os tipos de modelos dependem dos métodos de sua criação. Os mais comuns são: regras, árvores de decisão, clusters e funções matemáticas.

    O escopo do Data Mining é ilimitado - o Data Mining é necessário onde quer que haja dados. A experiência de muitas dessas empresas mostra que o retorno do uso de Data Mining pode chegar a 1000%. Por exemplo, há relatos de um efeito econômico 10 a 70 vezes maior que os custos iniciais de 350 a 750 mil dólares. A informação é dada sobre um projeto de 20 milhões de dólares, que valeu a pena em apenas 4 meses. Outro exemplo é a economia anual de $ 700.000. através da introdução de Data Mining em uma rede de supermercados no Reino Unido. A mineração de dados é de grande valia para gestores e analistas em suas atividades diárias. Pessoas de negócio perceberam que com a ajuda de métodos de Data Mining podem obter vantagens competitivas tangíveis.

    Classificação de tarefas de mineração de dados

    Os métodos de DataMining permitem resolver muitos problemas enfrentados por um analista. Destes, os principais são: classificação, regressão, busca por regras de associação e agrupamento. Abaixo está Pequena descrição principais tarefas de análise de dados.

    1) A tarefa de classificação se reduz a determinar a classe de um objeto de acordo com suas características. Deve-se notar que neste problema o conjunto de classes às quais um objeto pode ser atribuído é conhecido antecipadamente.

    2) A tarefa de regressão, assim como a tarefa de classificação, permite determinar o valor de alguns de seus parâmetros com base nas características conhecidas de um objeto. Em contraste com o problema de classificação, o valor do parâmetro não é um conjunto finito de classes, mas o conjunto de números reais.

    3) Tarefa de associação. Ao pesquisar regras de associação, o objetivo é encontrar dependências (ou associações) frequentes entre objetos ou eventos. As dependências encontradas são apresentadas na forma de regras e podem ser utilizadas tanto para um melhor entendimento da natureza dos dados analisados ​​quanto para prever a ocorrência de eventos.

    4) A tarefa do agrupamento é buscar grupos independentes (clusters) e suas características em todo o conjunto de dados analisados. Resolver esse problema ajuda a entender melhor os dados. Além disso, o agrupamento de objetos homogêneos permite reduzir seu número e, consequentemente, facilitar a análise.

    5) Padrões sequenciais - o estabelecimento de padrões entre eventos relacionados no tempo, ou seja, detectando uma dependência de que, se o evento X ocorrer, o evento Y ocorrerá após um determinado tempo.

    6) Análise de desvios - identificação dos padrões mais incaracterísticos.

    As tarefas listadas são divididas por finalidade em descritivas e preditivas.

    As tarefas descritivas se concentram em melhorar a compreensão dos dados que estão sendo analisados. O ponto chave em tais modelos é a facilidade e transparência dos resultados para a percepção humana. É possível que os padrões descobertos sejam uma característica específica dos dados específicos em estudo e não sejam encontrados em nenhum outro lugar, mas ainda podem ser úteis e, portanto, devem ser conhecidos. Esse tipo de problema inclui agrupamento e busca de regras de associação.

    A solução de problemas preditivos é dividida em duas etapas. Na primeira etapa, um modelo é construído com base em um conjunto de dados com resultados conhecidos. Na segunda etapa, ele é usado para prever resultados com base em novos conjuntos de dados. Nesse caso, é claro, é necessário que os modelos construídos funcionem com a maior precisão possível. PARA esta espécie tarefas incluem tarefas de classificação e regressão. Isso também inclui o problema de encontrar regras de associação, se os resultados de sua solução puderem ser usados ​​para prever a ocorrência de determinados eventos.

    De acordo com os métodos de resolução de problemas, eles são divididos em aprendizagem supervisionada (aprendizagem com professor) e aprendizagem não supervisionada (aprendizagem sem professor). Esse nome vem do termo Machine Learning (aprendizado de máquina), que é frequentemente usado na literatura de língua inglesa e se refere a todas as tecnologias de Data Mining.

    No caso do aprendizado supervisionado, o problema de análise de dados é resolvido em várias etapas. Primeiro, usando qualquer algoritmo de Data Mining, um modelo dos dados analisados ​​é construído - um classificador. O classificador é então treinado. Em outras palavras, a qualidade de seu trabalho é verificada e, se não for satisfatória, o classificador é adicionalmente treinado. Isso continua até que o nível de qualidade exigido seja alcançado ou fique claro que o algoritmo selecionado não funciona corretamente com os dados, ou os próprios dados não possuem uma estrutura que possa ser identificada. Este tipo de problema inclui problemas de classificação e regressão.

    O aprendizado não supervisionado combina tarefas que identificam padrões descritivos, como padrões em compras feitas por clientes em uma grande loja. Obviamente, se esses padrões existem, então o modelo deve representá-los e não é apropriado falar sobre seu aprendizado. Daí o nome - aprendizagem não supervisionada. A vantagem de tais problemas é a possibilidade de resolvê-los sem qualquer conhecimento prévio dos dados analisados. Isso inclui agrupamento e pesquisa de regras de associação.

    Problema de classificação e regressão

    Ao analisar, muitas vezes é necessário determinar a qual das classes conhecidas os objetos em estudo pertencem, ou seja, classificá-los. Por exemplo, quando uma pessoa solicita um empréstimo a um banco, o funcionário do banco deve decidir se o cliente em potencial é digno de crédito ou não. É óbvio que tal decisão é tomada com base em dados sobre o objeto em estudo (em este caso- pessoa): seu local de trabalho, tamanho remunerações, idade, composição familiar, etc. Como resultado da análise dessas informações, um funcionário do banco deve atribuir uma pessoa a uma das duas classes conhecidas "credível" e "não creditável".

    Outro exemplo de uma tarefa de classificação é a filtragem de e-mail. Neste caso, o programa de filtragem deve classificar mensagem recebida spam (lixo E-mail) ou como uma carta. Esta decisãoé aceito com base na frequência de ocorrência de determinadas palavras na mensagem (por exemplo, nome do destinatário, endereço impessoal, palavras e frases: adquirir, "ganhar", " proposta lucrativa"etc).