Métodos analíticos de processamento de dados para apoio à decisão. Processamento de dados analíticos online (OLAP)

3.4 Métodos de processamento de dados analíticos

Para que os data warehouses existentes facilitem a adoção de decisões de gestão, as informações devem ser apresentadas ao analista na forma exigida, ou seja, ele deve ter desenvolvido ferramentas de acesso e processamento de dados no warehouse.

Muitas vezes, os sistemas de informação e analíticos criados com a expectativa de uso direto pelos tomadores de decisão são extremamente fáceis de usar, mas severamente limitados em funcionalidade. Esses sistemas estáticos são chamados de Executive Information Systems (EIS). Eles contêm muitas perguntas e, sendo suficientes para uma revisão diária, são incapazes de responder a todas as perguntas que podem surgir na tomada de decisões. O resultado do trabalho de tal sistema, via de regra, são relatórios de várias páginas, após estudo cuidadoso, nos quais o analista tem uma nova série de perguntas. No entanto, cada nova solicitação não prevista no projeto de tal sistema deve primeiro ser formalmente descrita, codificada pelo programador e só então executada. O tempo de espera, neste caso, pode ser de horas e dias, o que nem sempre é aceitável.

Processamento analítico online... Ou processamento analítico on-line, OLAP é um componente-chave da organização de armazenamento de dados. O conceito OLAP foi descrito em 1993 por Edgar Codd e tem os seguintes requisitos para aplicativos de análise multivariada:

- representação conceitual multidimensional de dados, incluindo suporte completo para hierarquias e hierarquias múltiplas (um requisito fundamental do OLAP);

- fornecer ao usuário os resultados da análise em um tempo razoável (geralmente não mais do que 5 s), mesmo ao custo de uma análise menos detalhada;

- a capacidade de realizar qualquer análise lógica e estatística, típica para esta aplicação, e salvá-la de uma forma acessível ao usuário final;

- acesso multiusuário aos dados com suporte de mecanismos de bloqueio apropriados e meios de acesso autorizados;

- a capacidade de acessar qualquer informação necessária, independentemente de seu volume e local de armazenamento.

Um sistema OLAP consiste em muitos componentes. No nível mais alto de apresentação, o sistema inclui uma fonte de dados, um banco de dados multidimensional (MDB) que fornece a capacidade de implementar um mecanismo de relatório com base na tecnologia OLAP, um servidor OLAP e um cliente. O sistema é construído com base no princípio cliente-servidor e fornece acesso remoto e multiusuário ao servidor MDB.

Considere os componentes de um sistema OLAP.

Origens. A fonte em sistemas OLAP é o servidor que fornece os dados para análise. Dependendo do escopo de uso do produto OLAP, a fonte pode ser um data warehouse, um banco de dados herdado contendo dados gerais, um conjunto

tabelas que combinam dados financeiros ou qualquer combinação dos itens acima.

Banco de dados. Os dados brutos são coletados e armazenados em um repositório projetado de acordo com os princípios de construção de data warehouses. HD é um banco de dados relacional (RDB). A tabela CD principal (tabela de fatos) contém os valores numéricos dos indicadores para os quais as informações estatísticas são coletadas.

Banco de dados multidimensional O armazenamento de dados funciona como um provedor de informações para um banco de dados multidimensional, que é uma coleção de objetos. As principais classes desses objetos são dimensões e medidas. As dimensões incluem um conjunto de valores (parâmetros) pelos quais os dados são indexados, por exemplo, tempo, regiões, tipo de instituição, etc. Cada dimensão é preenchida com valores das tabelas de dimensão correspondentes do data warehouse. O conjunto de medidas define o espaço do processo investigado. As medidas são cubos de dados multidimensionais (hipercubos). O hipercubo contém os próprios dados, bem como os valores agregados para as dimensões que fazem parte do indicador. Os indicadores constituem o conteúdo principal do MDB e são preenchidos de acordo com a tabela de fatos. Ao longo de cada eixo do hipercubo, os dados podem ser organizados em uma hierarquia que representa diferentes níveis de detalhe. Isso permite que você crie dimensões hierárquicas, que serão usadas para agregar ou detalhar a apresentação de dados durante a análise de dados subsequente. Um exemplo típico de dimensão hierárquica é uma lista de objetos territoriais agrupados por distritos, regiões, distritos.

Servidor. O servidor OLAP é a parte aplicada do sistema OLAP. Este componente faz todo o trabalho (dependendo do modelo do sistema) e armazena em si todas as informações às quais o acesso ativo é fornecido. A arquitetura do servidor é governada por vários conceitos. Em particular, a principal característica funcional dos produtos OLAP é o uso de MDB ou RDB para armazenamento de dados.

Aplicativo cliente.Dados estruturados de forma adequada e armazenados no MDB ficam disponíveis para análise utilizando a aplicação cliente. O usuário obtém a capacidade de acessar dados remotamente, formular consultas complexas, gerar relatórios e receber subconjuntos arbitrários de dados. A obtenção de um relatório se reduz à seleção de valores de medição específicos e à construção de uma seção do hipercubo. A seção transversal é determinada pelos valores de medição selecionados. Os dados para o resto das dimensões são resumidos.

OLAPno cliente e no servidor. A análise de dados multidimensional pode ser realizada usando várias ferramentas, que podem ser condicionalmente divididas em ferramentas OLAP de cliente e servidor.

As ferramentas de cliente OLAP (por exemplo, Tabelas Dinâmicas no Excel 2000 da Microsoft ou ProClarity da Knosys) são aplicativos que calculam e exibem dados agregados. Nesse caso, os próprios dados agregados estão contidos no cache dentro do espaço de endereço dessa ferramenta OLAP.

Se os dados de origem estiverem contidos no DBMS do desktop, o cálculo dos dados agregados será executado pela própria ferramenta OLAP. Se a fonte dos dados originais for um DBMS de servidor, muitas das ferramentas OLAP do cliente enviam consultas SQL ao servidor e, como resultado, recebem dados agregados calculados no servidor.

Normalmente, a funcionalidade OLAP é implementada em ferramentas de processamento de dados estatísticos e em algumas planilhas.

Muitas ferramentas de desenvolvimento contêm bibliotecas de classes ou componentes que permitem criar aplicativos que implementam a funcionalidade OLAP mais simples (como os componentes do Decision Cube no Borland Delphi e Borland C ++ Builder). Além disso, muitas empresas oferecem controles ActiveX e outras bibliotecas que fornecem funcionalidade semelhante.

As ferramentas OLAP do cliente são usadas, como regra, com um pequeno número de dimensões (geralmente não mais que seis) e uma pequena variedade de valores para esses parâmetros - uma vez que os dados agregados obtidos devem caber no espaço de endereço de tal ferramenta , e seu número cresce exponencialmente com o aumento do número de dimensões.

Muitas ferramentas de cliente OLAP permitem que você salve o conteúdo do cache com dados agregados como um arquivo para não recalculá-los. No entanto, essa oportunidade é freqüentemente usada para alienar dados agregados com o propósito de transferi-los para outras organizações ou para publicação.

A ideia de armazenar um cache com dados agregados em um arquivo foi posteriormente desenvolvida em ferramentas de servidor OLAP (por exemplo, Oracle Express Server ou Microsoft OLAP Services), nas quais salvar e alterar dados agregados, bem como manter o armazenamento que os contém , são realizados por um aplicativo ou processo separado denominado servidor OLAP. Os aplicativos clientes podem solicitar esse armazenamento multidimensional e receber certos dados em resposta. Alguns aplicativos cliente também podem criar esses repositórios ou atualizá-los de acordo com os dados de origem alterados.

As vantagens de usar ferramentas OLAP baseadas em servidor em comparação com ferramentas OLAP de cliente são semelhantes às vantagens de usar DBMSs do lado do servidor em comparação com ferramentas de desktop: no caso de usar ferramentas baseadas em servidor, o cálculo e o armazenamento de dados agregados ocorrem no servidor, e o aplicativo cliente recebe apenas os resultados das consultas aos mesmos, o que permite, em geral, reduzir o tráfego na rede, o tempo de execução da consulta e os requisitos de recursos para o aplicativo cliente.

3.5 Aspectos técnicos do armazenamento de dados multidimensionais

A multidimensionalidade em aplicativos OLAP pode ser dividida em três níveis:

1... Representação de dados multidimensional- ferramentas de usuário final que fornecem visualização multidimensional e manipulação de dados; a camada MDI abstrai da estrutura física de dados e trata os dados como multidimensionais.

Processamento multidimensional- uma ferramenta (linguagem) para formular consultas multidimensionais (a linguagem SQL relacional tradicional revela-se inadequada aqui) e um processador que pode processar e executar tal consulta.

Armazenamento multidimensional- meios de organização física dos dados, garantindo a execução eficiente de consultas multidimensionais.

Os primeiros dois níveis são obrigatórios em todas as ferramentas OLAP. O terceiro nível, embora difundido, não é necessário, uma vez que os dados para a visão multidimensional também podem ser recuperados de estruturas relacionais comuns. O processador de consulta multidimensional, neste caso, traduz as consultas multidimensionais em consultas SQL que são executadas pelo DBMS relacional.

Em qualquer data warehouse - convencional e multidimensional - juntamente com dados detalhados recuperados de sistemas operacionais, indicadores agregados (indicadores totais) também são armazenados, como as somas de volumes de vendas por mês, por categoria de produto, etc. Os agregados são armazenados explicitamente para com o único objetivo de agilizar a execução das consultas. De fato, por um lado, via de regra, uma grande quantidade de dados é acumulada no warehouse e, por outro lado, os analistas na maioria dos casos não estão interessados em indicadores detalhados, mas generalizados. E se milhões de vendas individuais tivessem que ser somadas a cada vez para calcular as vendas anuais, a velocidade provavelmente seria inaceitável. Portanto, ao carregar dados em um banco de dados multidimensional, todos os indicadores resumidos ou parte deles são calculados e salvos.

No entanto, o uso de dados agregados está repleto de desvantagens. As principais desvantagens são o aumento da quantidade de informações armazenadas (ao adicionar novas dimensões, a quantidade de dados que compõe um cubo aumenta exponencialmente) e o tempo que leva para carregá-los. Além disso, a quantidade de informações pode aumentar dezenas e até centenas de vezes. Por exemplo, em um dos testes padrão publicados, uma contagem total agregada para 10 MB de dados brutos exigiu 2,4 GB, ou seja, os dados aumentaram 240 vezes!

O grau em que o volume de dados aumenta no cálculo de agregados depende do número de dimensões no cubo e da estrutura dessas dimensões, ou seja, a proporção do número de “pais” e “descendentes” em diferentes níveis da dimensão. Para resolver o problema de armazenamento de agregados, são utilizados esquemas complexos que permitem, ao calcular longe de todos os agregados possíveis, obter um aumento significativo no desempenho da consulta.

Os dados iniciais e agregados podem ser armazenados em

relacionais, ou em estruturas multidimensionais. A este respeito, três maneiras de armazenar dados multidimensionais são usadas atualmente:

MOLAP (OLAP multidimensional) - Os dados de origem e agregados são armazenados em um banco de dados multidimensional. O armazenamento de dados em estruturas multidimensionais permite que você manipule os dados como uma matriz multidimensional, de modo que a velocidade de cálculo dos valores agregados seja a mesma para qualquer uma das dimensões. Porém, neste caso, o banco de dados multidimensional revela-se redundante, uma vez que os dados multidimensionais contêm completamente os dados relacionais originais.

Esses sistemas fornecem um ciclo completo de processamento OLAP. Eles incluem, além do componente de servidor, sua própria interface de cliente integrada ou usam programas de planilha externa para se comunicar com o usuário.

ROLAP (OLAP relacional) - os dados originais permanecem no mesmo banco de dados relacional onde estavam originalmente localizados. Os dados agregados são colocados em tabelas de serviço especialmente criadas para seu armazenamento no mesmo banco de dados.

HOLAP (OLAP híbrido) - os dados originais permanecem no mesmo banco de dados relacional onde estavam originalmente localizados e os dados agregados são armazenados no banco de dados multidimensional.

Algumas ferramentas OLAP suportam o armazenamento de dados apenas em estruturas relacionais, algumas - apenas em estruturas multidimensionais. No entanto, a maioria das ferramentas baseadas em servidor OLAP modernas oferece suporte a todos os três métodos de armazenamento de dados. A escolha do método de armazenamento depende do tamanho e da estrutura dos dados de origem, dos requisitos de velocidade de execução das consultas e da frequência de atualização dos cubos OLAP.

3.6 Mineração de dados (DadosMineração)

O termo Data Mining denota o processo de encontrar correlações, tendências e relacionamentos por meio de vários algoritmos matemáticos e estatísticos: agrupamento, regressão e análise de correlação, etc. para sistemas de suporte à decisão. Nesse caso, a informação acumulada é automaticamente generalizada para informação que pode ser caracterizada como conhecimento.

A moderna tecnologia de Data Mining é baseada no conceito de templates que refletem os padrões inerentes às subamostras de dados e constituem o chamado conhecimento oculto.

A busca por padrões é realizada por métodos que não usam nenhuma suposição a priori sobre essas subamostras. Uma característica importante do Data Mining é a não padronização e não obviedade dos padrões procurados. Em outras palavras, as ferramentas de mineração de dados diferem das ferramentas de processamento de dados estatísticos e das ferramentas OLAP porque, em vez de verificar os relacionamentos assumidos pelos usuários com antecedência

entre dados, com base nos dados disponíveis, eles são capazes de encontrar de forma independente tais relações, bem como construir hipóteses sobre sua natureza.

Em geral, o processo de mineração de dados consiste em três estágios

identificação de padrões (pesquisa livre);

usando os padrões revelados para prever valores desconhecidos (modelagem preditiva);

análise de exceções, destinada a identificar e interpretar anomalias nos padrões encontrados.

Às vezes, um estágio intermediário de verificação da confiabilidade dos padrões encontrados entre sua descoberta e uso (o estágio de validação) é claramente distinguido.

Existem cinco tipos padrão de padrões identificados por métodos de mineração de dados:

1. Associação permite que você selecione grupos estáveis de objetos entre os quais há links especificados implicitamente. A frequência de ocorrência de um item individual ou grupo de itens, expressa em porcentagem, é chamada de prevalência. Uma baixa taxa de prevalência (menos de um milésimo de um por cento) sugere que tal associação não é significativa. As associações são escritas na forma de regras: UMA=> B, Onde MAS - pacote, EM - consequência. Para determinar a importância de cada regra de associação obtida, é necessário calcular um valor denominado confiança MAS Para EM(ou relacionamento A e B). A confiança mostra quantas vezes quando MAS parece EM. Por exemplo, se d (A / B)= 20%, isso significa que ao comprar um produto MAS em cada quinto caso, os bens também são comprados EM.

Um exemplo típico de uso da associação é a análise da estrutura de compras. Por exemplo, ao realizar um estudo em um supermercado, pode-se estabelecer que 65% dos que compraram batata frita também levam Coca-Cola, e se houver desconto para tal conjunto, a Cola é comprada em 85% dos casos. Esses resultados são valiosos na definição de estratégias de marketing.

2. Sequência - é um método de identificar associações no tempo. Nesse caso, são definidas regras que descrevem a ocorrência sequencial de determinados grupos de eventos. Essas regras são essenciais para a construção de scripts. Além disso, eles podem ser usados, por exemplo, para formar um conjunto típico de vendas anteriores que podem implicar nas vendas subsequentes de um determinado produto.

3. Classificação - ferramenta de generalização. Ele permite que você passe da consideração de objetos únicos para conceitos generalizados que caracterizam alguns conjuntos de objetos e são suficientes para reconhecer objetos pertencentes a esses conjuntos (classes). A essência do processo de formação de conceito é encontrar padrões inerentes às classes. Muitos recursos (atributos) diferentes são usados para descrever objetos. O problema de formação de conceito com base em descrições de recursos foi formulado por M.M. Bongart. Sua solução é baseada na aplicação de dois procedimentos básicos: treinamento e testes. Nos procedimentos de treinamento, uma regra de classificação é construída com base no processamento de um conjunto de objetos de treinamento. O procedimento de verificação (exame) consiste em usar a regra de classificação obtida para reconhecer objetos de uma nova amostra (exame). Se os resultados do teste forem considerados satisfatórios, o processo de aprendizagem termina, caso contrário, a regra de classificação é refinada durante o processo de reaprendizagem.

4 agrupamentos É a distribuição das informações (registros) do banco de dados em grupos (clusters) ou segmentos com a determinação simultânea desses grupos. Ao contrário da classificação, aqui, para a análise, nenhuma atribuição preliminar de classes é necessária.

Previsão de 5 séries temporais é uma ferramenta para determinar as tendências de mudanças nos atributos dos objetos em consideração ao longo do tempo. A análise do comportamento das séries temporais permite prever os valores das características estudadas.

Para resolver esses problemas, vários métodos e algoritmos de mineração de dados são usados. Em vista do fato de que Data Mining se desenvolveu e se desenvolve na interseção de disciplinas como estatística, teoria da informação, aprendizado de máquina, teoria de banco de dados, é bastante natural que a maioria dos algoritmos e métodos de Data Mining tenham sido desenvolvidos com base em vários métodos dessas disciplinas. .

A partir da variedade de métodos de mineração de dados existentes, o seguinte pode ser distinguido:

regressão, variância e análise de correlação(implementado nos mais modernos pacotes estatísticos, em particular nos produtos das empresas SAS Institute, StatSoft, etc.);

métodos de análise em uma área temática específica, com base em modelos empíricos (frequentemente usados, por exemplo, em ferramentas de análise financeira de baixo custo);

algoritmos de rede neural- um método de simulação de processos e fenômenos que permite reproduzir dependências complexas. O método baseia-se na utilização de um modelo simplificado de um cérebro biológico e consiste no fato de os parâmetros iniciais serem considerados como sinais que se transformam de acordo com as conexões existentes entre "neurônios", e a resposta de toda a rede a os dados iniciais são considerados como uma resposta resultante da análise. Nesse caso, as conexões são criadas por meio do chamado treinamento da rede, por meio de uma grande amostra contendo os dados iniciais e as respostas corretas. As redes neurais são amplamente utilizadas para resolver problemas de classificação;

lógica difusaé usado para processar dados com valores de verdade difusos que podem ser representados por uma variedade de variáveis linguísticas. A representação de conhecimento difuso é amplamente utilizada para resolver problemas de classificação e previsão, por exemplo, no sistema XpertRule Miner (Attar Software Ltd., Grã-Bretanha), bem como em AIS, NeuFuz, etc.

ligações indutivas permitem que você obtenha generalizações dos fatos armazenados no banco de dados. No processo de aprendizagem indutiva, um especialista fornecendo hipóteses pode estar envolvido. Isso é chamado de aprendizagem supervisionada. A busca por regras de generalização pode ser realizada sem um professor, gerando hipóteses automaticamente. Em softwares modernos, como regra, os dois métodos são combinados e métodos estatísticos são usados para testar hipóteses. Um exemplo de sistema que usa condutores indutivos é o XpertRule Miner desenvolvido pela Attar Software Ltd. (Grã Bretanha);

raciocínio baseado em casos semelhantes(Método do “vizinho mais próximo”) (Raciocínio baseado em caso - CBR) são baseados na busca em um banco de dados por situações cujas descrições são semelhantes em uma série de características a uma dada situação. O princípio da analogia permite supor que os resultados de situações semelhantes também serão próximos. A desvantagem dessa abordagem é que ela não cria nenhum modelo ou regra que generalize a experiência anterior. Além disso, a confiabilidade dos resultados de saída depende da completude da descrição das situações, como nos processos de inferência indutiva. Exemplos de sistemas que usam CBR são: KATE Tools (Acknosoft, França), Pattern Recognition Workbench (Unica, EUA);

Árvores de decisão- um método de estruturação de uma tarefa na forma de um gráfico de árvore, cujos vértices correspondem a regras de produção que permitem classificar os dados ou analisar as consequências das decisões. Este método dá uma representação visual do sistema de regras de classificação, se não houver muitos. Problemas simples são resolvidos usando esse método muito mais rápido do que usando redes neurais. Para problemas complexos e para alguns tipos de dados, as árvores de decisão podem não ser apropriadas. Além disso, esse método tem um problema significativo. Uma das consequências do agrupamento hierárquico de dados é a ausência de um grande número de exemplos de treinamento para muitos casos especiais e, portanto, a classificação não pode ser considerada confiável. Métodos de árvore de decisão são implementados em várias ferramentas de software, a saber: С5.0 (RuleQuest, Austrália), Clementine (Integral Solutions, Reino Unido), SIPINA (Universidade de Lyon, França), IDIS (Information Discovery, EUA);

programação evolutiva- busca e geração de um algoritmo que expressa a interdependência dos dados, com base no algoritmo inicialmente especificado, modificado no processo de busca; às vezes, a busca por interdependências é realizada entre quaisquer tipos específicos de funções (por exemplo, polinômios);

algoritmos de busca limitados que calculam combinações de eventos lógicos simples em subgrupos de dados.

3.7 IntegraçãoOLAPeDadosMineração

O processamento analítico online (OLAP) e a mineração de dados são duas partes do processo de suporte à decisão. No entanto, hoje a maioria dos sistemas OLAP concentra-se apenas em fornecer acesso a dados multidimensionais, e a maioria das ferramentas de mineração de dados que trabalham no campo de padrões lidam com perspectivas de dados unidimensionais. Para aumentar a eficiência do processamento de dados para sistemas de suporte à decisão, esses dois tipos de análise devem ser combinados.

Atualmente, o termo composto "OLAP Data Mining" (mineração multidimensional) parece denotar tal combinação.

Existem três maneiras principais de formar "OLAP Data Mining":

"Cubagem e mineração". A capacidade de realizar análise de mineração deve ser fornecida em qualquer resultado de uma consulta a uma representação conceitual multidimensional, ou seja, em qualquer fragmento de qualquer projeção de um hipercubo de indicadores.

Minerando e depois cubando. Como os dados extraídos de um repositório, os resultados da mineração devem ser apresentados em forma hipercúbica para análise multivariada subsequente.

"Cubagem durante a mineração". Esta forma flexível de integração permite ativar automaticamente o mesmo tipo de mecanismo de processamento inteligente sobre o resultado de cada etapa de análise multivariada (transição) entre os níveis de generalização, extração de um novo fragmento do hipercubo, etc.).

Astronomia para 11 classe [Texto ... eles Como as papel o todo sistemas ... professor assistente ... Cheboksary, 2009. No. 10. S. 44 -49 .... Autores- compiladores: N. ... sinopsespalestras, ...

Guia de estudo
... palestras... Treinamento palestras matemática. Escrita sinopsepalestras palestras... Uso em formaçãotecnologias ...
I k kondaurova com v lebedeva
Guia de estudo
... palestras... Treinamento palestras matemática. Escrita sinopsepalestras... Preparação de recursos visuais. Técnica de leitura palestras... Uso em formaçãotecnologias ...
M MEDIA MONITORING Modernização da educação profissional março - agosto 2011
Resumo
... 11 .08.2011 "Dead Souls-2" em RNIMU eles ... 3,11 -3,44 ... ... público palestras lideres ... Cheboksary... e rabiscando sinopses público - ... em formaçãosistemas e tecnologia. ... sistema educação, diz professor assistente ... compiladores ... partes realçando real contente ...

Tópico 6

SISTEMAS DE INFORMAÇÃO CORPORATIVA PARA PROCESSAMENTO DE INFORMAÇÕES ECONÔMICAS

Conceito de tecnologia da informação corporativa

A essência e o significado da tecnologia da informação corporativa

Entre a variedade de programas para negócios, o termo "tecnologia da informação em governança corporativa" é tradicionalmente entendido como "sistemas integrados de automação de gestão". Seus outros nomes também são conhecidos - sistemas de escala corporativa, sistemas de informação corporativa (CIS), sistemas de gerenciamento corporativo (ou integrado) (KSU), sistemas de controle automatizado (ACS).

Como regra, sistemas complexos de automação de controle são soluções universais "básicas" adequadas para vários tipos de empresas, principalmente gestão financeira, gestão de armazém, gestão de compras e vendas. Mas esses mesmos sistemas muitas vezes têm soluções da indústria que refletem uma ou outra especificidade e contendo um base regulatória e de referência apropriada.

Por exemplo, a solução do sistema SAP R / 3 para a indústria da aviação apóia a contabilidade e o controle dos números de série de todas as peças da aeronave, sua vida útil, substituição programada ou reparo, o que garante não só a confiabilidade da produção, mas também a segurança do passageiros.

Uma vez que os sistemas de gestão integrados estão principalmente focados em grandes empresas com estruturas multidisciplinares, eles não só oferecem um conjunto desenvolvido de funções, mas também fornecem armazenamento e processamento confiável de grandes quantidades de informação, utilizando plataformas e ferramentas de sistema poderosas para o trabalho multiusuário. ..

As modernas tecnologias de informação, comunicação e Internet permitem resolver problemas de acesso remoto a uma única base de dados, o que também é importante para a governança corporativa.

Conceito de construção

Embora a maioria dos desenvolvedores denomine seus softwares de gestão (enterprise, warehouse, finanças, etc.), em essência, quase todos os softwares utilizados na governança corporativa são registros de fatos e documentos de atividades financeiras e econômicas, sistemas contábeis com capacidade de construção de relatórios e referências nas seções permitidas por recursos analíticos. Ou seja, as informações estruturadas são inseridas no banco de dados. Essa estrutura é estabelecida em um grau ou outro por livros de referência interconectados, classificadores, parâmetros e formas de documentos padrão. De acordo com as informações disponíveis na base de dados, o chamado "corte" é "construído", "retirado", "recolhido" por meios instrumentais. Tendo recebido relatórios e referências, muitas vezes chamados de relatórios analíticos, com base nesses dados, a administração pode tomar decisões. Este é o conceito e tecnologia típicos para trabalhar com sistemas da classe em questão.

Não é por acaso que tão diferentes em conteúdo funcional, soluções de sistema, finalidade e uso de software de "gestão", como "Galaxy", "BEST" e "1C: Enterprise", sejam semelhantes nos princípios de organização da informação, tecnologia de sua formação e processamento, bem como métodos de interação com sistemas.

No entanto, empresas, por exemplo, OJSC Uralelectromed, apresentam requisitos tão rígidos e variados para ferramentas de governança corporativa que se torna necessário construí-las em uma base multinível. Normalmente, o núcleo é o núcleo do sistema, que contém apenas códigos de programa. O próximo elemento conceitualmente importante é o kit de ferramentas embutido do sistema, que permite, sem alterar os códigos do programa, pelo menos configurá-lo nos locais de trabalho, realizar operações específicas, inserir novas e alterar formas existentes de documentos primários e de relatório e usar outros meios de ajuste paramétrico. Os sistemas mais avançados possuem ferramentas integradas para a criação de vários modelos de empresa: informacional, organizacional, funcional, etc. E, por último, a própria base de dados.

Processamento de informação analítica

Planejar as atividades de uma empresa, obter informações operacionais e tomar a decisão correta com base em sua análise está associado ao processamento de grandes quantidades de dados. Os relatórios gerados em sistemas de contabilidade corporativa geralmente não são flexíveis. Eles não podem ser “torcidos”, “expandidos” ou “recolhidos” para obter a representação de dados desejada, incluindo gráficos. Quanto mais “cortes” e “cortes” você pode fazer, mais realista você pode imaginar a imagem da empresa e tomar a melhor decisão sobre a gestão dos processos de negócios. Para este tipo de tarefas, são necessárias modelagens matemáticas e econômicas, além de alto desempenho. O módulo analítico está disponível no sistema "RepKo", o mais conhecido é o sistema "Triumph-Analytica" ("PARUS" Corporation - "Torah Center"). Parece que os sistemas contábeis constroem referências em várias “seções” com base nas informações armazenadas no banco de dados, eles simplesmente representam o que é. E os sistemas analíticos constroem novas informações de acordo com parâmetros ou critérios especificados, otimizando-as para fins específicos. Portanto, com mais frequência você precisa de uma ferramenta especial para visualizar e visualizar informações, que é o processamento analítico online (OLAP). Ele fornece um conjunto de meios convenientes e de alta velocidade de acesso, visualização e análise multidimensional das informações acumuladas no armazenamento.

As tecnologias OLAP são usadas para modelar uma situação de acordo com o esquema “e se ...” e para compilar uma variedade de relatórios analíticos. Existem produtos de software ocidentais especializados.

Normalmente, as informações dos sistemas de gestão corporativa são transferidas para programas especializados de processamento de dados analíticos. Muitos desenvolvedores domésticos tentam resolver esses problemas por conta própria, por exemplo, Nikos-Soft (sistema NS-2000), Cepheus (sistema de gerenciamento corporativo Etalon), KOMSOFT (KOMSOFT-STANDARD "2.0), etc.

6,4 Perspectivas de desenvolvimento e uso de tecnologias de informação corporativa

Para além do desenvolvimento e utilização de modernas ferramentas e plataformas, bem como de ferramentas de sistema, o desenvolvimento de sistemas corporativos domésticos pressupõe a sua saturação funcional, especialmente ao nível da produção.

Apesar da paixão generalizada pela implementação de padrões de gerenciamento, os principais participantes do mercado doméstico de software estão desenvolvendo soluções para vários tipos de indústrias.

O medo das empresas de revelar a "confidencialidade" de seus desenvolvimentos está diminuindo, o que ajuda a consolidar seus esforços para integrar seus produtos, em vez de desenvolver tudo de "a" a "z" por conta própria. Hoje, ninguém tem recursos suficientes. Leva anos para compreender um novo conceito, desenvolver um projeto e um sistema, ou seja, um sistema que muda de qualidade dependendo do que está nele. Além disso, a exigência de integração de produtos de software também é proposta por empresas que desejam continuar "funcionando", via de regra, sistemas especializados e combiná-los informacionalmente com os recém-adquiridos.

A integração também é necessária para produtos de diferentes fabricantes - em nome da combinação de soluções complexas com:

- orçamento, análise financeira e econômica, atendimento ao cliente, processamento de dados analíticos, etc.

Ressalta-se que não os sistemas de controle em si são mais promissores, mas uma ferramenta simples e universal para sua criação, destinada a intermediários qualificados entre o desenvolvedor e o usuário final. Agora, essas funções estão tentando ser executadas por analistas e administradores de sistema.

Se tal ferramenta estiver disponível, soluções padrão "prontas" para todas as empresas em todos os setores estarão em demanda.

A Internet como ferramenta adicional para o desenvolvimento de negócios só pode ser usada com eficácia na presença de um sistema de gestão integrado.

Embora as modernas tecnologias de informação e comunicação, incluindo a Internet, possibilitem a organização do aluguel de softwares, é prematuro falar sobre a perspectiva de aproveitamento dessas oportunidades a curto prazo, principalmente em nosso país. E não tanto por questões de confidencialidade, mas por falta de ordem e de meios de comunicação confiáveis.

As tentativas de implementação e experiência no uso, mesmo que não na íntegra, das tecnologias da informação em empresas nacionais provaram na prática que "o caos não pode ser automatizado". É necessária uma reorganização preliminar do negócio e da própria empresa, bem como a construção de regulamentos (instruções) de gestão. É difícil para os funcionários da empresa lidar com esse trabalho por conta própria. Especialmente considerando o fator tempo nas condições de mercado. Portanto, a prática de interação com empresas de consultoria está se desenvolvendo em todos os lugares, que auxiliam as empresas e ensinam seus funcionários a "ampliar gargalos", estabelecer os principais processos de negócios, desenvolver tecnologia, construir fluxos de informação, etc. Automatizar um processo simplificado é mais fácil, mais fácil, mais barato e mais rápido.

Todos devem fazer seu trabalho. Um contador, lojista, gerente de vendas e outros especialistas em "assuntos" não devem melhorar a forma dos documentos, expandir colunas ou mudar de lugar devido a mudanças na legislação ou nos esquemas de negócios. Portanto, o mercado de software está gradualmente se transformando de um "produto" em um "serviço". Começa a desenvolver-se o Outsourcing - transferência de algumas funções da empresa para os especialistas das empresas envolvidas. Eles estão envolvidos na manutenção de equipamentos, software de sistema, modificação da parte aplicada (funcional) dos sistemas, etc.

A tecnologia da informação e os serviços metodológicos para seus usuários e consumidores estão se tornando os mais importantes e atuais na utilização de sistemas de gestão corporativa.

8.3.1. Ferramentas de processamento analítico on-line (OLAP)

O Processamento Analítico On-Line é um meio de processamento analítico operacional (em tempo real) da informação que visa apoiar a tomada de decisão e ajudar os analistas a responder à pergunta "Por que os objetos, ambientes e os resultados de sua interação são iguais e não outros?" Nesse caso, o próprio analista forma versões da relação entre um conjunto de informações e as verifica com base nos dados disponíveis nas respectivas bases de dados de informações estruturadas.

Os sistemas ERP são caracterizados pela presença de componentes analíticos como parte de subsistemas funcionais. Eles fornecem a formação de informações analíticas em tempo real. Essas informações são a base para a maioria das decisões de gerenciamento.

As tecnologias OLAP usam hipercubos - dados especialmente estruturados (também chamados de cubos OLAP). Na estrutura de dados do hipercubo, os seguintes são distinguidos:

Medidas - indicadores quantitativos (bases de requisitos) usados para gerar resultados estatísticos resumidos;

Dimensões - categorias descritivas (atributos-atributos), no contexto das quais as medidas são analisadas.

A dimensão de um hipercubo é determinada pelo número de dimensões de uma medida. Por exemplo, o hipercubo SALES contém dados:

Dimensões: consumidores, datas de operações, grupos de mercadorias, nomenclatura, modificações, embalagens, depósitos, formas de pagamento, tipos de embarque, taxas, moeda, organizações, departamentos, responsáveis, canais de distribuição, regiões, cidades;

Medidas: quantidade planejada, quantidade real, montante planejado, montante real, pagamentos planejados, pagamentos reais, saldo planejado, saldo real, preço de venda, tempo de execução do pedido, montante de reembolso.

Esse hipercubo é destinado a relatórios analíticos:

Classificação dos consumidores de acordo com o volume de compras;

Classificação das mercadorias vendidas pelo método ABC;

Análise dos termos de execução de encomendas de diversos consumidores;

Análise de volumes de vendas por períodos, mercadorias e grupos de mercadorias, regiões e consumidores, departamentos internos, gerentes e canais de vendas;

Previsão de acordos mútuos com consumidores;

Análise da devolução de mercadorias dos consumidores; etc.

Os relatórios analíticos podem ter uma combinação arbitrária de dimensões e medidas, eles são usados para analisar as decisões de gestão. O processamento analítico é fornecido por ferramentas instrumentais e de linguagem. Na planilha do MS Excel publicamente disponível, são apresentadas as "Tabelas Dinâmicas" de tecnologia da informação, os dados iniciais para sua criação são:

Lista (banco de dados) MS Excel - tabela relacional;

Outra tabela dinâmica do MS Excel;

Intervalo consolidado de células do MS Excel localizadas na mesma pasta de trabalho ou em pastas de trabalho diferentes;

Banco de dados relacional externo ou cubo OLAP, fonte de dados (arquivos em formato .dsn, .ode).

Para construir tabelas dinâmicas com base em bancos de dados externos, são usados drivers ODBC, bem como o programa MS Query. A tabela de resumo para o banco de dados original do MS Excel tem a seguinte estrutura (Fig. 8.3).

O layout da tabela dinâmica possui a seguinte estrutura de dados (Fig. 8.4): dimensões - código do departamento, posição; medidas - experiência de trabalho, salário e gratificação. Abaixo está uma tabela de resumo. 8.2, que permite analisar a relação entre a experiência profissional média e o salário, a experiência profissional média e bônus, salário e bônus.

Tabela 8.2

Tabela Dinâmica para Análise de Link

Fim da mesa. 8,2

Para continuar a análise usando a tabela dinâmica, você pode:

Adicione novos totais (por exemplo, salário médio, bônus médio, etc.);

Utilizar a filtragem de registros e totais da tabela dinâmica (por exemplo, pelo atributo "Gênero", que se encontra no layout na área * Página ");

Calcular indicadores estruturais (por exemplo, a distribuição de fundos de salários e fundos de bônus por divisões - usando processamento adicional de tabelas dinâmicas, participação no valor por coluna); etc.

O pacote MS Office permite que você publique dados de planilhas, incluindo tabelas dinâmicas e gráficos em formato XTML.

O Microsoft Office Web Components suporta o trabalho com dados publicados no Internet Explorer, permitindo análises adicionais (alterações na estrutura de dados da tabela dinâmica, cálculo de novos totais resumidos).

8.3.2. Ferramentas de mineração de dados (DM)

As ferramentas de DM implicam na extração ("escavação", "extração") de dados e visam identificar a relação entre as informações armazenadas nas bases de dados digitais da empresa, que o analista pode utilizar para construir modelos que quantifiquem o grau de influência dos fatores de interesse. Além disso, tais ferramentas podem ser úteis para construir hipóteses sobre a possível natureza das relações de informação nas bases de dados digitais de uma empresa.

A tecnologia Text Mining (TM) é um conjunto de ferramentas que permite analisar grandes conjuntos de informações em busca de tendências, padrões e relacionamentos que podem ajudá-lo a tomar decisões estratégicas.

A tecnologia Image Mining (IM) contém ferramentas para o reconhecimento e classificação de várias imagens visuais armazenadas nas bases de dados da empresa ou obtidas como resultado de uma pesquisa online em fontes externas de informação.

Para resolver os problemas de processamento e armazenamento de todos os dados, as seguintes abordagens são usadas:

1) a criação de vários sistemas de backup ou um sistema de gerenciamento de documentos distribuído que permite salvar dados, mas tem acesso lento às informações armazenadas a pedido do usuário;

2) construção de sistemas de Internet altamente flexíveis, mas não adaptados para a implementação da busca e armazenamento de documentos de texto;

3) a introdução de portais de Internet bem direcionados às solicitações dos usuários, mas sem informações descritivas sobre os dados de texto neles carregados.

Os sistemas de processamento de texto livres dos problemas listados acima podem ser divididos em duas categorias: sistemas de análise linguística e sistemas de análise de dados de texto.

Os principais elementos da tecnologia de Text Mining são:

Sumarização;

Extração de recursos

Clustering

Classificação

Responder a perguntas (resposta a perguntas);

Indexação temática;

Pesquisa por palavras-chave (pesquisa por palavra-chave);

Criação e manutenção de impostos e tesauros.

Os produtos de software que implementam a tecnologia Text Mining incluem:

IBM Intelligent Miner for Text - um conjunto de utilitários de linha de comando individuais ou saltos; independentes um do outro (a ênfase principal está nos mecanismos de mineração de dados - recuperação de informação);

Oracle InterMedia Text - um conjunto integrado em um SGBD que permite trabalhar de forma mais eficaz com as solicitações do usuário (permite que você trabalhe com SGBD relacionais modernos no contexto de pesquisa multifuncional complexa e análise de dados de texto);

Megaputer Text Analyst é um conjunto de objetos COM embutidos no programa para resolver tarefas de Text Mining.

8.3.3. Tecnologia da Informação Inteligente

Hoje, no campo da automação de controle, a análise da informação domina na fase preliminar da preparação das decisões - processando a informação primária, decompondo uma situação problema, que permite conhecer apenas fragmentos e detalhes de processos, e não a situação como um todo. Para superar essa desvantagem, é preciso aprender a construir bases de conhecimento utilizando a experiência dos melhores especialistas, bem como gerar o conhecimento que falta.

A utilização das tecnologias de informação nas diversas esferas da atividade humana, o crescimento exponencial dos volumes de informação e a necessidade de responder prontamente a quaisquer situações exigiram a procura de meios adequados para resolver os problemas emergentes. O mais eficaz deles é a forma de intelectualização das tecnologias da informação.

Debaixo tecnologia da informação inteligente(ITT) geralmente entendem essa tecnologia da informação, que fornece os seguintes recursos:

A presença de bases de conhecimento que refletem a experiência de pessoas, grupos, sociedades, da humanidade como um todo, na resolução de problemas criativos em certas áreas de atividade, tradicionalmente consideradas prerrogativas da inteligência humana (por exemplo, tarefas mal formalizadas como a tomada de decisões , design, extração de significado, explicação, treinamento, etc.);

A presença de modelos de pensamento baseados em bases de conhecimento: regras e conclusões lógicas, argumentação e raciocínio, reconhecimento e classificação de situações, generalização e compreensão, etc .;

Capacidade de tomar decisões bastante claras com base em dados vagos, imprecisos, incompletos e subdeterminados;

A capacidade de explicar conclusões e decisões, ou seja, a presença de um mecanismo de explicação;

Capacidade de aprender, retreinar e, portanto, se desenvolver.

As tecnologias de busca informal de padrões ocultos em dados e informações Knowledge Discovery (KD) são baseadas nas mais recentes tecnologias para a formação e estruturação de imagens de informações de objetos, o que mais se aproxima dos princípios do processamento da informação por sistemas inteligentes.

A tecnologia da informação de suporte à decisão (DS) é um shell especializado.

sistemas ou sistemas especialistas especializados que permitem aos analistas determinar as relações e relações entre as estruturas de informação nas bases de informação estruturada da empresa, bem como prever os possíveis resultados da tomada de decisão.

Tendências de desenvolvimento do IIT. Sistemas de comunicação e comunicação. As redes globais de informação e o IIT podem mudar radicalmente nossa compreensão das empresas e do próprio trabalho mental. A presença de funcionários no local de trabalho se tornará quase desnecessária. As pessoas podem trabalhar em casa e interagir umas com as outras conforme necessário por meio de redes. Conhecida, por exemplo, é a experiência bem-sucedida de criar uma nova modificação da aeronave Boeing-747 por uma equipe distribuída de especialistas interagindo via Internet. A localização dos participantes em quaisquer empreendimentos terá um papel cada vez menor, mas a importância do nível de qualificação dos participantes aumentará. Outro motivo que determinou o rápido desenvolvimento do IIT está associado à complicação dos sistemas de comunicação e das tarefas resolvidas em sua base. Foi necessário um nível qualitativamente novo de "intelectualização" de produtos de software como sistemas para analisar dados heterogêneos e não estritos, garantir a segurança da informação, tomar decisões em sistemas distribuídos, etc.

Educação... Já hoje, o ensino a distância começa a desempenhar um papel importante na educação, e a introdução do IIT individualizará significativamente esse processo de acordo com as necessidades e habilidades de cada aluno.

Vida cotidiana... A informatização do dia a dia já começou, mas com o desenvolvimento do IIT, fundamentalmente novas oportunidades surgirão. Gradualmente, todas as novas funções serão transferidas para o computador: controle sobre a saúde do usuário, controle de eletrodomésticos como umidificadores, purificadores de ar, aquecedores, ionizadores, centros de música, diagnósticos médicos, etc. Em outras palavras, os sistemas também se tornarão diagnósticos do estado de uma pessoa e de sua casa. Um confortável espaço de informação será fornecido nas instalações, onde o ambiente de informação passará a fazer parte do ambiente humano.

Perspectivas para o desenvolvimento do IIT... Parece que atualmente o IIT está se aproximando de um estágio fundamentalmente novo em seu desenvolvimento. Assim, nos últimos 10 anos, as capacidades do IIT se expandiram significativamente devido ao desenvolvimento de novos tipos de modelos lógicos, o surgimento de novos

teorias e conceitos. Os pontos-chave no desenvolvimento do IIT são:

Transição de inferência lógica para modelos de argumentação e raciocínio;

Buscar conhecimentos relevantes e gerar explicações;

Compreensão e síntese de textos;

Gráficos cognitivos, ou seja, apresentação gráfica e figurativa de conhecimentos;

Sistemas multiagentes;

Modelos de rede inteligentes;

Cálculos baseados em lógica fuzzy, redes neurais, algoritmos genéticos, cálculos probabilísticos (implementados em várias combinações entre si e com sistemas especialistas);

O problema do meta-conhecimento.

Os sistemas multiagentes se tornaram um novo paradigma para a criação de IITs promissores. Supõe-se aqui que um agente é um sistema intelectual independente que possui seu próprio sistema de definição de metas e motivação, sua própria área de ação e responsabilidade. A interação entre os agentes é fornecida por um sistema de nível superior - metainteligência. Em sistemas multiagentes, uma comunidade virtual de agentes inteligentes é modelada - objetos que são autônomos, ativos, entram em várias relações sociais - cooperação e cooperação (amizade), competição, competição, inimizade, etc. O aspecto social da solução de problemas modernos é a característica fundamental da novidade conceitual das tecnologias intelectuais avançadas - organizações virtuais, sociedade virtual.

(?) Perguntas e tarefas de controle

1. Descreva o empreendimento como objeto de informatização. Quais são os principais indicadores que caracterizam o desenvolvimento do sistema de gestão empresarial?

2. Liste os líderes em gestão de tecnologia da informação de empresas industriais.

3. Quais as principais tecnologias de informação de desenvolvimento organizacional e estratégico das empresas (corporações).

4. Quais são os fundamentos dos padrões de gestão estratégica voltados para a melhoria dos processos de negócios? Qual é a relação entre BPM e BPI de tecnologia da informação?

5. Definir a filosofia de gestão da qualidade total (TQM). Como se relacionam as fases de desenvolvimento da qualidade e da tecnologia da informação?

6. Cite as principais disposições do desenvolvimento organizacional da empresa, descreva as etapas da gestão estratégica. Quais são as estratégias de grupo?

7. Como é criado o modelo de negócios da empresa? Quais são as principais abordagens para avaliar a eficácia de um modelo de negócios?

8. O que é um balanced scorecard? Quais são os principais componentes do BSC? Quais são as inter-relações dos grupos de indicadores do BSC?

9. Liste os fundamentos metodológicos para a criação de sistemas de informação. O que é uma abordagem de sistemas?

10. O que é uma abordagem informacional para a formação de sistemas e tecnologias de informação?

11. O que é uma abordagem estratégica para a formação de sistemas e tecnologias de informação?

12. Qual é o conteúdo da abordagem orientada a objetos para descrever o comportamento dos agentes no mercado? Dê a definição do objeto, indique os análogos dos sistemas de agentes.

13. Quais são os princípios metodológicos para melhorar a gestão empresarial com base nas tecnologias de informação e comunicação? Qual é o propósito das TIC?

14. Dê as definições de um documento, fluxo de documentos, fluxo de documentos, sistema de gerenciamento de documentos.

15. Como é projetado o layout do formulário do documento? Nomeie as zonas do documento, a composição de seus detalhes.

16. Quais são as tecnologias de informação básicas do sistema de gestão de documentos.

17. O que é um sistema de documentação unificado? Quais são os princípios gerais da unificação?

18. Descreva a documentação organizacional e administrativa, forneça exemplos de documentos.

19. A quais requisitos um sistema de gerenciamento eletrônico de documentos deve atender?

20. O que é um sistema de informações corporativas? Quais são os principais loops de controle, a composição dos módulos funcionais.

21. Cite os produtos de software conhecidos por você para CIS. Dê suas características comparativas.

Literatura W

1. Return J., Moriarty S. Marketing communication. Uma abordagem integrada. SPb.; Kharkov: Peter, 2001.

2. Brooking E. Capital intelectual. A chave para o sucesso no novo milênio. SPb.: Peter, 2001.

3. Godin V.V., Korpev I.K. Gerenciamento de recursos de informação. M.: INFRA-M, 1999.

4. Sistemas e tecnologias de informação em economia: Livro didático. 2ª ed., Adicionar. e revisado / M.I. Semenov, I.T. Trubilin, V.I. Loiko, T.P. Baranovskaya; Ed. DENTRO E. Loiko. Moscou: Finanças e Estatísticas, 2003.

5. Tecnologia da informação nos negócios / Ed. M. Zheleny. SPb.: Peter, 2002.

6. Kaplan Robert S., Norton David P. Balanced Scorecard. Da estratégia à ação / Per. do inglês. M.: CJSC "Olymp-Business", 2003.

7. Karagodin V.I., Karagodina BJI. Informação como base da vida. Dubna: Phoenix, 2000.

8. Karminsky AM., Nesterov PZ. Informatização de negócios. Moscou: Finanças e Estatísticas, 1997.

9. Likhacheva T.N. As tecnologias da informação ao serviço da sociedade da informação // Novas tecnologias da informação nos sistemas económicos. M., 1999.

10. Ostreykovsky V.A. Teoria de sistemas. M.: Ensino superior, 1997.

11. Piterkin S.V., Oladov N.A., Isaev D.V. Bem a tempo para a Rússia. A prática de usar sistemas ERP. 2ª ed. M.: Alpina Publisher, 2003.

12. Sokolov D.V. Introdução à teoria da comunicação social: livro didático. abono. SPb.: Editora SP6GUP, 1996.

13. Trofimov V.Z., Tomilov V.Z. Tecnologias de informação e comunicação em gestão: livro didático. abono. SPb.: Editora SPbGUEF, 2002.

Há já algum tempo, o nível moderno de desenvolvimento de hardware e software tem possibilitado a manutenção generalizada de bases de dados de informação operacional em diferentes níveis de gestão. No curso de suas atividades, empresas industriais, corporações, estruturas departamentais, órgãos governamentais e administrações acumularam grandes quantidades de dados. Eles armazenam em si um grande potencial de extração de informações analíticas úteis, a partir das quais é possível identificar tendências ocultas, construir uma estratégia de desenvolvimento e encontrar novas soluções.

Nos últimos anos, uma série de novos conceitos para armazenamento e análise de dados corporativos tomaram forma no mundo:

1) Data Warehouses

2) Processamento Analítico On-Line (OLAP)

3) Mineração de dados - IAD (Data Mining)

Os sistemas de processamento de dados analíticos OLAP são sistemas de apoio à decisão focados no atendimento de consultas mais complexas que requerem processamento estatístico de dados históricos acumulados ao longo de um determinado período de tempo. Eles servem para preparar relatórios de negócios sobre vendas, marketing para fins de gestão, o chamado Data Mining - data mining, ou seja, uma forma de analisar informações em um banco de dados para encontrar anomalias e tendências sem descobrir o significado dos registros.

Os sistemas analíticos baseados em OLAP incluem ferramentas de processamento de informações baseadas em métodos de inteligência artificial e ferramentas de apresentação gráfica de dados. Esses sistemas são determinados por um grande volume de dados históricos, permitindo extrair informações significativas deles, ou seja, obter conhecimento a partir dos dados.

A eficiência do processamento é alcançada por meio do uso de uma poderosa tecnologia de multiprocessador, métodos de análise sofisticados e armazenamentos de dados especializados.

Os bancos de dados relacionais armazenam entidades em tabelas separadas, que geralmente são bem normalizadas. Essa estrutura é conveniente para bancos de dados operacionais (sistemas OLTP), mas as consultas complexas de várias tabelas são relativamente lentas. Um modelo melhor para consultas em vez de modificação é um banco de dados espacial.

O sistema OLAP obtém um instantâneo de um banco de dados relacional e o estrutura em um modelo espacial para consultas. O tempo de processamento reivindicado para consultas em OLAP é cerca de 0,1% de consultas semelhantes em um banco de dados relacional.

Uma estrutura OLAP criada a partir de dados operacionais é chamada de cubo OLAP. Um cubo é criado a partir da junção de tabelas usando um esquema em estrela. No centro da "estrela" está uma tabela de fatos que contém os principais fatos a serem consultados. Várias tabelas de dimensão são unidas à tabela de fatos. Essas tabelas mostram como os dados relacionais agregados podem ser analisados. O número de agregações possíveis é determinado pelo número de maneiras em que os dados originais podem ser exibidos hierarquicamente.

As classes de sistemas fornecidas (OLAP e OLTP) são baseadas no uso de um DBMS, mas os tipos de consultas são muito diferentes. O mecanismo OLAP é um dos métodos de análise de dados mais populares da atualidade. Existem duas abordagens principais para resolver esse problema. O primeiro deles é denominado Multidimensional OLAP (MOLAP) - a implementação do mecanismo usando um banco de dados multidimensional no lado do servidor, e o segundo é Relational OLAP (ROLAP) - construção de cubos "on the fly" com base em consultas SQL a um relacional DBMS. Cada uma dessas abordagens tem vantagens e desvantagens. O esquema geral do sistema OLAP de desktop pode ser representado na Fig.

O algoritmo de trabalho é o seguinte:

1) obtenção de dados na forma de uma tabela plana ou o resultado da execução de uma consulta SQL;

2) armazenar dados em cache e convertê-los em um cubo multidimensional;

3) exibir o cubo construído usando uma tabela cruzada ou diagrama, etc.

Em geral, um número arbitrário de monitores pode ser conectado a um cubo. As exibições usadas em sistemas OLAP são geralmente de dois tipos: crosstabs e gráficos.

Diagrama de estrelas. Sua ideia é que existam tabelas para cada dimensão, e todos os fatos sejam colocados em uma tabela, indexados por uma chave múltipla formada pelas chaves de dimensões individuais. Cada raio do esquema em estrela define, na terminologia de Codd, a direção da consolidação de dados ao longo da dimensão correspondente.

Para problemas complexos com dimensões multiníveis, faz sentido recorrer às extensões do esquema em estrela - o esquema de constelação de fatos e o esquema em floco de neve. Nesses casos, tabelas de fatos separadas são criadas para possíveis combinações de níveis de resumo de dimensões diferentes. Isso permite um melhor desempenho, mas geralmente leva à redundância de dados e a complicações significativas na estrutura do banco de dados, que contém um grande número de tabelas de fatos.

diagrama de constelação

Processamento de dados analíticos - Trata-se de análise de dados que requer suporte metodológico adequado e certo nível de formação de especialistas.

As modernas tecnologias da informação permitem automatizar os processos de análise da informação primária acumulada, construir modelos analíticos, obter soluções prontas e aplicá-las na prática. Os principais requisitos , que se apresentam aos métodos de análise, são eficiência, simplicidade, automatismo. Este conceito é a base de duas tecnologias modernas: Data Mining e Knowledge Discovery in Databases (KDD).

Mineração de dados - é o processo de descobrir em dados brutos a interpretação anteriormente desconhecida, não trivial, praticamente útil e acessível do conhecimento necessário para a tomada de decisões nas várias esferas da atividade humana (definição de G. Pyatetsky-Shapiro, um dos fundadores desta direção) .

A tecnologia de mineração de dados visa encontrar padrões não óbvios. As etapas da análise de dados são:

1) classificação ( classificação) - detecção de recursos que caracterizam grupos de objetos do conjunto de dados estudado - classes. Métodos de solução usados para o problema de classificação: métodos do vizinho mais próximo ( vizinho mais próximo) e ^ ’- o vizinho mais próximo ( vizinho mais próximo) -, Redes bayesianas (Redes bayesianas) -, indução de árvores de decisão; redes neurais (redes neurais) -,
2) agrupamento (agrupamento)- dividir objetos em grupos, uma vez que as classes de objetos não são definidas inicialmente. Um exemplo de método para resolver o problema de agrupamento: mapas de Kohonen auto-organizados - uma rede neural com aprendizagem não supervisionada. Uma característica importante desses mapas é a capacidade de exibir espaços de recursos multidimensionais em um plano, apresentando dados na forma de um mapa bidimensional;
3) associação (associações)- identificar padrões entre eventos relacionados no conjunto de dados. Esses padrões são revelados não com base nas propriedades do objeto analisado, mas entre vários eventos que ocorrem simultaneamente, por exemplo, o algoritmo a priori;
4) sequência (seqüência), ou associação sequencial (associação sequencial),- pesquisa de padrões temporais entre transações, ou seja, os padrões são estabelecidos não entre eventos que ocorrem simultaneamente, mas entre eventos conectados no tempo. Associação são sequências com intervalo de tempo zero. Regra de sequenciamento: após o evento X após um certo tempo, o evento Y ocorrerá;
5) previsão (previsão) - é construído com base em recursos de dados históricos, ou seja, há uma avaliação dos valores omitidos ou futuros dos indicadores numéricos alvo. Métodos de estatística matemática, redes neurais, etc. são usados para resolver problemas de previsão;
6) determinação de desvios ou outliers (detecção de desvio), análise de desvios ou outliers - detecção e análise de dados que são mais diferentes do conjunto geral de dados;
7) classificação (estimativa)- prever valores contínuos de um recurso;
8) análise de link (análise de link)- a tarefa de encontrar dependências em um conjunto de dados;
9) visualização (visualização, mineração de gráfico)- criação de uma imagem gráfica dos dados analisados. Métodos gráficos são usados para mostrar a presença de padrões nos dados, por exemplo, a apresentação de dados em dimensões 2D e 3D;
10) resumindo ( resumo) - uma descrição de grupos específicos de objetos do conjunto de dados analisado.

KDD é o processo de extrair conhecimento útil de uma coleção de dados. Esta tecnologia inclui questões: preparação de dados, seleção de recursos informativos, limpeza de dados, aplicação de métodos de Data Mining (DM), pós-processamento de dados e interpretação dos resultados.

O processo de descoberta de conhecimento em bancos de dados consiste nas seguintes etapas:

1) definição do problema - análise das tarefas do usuário e recursos da área de aplicação, seleção de um conjunto de parâmetros de entrada e saída;
2) preparação do conjunto inicial de dados - a criação de um data warehouse e a organização de um esquema de coleta e atualização de dados;
3) pré-processamento de dados - com base na utilização de métodos de Data Mining, do ponto de vista deste método, os dados devem ser de alta qualidade e corretos;
4) transformação, normalização de dados - trazendo informações para uma forma adequada para análise posterior;
5) Data Mining - análise automática de dados com base no uso de vários algoritmos de busca de conhecimento (redes neurais, árvores de decisão, algoritmos de agrupamento, estabelecimento de associações, etc.);
6) pós-processamento de dados - interpretação dos resultados e aplicação do conhecimento adquirido em aplicações de negócios.