Metody zpracování analytických dat pro podporu rozhodování. Online zpracování analytických dat (OLAP)

3.4 Metody zpracování analytických dat

Aby stávající datové sklady usnadňovaly přijímání rozhodnutí managementu, musí být informace předloženy analytikovi v požadované formě, to znamená, že musí mít vyvinuté nástroje pro přístup a zpracování dat ve skladu.

Informační a analytické systémy vytvořené s očekáváním přímého použití osobami s rozhodovací pravomocí se velmi často velmi snadno používají, ale jejich funkce jsou značně omezené. Takové statické systémy se nazývají Executive Information Systems (EIS). Obsahují mnoho dotazů, a protože jsou dostačující pro každodenní kontrolu, nedokážou odpovědět na všechny otázky, které mohou při rozhodování vyvstat. Výsledkem práce takového systému jsou zpravidla vícestránkové zprávy po pečlivém studiu, na které má analytik novou řadu otázek. Každý nový požadavek nepředvídaný v návrhu takového systému však musí být nejprve formálně popsán, kódován programátorem a teprve poté spuštěn. Čekací doba v tomto případě může být hodiny a dny, což není vždy přijatelné.

Online analytické zpracování... Nebo on-line analytické zpracování, OLAP je klíčovou součástí organizace pro skladování dat. Koncept OLAP byl popsán v roce 1993 Edgarem Coddem a má pro aplikace vícerozměrné analýzy následující požadavky:

- vícerozměrná koncepční reprezentace dat, včetně plné podpory hierarchií a více hierarchií (klíčový požadavek OLAP);

- poskytnout uživateli výsledky analýzy v rozumném čase (obvykle ne déle než 5 s), a to i za cenu méně podrobné analýzy;

- schopnost provádět jakoukoli logickou a statistickou analýzu, typickou pro tuto aplikaci, a uložit ji ve formě přístupné koncovému uživateli;

- přístup více uživatelů k datům s podporou vhodných uzamykacích mechanismů a autorizovaných přístupových prostředků;

- možnost přístupu k jakýmkoli potřebným informacím bez ohledu na jejich objem a umístění úložiště.

Systém OLAP se skládá z mnoha komponent. Na nejvyšší úrovni prezentace obsahuje systém zdroj dat, vícerozměrnou databázi (MDB), která poskytuje možnost implementovat modul pro vytváření sestav založený na technologii OLAP, server OLAP a klienta. Systém je postaven na principu klient-server a poskytuje vzdálený a víceuživatelský přístup k serveru MDB.

Zvažte součásti systému OLAP.

Zdroje. Zdrojem v systémech OLAP je server, který dodává data pro analýzu. V závislosti na rozsahu použití produktu OLAP může být zdrojem datový sklad, zděděná databáze obsahující obecná data, sada

tabulky kombinující finanční data nebo jakoukoli kombinaci výše uvedených.

Úložiště dat. Nezpracovaná data jsou shromažďována a uchovávána v úložišti navrženém v souladu se zásadami budování datových skladů. HD je relační databáze (RDB). Hlavní tabulka CD (tabulka faktů) obsahuje číselné hodnoty indikátorů, pro které jsou shromažďovány statistické informace.

Multidimenzionální databázeÚložiště dat slouží jako poskytovatel informací pro vícerozměrnou databázi, což je kolekce objektů. Hlavní třídy těchto objektů jsou rozměry a míry. Dimenze zahrnují sadu hodnot (parametrů), pomocí kterých jsou data indexována, například čas, regiony, typ instituce atd. Každá dimenze je naplněna hodnotami z odpovídajících tabulek dimenzí datového skladu. Sada měření definuje prostor zkoumaného procesu. Míry jsou vícerozměrné datové kostky (hyper kostky). Hyperkrychle obsahuje samotná data a také souhrnné částky pro dimenze, které jsou součástí indikátoru. Ukazatele tvoří hlavní obsah MDB a vyplňují se podle tabulky faktů. Podél každé osy hyperkocky lze data organizovat v hierarchii představující různé úrovně podrobností. To vám umožní vytvořit hierarchické dimenze, které budou použity k agregaci nebo hloubce prezentace dat při následné analýze dat. Typickým příkladem hierarchické dimenze je seznam územních objektů seskupených podle okresů, krajů, okresů.

Server. Server OLAP je aplikovanou součástí systému OLAP. Tato součást vykonává veškerou práci (v závislosti na modelu systému) a sama v sobě ukládá všechny informace, ke kterým je poskytován aktivní přístup. Architektura serveru se řídí různými koncepty. Zejména hlavní funkční charakteristikou produktů OLAP je použití MDB nebo RDB pro ukládání dat.

Klientská aplikace.Data s příslušnou strukturou a uložená v MDB jsou k dispozici pro analýzu pomocí klientské aplikace. Uživatel získá možnost vzdáleného přístupu k datům, formulování složitých dotazů, generování sestav a přijímání libovolných podmnožin dat. Získání zprávy je omezeno na výběr konkrétních naměřených hodnot a konstrukci části hyperkrychle. Průřez je určen zvolenými hodnotami měření. Data pro zbývající dimenze jsou shrnuta.

OLAPna klientovi a na serveru. Analýzu vícerozměrných dat lze provádět pomocí různých nástrojů, které lze podmíněně rozdělit na klientské a serverové nástroje OLAP.

Nástroje klienta OLAP (například kontingenční tabulky v aplikaci Excel 2000 od společnosti Microsoft nebo ProClarity od společnosti Knosys) jsou aplikace, které vypočítávají a zobrazují agregovaná data. V tomto případě jsou agregovaná data obsažena v mezipaměti uvnitř adresního prostoru takového nástroje OLAP.

Pokud jsou zdrojová data obsažena v desktopovém DBMS, výpočet agregovaných dat provádí samotný nástroj OLAP. Pokud je zdrojem původních dat serverový DBMS, mnoho klientských nástrojů OLAP odesílá na server dotazy SQL a v důsledku toho dostává souhrnná data vypočítaná na serveru.

Funkce OLAP je obvykle implementována v nástrojích pro zpracování statistických dat a v některých tabulkách.

Mnoho vývojových nástrojů obsahuje knihovny tříd nebo komponent, které vám umožňují vytvářet aplikace implementující nejjednodušší funkce OLAP (například komponenty Decision Cube v Borland Delphi a Borland C ++ Builder). Mnoho společností navíc nabízí ovládací prvky ActiveX a další knihovny, které poskytují podobné funkce.

Klientské nástroje OLAP se zpravidla používají s malým počtem dimenzí (obvykle ne více než šesti) a malým množstvím hodnot pro tyto parametry - protože získaná agregovaná data se musí vejít do adresního prostoru takového nástroje , a jejich počet exponenciálně roste s nárůstem počtu dimenzí.

Mnoho klientských nástrojů OLAP vám umožňuje uložit obsah mezipaměti s agregovanými daty jako soubor, abyste je nepřepočítali. Tato příležitost se však často používá k odcizení souhrnných údajů za účelem jejich přenosu do jiných organizací nebo ke zveřejnění.

Myšlenka ukládání mezipaměti s agregovanými daty do souboru byla dále rozvinuta v serverových nástrojích OLAP (například Oracle Express Server nebo Microsoft OLAP Services), ve kterých se ukládají a mění agregovaná data a také udržuje úložiště, které je obsahuje. , jsou prováděny samostatnou aplikací nebo procesem zvaným OLAP server. Klientské aplikace mohou požadovat takové vícerozměrné úložiště a přijímat určitá data jako odpověď. Některé klientské aplikace mohou také vytvářet takováto úložiště nebo je aktualizovat podle změněných zdrojových dat.

Výhody použití serverových nástrojů OLAP ve srovnání s klientskými nástroji OLAP jsou podobné výhodám použití serverů DBMS ve srovnání s nástroji pro stolní počítače: v případě použití serverových nástrojů dochází k výpočtu a ukládání agregovaných dat na server a klientská aplikace na ně přijímá pouze výsledky dotazů, což obecně umožňuje snížit síťový provoz, dobu provádění dotazů a požadavky na zdroje pro klientskou aplikaci.

3.5 Technické aspekty vícerozměrného ukládání dat

Vícerozměrnost v aplikacích OLAP lze rozdělit do tří úrovní:

1... Reprezentace vícerozměrných dat- nástroje koncových uživatelů, které poskytují vícerozměrnou vizualizaci a manipulaci s daty; vrstva MDI abstrahuje od fyzické datové struktury a považuje data za vícerozměrná.

    Vícerozměrné zpracování- nástroj (jazyk) pro formulování vícerozměrných dotazů (tradiční relační jazyk SQL se zde ukazuje jako nevhodný) a procesor, který dokáže takový dotaz zpracovat a provést.

    Multidimenzionální úložiště- prostředky fyzické organizace dat zajišťující efektivní provádění vícerozměrných dotazů.

První dvě úrovně jsou povinné ve všech nástrojích OLAP. Třetí úroveň, přestože je rozšířená, není vyžadována, protože data pro vícerozměrný pohled lze také získat z pravidelných relačních struktur. Procesor vícerozměrných dotazů v tomto případě převádí vícerozměrné dotazy na dotazy SQL, které jsou prováděny relační DBMS.

V jakémkoli datovém skladu - konvenčním i vícerozměrném - jsou spolu s podrobnými daty získanými z operačních systémů uloženy také agregované ukazatele (souhrnné ukazatele), jako je součet objemů prodeje podle měsíců, podle kategorie produktu atd. Agregáty jsou uloženy výslovně pro jediným účelem je urychlení provádění dotazů. Skutečně se na jedné straně zpravidla ve skladu hromadí velmi velké množství dat a na druhé straně analytiky ve většině případů nezajímají podrobné, ale zobecněné ukazatele. A pokud by se musely při výpočtu ročních tržeb pokaždé sečíst miliony jednotlivých prodejů, rychlost by byla s největší pravděpodobností nepřijatelná. Při načítání dat do vícerozměrné databáze se proto vypočítají a uloží všechny souhrnné ukazatele nebo jejich část.

Používání agregovaných dat je však spojeno s nevýhodami. Hlavními nevýhodami jsou nárůst množství uložených informací (při přidávání nových dimenzí exponenciálně roste množství dat tvořících krychli) a doba potřebná k jejich načtení. Kromě toho se množství informací může zvýšit desítky a dokonce stokrát. Například v jednom ze zveřejněných standardních testů vyžadoval celkový souhrnný počet 10 MB nezpracovaných dat 2,4 GB, tj. Data vzrostla 240krát!

Míra, do jaké se objem dat zvyšuje při výpočtu agregátů, závisí na počtu dimenzí v krychli a struktuře těchto dimenzí, tj. Na poměru počtu „rodičů“ a „potomků“ na různých úrovních dimenze. K vyřešení problému s ukládáním agregátů se používají složitá schémata, která umožňují při výpočtu daleko od všech možných agregátů dosáhnout výrazného zvýšení výkonu dotazů.

Počáteční i souhrnná data lze uložit buď do

relační, nebo ve vícerozměrných strukturách. V tomto ohledu se v současné době používají tři způsoby ukládání vícerozměrných dat:

MOLAP (Multidimensional OLAP) - Zdrojová a agregovaná data jsou uložena ve vícerozměrné databázi. Ukládání dat ve vícerozměrných strukturách vám umožňuje manipulovat s daty jako vícerozměrné pole, takže rychlost výpočtu agregovaných hodnot je stejná pro všechny dimenze. V tomto případě se však vícerozměrná databáze ukáže jako nadbytečná, protože vícerozměrná data zcela obsahují původní relační data.

Tyto systémy poskytují celý cyklus zpracování OLAP. Buď obsahují kromě serverové komponenty vlastní integrované klientské rozhraní, nebo ke komunikaci s uživatelem používají externí tabulkové programy.

ROLAP (Relační OLAP) - původní data zůstávají ve stejné relační databázi, kde byla původně umístěna. Agregovaná data jsou umístěna do servisních tabulek speciálně vytvořených pro jejich ukládání do stejné databáze.

HOLAP (Hybridní OLAP) - původní data zůstávají ve stejné relační databázi, kde byla původně umístěna, a agregovaná data jsou uložena ve vícerozměrné databázi.

Některé nástroje OLAP podporují ukládání dat pouze v relačních strukturách, některé pouze ve vícerozměrných strukturách. Většina moderních serverových nástrojů OLAP však podporuje všechny tři způsoby ukládání dat. Volba způsobu ukládání závisí na velikosti a struktuře zdrojových dat, požadavcích na rychlost provádění dotazů a frekvenci aktualizace kostek OLAP.

3.6 Těžba dat (DataHornictví)

Termín Data Mining označuje proces hledání korelací, trendů a vztahů pomocí různých matematických a statistických algoritmů: shlukování, regresní a korelační analýza atd. Pro systémy podporující rozhodování. V tomto případě jsou nahromaděné informace automaticky zobecněny na informace, které lze charakterizovat jako znalosti.

Moderní technologie Data Mining je založena na konceptu šablon, které odrážejí vzorce vlastní datovým podvzorkům a vytvářejí takzvané skryté znalosti.

Hledání vzorů se provádí pomocí metod, které nepoužívají žádné apriorní předpoklady o těchto podvzorcích. Důležitou vlastností Data Miningu je nestandardnost a nesrozumitelnost hledaných vzorů. Jinými slovy, nástroje pro těžbu dat se liší od nástrojů pro zpracování statistických dat a nástrojů OLAP v tom, že místo kontroly vztahů předpokládaných uživateli předem

mezi daty jsou na základě dostupných údajů schopni takové vztahy samostatně najít a také vytvářet hypotézy o jejich povaze.

Proces těžby dat se obecně skládá ze tří fází

    identifikace vzorů (bezplatné vyhledávání);

    použití odhalených vzorců k předpovědi neznámých hodnot (prediktivní modelování);

    analýza výjimek, určená k identifikaci a interpretaci anomálií v nalezených vzorcích.

Někdy je jasně odlišen mezistupeň ověření spolehlivosti nalezených vzorců mezi jejich nalezením a použitím (fáze validace).

Metodami Data Mining je identifikováno pět standardních typů vzorů:

1. Přidružení umožňuje vybrat stabilní skupiny objektů, mezi nimiž jsou implicitně zadané odkazy. Frekvence výskytu jednotlivé položky nebo skupiny položek, vyjádřená v procentech, se nazývá prevalence. Nízká míra prevalence (méně než jedna tisícina procenta) naznačuje, že taková asociace není významná. Asociace jsou psány ve formě pravidel: A=> B, kde ALE - balík, V - následek. K určení důležitosti každého získaného asociačního pravidla je nutné vypočítat hodnotu zvanou spolehlivost ALE Na V(nebo vztah A a B). Důvěra ukazuje, jak často kdy ALE objeví se V. Například pokud d (A / B)= 20%, to znamená, že při nákupu produktu ALE v každém pátém případě je zboží také zakoupeno V.

Typickým příkladem využití asociace je analýza struktury nákupů. Například při provádění studie v supermarketu lze zjistit, že 65% těch, kteří si koupili bramborové lupínky, bere také Coca-Colu, a pokud existuje sleva na takovou sadu, je Cola zakoupena v 85% případů. Tyto výsledky jsou cenné při formování marketingových strategií.

2. Pořadí - je to metoda včasné identifikace asociací. V tomto případě jsou definována pravidla, která popisují sekvenční výskyt určitých skupin událostí. Tato pravidla jsou nezbytná pro vytváření skriptů. Kromě toho je lze použít například k vytvoření typické sady předchozích prodejů, které mohou zahrnovat následný prodej konkrétního produktu.

3. Klasifikace - generalizační nástroj. Umožňuje přejít od zvažování jednotlivých objektů ke zobecněným konceptům, které charakterizují některé sady objektů a jsou dostatečné pro rozpoznávání objektů patřících do těchto sad (tříd). Podstatou procesu vytváření konceptu je nalezení vzorů, které jsou vlastní třídám. K popisu objektů se používá mnoho různých funkcí (atributů). Problém formování konceptu na základě popisů funkcí formuloval M.M. Bongart. Jeho řešení je založeno na aplikaci dvou základních postupů: školení a testování. V tréninkových postupech je klasifikační pravidlo vytvořeno na základě zpracování tréninkové sady objektů. Postup ověřování (zkoušení) spočívá v použití získaného klasifikačního pravidla pro rozpoznávání předmětů z nového (vyšetřovacího) vzorku. Pokud se zjistí, že výsledky testů jsou uspokojivé, pak proces učení skončí, jinak se během procesu re-learningu třídí pravidlo klasifikace.

4 shlukování Je distribuce informací (záznamů) z databáze do skupin (klastrů) nebo segmentů se současným určením těchto skupin. Na rozdíl od klasifikace zde pro analýzu není vyžadováno žádné předběžné přiřazení tříd.

Prognóza 5 časových řad je nástroj pro určování trendů změn v atributech uvažovaných objektů v čase. Analýza chování časových řad umožňuje předpovědět hodnoty studovaných charakteristik.

K řešení těchto problémů se používají různé metody a algoritmy dolování dat. Vzhledem k tomu, že Data Mining se vyvinul a vyvíjí na průsečíku oborů, jako je statistika, teorie informací, strojové učení, teorie databází, je zcela přirozené, že většina algoritmů a metod pro těžbu dat byla vyvinuta na základě různých metod z těchto oborů.

Z řady stávajících metod dolování dat lze odlišit následující:

    regresní, rozptylová a korelační analýza(implementováno ve většině moderních statistických balíčků, zejména v produktech společností SAS Institute, StatSoft atd.);

    analytické metody v konkrétní oblasti, založené na empirických modelech (často používaných například v levných nástrojích finanční analýzy);

    algoritmy neurální sítě- metoda pro simulaci procesů a jevů, která umožňuje reprodukci složitých závislostí. Metoda je založena na použití zjednodušeného modelu biologického mozku a spočívá ve skutečnosti, že počáteční parametry jsou považovány za signály, které jsou transformovány v souladu se stávajícími spojeními mezi „neurony“, a odezva celé sítě na počáteční data jsou považována za odpověď vyplývající z analýzy. V tomto případě se připojení vytvářejí pomocí takzvaného síťového tréninku pomocí velkého vzorku obsahujícího jak počáteční data, tak správné odpovědi. Neuronové sítě jsou široce používány k řešení klasifikačních problémů;

    fuzzy logika se používá ke zpracování dat s fuzzy pravdivostními hodnotami, které mohou být reprezentovány různými lingvistickými proměnnými. Fuzzy reprezentace znalostí je široce používána k řešení klasifikačních a předpovědních problémů, například v systému XpertRule Miner (Attar Software Ltd., UK), stejně jako v AIS, NeuFuz atd.

    indukční vývody vám umožní získat zobecnění faktů uložených v databázi. V procesu induktivního učení může být zapojen specialista poskytující hypotézy. Říká se tomu supervizované učení. Hledání generalizačních pravidel lze provádět bez učitele automatickým generováním hypotéz. V moderním softwaru jsou zpravidla obě metody kombinovány a k testování hypotéz se používají statistické metody. Příkladem systému využívajícího indukční svody je XpertRule Miner vyvinutý společností Attar Software Ltd. (Velká Británie);

    uvažování na základě podobné případy(Metoda „Nearestighbor“) (Case -based reasoning - CBR) jsou založeny na vyhledávání v databázi situací, jejichž popisy jsou v řadě funkcí podobné dané situaci podobné. Princip analogie nám umožňuje předpokládat, že výsledky podobných situací budou také blízko sebe. Nevýhodou tohoto přístupu je, že nevytváří žádné modely ani pravidla, která by generalizovala předchozí zkušenosti. Kromě toho spolehlivost výstupních výsledků závisí na úplnosti popisu situací, jako v procesech indukční inference. Příklady systémů využívajících CBR jsou: KATE Tools (Acknosoft, Francie), Pattern Recognition Workbench (Unica, USA);

    rozhodovací stromy- metoda strukturování úkolu ve formě stromového grafu, jehož vrcholy odpovídají produkčním pravidlům, která umožňují klasifikaci dat nebo analýzu důsledků rozhodnutí. Tato metoda poskytuje vizuální reprezentaci systému klasifikace pravidel, pokud jich není mnoho. Jednoduché problémy jsou pomocí této metody řešeny mnohem rychleji než pomocí neuronových sítí. U složitých problémů a u některých datových typů nemusí být rozhodovací stromy vhodné. Tato metoda má navíc problém s významem. Jedním z důsledků hierarchického seskupování dat je absence velkého počtu příkladů školení pro mnoho zvláštních případů, a proto klasifikaci nelze považovat za spolehlivou. Metody rozhodovacího stromu jsou implementovány v mnoha softwarových nástrojích, konkrétně: С5.0 (RuleQuest, Austrálie), Clementine (Integral Solutions, UK), SIPINA (University of Lyon, Francie), IDIS (Information Discovery, USA);

    evoluční programování- vyhledávání a generování algoritmu vyjadřujícího vzájemnou závislost dat na základě původně specifikovaného algoritmu, upraveného v procesu vyhledávání; někdy se hledání vzájemných závislostí provádí mezi konkrétními typy funkcí (například polynomy);

omezené vyhledávací algoritmy které počítají kombinace jednoduchých logických událostí v podskupinách dat.

3.7 IntegraceOLAPaDataHornictví

Online analytické zpracování (OLAP) a dolování dat (Data Mining) jsou dvě části procesu podpory rozhodování. Dnes se však většina systémů OLAP zaměřuje pouze na poskytování přístupu k vícerozměrným datům a většina nástrojů pro těžbu dat pracujících v oblasti vzorů se zabývá perspektivami jednorozměrných dat. Aby se zvýšila účinnost zpracování dat pro systémy na podporu rozhodování, měly by být tyto dva typy analýz kombinovány.

V současné době se zdá, že takovou kombinaci označuje složený termín „OLAP Data Mining“ (vícerozměrná těžba).

Existují tři hlavní způsoby, jak vytvořit „OLAP Data Mining“:

    „Cubing then mining“. Schopnost provádět analýzu těžby by měla být poskytována u jakéhokoli výsledku dotazu na vícerozměrnou koncepční reprezentaci, tj. U jakéhokoli fragmentu jakékoli projekce hyperkrychle indikátorů.

    Těžba pak kubování. Stejně jako data extrahovaná z úložiště musí být výsledky těžby prezentovány v hyperkubické formě pro následnou vícerozměrnou analýzu.

    „Kostkování při těžbě“. Tento flexibilní způsob integrace vám umožňuje automaticky aktivovat stejný typ inteligentních mechanismů zpracování v důsledku každého kroku multivariační analýzy (přechodu) mezi úrovněmi generalizace, extrakce nového fragmentu hyperkrychle atd.).

    Astronomie pro 11 třída [Text ... jim jak část celý systémy ... odborný asistent ... Cheboksary, 2009. č. 10. S. 44 -49 ... Autoři- překladače: N. ... přehledypřednášky, ...

  • Studijní průvodce

    ... přednášky... Výcvik přednášky matematika. Psaní synopsepřednášky přednášky... Používání informacetechnologie ...

  • I kondaurova s ​​v lebedeva

    Studijní průvodce

    ... přednášky... Výcvik přednášky matematika. Psaní synopsepřednášky... Příprava vizuálních pomůcek. Technika čtení přednášky... Používání informacetechnologie ...

  • M MONITOROVÁNÍ MÉDIÍ Modernizace odborného vzdělávání březen - srpen 2011

    souhrn

    ... 11 .08.2011 „Mrtvé duše-2“ v RNIMU jim ... 3,11 -3,44 ... ... veřejné přednášky vůdci ... Cheboksary... a čmárání přehledy publikum - ... informacesystémy a technika. ... Systém vzdělání, říká odborný asistent ... překladače ... části posílení skutečné obsah ...

Téma 6

FIREMNÍ INFORMAČNÍ SYSTÉMY PRO ZPRACOVÁNÍ EKONOMICKÝCH INFORMACÍ

Koncept firemní informační technologie

Podstata a význam podnikových informačních technologií

Mezi různými programy pro podnikání je termín „informační technologie v řízení společnosti“ tradičně chápán jako „integrované systémy automatizace řízení“. Známá jsou i jejich další jména - systémy podnikového měřítka, podnikové informační systémy (CIS), podnikové (nebo integrované) systémy řízení (KSU), automatizované řídicí systémy (ACS).

Komplexní systémy automatizace řízení jsou zpravidla „základními“ univerzálními řešeními vhodnými pro různé typy podniků, především finanční řízení, řízení zásob, řízení nákupu a prodeje. Ale stejné systémy často mají průmyslová řešení, která odrážejí jedno nebo více dalších specifik a obsahují vhodnou regulační a referenční základnu.

Například řešení systému SAP R / 3 pro letecký průmysl podporuje účtování a kontrolu sériových čísel všech letadlových částí, jejich životnost, plánovanou výměnu nebo opravu, což zajišťuje nejen spolehlivost výroby, ale také bezpečnost cestujících.

Protože se integrované systémy řízení primárně zaměřují na velké podniky obsahující multidisciplinární struktury, nabízejí nejen rozvinutou sadu funkcí, ale také poskytují spolehlivé ukládání a zpracování velkého množství informací pomocí výkonných platforem a systémových nástrojů pro práci více uživatelů. ..

Moderní informační technologie, komunikace a internet umožňují řešit problémy vzdáleného přístupu k jediné databázi, což je také důležité pro správu a řízení společnosti.

Koncept stavby

Ačkoli většina vývojářů nazývá své softwarové produkty manažerskými (podniky, sklady, finance atd.), V podstatě téměř všechny softwarové nástroje používané ve správě a řízení podniku zaznamenávají fakta a dokumenty o finančních a ekonomických aktivitách, účetních systémech se schopností vytváření sestav a odkazy v částech povolených analytickými funkcemi. To znamená, že do databáze se zadávají strukturované informace. Tato struktura je do určité míry stanovena propojenými referenčními knihami, klasifikátory, parametry a formami standardních dokumentů. Podle informací dostupných v databázi je takzvaný „řez“ „postaven“, „vytažen“, „shromážděn“ instrumentálními prostředky. Po obdržení zpráv a referencí, často nazývaných analytické zprávy, na základě těchto údajů může vedení rozhodovat. Toto je typický koncept a typická technologie pro práci se systémy dané třídy.



Není náhoda, že tak rozdílné ve funkčním obsahu, systémových řešeních, účelu a použití „manažerského“ softwaru, jako jsou „Galaxy“, „BEST“ a „1C: Enterprise“, jsou podobné v principech informační organizace, technologie jeho tvorba a zpracování, jakož i způsoby interakce se systémy.

Podniky, například OJSC „Uralelectromed“, však předložily tak přísné a rozmanité požadavky na nástroje správy a řízení společností, že je nutné je budovat na víceúrovňovém základě. Obvykle je jádro jádrem systému, který obsahuje pouze programové kódy. Dalším koncepčně důležitým prvkem je vestavěná sada nástrojů systému, která umožňuje beze změny programových kódů jej alespoň konfigurovat na pracovištích, provádět konkrétní operace, zadávat nové a měnit stávající formy primárních a vykazovacích dokumentů a používat jiné způsoby parametrické úpravy. Pokročilejší systémy mají vestavěné nástroje pro vytváření různých modelů podniku: informační, organizační, funkční atd. A nakonec i samotná databáze.

Zpracování analytických informací

Plánování činností podniku, získávání provozních informací a správné rozhodování na základě jejich analýzy je spojeno se zpracováním velkého množství dat. Sestavy generované v podnikových účetních systémech obvykle nejsou flexibilní. Nelze je „překroutit“, „rozbalit“ nebo „sbalit“, aby se dosáhlo požadované reprezentace dat, včetně grafických. Čím více „škrtů“ a „škrtů“ můžete udělat, tím realističtější si dokážete představit obraz podniku a učinit nejlepší rozhodnutí o řízení obchodních procesů. Pro tento druh úkolů je vyžadováno matematické a ekonomické modelování a také vysoký výkon. Analytický modul je k dispozici v systému „RepKo“, známější je systém „Triumph -Analytica“ („PARUS“ Corporation - „Torah Center“). Zdálo by se, že účetní systémy vytvářejí odkazy v různých „sekcích“ na základě informací uložených v databázi, jednoduše představují to, co je. A analytické systémy vytvářejí nové informace podle zadaných parametrů nebo kritérií a optimalizují je pro konkrétní účely. Proto častěji potřebujete speciální nástroj pro prohlížení a vizualizaci informací, což je online analytické zpracování (OLAP). Poskytuje sadu pohodlných a vysokorychlostních prostředků přístupu, prohlížení a vícerozměrné analýzy informací nahromaděných v úložišti.

Technologie OLAP se používají k modelování situace podle schématu „co kdyby…“ ak sestavování různých analytických zpráv. Existují specializované západní softwarové produkty.

Informace z podnikových systémů řízení se obvykle přenášejí do specializovaných programů pro zpracování analytických dat. Mnoho domácích vývojářů se pokouší vyřešit tyto problémy samostatně, například Nikos-Soft (systém NS-2000), Cepheus (systém řízení společnosti Etalon), KOMSOFT (KOMSOFT-STANDART "2.0) atd.

6.4. Vyhlídky na rozvoj a využívání podnikových informačních technologií

Kromě vývoje a používání moderních nástrojů a platforem a také systémových nástrojů předpokládá vývoj domácích podnikových systémů jejich funkční nasycení, zejména pokud jde o produkci.

Navzdory rozšířené vášni pro implementaci standardů správy vyvíjejí přední hráči na domácím softwarovém trhu průmyslová řešení pro různé typy průmyslových odvětví.

Obavy firem z odhalení „důvěrnosti“ jejich vývoje se snižují, což pomáhá konsolidovat jejich úsilí o integraci jejich produktů, místo aby vyvíjely vše od „a“ do „z“ samy. Dnes nemá nikdo dostatek zdrojů. Pochopit nový koncept, vyvinout projekt a systém, konkrétně systém, který mění svou kvalitu podle toho, co je v něm, trvá roky. Kromě toho požadavek na integraci softwarových produktů předkládají také podniky, které si přejí nadále „fungovat“ jako specializované systémy a informačně je kombinovat s nově získanými.

Integrace je také vyžadována u produktů od různých výrobců - ve jménu kombinace komplexních řešení se specializovanými:

- tvorba rozpočtu, finanční a ekonomická analýza, zákaznický servis, zpracování analytických dat atd.

Nutno podotknout, že slibnější nejsou samotné řídicí systémy, ale jednoduchý a univerzální nástroj pro jejich tvorbu, určený kvalifikovaným prostředníkům mezi vývojářem a koncovým uživatelem. Nyní se tyto funkce pokoušejí provádět správci systému a analytici.

Pokud je takový nástroj k dispozici, budou žádána „hotová“ standardní řešení pro všechny podniky ve všech průmyslových odvětvích.

Internet jako další nástroj pro rozvoj podnikání lze efektivně využívat pouze za přítomnosti integrovaného systému řízení.

Přestože moderní informační a komunikační technologie, včetně internetu, umožňují organizovat pronájem softwaru, je předčasné hovořit o blízké perspektivě využití takových příležitostí, zejména u nás. A ani ne tak z důvodů důvěrnosti, jako kvůli nedostatku pořádku a spolehlivých komunikačních prostředků.

Pokusy o implementaci a zkušenosti s používáním informačních technologií v domácích podnicích, i když ne zcela, v praxi prokázaly, že „chaos nelze automatizovat“. Je nutná předběžná reorganizace podniku a samotného podniku, jakož i konstrukce předpisů (pokynů) managementu. Pro zaměstnance podniku je obtížné vyrovnat se s takovou prací samostatně. Zvláště s ohledem na časový faktor v tržních podmínkách. Všude se proto vyvíjí praxe interakce s poradenskými společnostmi, které pomáhají podnikům a učí jejich zaměstnance „rozšiřovat úzká místa“, stanovit hlavní obchodní proces, vyvíjet technologie, budovat informační toky atd. Automatizace efektivního procesu je snazší, snazší, levnější a rychlejší.

Každý musí dělat svoji práci. Účetní, skladník, vedoucí prodeje a další „předmětní“ specialisté by neměli zlepšovat formu formulářů dokumentů, rozšiřovat sloupce ani měnit svá místa kvůli změnám v legislativě nebo obchodních schématech. Softwarový trh se proto postupně transformuje z „produktu“ na „servisní“. Outsourcing se začíná rozvíjet - přenos některých funkcí podniku na specialisty zapojených společností. Zabývají se údržbou zařízení, systémového softwaru, modifikací aplikované (funkční) části systémů atd.

Informační technologie a metodické služby pro jejich uživatele a spotřebitele se stávají nejdůležitějšími a nejaktuálnějšími při používání systémů podnikového řízení.

8.3.1. Nástroje pro on-line analytické zpracování (OLAP)

On-line analytické zpracování je prostředek operativního (v reálném čase) analytického zpracování informací zaměřených na podporu rozhodování a pomáhá analytikům odpovědět na otázku „Proč jsou objekty, prostředí a výsledky jejich interakce takové a ne jiné?“ V tomto případě analytik sám vytváří verze vztahu mezi sadou informací a kontroluje je na základě dostupných údajů v odpovídajících databázích strukturovaných informací.

ERP systémy se vyznačují přítomností analytických komponent jako součásti funkčních subsystémů. Poskytují tvorbu analytických informací v reálném čase. Tyto informace jsou základem většiny rozhodnutí vedení.

Technologie OLAP používají hyper kostky - speciálně strukturovaná data (jinak nazývaná OLAP kostky). V datové struktuře hyperkrychle se rozlišují následující:

Opatření - kvantitativní ukazatele (základy -požadavky) používané ke generování souhrnných statistických výsledků;

Dimenze - popisné kategorie (atributy -atributy), v jejichž kontextu jsou analyzována opatření.

Dimenze hyper kostky je určena počtem dimenzí pro jednu míru. HyperKrychle PRODEJ obsahuje například data:

Dimenze: spotřebitelé, data provozu, skupiny zboží, nomenklatura, úpravy, balení, sklady, druhy plateb, druhy zásilek, sazby, měna, organizace, oddělení, odpovědné, distribuční kanály, regiony, města;

Opatření: plánované množství, skutečné množství, plánovaná částka, skutečná částka, plánované platby, skutečné platby, plánovaný zůstatek, skutečný zůstatek, prodejní cena, doba realizace objednávky, částka vrácení peněz.

Taková hyper kostka je určena pro analytické zprávy:

Klasifikace spotřebitelů podle objemu nákupů;

Klasifikace zboží prodávaného metodou ABC;

Analýza podmínek provádění objednávek různých spotřebitelů;

Analýza objemu prodeje podle období, zboží a skupin zboží, regionů a spotřebitelů, interních oddělení, manažerů a prodejních kanálů;

Předpověď vzájemného vypořádání se spotřebiteli;

Analýza vracení zboží od spotřebitelů; atd.

Analytické zprávy mohou mít libovolnou kombinaci rozměrů a opatření, používají se k analýze rozhodnutí managementu. Analytické zpracování je zajištěno instrumentálními a lingvistickými prostředky. Ve veřejně dostupné tabulce MS Excel jsou prezentovány informační technologie „Kontingenční tabulky“, výchozí data pro jejich vytvoření jsou:

Seznam (databáze) MS Excel - relační tabulka;

Další kontingenční tabulka MS Excel;

Konsolidovaný rozsah buněk MS Excel umístěných ve stejných nebo různých sešitech;

Externí relační databáze nebo OLAP kostka, zdroj dat (soubory ve formátu .dsn, .ode).

K sestavení kontingenčních tabulek na základě externích databází použijte ovladače ODBC a také program MS Query. Souhrnná tabulka pro původní databázi MS Excel má následující strukturu (obr. 8.3).

Uspořádání kontingenční tabulky má následující datovou strukturu (obr. 8.4): rozměry - kód oddělení, pozice; opatření - pracovní zkušenosti, plat a bonus. Níže je souhrnná tabulka. 8.2, který vám umožní analyzovat vztah mezi průměrnou pracovní zkušeností a platem, průměrnou pracovní zkušeností a bonusy, platem a bonusy.

Tabulka 8.2

Kontingenční tabulka pro analýzu odkazů

Konec stolu. 8.2

Chcete -li pokračovat v analýze pomocí kontingenční tabulky, můžete:

Přidejte nové součty (například průměrný plat, průměrný bonus atd.);

Použijte filtrování záznamů a součtů kontingenční tabulky (například podle atributu "Pohlaví", který je umístěn v rozvržení v oblasti * Stránka ");

Vypočítejte strukturální ukazatele (například rozdělení mezd a bonusových prostředků podle divizí - pomocí dodatečného zpracování kontingenčních tabulek, podíl částky podle sloupce); atd.

Sada MS Office umožňuje publikovat tabulková data včetně kontingenčních tabulek a grafů ve formátu XTML.

Microsoft Office Web Components podporuje práci s publikovanými daty v aplikaci Internet Explorer, což umožňuje další analýzu (změny v datové struktuře kontingenční tabulky, výpočet nových souhrnných součtů).

8.3.2. Nástroje pro těžbu dat (DM)

Nástroje DM implikují extrakci („vykopávky“, „extrakce“) dat a jsou zaměřeny na identifikaci vztahu mezi informacemi uloženými v digitálních databázích podniku, které analytik může použít k sestavení modelů, které kvantifikují míru vlivu faktorů zájem. Kromě toho mohou být tyto nástroje užitečné pro vytváření hypotéz o možné povaze informačních vztahů v digitálních databázích podniku.

Technologie Text Mining (TM) je sada nástrojů, které vám umožňují analyzovat velké množství informací při hledání trendů, vzorců a vztahů, které vám mohou pomoci při strategickém rozhodování.

Technologie Image Mining (IM) obsahuje nástroje pro rozpoznávání a klasifikaci různých vizuálních obrazů uložených v databázích společnosti nebo získaných v důsledku online vyhledávání z externích informačních zdrojů.

K vyřešení problémů se zpracováním a ukládáním všech dat se používají následující přístupy:

1) vytvoření několika záložních systémů nebo jednoho distribuovaného systému pro správu dokumentů, které vám umožňují ukládat data, ale mají pomalý přístup k uloženým informacím na žádost uživatele;

2) konstrukce internetových systémů, které jsou vysoce flexibilní, ale nejsou přizpůsobeny pro provádění vyhledávání a ukládání textových dokumentů;

3) zavedení internetových portálů, které jsou dobře zacíleny na požadavky uživatelů, ale nemají popisné informace týkající se do nich načtených textových dat.

Systémy pro zpracování textu bez výše uvedených problémů lze rozdělit do dvou kategorií: systémy lingvistické analýzy a systémy pro analýzu textových dat.

Hlavní prvky technologie těžby textu jsou:

Shrnutí;

Extrakce funkcí

Shlukování

Klasifikace

Odpovídání na otázky (odpovídání na otázky);

Tematické indexování;

Hledání podle klíčových slov (vyhledávání podle klíčových slov);

Tvorba a údržba taxonomií a tezaurů.

Mezi softwarové produkty, které implementují technologii těžby textu, patří:

IBM Intelligent Miner for Text - sada jednotlivých nástrojů příkazového řádku nebo přeskočí; na sobě nezávislé (hlavní důraz je kladen na mechanismy dolování dat - vyhledávání informací);

Oracle InterMedia Text - sada integrovaná do DBMS, která vám umožní nejefektivněji pracovat s požadavky uživatelů (umožňuje pracovat s moderními relačními DBMS v kontextu komplexního víceúčelového vyhledávání a analýzy textových dat);

Megaputer Text Analyst je sada objektů COM zabudovaných do programu pro řešení úloh těžby textu.

8.3.3. Inteligentní informační technologie

Dnes v oblasti automatizace řízení dominuje informační analýza v předběžné fázi přípravy rozhodnutí - zpracování primárních informací, rozložení problémové situace, která umožňuje naučit se pouze fragmenty a detaily procesů, a nikoli situaci jako celek. Abychom tuto nevýhodu překonali, musíme se naučit budovat znalostní báze s využitím zkušeností nejlepších specialistů a generovat chybějící znalosti.

Využití informačních technologií v různých oblastech lidské činnosti, exponenciální růst objemu informací a potřeba rychlé reakce v jakýchkoli situacích vyžadovaly hledání adekvátních způsobů řešení vznikajících problémů. Nejúčinnější z nich je způsob intelektualizace informačních technologií.

Pod inteligentní informační technologie(ITT) je obvykle chápána jako taková informační technologie, která poskytuje následující možnosti:

Přítomnost znalostních základen odrážejících zkušenosti konkrétních lidí, skupin, společností, lidstva jako celku při řešení kreativních problémů v určitých oblastech činnosti, tradičně považovaná za výsadu lidské inteligence (například takové špatně formalizované úkoly, jako je rozhodování , návrh, extrakce významu, vysvětlení, školení atd.);

Přítomnost modelů myšlení založených na znalostních základech: pravidla a logické závěry, argumentace a uvažování, rozpoznávání a klasifikace situací, generalizace a porozumění atd .;

Schopnost formulovat celkem jasná rozhodnutí na základě fuzzy, volných, neúplných, podhodnocených dat;

Schopnost vysvětlit závěry a rozhodnutí, tj. přítomnost mechanismu vysvětlení;

Schopnost učit se, rekvalifikovat se a proto se rozvíjet.

Technologie neformálního vyhledávání skrytých vzorců v datech a informacích Knowledge Discovery (KD) vychází z nejnovějších technologií pro tvorbu a strukturování informačních obrazů objektů, které má nejblíže k principům zpracování informací inteligentními systémy.

Informační technologie pro rozhodovací podporu (DS) je expertní prostředí.

systémy nebo specializované expertní systémy, které umožňují analytikům určit vztahy a vztahy mezi informačními strukturami na základech strukturovaných informací podniku a také předvídat možné výsledky rozhodování.

Trendy vývoje IIT. Komunikace a komunikační systémy. Globální informační sítě a IIT mohou radikálně změnit naše chápání společností a samotné duševní práce. Přítomnost zaměstnanců na pracovišti se stane téměř zbytečnou. Lidé mohou pracovat z domova a vzájemně komunikovat podle potřeby prostřednictvím sítí. Známá je například úspěšná zkušenost s vytvořením nové modifikace letadla Boeing-747 distribuovaným týmem specialistů interagujících přes internet. Umístění účastníků v jakémkoli vývoji bude hrát stále menší roli, ale význam úrovně kvalifikace účastníků se zvýší. Další důvod, který určoval rychlý rozvoj IIT, je spojen s komplikací komunikačních systémů a úkoly řešenými na jejich základě. Trvalo to kvalitativně novou úroveň „intelektualizace“ takových softwarových produktů, jako jsou systémy pro analýzu heterogenních a nestriktních dat, zajištění informační bezpečnosti, rozhodování v distribuovaných systémech atd.

Vzdělání... Již dnes začíná ve vzdělávání hrát důležitou roli distanční vzdělávání a zavedení IIT tento proces výrazně individualizuje v souladu s potřebami a schopnostmi každého studenta.

Každodenní život... Informatizace každodenního života již začala, ale s rozvojem IIT se objeví zásadně nové příležitosti. Postupně se do počítače přenesou všechny nové funkce: kontrola zdravotního stavu uživatele, ovládání domácích spotřebičů, jako jsou zvlhčovače vzduchu, osvěžovače vzduchu, ohřívače, ionizátory, hudební centra, lékařská diagnostika atd. Jinými slovy, systémy se také stanou diagnostiky stavu člověka a jeho domova. V prostorách bude k dispozici pohodlný informační prostor, kde se informační prostředí stane součástí prostředí člověka.

Vyhlídky na rozvoj IIT... Zdá se, že v současné době se IIT přiblížily k zásadně nové fázi svého vývoje. Za posledních 10 let se tedy možnosti IIT výrazně rozšířily díky vývoji nových typů logických modelů, vzniku nových

z teorií a konceptů. Klíčové body ve vývoji IIT jsou:

Přechod od logického závěru k modelům argumentace a uvažování;

Hledejte relevantní znalosti a generujte vysvětlení;

Porozumění a syntéza textů;

Kognitivní grafika, tj. grafické a obrazové prezentace znalostí;

Multi-agent systémy;

Inteligentní síťové modely;

Výpočty založené na fuzzy logice, neuronových sítích, genetických algoritmech, pravděpodobnostních výpočtech (implementovány v různých kombinacích navzájem a s expertními systémy);

Problém meta-znalostí.

Systémy s více agenty se staly novým paradigmatem pro vytváření slibných IIT. Zde se předpokládá, že agent je nezávislý intelektuální systém, který má svůj vlastní systém stanovování cílů a motivace, vlastní oblast činnosti a odpovědnosti. Interakce mezi agenty je zajištěna systémem vyšší úrovně - metaintelligence. V systémech s více agenty je modelována virtuální komunita inteligentních agentů - objekty, které jsou autonomní, aktivní, vstupují do různých sociálních vztahů - spolupráce a spolupráce (přátelství), konkurence, konkurence, nepřátelství atd. Sociální aspekt řešení moderních problémů je základním rysem koncepční novosti pokročilých intelektuálních technologií - virtuální organizace, virtuální společnost.

(?) Kontrolní otázky a úkoly

1. Uveďte popis podniku jako předmětu informatizace. Jaké jsou hlavní ukazatele charakterizující vývoj systému řízení podniku?

2. Vyjmenujte vedoucí management informačních technologií v průmyslových podnicích.

3. Jaké jsou hlavní informační technologie organizačního a strategického rozvoje podniků (korporací).

4. Jaké jsou základy standardů pro strategické řízení zaměřené na zlepšování obchodních procesů? Jaký je poměr informačních technologií BPM a BPI?

5. Definujte filozofii celkového řízení kvality (TQM). Jak spolu souvisí fáze vývoje kvality a informačních technologií?

6. Vyjmenujte hlavní ustanovení organizačního rozvoje podniku, popište etapy strategického řízení. Jaké jsou skupinové strategie?

7. Jak se vytváří obchodní model podniku? Jaké jsou hlavní přístupy k hodnocení účinnosti obchodního modelu?

8. Co je to vyvážená výsledková listina? Jaké jsou hlavní součásti BSC? Jaké jsou vzájemné vztahy skupin indikátorů BSC?

9. Vyjmenujte metodické základy pro tvorbu informačních systémů. Co je to systémový přístup?

10. Co je to informační přístup k formování informačních systémů a technologií?

11. Co je to strategický přístup k formování informačních systémů a technologií?

12. Co je obsahem objektově orientovaného přístupu k popisu chování agentů na trhu? Uveďte definici objektu, označte analogy agentových systémů.

13. Jaké jsou metodické zásady pro zlepšení řízení podniku založeného na informačních a komunikačních technologiích? Jaký je účel ICT?

14. Uveďte definice dokumentu, tok dokumentů, tok dokumentů, systém správy dokumentů.

15. Jak je navrženo rozložení formuláře dokumentu? Pojmenujte zóny dokumentu, složení jejich podrobností.

16. Jaké jsou základní informační technologie systému správy dokumentů.

17. Co je to jednotný dokumentační systém? Jaké jsou obecné zásady sjednocení?

18. Popište organizační a administrativní dokumentaci, poskytněte příklady dokumentů.

19. Jaké jsou požadavky na systém elektronické správy dokumentů?

20. Co je to podnikový informační systém? Jaké jsou hlavní řídicí smyčky, složení funkčních modulů.

21. Pojmenujte softwarové produkty, které jsou vám známé pro CIS. Uveďte jejich srovnávací charakteristiky.

W literatura

1. Vraťte J., Moriarty S. Marketingová komunikace. Integrovaný přístup. SPb.; Charkov: Peter, 2001.

2. Brooking E. Intelektuální kapitál. Klíč k úspěchu v novém tisíciletí. SPb.: Peter, 2001.

3. Godin V.V., Korpev I.K. Správa informačních zdrojů. M.: INFRA-M, 1999.

4. Informační systémy a technologie v ekonomii: Učebnice. 2. vyd., Přidat. a revidováno / M.I. Semenov, I.T. Trubilin, V.I. Loiko, T.P. Baranovská; Ed. IN AND. Loiko. Moskva: Finance a statistika, 2003.

5. Informační technologie v podnikání / Ed. M. Zheleny. SPb.: Peter, 2002.

6. Kaplan Robert S., Norton David P. Balanced Scorecard. Od strategie k akci / Per. z angličtiny M.: CJSC „Olymp-Business“, 2003.

7. Karagodin V.I., Karagodina BJI. Informace jako základ života. Dubna: Phoenix, 2000.

8. Karminsky AM., Nesterov PZ. Informatizace podnikání. Moskva: Finance a statistika, 1997.

9. Likhacheva T.N. Informační technologie ve službách informační společnosti // Nové informační technologie v ekonomických systémech. M., 1999.

10. Ostreykovsky V.A. Teorie systémů. M.: Vyšší škola, 1997.

11. Piterkin S.V., Oladov N.A., Isaev D.V. Právě včas do Ruska. Praxe používání systémů ERP. 2. vyd. M.: Alpina Publisher, 2003.

12. Sokolov D.V. Úvod do teorie sociální komunikace: Učebnice. příspěvek. SPb.: Nakladatelství SP6GUP, 1996.

13. Trofimov V.Z., Tomilov V.Z. Informační a komunikační technologie v managementu: Učebnice. příspěvek. St. Petersburg: Nakladatelství St. Petersburg State University of Economics, 2002.

Moderní úroveň vývoje hardwaru a softwaru již nějakou dobu umožňuje rozsáhlé udržování databází provozních informací na různých úrovních řízení. Průmyslové podniky, korporace, resortní struktury, vládní orgány a správní orgány během své činnosti nashromáždily velké množství dat. Uchovávají v sobě velký potenciál pro získávání užitečných analytických informací, na jejichž základě je možné identifikovat skryté trendy, vytvořit strategii rozvoje a najít nová řešení.

V posledních letech se ve světě zformovala řada nových konceptů pro ukládání a analýzu podnikových dat:

1) Datové sklady

2) On-line analytické zpracování (OLAP)

3) Data mining - IAD (Data Mining)

OLAP systémy pro zpracování analytických dat jsou systémy pro podporu rozhodování zaměřené na plnění složitějších dotazů, které vyžadují statistické zpracování historických dat nashromážděných za určité časové období. Slouží k přípravě obchodních zpráv o prodeji, marketingu pro účely správy, takzvané Data Mining - data mining, tj. způsob analýzy informací v databázi za účelem nalezení anomálií a trendů bez zjištění smyslu záznamů.

Analytické systémy založené na OLAP zahrnují nástroje pro zpracování informací založené na metodách umělé inteligence a nástroje pro prezentaci grafických dat. Tyto systémy jsou určeny velkým objemem historických dat, což z nich umožňuje extrahovat smysluplné informace, tj. získat znalosti z dat.

Efektivity zpracování je dosaženo použitím výkonné víceprocesorové technologie, sofistikovaných analytických metod a specializovaných datových úložišť.

Relační databáze ukládají entity do samostatných tabulek, které jsou obvykle dobře normalizované. Tato struktura je vhodná pro operační databáze (systémy OLTP), ale složité dotazy s více tabulkami jsou v ní relativně pomalé. Lepším modelem pro dotazy než pro úpravy je prostorová databáze.

Systém OLAP pořídí snímek relační databáze a strukturuje jej do prostorového modelu pro dotazy. Nárokovaná doba zpracování pro dotazy v OLAP je asi 0,1% podobných dotazů v relační databázi.

Rámec OLAP vytvořený z provozních dat se nazývá krychle OLAP. Kostka se vytvoří spojením tabulek pomocí hvězdicového schématu. Uprostřed „hvězdy“ je tabulka faktů, která obsahuje klíčová fakta, na která je třeba se ptát. K tabulce faktů jsou připojeny tabulky více dimenzí. Tyto tabulky ukazují, jak lze agregovaná relační data analyzovat. Počet možných agregací je určen počtem způsobů, kterými lze původní data hierarchicky zobrazit.

Dané třídy systémů (OLAP a OLTP) jsou založeny na použití DBMS, ale typy dotazů se velmi liší. Motor OLAP je dnes jednou z nejpopulárnějších metod analýzy dat. K řešení tohoto problému existují dva hlavní přístupy. První z nich se nazývá Multidimenzionální OLAP (MOLAP) - implementace mechanismu pomocí vícerozměrné databáze na straně serveru a druhá je Relational OLAP (ROLAP) - vytváření kostek „za běhu“ na základě SQL dotazů na relační DBMS. Každý z těchto přístupů má své výhody a nevýhody. Obecné schéma stolního systému OLAP lze znázornit na obr.

Algoritmus práce je následující:

1) získání dat ve formě ploché tabulky nebo výsledku provedení dotazu SQL;

2) ukládání dat do mezipaměti a jejich převod do vícerozměrné krychle;

3) zobrazení sestrojené krychle pomocí křížové tabulky nebo diagramu atd.

K jedné krychli lze obecně připojit libovolný počet displejů. Displeje používané v systémech OLAP jsou nejčastěji dvou typů: kontingenční tabulky a grafy.

Hvězdný diagram. Jeho myšlenkou je, že pro každou dimenzi existují tabulky a všechna fakta jsou umístěna v jedné tabulce, indexované pomocí více klíčů složených z klíčů jednotlivých dimenzí. Každý paprsek schématu hvězdy definuje v Coddově terminologii směr konsolidace dat podél odpovídající dimenze.

Ve složitých problémech s víceúrovňovými dimenzemi má smysl obrátit se na rozšíření hvězdného schématu - schéma souhvězdí a schéma sněhové vločky. V těchto případech jsou vytvořeny samostatné tabulky faktů pro možné kombinace souhrnných úrovní různých dimenzí. To umožňuje lepší výkon, ale často to vede k redundanci dat a značným komplikacím ve struktuře databáze, která obsahuje obrovské množství tabulek faktů.

diagram souhvězdí

Zpracování analytických dat - Jedná se o analýzu dat, která vyžaduje vhodnou metodickou podporu a určitou úroveň školení odborníků.

Moderní informační technologie umožňují automatizovat procesy analýzy nahromaděných primárních informací, vytvářet analytické modely, získávat hotová řešení a používat je v praxi. Hlavní požadavky , které jsou prezentovány metodám analýzy, jsou účinnost, jednoduchost, automatismus. Tento koncept je základem dvou moderních technologií: dolování dat a zjišťování znalostí v databázích (KDD).

Těžba dat - je to proces objevování v nezpracovaných datech dříve neznámých, netriviálních, prakticky užitečných a přístupných interpretací znalostí nezbytných pro rozhodování v různých sférách lidské činnosti (definice G. Pyatetsky-Shapiro, jeden ze zakladatelů tohoto směru) .

Technologie Data Mining je zaměřena na hledání nejasných vzorů. Fáze analýzy dat jsou:

  • 1) klasifikace ( klasifikace) - detekce funkcí, které charakterizují skupiny objektů studované datové sady - třídy. Metody řešení použité pro klasifikační problém: metody nejbližšího souseda ( nejbližší soused) a ^ ‘- nejbližší soused ( k -nejbližší soused) -, Bayesovské sítě (Bayesovské sítě) -, indukce rozhodovacích stromů; neuronové sítě (neuronové sítě) -,
  • 2) shlukování (shlukování)- rozdělení objektů do skupin, protože třídy objektů nejsou původně definovány. Příklad metody řešení problému shlukování: samoorganizující se Kohonenovy mapy - neurální síť s učením bez dozoru. Důležitou vlastností těchto map je jejich schopnost zobrazovat vícerozměrné prostorové prvky v rovině, prezentující data ve formě dvojrozměrné mapy;
  • 3) sdružení (asociace)- identifikace vzorů mezi souvisejícími událostmi v datové sadě. Tyto vzorce nejsou odhaleny na základě vlastností analyzovaného objektu, ale mezi několika událostmi, ke kterým dochází současně, například Aprioriho algoritmus;
  • 4) sekvence (sekvence), nebo sekvenční asociace (sekvenční asociace),- hledat časové vzorce mezi transakcemi, tj. vzory nejsou stanoveny mezi současně se vyskytujícími událostmi, ale mezi událostmi spojenými v čase. Asociace jsou sekvence s časovým zpožděním nula. Pravidlo sekvenování: po události X po určité době nastane událost Y;
  • 5) předpovídání (předpovídání) - je postaven na základě vlastností historických dat, tj. existuje hodnocení vynechaných nebo budoucích hodnot cílových numerických ukazatelů. K řešení problémů s předpovídáním se používají metody matematické statistiky, neuronové sítě atd.;
  • 6) stanovení odchylek nebo odlehlých hodnot (detekce odchylek), analýza odchylek nebo odlehlých hodnot - detekce a analýza dat, která se nejvíce liší od obecného souboru dat;
  • 7) hodnocení (odhad)- předpovídání spojitých hodnot prvku;
  • 8) analýza odkazů (analýza odkazu)- úkol najít závislosti v datové sadě;
  • 9) vizualizace (vizualizace, graf mining)- vytvoření grafického obrazu analyzovaných dat. K zobrazení přítomnosti vzorků v datech se používají grafické metody, například prezentace dat ve 2D a 3D rozměrech;
  • 10) shrnutí ( shrnutí) - popis konkrétních skupin objektů z analyzované datové sady.

KDD je proces získávání užitečných znalostí ze sbírky dat. Tato technologie zahrnuje následující problémy: příprava dat, výběr informačních funkcí, čištění dat, aplikace metod Data Mining (DM), následné zpracování dat a interpretace výsledků.

Proces zjišťování znalostí v databázích se skládá z následujících kroků:

  • 1) prohlášení o problému - analýza uživatelských úkolů a funkcí oblasti aplikace, výběr sady vstupních a výstupních parametrů;
  • 2) příprava počátečního souboru dat - vytvoření datového skladu a uspořádání schématu pro sběr a aktualizaci dat;
  • 3) předzpracování dat - na základě použití metod Data Mining, z pohledu této metody musí být data vysoce kvalitní a správná;
  • 4) transformace, normalizace dat - přivedení informací do formy vhodné pro následnou analýzu;
  • 5) Data Mining - automatická analýza dat založená na použití různých algoritmů pro hledání znalostí (neuronové sítě, rozhodovací stromy, shlukovací algoritmy, vytváření asociací atd.);
  • 6) následné zpracování dat - interpretace výsledků a aplikace znalostí získaných v obchodních aplikacích.