Koncept data miningu se stal populárním v. Přihlášení k dolování dat na Wiki

Odeslat svou dobrou práci do znalostní báze je jednoduché. Použijte níže uvedený formulář

Studenti, postgraduální studenti, mladí vědci, kteří využívají znalostní základnu ve svém studiu a práci, vám budou velmi vděční.

Podobné dokumenty

Klasifikace úloh DataMiningu. Tvorba reportů a přehledů. Vlastnosti Data Mineru ve Statistice. Problém klasifikace, shlukování a regrese. Analytické nástroje Statistica Data Miner. Podstatou problému je hledání asociačních pravidel. Analýza prediktorů přežití.

semestrální práce, přidáno 19.05.2011

Popis funkčnost technika data mining jako procesy pro objevování neznámých dat. Studium inferenčních systémů asociačních pravidel a mechanismů algoritmů neuronových sítí. Popis shlukovacích algoritmů a rozsahů dolování dat.

test, přidáno 14.06.2013

Základy shlukování. Využití Data Miningu jako způsobu „objevování znalostí v databázích“. Volba shlukovacích algoritmů. Načítání dat ze vzdáleného úložiště databáze dílen. Shlukování studentů a úkolů.

semestrální práce, přidáno 7.10.2017

Data mining, vývojová historie data miningu a objevování znalostí. Technologické prvky a metody dolování dat. Kroky v objevování znalostí. Detekce změn a odchylek. Související obory, vyhledávání informací a extrakce textu.

zpráva, přidáno 16.06.2012

Analýza problémů vznikajících při aplikaci shlukovacích metod a algoritmů. Základní shlukovací algoritmy. RapidMiner jako prostředí pro strojové učení a analýzu dat. Posouzení kvality shlukování pomocí metod dolování dat.

semestrální práce, přidáno 22.10.2012

Zdokonalování technologií pro záznam a ukládání dat. Specifičnost moderních požadavků na zpracování informačních dat. Koncept vzorů odrážejících fragmenty vícerozměrných vztahů v datech je jádrem moderní technologie Data Mining.

test, přidáno 09.02.2010

Analýza využití neuronových sítí k predikci situace a rozhodování na akciovém trhu pomocí softwarový balík modelování neuronové sítě Trajan 3.0. Transformace primárních dat, tabulky. Ergonomické posouzení programu.

práce, přidáno 27.06.2011

Obtíže při používání evolučních algoritmů. Konstrukce výpočetních systémů založených na principech přirozeného výběru. Nevýhody genetických algoritmů. Příklady evolučních algoritmů. Směry a úseky evolučního modelování.

vyšší úroveň

1. Přímé použití údajů, popř ukládání dat.

V tomto případě jsou počáteční data uložena v explicitní podrobné formě a jsou přímo použita ve fázích a / nebo analýza výjimek. Problémem této skupiny metod je, že při jejich použití může být obtížné analyzovat velmi rozsáhlé databáze.

Metody této skupiny: shluková analýza, metoda nejbližšího souseda, metoda k-nejbližšího souseda, uvažování analogií.

2. Identifikace a použití formalizovaných vzory nebo šablonová destilace.

S technologií destilační vzory jeden vzorek (šablona) informace je extrahován ze zdrojových dat a převeden do nějakých formálních konstrukcí, jejichž podoba závisí na použité metodě dolování dat. Tento proces se provádí ve fázi bezplatné vyhledávání, první skupina metod toto stadium v zásadě postrádá. Na jevištích prediktivní modelování a analýza výjimek jsou použity výsledky etapy bezplatné vyhledávání, jsou mnohem kompaktnější než samotné databáze. Připomeňme, že konstrukce těchto modelů mohou být interpretovatelné analytikem nebo neinterpretovatelné („černé skříňky“).

Metody této skupiny: logické metody ; metody vizualizace; křížové metody; metody založené na rovnicích.

Logické metody nebo metody logické indukce zahrnují: fuzzy dotazy a analýzy; symbolická pravidla; rozhodovací stromy; genetické algoritmy.

Metody této skupiny jsou snad nejinterpretovatelnější – nalezené vzory vykreslují ve většině případů z uživatelského hlediska poměrně transparentní. Výsledná pravidla mohou obsahovat spojité a diskrétní proměnné. Je třeba poznamenat, že rozhodovací stromy lze snadno převést na sady symbolických pravidel vygenerováním jednoho pravidla podél cesty od kořene stromu k jeho terminální vrchol. Rozhodovací stromy a pravidla jsou ve skutečnosti různé způsobyřešení stejného problému a liší se pouze svými schopnostmi. Navíc implementace pravidel je prováděna pomalejšími algoritmy než indukce rozhodovacích stromů.

Cross-tab metody: agenti, Bayesovské (důvěryhodné) sítě, cross-tab vizualizace. Poslední metoda zcela neodpovídá jedné z vlastností Data Miningu – nezávislému vyhledávání vzory analytický systém. Poskytování informací formou křížových záložek však zajišťuje realizaci hlavního úkolu Data Miningu – hledání vzorů, proto lze i tuto metodu považovat za jednu z metod Data Miningu.

Metody založené na rovnicích.

Metody této skupiny vyjadřují odhalené zákonitosti formou matematických výrazů – rovnic. Mohou tedy pracovat pouze s číselnými proměnnými a proměnné jiných typů je nutné odpovídajícím způsobem zakódovat. To poněkud omezuje aplikaci metod této skupiny, nicméně jsou široce používány při řešení různých problémů, zejména problémů prognózování.

Hlavní metody této skupiny: statistické metody a neuronové sítě

K řešení prognostických problémů se nejčastěji používají statistické metody. Metod statistické analýzy dat je mnoho, mezi ně patří například korelační a regresní analýza, korelace časových řad, identifikace trendů v časových řadách, harmonická analýza.

Další klasifikace rozděluje celou škálu metod dolování dat do dvou skupin: statistické a kybernetické metody. Toto separační schéma je založeno na různých učebních přístupech matematické modely.

Je třeba poznamenat, že existují dva přístupy ke klasifikaci statistických metod jako dolování dat. První se staví proti statistickým metodám a Data Miningu, jeho zastánci považují klasické statistické metody za samostatnou oblast analýzy dat. Podle druhého přístupu jsou metody statistické analýzy součástí matematické sady nástrojů Data Mining. Většina autoritativních zdrojů volí druhý přístup.

V této klasifikaci se rozlišují dvě skupiny metod:

statistické metody založené na využití průměrných nashromážděných zkušeností, které se promítají do retrospektivních údajů;
kybernetických metod, včetně mnoha heterogenních matematických přístupů.

Nevýhodou takové klasifikace je, že jak statistické, tak kybernetické algoritmy tak či onak spoléhají na srovnání statistických zkušeností s výsledky sledování aktuální situace.

Výhodou takové klasifikace je její výhodnost pro interpretaci – používá se při popisu matematických prostředků moderního přístupu k extrahování znalostí z polí počátečních pozorování (provozních a retrospektivních), tzn. v úlohách Data Mining.

Podívejme se blíže na výše uvedené skupiny.

Statistické metody Data mining

V těchto metodách jsou čtyři vzájemně propojené sekce:

předběžná analýza charakteru statistických dat (testování hypotéz stacionarity, normality, nezávislosti, homogenity, hodnocení typu distribuční funkce, jejích parametrů atd.);
identifikaci odkazů a vzory(lineární a nelineární regresní analýza, korelační analýza atd.);
vícerozměrná statistická analýza (lineární a nelineární diskriminační analýza, shluková analýza, komponentová analýza, faktorová analýza atd.);
dynamické modely a předpověď na základě časových řad.

Arzenál statistických metod Data Mining se dělí do čtyř skupin metod:

Popisná analýza a popis výchozích dat.
Vztahová analýza (korelační a regresní analýza, faktorová analýza, analýza rozptylu).
Vícerozměrná statistická analýza (složková analýza, diskriminační analýza, vícerozměrná regresní analýza, kanonické korelace atd.).
Analýza časových řad ( dynamické modely a prognózování).

Kybernetické metody dolování dat

Druhým směrem Data Miningu je soubor přístupů, které spojuje myšlenka počítačové matematiky a využití teorie umělé inteligence.

Co je dolování dat

Firemní databáze každého moderního podniku obvykle obsahuje sadu tabulek, které uchovávají záznamy o určitých skutečnostech nebo objektech (například o produktech, jejich prodejích, zákaznících, fakturách). Každý záznam v takové tabulce zpravidla popisuje určitý objekt nebo skutečnost. Například záznam v tabulce prodejů odráží skutečnost, že ten a ten produkt byl v té době prodán tomu a takovému klientovi takovým a takovým manažerem a celkově neobsahuje nic jiného než tyto informace. Nicméně agregát velký počet takové záznamy nashromážděné za několik let se mohou stát zdrojem dalších, mnohem cennějších informací, které nelze získat na základě jednoho konkrétního záznamu, konkrétně informací o vzorcích, trendech nebo vzájemných závislostech mezi jakýmikoli daty. Příklady takových informací jsou informace o tom, jak závisí prodej konkrétního produktu na dni v týdnu, denní době nebo sezóně, které kategorie kupujících nejčastěji nakupují konkrétní produkt, která část kupujících jednoho konkrétního produktu nakupuje jiný konkrétní produkt. produkt, která kategorie zákazníků nejčastěji nesplácí úvěr včas.

Tento druh informací se obvykle používá v prognózách, strategickém plánování, analýze rizik a jejich hodnota pro podnik je velmi vysoká. Zřejmě proto byl proces hledání nazván Data Mining (dolování v angličtině znamená „dolování“ a hledání vzorů v obrovském souboru skutečných dat je tomu skutečně podobné). Termín dolování dat neodkazuje ani tak na konkrétní technologii, jako na samotný proces hledání korelací, trendů, vztahů a vzorců pomocí různých matematických a statistických algoritmů: shlukování, podvzorkování, regrese a korelační analýzy. Účelem tohoto vyhledávání je prezentovat data ve formě, která jasně odráží obchodní procesy, a také sestavit model, který lze použít k predikci procesů, které jsou kritické pro obchodní plánování (například dynamika poptávky po určitém zboží nebo služeb nebo závislost jejich nákupu na určitých potom spotřebitelských vlastnostech).

Všimněte si, že tradiční matematická statistika, která po dlouhou dobu zůstávala hlavním nástrojem pro analýzu dat, stejně jako nástroje pro online analytické zpracování (OLAP), o kterých jsme již psali mnohokrát (viz materiály k tomuto tématu na našem CD) , mohou ne vždy úspěšně použít k řešení takových problémů. K testování předem formulovaných hypotéz se obvykle používají statistické metody a OLAP. Mnohdy se však nejvíce ukazuje formulace hypotézy náročný úkol při implementaci obchodní analýzy pro následné rozhodování, protože ne všechny vzory v datech jsou na první pohled zřejmé.

Základem moderní technologie dolování dat je koncept vzorů, které odrážejí vzory obsažené v dílčích vzorcích dat. Vzory jsou prohledávány metodami, které nepoužívají žádné apriorní předpoklady o těchto dílčích vzorcích. Zatímco statistické analýzy nebo aplikace OLAP obvykle formulují otázky typu „Jaký je průměrný počet nezaplacených faktur zákazníky za tuto službu?“ . Právě odpověď na druhou otázku přitom často poskytuje netriviálnější přístup k marketingové politice a organizaci práce s klienty.

Důležitou vlastností Data Miningu je nestandardnost a nesrozumitelnost hledaných vzorů. Jinými slovy, nástroje Data Mining se liší od nástrojů pro statistické zpracování dat a nástrojů OLAP v tom, že místo kontroly vzájemných závislostí, které uživatelé předpokládají, jsou schopni tyto vzájemné závislosti na základě dostupných dat sami najít a vytvořit hypotézy o jejich povaze.

Je třeba poznamenat, že použití nástrojů pro dolování dat nevylučuje použití statistických nástrojů a nástrojů OLAP, protože výsledky zpracování dat pomocí těchto nástrojů zpravidla přispívají k lepšímu pochopení povahy vzorců, které by měly být hledán.

Počáteční data pro dolování dat

Využití Data Miningu má své opodstatnění, pokud je k dispozici dostatečně velké množství dat, ideálně obsažených ve správně navrženém datovém skladu (ve skutečnosti samotné datové sklady jsou obvykle vytvářeny pro řešení problémů s analýzou a prognózováním souvisejících s podporou rozhodování). Opakovaně jsme také psali o principech budování datových skladů; příslušné materiály naleznete na našem CD, takže se touto problematikou nebudeme zdržovat. Připomínáme pouze, že data v úložišti jsou doplněným souborem, společným pro celý podnik a umožňující kdykoli obnovit obraz o jeho činnosti. Všimněte si také, že datová struktura úložiště je navržena tak, aby provádění dotazů do ní bylo prováděno co nejefektivněji. Existují však nástroje Data Mining, které umí hledat vzory, korelace a trendy nejen v datových skladech, ale také v OLAP kostkách, tedy v sadách předzpracovaných statistických dat.

Typy vzorů odhalené metodami dolování dat

Podle V.A.Dyuka existuje pět standardních typů vzorů identifikovaných metodami dolování dat:

Asociace - vysoká pravděpodobnost vzájemného propojení událostí (například jeden produkt je často nakupován společně s jiným);

Sekvence - vysoká pravděpodobnost řetězce událostí souvisejících v čase (například během určitého období po zakoupení jednoho produktu bude s vysokou mírou pravděpodobnosti zakoupen další);

Klasifikace - existují znaky, které charakterizují skupinu, do které ta či ona událost nebo objekt patří (obvykle jsou určitá pravidla formulována na základě analýzy již klasifikovaných událostí);

Shlukování je vzor podobný klasifikaci a liší se od něj tím, že samotné skupiny se v tomto případě nenastavují – jsou detekovány automaticky při zpracování dat;

Časové vzorce – přítomnost vzorců v dynamice chování určitých dat (typickým příkladem jsou sezónní výkyvy poptávky po určitém zboží nebo službách) používaných pro prognózování.

Metody dolování dat v dolování dat

V dnešní době existuje poměrně velké množství různých metod dolování dat. Na základě výše uvedené klasifikace navržené V.A. Dyukem mezi ně patří:

Regresní, disperzní a korelační analýza (implementovaná ve většině moderních statistických balíčků, zejména v produktech SAS Institute, StatSoft atd.);

Metody analýzy v konkrétní oblasti založené na empirických modelech (často používané např. v levných nástrojích finanční analýzy);

Algoritmy neuronové sítě, jejichž myšlenka je založena na analogii s fungováním nervové tkáně a spočívá v tom, že počáteční parametry jsou považovány za signály, které jsou transformovány v souladu se stávajícími spojeními mezi „neurony“, a jako odpověď vyplývající z analýzy odezva celé sítě na počáteční data. Odkazy jsou v tomto případě vytvářeny pomocí tzv. síťového učení prostřednictvím velkého vzorku obsahujícího jak původní data, tak správné odpovědi;

Algoritmy - volba blízké analogie původních dat z již dostupných historických dat. Také se nazývá metoda nejbližšího souseda;

Rozhodovací stromy – hierarchická struktura založená na sadě otázek, implikující odpověď „Ano“ nebo „Ne“; Ačkoli tudy zpracování dat ne vždy ideálně najde existující vzory, je poměrně často používáno v prognostických systémech kvůli jasnosti obdržené odpovědi;

Clusterové modely (někdy také nazývané segmentační modely) se používají k seskupování podobných událostí do skupin na základě podobných hodnot několika polí v datové sadě; jsou také velmi oblíbené při vytváření předpovědních systémů;

Omezené vyhledávací algoritmy, které počítají frekvence kombinací jednoduchých logických událostí v podskupinách dat;

Evoluční programování - hledání a generování algoritmu, který vyjadřuje vzájemnou závislost dat, na základě původně specifikovaného algoritmu, upraveného v procesu vyhledávání; někdy je hledání vzájemných závislostí prováděno mezi některými určitými typy funkcí (například polynomy).

Více o těchto a dalších algoritmech dolování dat, stejně jako o nástrojích, které je implementují, si můžete přečíst v knize „Data Mining: výcvikový kurz»V.A.Dyuk a A.P.Samoilenko, vydané nakladatelstvím "Piter" v roce 2001. Dnes je to jedna z mála knih v ruštině věnovaných tomuto problému.

Přední výrobci nástrojů pro dolování dat

Nástroje pro dolování dat, stejně jako většina nástrojů Business Intelligence, patří tradičně k drahým softwarovým nástrojům - cena některých z nich dosahuje několika desítek tisíc dolarů. Proto byly donedávna hlavními spotřebiteli této technologie banky, finanční a pojišťovací společnosti, velké obchodní podniky a za hlavní úkoly vyžadující využití Data Miningu bylo považováno hodnocení úvěrových a pojistných rizik a rozvoj marketingového politika, tarifní plány a další zásady práce s klienty. V posledních letech prošla situace určitými změnami: trh software objevily se relativně levné nástroje pro dolování dat od několika dodavatelů, které zpřístupnily tuto technologii malým a středním podnikům, které o ní nikdy předtím neuvažovaly.

Mezi moderní nástroje Business Intelligence patří generátory sestav, analytické zpracování data, nástroje pro vývoj BI (BI Platforms) a takzvané Enterprise BI Suites – celopodnikové nástroje pro analýzu a zpracování dat, které umožňují provádět sadu akcí souvisejících s analýzou dat a sestavováním a často zahrnují integrovanou sadu BI nástroje a nástroje pro vývoj aplikací BI. Ty zpravidla obsahují jak reportovací nástroje, tak nástroje OLAP a často nástroje Data Mining.

Podle analytiků Gartner Group jsou Business Objects, Cognos, Information Builders lídry na trhu podnikové analýzy a zpracování dat a Microsoft a Oracle si rovněž nárokují vedoucí postavení (obr. 1). Pokud jde o vývojové nástroje pro BI řešení, hlavními uchazeči o vedoucí postavení v této oblasti jsou Microsoft a ústavu SAS (obr. 2).

Všimněte si, že nástroje Business Intelligence společnosti Microsoft jsou relativně levné produkty dostupné širokému spektru společností. Proto se v následujících částech tohoto článku na příkladu zamyslíme nad některými praktickými aspekty využití Data Miningu pomocí produktů této společnosti.

Literatura:

1. Vévoda V.A. Data Mining - data mining. - http://www.olap.ru/basic/dm2.asp.

2. Dyuk V.A., Samoilenko A.P. Data Mining: školení. - Petrohrad: Petr, 2001.

3. B. de Ville. Microsoft Data Mining. Digitální tisk, 2001.

Vývoj metod pro záznam a ukládání dat vedl k rychlému nárůstu objemu shromážděných a analyzovaných informací. Objemy dat jsou tak působivé, že je prostě není možné, aby je člověk analyzoval sám, ačkoli potřeba takové analýzy je zcela zřejmá, protože tato „surová“ data obsahují znalosti, které lze použít k rozhodování. Pro provádění automatické analýzy dat se používá Data Mining.

Data Mining je proces odhalování dříve neznámých, netriviálních, prakticky užitečných a dostupných interpretací znalostí v „surových“ datech, která jsou nezbytná pro rozhodování v různých oblastech lidské činnosti. Dolování dat je jedním z kroků zjišťování znalostí v databázích.

Informace nalezené v procesu aplikace metod dolování dat musí být netriviální a dříve neznámé, například průměrné tržby nejsou. Znalosti by měly popisovat nové vztahy mezi vlastnostmi, předpovídat hodnoty některých funkcí na základě jiných a tak dále. Zjištěné poznatky by měly být s určitou mírou jistoty použitelné na nová data. Užitečnost spočívá v tom, že tyto znalosti mohou při aplikaci přinést určité výhody. Znalosti by měly být ve formě srozumitelné uživateli, nikoli matematikovi. Například logické konstrukce „když ... tak ...“ člověk nejsnáze vnímá. Navíc lze taková pravidla použít v různých DBMS jako SQL dotazy. V případě, že extrahované znalosti nejsou pro uživatele transparentní, měly by existovat metody následného zpracování, které umožní jejich převedení do interpretovatelné podoby.

Algoritmy používané při dolování dat vyžadují mnoho výpočtů. Dříve to bylo odrazující od široké praktické aplikace dolování dat, ale dnešní růst produktivity moderní procesory odstranila naléhavost tohoto problému. Nyní, v rozumném čase, je možné provést kvalitativní analýzu stovek tisíc a milionů záznamů.

Úlohy řešené metodami dolování dat:

Klasifikace- jedná se o přiřazení objektů (pozorování, události) do jedné z dříve známých tříd.
Regrese včetně problémů s předpovědí. Stanovení závislosti spojitého výstupu na vstupních proměnných.
Shlukování je seskupení objektů (pozorování, událostí) na základě dat (vlastností), které popisují podstatu těchto objektů. Objekty ve shluku si musí být navzájem „podobné“ a musí se lišit od objektů obsažených v jiných shlucích. Čím více podobných objektů ve shluku a čím více rozdílů mezi shluky, tím přesnější je shlukování.
Sdružení– identifikace vzorců mezi souvisejícími událostmi. Příkladem takového vzoru je pravidlo, které označuje, že událost Y následuje po události X. Taková pravidla se nazývají asociativní. Tento problém byl poprvé navržen k nalezení typických nákupních vzorců v supermarketech, takže se někdy také nazývá analýza tržního koše.
Sekvenční vzory– stanovení vzorců mezi událostmi souvisejícími s časem, tzn. detekce závislosti, že pokud nastane událost X, pak po daný čas dojde k události Y.
Analýza rozptylu– identifikace nejnecharakterističtějších vzorců.

Problémy obchodní analýzy jsou formulovány odlišně, ale řešení většiny z nich spočívá v jednom nebo druhém úkolu dolování dat nebo jejich kombinaci. Například hodnocení rizik je řešením regresního nebo klasifikačního problému, segmentace trhu je shlukování, stimulace poptávky jsou asociační pravidla. Ve skutečnosti jsou úlohy Data Mining prvky, ze kterých můžete sestavit řešení velké většiny skutečných obchodních problémů.

K řešení výše uvedených problémů se používají různé metody a algoritmy dolování dat. Vzhledem k tomu, že dolování dat se vyvíjelo a rozvíjí na průniku takových disciplín, jako je statistika, teorie informace, strojové učení, teorie databází, je zcela přirozené, že většina algoritmů a metod dolování dat byla vyvinuta na základě různé metody z těchto oborů. Například postup shlukování k-means byl jednoduše vypůjčen ze statistik. Velkou oblibu si získaly následující metody dolování dat: neuronové sítě, rozhodovací stromy, shlukovací algoritmy, včetně škálovatelných, algoritmy pro detekci asociativních vazeb mezi událostmi atd.

Deductor je analytická platforma, která obsahuje kompletní sadu nástrojů pro řešení problémů dolování dat: lineární regrese, řízené neuronové sítě, neřízené neuronové sítě, rozhodovací stromy, hledání asociačních pravidel a mnoho dalších. Pro mnoho mechanismů jsou k dispozici specializované vizualizéry, které značně usnadňují použití výsledného modelu a interpretaci výsledků. Silný bod platformou je nejen implementace moderních analytických algoritmů, ale také schopnost libovolně kombinovat různé analytické mechanismy.

Co je dolování dat

Klasifikace úloh dolování dat

Úkolem hledání asociačních pravidel

Problém shlukování

Funkce Data Mineru ve Statistica 8

Analytické nástroje STATISTICA Data Miner

Ukázka práce v Data Mininu

Vytvářejte přehledy a součty

Třídění informací

Analýza cen rezidenčních pozemků

Analýza prediktoru přežití

Závěr

Co je dolování dat

Moderní počítačový termín Data Mining se překládá jako „extrakce informací“ nebo „dolování dat“. Spolu s dolováním dat se často vyskytují termíny Knowledge Discovery („objevování znalostí“) a Data Warehouse („datový sklad“). Vznik těchto pojmů, které jsou nedílnou součástí Data Miningu, je spojen s novým kolem ve vývoji nástrojů a metod pro zpracování a ukládání dat. Účelem dolování dat je tedy identifikovat skrytá pravidla a vzory ve velkých (velmi velkých) objemech dat.

Faktem je, že lidská mysl sama o sobě není uzpůsobena pro vnímání obrovských polí heterogenních informací. V průměru člověk, s výjimkou některých jedinců, není schopen ani na malých vzorcích zachytit více než dva tři vztahy. Tradiční statistika, která si dlouhou dobu nárokovala roli hlavního nástroje pro analýzu dat, však také často selhává při řešení problémů z reálný život. Operuje s průměrnými charakteristikami vzorku, což jsou často fiktivní hodnoty (průměrná solventnost klienta, kdy v závislosti na rizikové funkci nebo ztrátové funkci musíte být schopni předvídat solventnost a záměry klienta; průměrná intenzita signálu, přičemž vás zajímá charakteristika a pozadí špiček signálu atd. d.).

Proto metody matematické statistiky jsou užitečné především pro testování předem formulovaných hypotéz, přičemž definice hypotézy je někdy poměrně složitý a časově náročný úkol. Moderní technologie Data Mining zpracovává informace za účelem automatické vyhledáváníšablony (vzory) charakteristické pro jakékoli fragmenty heterogenních vícerozměrných dat. Na rozdíl od online analytického zpracování dat (OLAP) se při dolování dat přesouvá břemeno formulování hypotéz a identifikace neobvyklých (neočekávaných) vzorů z člověka na počítač. Data mining není jedna, ale kombinace velkého množství různých metod objevování znalostí. Výběr metody často závisí na typu dostupných dat a na tom, jaké informace se snažíte získat. Zde jsou například některé metody: asociace (kombinování), klasifikace, shlukování, analýza a prognóza časových řad, neuronové sítě atd.

Podívejme se podrobněji na vlastnosti poznatků, které mají být objeveny, uvedené v definici.

Znalosti musí být nové, dříve neznámé. Úsilí vynaložené na objevování znalostí, které jsou uživateli již známé, se nevyplácí. Proto jsou cenné nové, dříve neznámé poznatky.

Znalosti musí být netriviální. Výsledky analýzy by měly odrážet nezřejmé, neočekávané vzorce v datech, které tvoří tzv. skryté znalosti. Výsledky, kterých by se dalo získat více jednoduchými způsoby(například vizuální kontrolou) neospravedlňují použití výkonných metod dolování dat.

Znalosti by měly být prakticky užitečné. Zjištěné znalosti by měly být použitelné, včetně nových údajů, s dostatečně vysokým stupněm spolehlivosti. Užitečnost spočívá v tom, že tyto znalosti mohou přinést určitý užitek při jejich aplikaci.

Znalosti musí být přístupné lidskému chápání. Nalezené vzory musí být logicky vysvětlitelné, jinak existuje možnost, že jsou náhodné. Objevené poznatky by navíc měly být prezentovány lidsky srozumitelnou formou.

V Data Miningu se modely používají k reprezentaci získaných znalostí. Typy modelů závisí na metodách jejich tvorby. Nejběžnější jsou: pravidla, rozhodovací stromy, shluky a matematické funkce.

Rozsah Data Miningu je neomezený – Data Mining je potřeba všude tam, kde jsou nějaká data. Zkušenosti mnoha takových podniků ukazují, že návratnost používání dolování dat může dosáhnout 1000 %. Existují například zprávy o ekonomickém efektu, který je 10-70krát vyšší než počáteční náklady od 350 do 750 tisíc dolarů. Jsou uvedeny informace o projektu za 20 milionů dolarů, který se vyplatil za pouhé 4 měsíce. Dalším příkladem je roční úspora 700 000 USD. zavedením dolování dat v řetězci supermarketů ve Spojeném království. Data mining má pro manažery a analytiky velkou hodnotu při jejich každodenních činnostech. Obchodníci si uvědomili, že pomocí metod Data Mining mohou získat hmatatelné konkurenční výhody.

Klasifikace úloh dolování dat

Metody DataMining umožňují řešit mnoho problémů, kterým analytik čelí. Z nich hlavní jsou: klasifikace, regrese, hledání asociačních pravidel a shlukování. Níže je Stručný popis hlavní úkoly analýzy dat.

1) Úkol klasifikace se redukuje na určení třídy objektu podle jeho charakteristik. Je třeba poznamenat, že v tomto problému je předem známa množina tříd, do kterých lze objekt přiřadit.

2) Regresní úloha, stejně jako klasifikační úloha, umožňuje určit hodnotu některých jejích parametrů na základě známých charakteristik objektu. Na rozdíl od klasifikačního problému není hodnotou parametru konečná množina tříd, ale množina reálných čísel.

3) Asociační úkol. Při hledání asociačních pravidel je cílem najít časté závislosti (nebo asociace) mezi objekty nebo událostmi. Nalezené závislosti jsou prezentovány ve formě pravidel a lze je využít jak pro lepší pochopení podstaty analyzovaných dat, tak pro predikci výskytu událostí.

4) Úkolem shlukování je hledání nezávislých skupin (shluků) a jejich charakteristik v celém souboru analyzovaných dat. Řešení tohoto problému pomáhá lépe porozumět datům. Seskupování homogenních objektů navíc umožňuje snížit jejich počet a následně usnadnit analýzu.

5) Sekvenční vzory - ustavení vzorců mezi událostmi souvisejícími v čase, tzn. detekce závislosti, že pokud nastane událost X, pak událost Y nastane po daném čase.

6) Analýza odchylek - identifikace nejnecharakterističtějších vzorců.

Uvedené úlohy jsou účelově rozděleny na popisné a prediktivní.

Popisné úkoly se zaměřují na zlepšení porozumění analyzovaným datům. Klíčovým bodem těchto modelů je snadnost a transparentnost výsledků pro lidské vnímání. Je možné, že objevené vzory budou specifickým rysem konkrétních studovaných dat a nebudou nalezeny nikde jinde, ale přesto mohou být užitečné, a proto by měly být známy. Tento typ problému zahrnuje shlukování a hledání asociačních pravidel.

Řešení prediktivních problémů je rozděleno do dvou etap. V první fázi je vytvořen model založený na souboru dat se známými výsledky. Ve druhém kroku se používá k predikci výsledků na základě nových datových sad. V tomto případě je samozřejmě vyžadováno, aby zkonstruované modely fungovaly co nejpřesněji. Na tento druhúkoly zahrnují úkoly klasifikace a regrese. Patří sem i problém hledání asociačních pravidel, lze-li výsledky jeho řešení využít k predikci výskytu určitých událostí.

Podle způsobů řešení problémů se dělí na řízené učení (učení s učitelem) a neřízené učení (učení bez učitele). Tento název pochází z termínu Machine Learning (strojové učení), který se často používá v anglicky psané literatuře a označuje všechny technologie dolování dat.

V případě řízeného učení se problém analýzy dat řeší v několika fázích. Nejprve je pomocí libovolného algoritmu Data Mining vytvořen model analyzovaných dat – klasifikátor. Klasifikátor je poté vyškolen. Jinými slovy, kontroluje se kvalita jeho práce a v případě, že nevyhovuje, je klasifikátor dodatečně proškolen. To pokračuje, dokud není dosaženo požadované úrovně kvality nebo není jasné, že zvolený algoritmus nepracuje správně s daty, nebo data samotná nemají strukturu, kterou lze identifikovat. Tento typ problému zahrnuje klasifikační a regresní problémy.

Učení bez dozoru kombinuje úkoly, které identifikují popisné vzorce, jako jsou vzorce v nákupech uskutečněných zákazníky ve velkém obchodě. Je zřejmé, že pokud tyto vzory existují, pak by je model měl reprezentovat a je nevhodné hovořit o jeho učení. Odtud název – učení bez dozoru. Výhodou těchto problémů je možnost jejich řešení bez předchozí znalosti analyzovaných dat. Patří mezi ně shlukování a hledání asociačních pravidel.

Klasifikační a regresní problém

Při analýze je často nutné určit, do které ze známých tříd zkoumané objekty patří, tedy klasifikovat je. Když například osoba žádá banku o půjčku, musí bankovní úředník rozhodnout, zda je potenciální zákazník bonitní nebo ne. Je zřejmé, že takové rozhodnutí je učiněno na základě údajů o studovaném objektu (in tento případ- osoba): jeho působiště, velikost mzdy, věk, rodinné složení atd. Na základě analýzy těchto informací musí zaměstnanec banky přiřadit osobu do jedné ze dvou známých tříd „úvěrovatelná“ a „neúvěrná“.

Dalším příkladem klasifikační úlohy je filtrování e-mailů. V tomto případě musí filtrační program klasifikovat příchozí zpráva spam (nevyžádaná pošta E-mailem) nebo jako dopis. Toto řešení je přijímáno na základě četnosti výskytu určitých slov ve zprávě (například jméno příjemce, neosobní adresa, slova a fráze: získat, „vydělat“, „ zisková nabídka" atd.).