Koncept data miningu sa stal populárnym v. Data mining Prihlásenie na Wiki

Odoslanie dobrej práce do databázy znalostí je jednoduché. Použite nižšie uvedený formulár

Študenti, postgraduálni študenti, mladí vedci, ktorí pri štúdiu a práci využívajú vedomostnú základňu, vám budú veľmi vďační.

Podobné dokumenty

Klasifikácia úloh DataMiningu. Tvorba reportov a súčtov. Funkcie Data Miner v programe Statistica. Problém klasifikácie, klastrovania a regresie. Analytické nástroje Statistica Data Miner. Podstatou problému je hľadanie asociačných pravidiel. Analýza prediktora prežitia.

ročníková práca, pridaná 19.05.2011

Popis funkčnosť Technológie dolovania dát ako procesy zisťovania neznámych údajov. Štúdium systémov vyvodzovania asociatívnych pravidiel a mechanizmov algoritmov neurónových sietí. Popis klastrovacích algoritmov a oblastí použitia dolovania dát.

test, pridané 14.06.2013

Základy klastrovania. Využitie Data Miningu ako spôsobu „objavovania znalostí v databázach“. Výber zhlukovacích algoritmov. Získavanie údajov z databázového úložiska vzdialenej dielne. Zoskupovanie žiakov a úloh.

semestrálna práca pridaná dňa 07.10.2017

Data mining, vývojová história data miningu a objavovanie znalostí. Technologické prvky a metódy dolovania dát. Kroky v objavovaní vedomostí. Detekcia zmien a odchýlok. Súvisiace disciplíny, vyhľadávanie informácií a extrakcia textu.

správa doplnená dňa 16.06.2012

Analýza problémov vznikajúcich pri aplikácii klastrovacích metód a algoritmov. Základné algoritmy pre zhlukovanie. Softvér RapidMiner ako prostredie pre strojové učenie a analýzu dát. Posúdenie kvality klastrovania pomocou metód Data Mining.

ročníková práca, pridaná 22.10.2012

Zlepšenie technológií zaznamenávania a ukladania údajov. Špecifickosť moderných požiadaviek na spracovanie informačných dát. Koncept vzorov odrážajúcich fragmenty viacrozmerných vzťahov v údajoch v srdci modernej technológie dolovania údajov.

test, pridané 9.2.2010

Analýza využitia neurónových sietí na predpovedanie situácie a rozhodovanie na akciovom trhu pomocou softvérového balíka na modelovanie neurónových sietí Trajan 3.0. Konverzia primárnych údajov, tabuľky. Ergonomické vyhodnotenie programu.

práca, pridané 27.06.2011

Ťažkosti pri používaní evolučných algoritmov. Budovanie výpočtových systémov založených na princípoch prirodzeného výberu. Nevýhody genetických algoritmov. Príklady evolučných algoritmov. Smery a úseky evolučného modelovania.

Horné poschodie

1. Priame použitie údajov, príp úložisko dát.

V tomto prípade sú počiatočné údaje uložené vo výslovne podrobnej forme a priamo sa používajú v etapách a / alebo analyzovať výnimky... Problém s touto skupinou metód je, že pri ich použití môže byť ťažké analyzovať veľmi veľké databázy.

Metódy tejto skupiny: zhluková analýza, metóda najbližšieho suseda, metóda k-najbližšieho suseda, uvažovanie pomocou analógie.

2. Identifikácia a používanie formalizovaných vzory, alebo destilačné šablóny.

S technológiou destilačné šablóny jedna vzorka (šablóna) informácie je extrahovaná z počiatočných údajov a transformovaná do nejakých formálnych konštrukcií, ktorých podoba závisí od použitej metódy Data Mining. Tento proces sa vykonáva vo fáze bezplatné vyhľadávanie, prvá skupina metód toto štádium v zásade nemá. Po etapách prediktívne modelovanie a analyzovať výnimky používajú sa výsledky etapy bezplatné vyhľadávanie, sú oveľa kompaktnejšie ako samotné databázy. Pripomeňme, že konštrukcie týchto modelov môžu byť interpretované analytikom alebo nesledované ("čierne skrinky").

Metódy v tejto skupine: logické metódy; metódy vizualizácie; metódy krížovej tabuľky; metódy založené na rovniciach.

Logické metódy alebo metódy logickej indukcie zahŕňajú: fuzzy dotazy a analýzy; symbolické pravidlá; rozhodovacie stromy; genetické algoritmy.

Metódy tejto skupiny sú azda najviac interpretovateľné – tvoria nájdené vzory vo väčšine prípadov z pohľadu používateľa v celkom prehľadnej forme. Výsledné pravidlá môžu zahŕňať spojité a diskrétne premenné. Treba poznamenať, že rozhodovacie stromy možno ľahko previesť na symbolické sady pravidiel vygenerovaním jedného pravidla pozdĺž cesty od koreňa stromu k jeho horná časť terminálu... Rozhodovacie stromy a pravidlá v skutočnosti sú rôzne cesty riešenia jedného problému a líšia sa len svojimi schopnosťami. Okrem toho sa implementácia pravidiel vykonáva pomalšími algoritmami ako indukcia rozhodovacích stromov.

Metódy krížových tabuliek: agenti, Bayesovské (dôveryhodné) siete, krížová tabuľková vizualizácia. Posledný spôsob celkom nezodpovedá jednej z vlastností Data Miningu – nezávislému vyhľadávaniu vzory analytický systém. Poskytovanie informácií vo forme krížových tabuliek však zabezpečuje realizáciu hlavnej úlohy Data Miningu – hľadania vzorov, preto možno aj túto metódu považovať za jednu z metód Data Miningu.

Metódy založené na rovnici.

Metódy tejto skupiny vyjadrujú odhalené zákonitosti formou matematických výrazov – rovníc. Preto môžu pracovať len s číselnými premennými a premenné iných typov je potrebné podľa toho kódovať. To trochu obmedzuje aplikáciu metód tejto skupiny, napriek tomu sú široko používané pri riešení rôznych problémov, najmä problémov prognózovania.

Hlavné metódy tejto skupiny: štatistické metódy a neurálne siete

Na riešenie prognostických problémov sa najčastejšie používajú štatistické metódy. Existuje mnoho metód štatistickej analýzy údajov, medzi nimi napríklad korelačná a regresná analýza, korelácia časových radov, identifikácia trendov v časových radoch, harmonická analýza.

Ďalšia klasifikácia rozdeľuje celú škálu metód dolovania údajov do dvoch skupín: štatistické a kybernetické metódy. Táto schéma rozdelenia je založená na rôznych vzdelávacích prístupoch matematických modelov.

Je potrebné poznamenať, že existujú dva prístupy ku klasifikácii štatistických metód ako dolovania údajov. Prvý z nich stavia do protikladu štatistické metódy a Data Mining, jeho zástancovia považujú klasické štatistické metódy za samostatný smer analýzy dát. Podľa druhého prístupu sú štatistické metódy analýzy súčasťou matematického súboru nástrojov Data Mining. Väčšina renomovaných zdrojov používa druhý prístup.

V tejto klasifikácii sa rozlišujú dve skupiny metód:

štatistické metódy založené na použití spriemerovaných nahromadených skúseností, ktoré sa odrážajú v retrospektívnych údajoch;
kybernetických metód, ktoré zahŕňajú mnoho heterogénnych matematických prístupov.

Nevýhoda takejto klasifikácie: štatistické aj kybernetické algoritmy sa tak či onak spoliehajú na porovnávanie štatistických skúseností s výsledkami sledovania aktuálnej situácie.

Výhodou tejto klasifikácie je jej pohodlnosť pre interpretáciu - používa sa na popis matematických nástrojov moderného prístupu extrakcia vedomostí z polí počiatočných pozorovaní (operačných a retrospektívnych), t.j. v úlohách dolovania údajov.

Pozrime sa bližšie na skupiny uvedené vyššie.

Metódy štatistického získavania údajov

Metódy predstavujú štyri navzájom súvisiace časti:

predbežná analýza charakteru štatistických údajov (testovanie hypotéz stacionarity, normality, nezávislosti, homogenity, posúdenie formy distribučnej funkcie, jej parametrov atď.);
identifikáciu odkazov a vzory(lineárna a nelineárna regresná analýza, korelačná analýza atď.);
viacrozmerná štatistická analýza (lineárna a nelineárna diskriminačná analýza, zhluková analýza, komponentová analýza, faktorová analýza atď.);
dynamické modely a predpoveď časového radu.

Arzenál štatistických metód Data mining je rozdelený do štyroch skupín metód:

Opisná analýza a popis počiatočných údajov.
Analýza vzťahov (korelačná a regresná analýza, faktorová analýza, analýza rozptylu).
Viacrozmerná štatistická analýza (komponentová analýza, diskriminačná analýza, viacrozmerná regresná analýza, kanonické korelácie atď.).
Analýza časových radov ( dynamické modely a prognózovanie).

Kybernetické metódy dolovania údajov

Druhým smerom Data Miningu je súbor prístupov, ktoré spája myšlienka počítačovej matematiky a využitie teórie umelej inteligencie.

Čo je dolovanie údajov

Firemná databáza každého moderného podniku zvyčajne obsahuje súbor tabuliek uchovávajúcich záznamy o určitých skutočnostiach alebo objektoch (napríklad o tovare, jeho predaji, zákazníkoch, účtoch). Každý záznam v takejto tabuľke spravidla popisuje nejaký konkrétny objekt alebo skutočnosť. Napríklad záznam v tabuľke predajov odzrkadľuje skutočnosť, že taký a taký produkt predal takému a takému klientovi taký a taký manažér a vo všeobecnosti obsahuje iba tieto informácie. Avšak totalita Vysoké číslo takéto záznamy nahromadené počas niekoľkých rokov sa môžu stať zdrojom dodatočných, oveľa cennejších informácií, ktoré nie je možné získať na základe jedného konkrétneho záznamu, konkrétne informácií o vzorcoch, trendoch alebo vzájomných závislostiach medzi akýmikoľvek údajmi. Príkladmi takýchto informácií sú informácie o tom, ako závisí predaj určitého produktu od dňa v týždni, dennej doby alebo ročného obdobia, ktoré kategórie kupujúcich najčastejšie nakupujú tento alebo ten produkt, aká časť kupujúcich jeden konkrétny produkt nakupuje iný špecifický produkt, ktorá kategória zákazníkov najčastejšie nespláca poskytnutý úver načas.

Tento druh informácií sa zvyčajne používa pri prognózovaní, strategickom plánovaní, analýze rizík a ich hodnota pre podnik je veľmi vysoká. Zrejme aj preto dostal proces jeho hľadania názov Data Mining (mining v angličtine znamená „ťažba“ a hľadanie vzorov v obrovskom súbore faktografických údajov je tomu naozaj podobné). Pod pojmom Data Mining sa neoznačuje ani tak špecifická technológia, ako skôr proces hľadania korelácií, trendov, vzťahov a vzorov pomocou rôznych matematických a štatistických algoritmov: zhlukovanie, podvzorkovanie, regresná a korelačná analýza. Účelom tohto vyhľadávania je prezentovať údaje vo forme, ktorá jasne odráža obchodné procesy, ako aj zostaviť model, ktorý možno použiť na predpovedanie procesov, ktoré sú rozhodujúce pre obchodné plánovanie (napríklad dynamika dopytu po určitom tovare alebo služby alebo závislosť ich nákupu od akýchkoľvek vlastností spotrebiteľa).

Všimnite si, že tradičná matematická štatistika, ktorá dlho zostávala hlavným nástrojom na analýzu údajov, ako aj nástroje na online analytické spracovanie (OLAP), o ktorých sme už veľakrát písali (pozri materiály k tejto téme na našom CD), nedokážu vždy úspešne použiť na riešenie takýchto problémov. Na testovanie vopred formulovaných hypotéz sa zvyčajne používajú štatistické metódy a OLAP. Často sa však ukáže, že je to formulácia hypotézy náročná úloha pri implementácii obchodnej analýzy pre následné rozhodovanie, keďže nie všetky vzory v údajoch sú na prvý pohľad zrejmé.

Moderná technológia dolovania údajov je založená na koncepte šablón, ktoré odrážajú vzory obsiahnuté v čiastkových vzorkách údajov. Hľadanie vzorov sa vykonáva metódami, ktoré nepoužívajú žiadne apriórne predpoklady o týchto čiastkových vzorkách. Ak pri štatistickej analýze alebo pri aplikácii OLAP, otázky ako "Aký je priemerný počet nezaplatených faktúr zákazníkmi tejto služby?" ... Zároveň je to práve odpoveď na druhú otázku, ktorá často poskytuje netriviálnejší prístup k marketingovej politike a organizácii práce s klientmi.

Dôležitou vlastnosťou Data Miningu je neštandardnosť a neprehľadnosť hľadaných vzorov. Inými slovami, nástroje na dolovanie údajov sa líšia od nástrojov na spracovanie štatistických údajov a nástrojov OLAP v tom, že namiesto toho, aby vopred overovali vzájomné závislosti, ktoré používatelia predpokladajú, sú schopní tieto závislosti nájsť sami na základe dostupných údajov a vytvoriť hypotézy o ich povahe. .

Je potrebné poznamenať, že používanie nástrojov dolovania údajov nevylučuje použitie štatistických nástrojov a nástrojov OLAP, pretože výsledky spracovania údajov pomocou týchto nástrojov spravidla prispievajú k lepšiemu pochopeniu povahy vzory, ktoré treba hľadať.

Počiatočné údaje pre dolovanie údajov

Využitie Data Miningu je opodstatnené, ak existuje dostatočne veľké množstvo dát, ideálne obsiahnutých v správne navrhnutom dátovom sklade (v skutočnosti samotné dátové sklady sú zvyčajne vytvorené na riešenie problémov s analýzou a prognózovaním súvisiacich s podporou rozhodovania). Viackrát sme písali aj o princípoch budovania dátových skladov; príslušné materiály nájdete na našom CD-ROM, takže sa touto problematikou nebudeme zaoberať. Pripomeňme len, že dáta v sklade sú doplnený súbor, jednotný pre celý podnik a umožňujúci kedykoľvek obnoviť obraz o jeho činnosti. Upozorňujeme tiež, že dátová štruktúra skladu je navrhnutá tak, aby vykonávanie dopytov do skladu prebiehalo čo najefektívnejšie. Existujú však nástroje Data Mining, ktoré dokážu hľadať vzory, korelácie a trendy nielen v dátových skladoch, ale aj v OLAP kockách, teda v súboroch predspracovaných štatistických údajov.

Typy vzorov odhalené metódami dolovania údajov

Podľa V.A. Dyuka existuje päť štandardných typov vzorov identifikovaných metódami dolovania údajov:

Asociácia - vysoká pravdepodobnosť, že udalosti sa navzájom spájajú (napríklad jeden produkt sa často kupuje spolu s iným);

postupnosť - vysoká pravdepodobnosť reťazca udalostí súvisiacich v čase (napríklad v určitom období po zakúpení jedného produktu sa s vysokou pravdepodobnosťou zakúpi ďalší);

Klasifikácia - existujú znaky, ktoré charakterizujú skupinu, do ktorej patrí tá alebo oná udalosť alebo objekt (zvyčajne sú niektoré pravidlá formulované na základe analýzy už klasifikovaných udalostí);

Klastrovanie je vzor podobný klasifikácii a líši sa od nej tým, že samotné skupiny nie sú špecifikované súčasne – sú detekované automaticky počas spracovania údajov;

Časové vzorce – prítomnosť vzorcov v dynamike správania určitých údajov (typickým príkladom sú sezónne výkyvy dopytu po určitých tovaroch alebo službách) používaných na prognózovanie.

Metódy dolovania údajov v dolovaní údajov

V súčasnosti existuje niekoľko rôznych metód dolovania údajov. Na základe vyššie uvedenej klasifikácie navrhnutej V.A. Dukom medzi ne patria:

Regresná, variančná a korelačná analýza (implementovaná vo väčšine moderných štatistických balíkov, najmä v produktoch SAS Institute, StatSoft a pod.);

Analytické metódy v špecifickej oblasti založené na empirických modeloch (často používané napr. v lacných nástrojoch finančnej analýzy);

Algoritmy neurónovej siete, ktorých myšlienka je založená na analógii s fungovaním nervového tkaniva a spočíva v tom, že počiatočné parametre sa považujú za signály, ktoré sa transformujú v súlade s existujúcimi spojeniami medzi „neurónmi“ a odozvy celej siete na počiatočné údaje. V tomto prípade sa spojenia vytvárajú pomocou takzvaného sieťového trénovania pomocou veľkej vzorky obsahujúcej počiatočné údaje aj správne odpovede;

Algoritmy - výber blízkeho analógu počiatočných údajov z existujúcich historických údajov. Tiež sa nazýva metóda „najbližší sused“;

Rozhodovacie stromy sú hierarchickou štruktúrou založenou na súbore otázok, ktoré vyžadujú odpoveď „Áno“ alebo „Nie“; predsa tadiaľto spracovanie údajov nie vždy ideálne nájde existujúce vzory; pomerne často sa používa v predpovedných systémoch kvôli jasnosti prijatej odpovede;

Klastrové modely (niekedy tiež nazývané segmentačné modely) sa používajú na zoskupovanie podobných udalostí do skupín na základe podobných hodnôt niekoľkých polí v množine údajov; tiež veľmi populárny pri vytváraní predpovedných systémov;

Algoritmy ohraničeného vyhľadávania, ktoré počítajú frekvencie kombinácií jednoduchých logických udalostí v podskupinách údajov;

Evolučné programovanie - hľadanie a generovanie algoritmu, ktorý vyjadruje vzájomnú závislosť dát na základe pôvodne špecifikovaného algoritmu, modifikovaného v procese vyhľadávania; niekedy sa hľadanie vzájomných závislostí vykonáva medzi akýmikoľvek špecifickými typmi funkcií (napríklad polynómy).

Viac podrobností o týchto a ďalších algoritmoch dolovania údajov, ako aj o nástrojoch, ktoré ich implementujú, nájdete v knihe „Data Mining: výcvikový kurz"V. A. Dyuk a A. P. Samoilenko, vydané vydavateľstvom" Peter "v roku 2001. Dnes je to jedna z mála kníh v ruštine venovaných tomuto problému.

Poprední výrobcovia nástrojov Data Mining

Nástroje na dolovanie dát, podobne ako väčšina nástrojov Business Intelligence, tradične patria k drahým softvérovým nástrojom – cena niektorých z nich dosahuje niekoľko desiatok tisíc dolárov. Preto až donedávna boli hlavnými spotrebiteľmi tejto technológie banky, finančné a poisťovne, veľké obchodné podniky a hlavnými úlohami vyžadujúcimi si využitie Data Miningu bolo hodnotenie úverových a poistných rizík a vypracovanie marketingovej politiky. tarifné plány a ďalšie zásady práce s klientmi. V posledných rokoch prešla situácia určitými zmenami: na trhu softvér Objavili sa relatívne lacné nástroje Data Mining od viacerých výrobcov, ktoré túto technológiu sprístupnili aj pre malých a stredných podnikateľov, ktorí o nej doteraz neuvažovali.

Medzi moderné nástroje Business Intelligence patria generátory zostáv, nástroje analytické spracovanie dáta, vývojové nástroje pre BI-riešenia (BI Platforms) a takzvané Enterprise BI Suites – nástroje na analýzu a spracovanie celopodnikových dát, ktoré vám umožňujú vykonávať súbor akcií súvisiacich s analýzou dát a reportovaním a často zahŕňajú integrovaná sada nástrojov BI a vývojových nástrojov pre aplikácie BI. Tieto spravidla obsahujú nástroje na vytváranie prehľadov a nástroje OLAP a často nástroje na dolovanie údajov.

Podľa analytikov z Gartner Group sú lídrami na trhu analýzy a spracovania podnikových dát Business Objects, Cognos, Information Builders a vedúce postavenie si nárokujú aj Microsoft a Oracle (obr. 1). Pokiaľ ide o vývojové nástroje pre BI riešenia, hlavnými kandidátmi na vedúce postavenie v tejto oblasti sú Microsoft a ústav SAV (obr. 2).

Všimnite si, že nástroje Business Intelligence od Microsoftu sú relatívne lacné produkty dostupné širokej škále spoločností. Preto sa v nasledujúcich častiach tohto článku budeme zaoberať niektorými praktickými aspektmi používania Data Miningu na príklade produktov tejto spoločnosti.

Literatúra:

1. Vojvoda V.A. Data Mining - dolovanie dát. - http://www.olap.ru/basic/dm2.asp.

2. Vojvoda V.A., Samoilenko A.P. Data Mining: školiaci kurz. - SPb .: Peter, 2001.

3. B. de Ville. Microsoft Data Mining. Digital Press, 2001.

Vývoj metód na zaznamenávanie a uchovávanie údajov viedol k rýchlemu nárastu množstva zozbieraných a analyzovaných informácií. Objemy údajov sú také pôsobivé, že ich človek jednoducho nedokáže sám analyzovať, hoci potreba takejto analýzy je celkom zrejmá, pretože tieto „surové“ údaje obsahujú poznatky, ktoré je možné použiť pri rozhodovaní. Na vykonávanie automatickej analýzy údajov sa používa dolovanie údajov.

Data mining je proces odhaľovania dovtedy neznámej netriviálnej prakticky užitočnej a dostupnej interpretácie poznatkov potrebných pre rozhodovanie v rôznych sférach ľudskej činnosti v „surových“ dátach. Data mining je jedným z krokov zisťovania znalostí v databázach.

Informácie nájdené v procese aplikácie metód dolovania údajov by nemali byť triviálne a predtým neznáme, napríklad priemerné tržby nie sú. Znalosti by mali popisovať nové vzťahy medzi vlastnosťami, predpovedať hodnoty niektorých funkcií na základe iných atď. Zistené poznatky by mali byť použiteľné na nové údaje s určitým stupňom spoľahlivosti. Užitočnosť spočíva v tom, že tieto znalosti môžu priniesť určitý úžitok pri ich aplikácii. Vedomosti by mali byť v nematematicky zrozumiteľnej forme pre používateľa. Napríklad logické konštrukcie „ak ... tak ...“ človek vníma najľahšie. Okrem toho môžu byť takéto pravidlá použité v rôznych DBMS ako SQL dotazy. V prípade, že extrahované znalosti nie sú pre používateľa transparentné, mali by existovať metódy následného spracovania, aby sa dostali do interpretovateľnej formy.

Algoritmy používané pri dolovaní dát sú výpočtovo náročné. Predtým to bol limitujúci faktor v rozšírenej praktickej aplikácii dolovania dát, avšak dnešný rast produktivity moderné procesory odstránila naliehavosť tohto problému. Teraz, v primeranom čase, môžete vykonať kvalitatívnu analýzu stoviek tisícov a miliónov záznamov.

Úlohy riešené metódami dolovania údajov:

Klasifikácia Je priradenie objektov (pozorovania, udalosti) do jednej z predtým známych tried.
Regresia vrátane prognostických úloh. Stanovenie závislosti kontinuálneho výstupu na vstupných premenných.
Zhlukovanie Je zoskupenie objektov (pozorovaní, udalostí) na základe údajov (vlastností), ktoré popisujú podstatu týchto objektov. Objekty v rámci klastra si musia byť navzájom „podobné“ a musia sa líšiť od objektov zahrnutých v iných klastroch. Čím sú si objekty v zhluku podobné a čím viac rozdielov medzi zhlukmi, tým je zhlukovanie presnejšie.
asociácie- identifikácia vzorcov medzi súvisiacimi udalosťami. Príkladom takéhoto vzoru je pravidlo označujúce, že udalosť Y nasleduje po udalosti X. Takéto pravidlá sa nazývajú asociatívne. Tento problém bol prvýkrát navrhnutý na nájdenie typických nákupných vzorcov v supermarketoch, preto sa niekedy nazýva aj analýza trhového koša.
Postupné vzory- ustanovenie vzorcov medzi udalosťami súvisiacimi v čase, t.j. detekcia závislosti, že ak nastane udalosť X, tak potom nastav čas nastane udalosť Y.
Analýza odchýlky- identifikácia najnetypickejších vzorov.

Problémy obchodnej analýzy sú formulované odlišným spôsobom, ale riešenie väčšiny z nich spočíva v jednom alebo druhom probléme dolovania údajov alebo ich kombinácii. Napríklad hodnotenie rizika je riešením regresného alebo klasifikačného problému, segmentácia trhu je zhlukovanie, stimulácia dopytu je asociatívnymi pravidlami. V skutočnosti sú úlohy dolovania údajov prvkami, ktoré možno použiť na zostavenie riešenia veľkej väčšiny skutočných obchodných problémov.

Na vyriešenie vyššie uvedených problémov sa používajú rôzne metódy a algoritmy dolovania údajov. Vzhľadom na to, že Data Mining sa rozvíjal a rozvíja na priesečníku disciplín ako štatistika, teória informácie, strojové učenie, teória databáz, je celkom prirodzené, že väčšina algoritmov a metód dolovania údajov bola vyvinutá na základe rôzne metódy týchto disciplín. Napríklad postup zhlukovania k-means bol jednoducho vypožičaný zo štatistík. Veľkú obľubu si získali nasledujúce metódy dolovania údajov: neurónové siete, rozhodovacie stromy, klastrovacie algoritmy vrátane škálovateľných, algoritmy na zisťovanie asociatívnych väzieb medzi udalosťami atď.

Deductor je analytická platforma, ktorá obsahuje kompletnú sadu nástrojov na riešenie problémov dolovania údajov: lineárna regresia, riadené neurónové siete, neurónové siete bez dozoru, rozhodovacie stromy, vyhľadávanie asociačných pravidiel a mnoho ďalších. Pre mnohé mechanizmy sú k dispozícii špecializované vizualizéry, ktoré výrazne uľahčujú použitie získaného modelu a interpretáciu výsledkov. Silná stránka platforma nie je len implementáciou moderných analytických algoritmov, ale poskytuje aj možnosť ľubovoľne kombinovať rôzne analytické mechanizmy.

Čo je dolovanie údajov

Klasifikácia úloh dolovania údajov

Úlohou nájsť asociačné pravidlá

Problém klastrovania

Funkcie Data Miner v programe Statistica 8

Analytické nástroje STATISTICA Data Miner

Príklad práce v Data Minin

Generovanie správ a súčtov

Triedenie informácií

Analýza cien pozemkov na bývanie

Analýza prediktora prežitia

Záver

Čo je dolovanie údajov

Moderné počítačový termín Data Mining sa prekladá ako „extrakcia informácií“ alebo „dolovanie údajov“. Pomerne často sa spolu s dolovaním údajov vyskytujú aj výrazy Knowledge Discovery a Data Warehouse. Vznik týchto pojmov, ktoré sú neoddeliteľnou súčasťou Data Miningu, je spojený s novým kolom vo vývoji nástrojov a metód na spracovanie a ukladanie dát. Účelom dolovania údajov je teda odhaliť skryté pravidlá a vzorce vo veľkých (veľmi veľkých) množstvách údajov.

Faktom je, že samotná ľudská myseľ nie je prispôsobená na vnímanie obrovského množstva heterogénnych informácií. V priemere človek, s výnimkou niektorých jedincov, nie je schopný ani na malých vzorkách zachytiť viac ako dva-tri vzťahy. Ale tradičné štatistiky, ktoré sa dlho tvárili ako hlavný nástroj na analýzu dát, tiež často zlyhávajú pri riešení problémov z skutočný život... Operuje s priemernými charakteristikami vzorky, ktoré sú často fiktívnymi hodnotami (priemerná solventnosť klienta, keď v závislosti od rizikovej funkcie alebo stratovej funkcie musíte vedieť predpovedať konzistenciu a zámery klient, priemerná intenzita signálu, pričom vás zaujímajú charakteristiky a predpoklady špičiek signálu atď.) atď.).

Preto metódy matematická štatistika sa ukázali byť užitočné hlavne pri testovaní vopred formulovaných hypotéz, pričom definícia hypotézy je niekedy pomerne náročná a časovo náročná úloha. Moderné technológie Data Mining spracováva informácie na tento účel automatické vyhľadávaniešablóny (vzory) charakteristické pre akékoľvek fragmenty heterogénnych viacrozmerných údajov. Na rozdiel od online analytického spracovania (OLAP), dolovanie údajov presunulo bremeno formulovania hypotéz a identifikácie neočakávaných vzorcov z človeka na počítač. Data mining nie je jeden, ale súbor veľkého množstva rôznych metód zisťovania znalostí. Výber metódy často závisí od typu dostupných údajov a od toho, aké informácie sa pokúšate získať. Niektoré metódy sú napríklad: asociácia (zjednotenie), klasifikácia, zhlukovanie, analýza a predpovedanie časových radov, neurónové siete atď.

Uvažujme podrobnejšie o vlastnostiach objavených poznatkov uvedených v definícii.

Vedomosti musia byť nové, predtým neznáme. Námaha vynaložená na objavovanie poznatkov, ktoré už používateľ pozná, sa nevypláca. Preto sú cenné nové, predtým neznáme poznatky.

Vedomosti by mali byť netriviálne. Výsledky analýzy by mali odrážať neočividné, neočakávané vzorce v údajoch, ktoré tvoria takzvané skryté znalosti. Výsledky, ktorých by sa dalo získať viac jednoduchými spôsobmi(napríklad vizuálne prezeranie) neospravedlňujú používanie výkonných metód dolovania údajov.

Vedomosti by mali byť praktické. Zistené poznatky by mali byť použiteľné, a to aj na nové údaje, s dostatočne vysokým stupňom spoľahlivosti. Užitočnosť spočíva v tom, že tieto znalosti môžu priniesť určitý úžitok pri ich aplikácii.

Vedomosti by mali byť dostupné pre ľudské porozumenie. Nájdené vzory musia byť logicky vysvetliteľné, inak existuje možnosť, že sú náhodné. Okrem toho by objavené poznatky mali byť prezentované formou zrozumiteľnou pre človeka.

V Data Miningu sa modely používajú na reprezentáciu získaných vedomostí. Typy modelov závisia od metód použitých na ich vytvorenie. Najbežnejšie sú: pravidlá, rozhodovacie stromy, klastre a matematické funkcie.

Rozsah Data Miningu nie je ničím obmedzený – Data Mining je potrebný všade tam, kde sú nejaké dáta. Skúsenosti mnohých takýchto podnikov ukazujú, že návratnosť využívania dolovania údajov môže dosiahnuť 1000 %. Existujú napríklad správy o ekonomických výhodách, ktoré sú 10-70-krát vyššie ako počiatočné náklady od 350 do 750 tisíc dolárov. Poskytuje informácie o projekte za 20 miliónov dolárov, ktorý sa vyplatil len za 4 mesiace. Ďalším príkladom je ročná úspora 700 000 dolárov. zavedením dolovania údajov v reťazci supermarketov v Spojenom kráľovstve. Data mining má veľkú hodnotu pre manažérov a analytikov pri ich každodenných činnostiach. Podnikatelia si uvedomili, že pomocou metód Data Miningu môžu získať hmatateľné výhody v konkurencii.

Klasifikácia úloh DataMining

Metódy DataMining vám umožňujú vyriešiť mnohé z problémov, ktorým čelí analytik. Z nich sú hlavné: klasifikácia, regresia, hľadanie asociačných pravidiel a zhlukovanie. Nižšie je uvedený Stručný opis hlavné úlohy analýzy údajov.

1) Úloha klasifikácie sa redukuje na určenie triedy objektu podľa jeho charakteristík. Je potrebné poznamenať, že v tomto probléme je vopred známa množina tried, do ktorých môže byť objekt priradený.

2) Regresná úloha, podobne ako klasifikačná úloha, umožňuje určiť hodnotu niektorých jej parametrov zo známych charakteristík objektu. Na rozdiel od klasifikačného problému, hodnota parametra nie je konečná množina tried, ale množina reálnych čísel.

3) Úlohou združenia. Pri hľadaní asociačných pravidiel je cieľom nájsť časté závislosti (alebo asociácie) medzi objektmi alebo udalosťami. Zistené závislosti sú prezentované vo forme pravidiel a môžu byť použité ako pre lepšie pochopenie podstaty analyzovaných dát, tak aj pre predpovedanie výskytu udalostí.

4) Úlohou klastrovania je nájsť nezávislé skupiny (klastre) a ich charakteristiky v celom súbore analyzovaných údajov. Vyriešenie tohto problému vám pomôže lepšie porozumieť údajom. Zoskupenie homogénnych objektov navyše umožňuje znížiť ich počet, a tým uľahčiť analýzu.

5) Sekvenčné vzorce – vytváranie vzorcov medzi udalosťami súvisiacimi v čase, t.j. detekcia závislosti, že ak nastane udalosť X, potom udalosť Y nastane po určitom čase.

6) Analýza odchýlok - identifikácia najnetypickejších vzorov.

Uvedené úlohy sú rozdelené podľa účelu na popisné a prediktívne.

Opisné úlohy sa zameriavajú na zlepšenie pochopenia analyzovaných údajov. Kľúčovým bodom takýchto modelov je jednoduchosť a transparentnosť výsledkov pre ľudské vnímanie. Možno, že objavené vzory budú špecifickou črtou konkrétnych skúmaných údajov a nenájdu sa nikde inde, ale aj tak to môže byť užitočné, a preto by to malo byť známe. Tieto typy úloh zahŕňajú klastrovanie a hľadanie asociačných pravidiel.

Riešenie prediktívnych problémov je rozdelené do dvoch etáp. Prvým krokom je zostavenie modelu založeného na súbore údajov so známymi výsledkami. V druhom kroku sa používa na predpovedanie výsledkov na základe nových súborov údajov. V tomto prípade sa samozrejme vyžaduje, aby skonštruované modely fungovali čo najpresnejšie. TO tento druhúlohy zahŕňajú klasifikačné a regresné úlohy. Patrí sem aj problém hľadania asociačných pravidiel, ak výsledky jeho riešenia možno použiť na predpovedanie výskytu určitých udalostí.

Podľa spôsobov riešenia problému sa delia na učenie pod dohľadom (učenie s učiteľom) a učenie bez dozoru (učenie bez učiteľa). Tento názov pochádza z výrazu Machine Learning, ktorý sa často používa v anglickej literatúre a označuje všetky technológie dolovania dát.

V prípade vyučovania pod dohľadom sa úloha analýzy údajov rieši v niekoľkých etapách. Najprv sa pomocou nejakého algoritmu dolovania údajov vytvorí model analyzovaných údajov - klasifikátor. Klasifikátor je potom vyškolený. Inými slovami, kontroluje sa kvalita jeho práce a v prípade, že nie je uspokojivá, prebieha doškoľovanie klasifikátora. Toto pokračuje, kým sa nedosiahne požadovaná úroveň kvality alebo kým nie je jasné, že zvolený algoritmus nepracuje správne s údajmi, alebo samotné údaje nemajú štruktúru, ktorú by bolo možné identifikovať. Tento typ problémov zahŕňa klasifikačné a regresné problémy.

Učenie bez dozoru kombinuje úlohy, ktoré identifikujú popisné vzorce, ako sú nákupné vzorce od zákazníkov vo veľkom obchode. Je zrejmé, že ak tieto vzory existujú, potom ich model musí reprezentovať a je nevhodné hovoriť o jeho tréningu. Odtiaľ pochádza názov – učenie bez dozoru. Výhodou takýchto úloh je možnosť ich riešenia bez predchádzajúcej znalosti analyzovaných dát. Patria sem klastrovanie a hľadanie asociačných pravidiel.

Problém klasifikácie a regresie

Pri analýze je často potrebné určiť, do ktorej zo známych tried skúmané objekty patria, to znamená klasifikovať ich. Napríklad, keď človek žiada banku o úver, pracovník banky musí rozhodnúť, či je potenciálny klient bonitný alebo nie. Je zrejmé, že takéto rozhodnutie sa prijíma na základe údajov o skúmanom objekte (v v tomto prípade- osoba): jeho pôsobisko, veľkosť mzdy, vek, zloženie rodiny a pod. Na základe analýzy týchto informácií musí pracovník banky zaradiť osobu do jednej z dvoch známych tried „bonitná“ a „nesolventná“.

Filtrovanie e-mailov je ďalším príkladom klasifikačnej úlohy. V tomto prípade musí filtrovací program klasifikovať prichádzajúca správa ako spam (nechcený Email) alebo ako list. Toto rozhodnutie sa berie na základe frekvencie výskytu určitých slov v správe (napríklad meno príjemcu, neosobné zaobchádzanie, slová a frázy: získať, „zarobiť“, „ zisková ponuka" atď.).