Príprava údajov v procese ťažby údajov je. Technológia banskej dátovej technológie

Dátové ťažby je rozdelené do dvoch veľkých skupín o princípe práce s údajmi o zdrojovom vzdelávaní. V tejto klasifikácii horné poschodie Určené na základe toho, či sa dáta uložia po ťažbe dát alebo sú destilované na neskoršie použitie.

1. Priame používanie údajov alebo ukladanie údajov.

V tomto prípade sú počiatočné údaje uložené v zrejmej podrobnej forme a sú priamo použité v etapách a / alebo analýza výnimiek. Problém tejto skupiny metód - pri použití môže byť ťažké analyzovať ultra vysoké databázy.

Metódy tejto skupiny: Analýza klastra, najbližšia metóda susedov, metóda k-najbližšieho suseda, odôvodnenie analógie.

2. Detekcia a použitie formalizovaného zákonyalebo destilačné šablóny.

S technológiou destilácie šablóny Jedna vzorka (šablóna) informácií sa extrahuje zo zdrojových dát a je premenený na niektoré formálne štruktúry, ktorého typ závisí od použitej metódy ťažby údajov. Tento proces sa vykonáva v štádiu. bezplatné vyhľadávanie, V prvej skupine metód chýba táto fáza v zásade. V etapách prognostické modelovanie a analýza výnimiek Používajú sa výsledky javiska bezplatné vyhľadávanieV samotných databázach sú významne kompaktnejšie. Pripomeňme, že návrhy týchto modelov možno interpretovať analytik alebo neinmálne ("čierne boxy").

Metódy tejto skupiny: Logické metódy; Metódy vizualizácie; Metódy krížovej križovatky; Metódy založené na rovniciach.

Logické metódy alebo Logické indukčné metódy zahŕňajú: Fuzzy požiadavky a analýzy; symbolické pravidlá; Stromy riešení; Genetické algoritmy.

Metódy tejto skupiny sú snáď najviac interpretované - vytiahli zistené vzory, vo väčšine prípadov, v pomerne transparentnej forme z pohľadu používateľa. Získané pravidlá môžu zahŕňať nepretržité a diskrétne premenné. Treba poznamenať, že stromy riešení možno ľahko previesť na súbory symbolických pravidiel generovaním jedného pravidla pozdĺž cesty od koreňa stromu do jeho terminálový vrchol. Stromy riešení a pravidiel sú vlastne rôzne cesty Riešenia jednej úlohy a líšia sa len vo svojich schopnostiach. Okrem toho vykonáva implementácia pravidiel pomalšie algoritmy ako indukcia rozhodnutí stromov.

Metódy krížovej jazdy: Agenti, BAIET (TRUST) sieť, krížová tabuľková vizualizácia. Posledná metóda nereaguje na jednu z vlastností ťažby dát - nezávislé vyhľadávanie zákony Analytický systém. Poskytovanie informácií vo forme krížovej tabuľky však zabezpečuje implementáciu hlavnej úlohy ťažby dát - vyhľadávanie šablón, takže táto metóda môže byť považovaná za jednu z metód údajov o dátach.

Metódy založené na rovniciach.

Metódy tejto skupiny vyjadrujú identifikované vzory vo forme matematických výrazov - rovnice. Preto môžu pracovať len s numerickými premennými a musia byť podľa toho kódované premenné iných typov. To trochu obmedzuje používanie metód tejto skupiny, ale sú široko používané pri riešení rôznych úloh, najmä úlohy prognózovania.

Hlavné metódy tejto skupiny: štatistické metódy a neurónové siete

Štatistické metódy sa najčastejšie používajú na riešenie úloh prognózovania. Existuje mnoho metód štatistickej analýzy dát, medzi nimi, napríklad, korelačná regresná analýza, korelácia série dynamiky, identifikácia trendov dynamickej série, harmonická analýza.

Ďalšia klasifikácia zdieľa všetky odrody metód ťažby dát do dvoch skupín: štatistické a cybernetické metódy. Táto separačná schéma je založená na rôznych prístupoch k učeniu. matematické modely.

Treba poznamenať, že existujú dva prístupy pripisovania štatistických metód na ťažbu dát. Prvý z nich nesúhlasí s štatistickými metódami a ťažbou údajov, jej priaznivci považujú klasické štatistické metódy na samostatný smer analýzy dát. Podľa druhého prístupu sú štatistické analytické metódy súčasťou matematického banstva nástrojov. Najviac renomovaných zdrojov dodržiava druhý prístup.

V tejto klasifikácii rozlišujú dve skupiny metód:

  • Štatistické metódy založené na používaní spriemerovaných akumulovaných skúseností, ktoré sa odrážajú v retrospektívnych údajoch;
  • cybernetické metódy, ktoré zahŕňajú mnoho heterogénnych matematických prístupov.

Nedostatok takejto klasifikácie: obaja štatistické, a kybernetické algoritmy jedným alebo iným spôsobom sa spoliehajú na porovnanie štatistických skúseností s výsledkami monitorovania súčasnej situácie.

Výhodou takejto klasifikácie je jeho pohodlie pre tlmočenie - používa sa pri opise matematických prostriedkov moderného prístupu vyťahovanie vedomostí Zo poli zdrojových pozorovaní (prevádzkové a retrospektívne), t.j. V úlohách o ťažbe dát.

Podrobnejšie zvážte vyššie uvedené skupiny.

Štatistické metódy Údaje baníctvo

Tieto metódy sú štyri vzájomne prepojené časti:

  • predbežná analýza povahy štatistických údajov (kontrola hypotézy stationarity, normálnosti, nezávislosť, jednotnosť, posúdenie typu distribučnej funkcie, jej parametre atď.);
  • detekcia pripojení I. zákony (lineárna a nelineárna regresná analýza, korelačná analýza atď.);
  • multidimenzionálna štatistická analýza (lineárna a nelineárna diskriminačná analýza, analýza klastra, analýza komponentov, \\ t analýza faktora a atď.);
  • dynamické modely A prognóza založená na časových radoch.

Arsenál štatistických metód údajov o dátach je klasifikovaný pre štyri skupiny metód:

  1. Popisná analýza a opis zdrojových údajov.
  2. Analýza vzťahov (analýza korelácie a regresie, \\ t analýza faktora, analýza disperzie).
  3. Multidimenzionálna štatistická analýza (analýza komponentov, diskriminačná analýza, multidimenzionálna regresná analýza, kanonické korelácie atď.).
  4. Analýza dočasných sérií ( dynamické modely a prognózovanie).

Kybernetické metódy Usporiadanie údajov

Druhý smer ťažby dát je veľa prístupov, myšlienka počítačovej matematiky a používanie teórie umelej inteligencie.

ÚDAJOVÉ ÚDAJOVÉ ALEBO NIEKTORÉHO ANALÝZUJÚCEJ ANALÝZU ANALÝZUJÚCEJ ANALÝZY, KTORÉHO POTREBUJÚCEHO PRAVDUJÚCEHO PRAKTUJÚCEHO PRACUJÚCEHO SPRACOVANIA (ONLINE ANALYTICKÉ SPRACOVANIE, OLAP) zákony. Nástroje na banské dát môžu nájsť takéto povolenia nezávisle a tiež nezávisle budovať hypotézy o vzťahoch. Vzhľadom k tomu, že ide o formuláciu hypotézy v porovnaní s závislosťami je najviac náročná úlohaVýhodou ťažby dát v porovnaní s inými metódami analýzy je zrejmá.

Väčšina štatistických metód na identifikáciu prepojení s údajmi používajú koncepciu priemeru na vzorke, čo vedie k operáciám nad neexistujúcimi hodnotami, pričom ťažba dát pracuje s reálnymi hodnotami.

OLAP je vhodnejší na pochopenie retrospektívnych údajov, dáta sa spolieha na retrospektívne údaje, aby získali odpovede na otázky týkajúce sa budúcnosti.

Vyhliadky technológie ťažby údajov

Potenciál ťažby dát dáva "zelené svetlo" rozšíriť hranice aplikácie technológie. Pokiaľ ide o údaje o ťažbe údajov, sú možné tieto pokyny o vývoji: \\ t

  • pridelenie typov predmetov s príslušnou heuristikou, ktorej formalizácia uľahčí riešenie zodpovedajúcich úloh, ktoré patria do týchto oblastí;
  • vytvorenie formálnych jazykov a logických nástrojov, ktorými budú argumenty formalizované a automatizácia bude nástrojom na riešenie úloh dát v špecifických predmetoch;
  • vytvorenie metód ťažby údajov, ktoré sú schopné nielen extrahovať tieto vzory, ale tiež vytvoriť určité teórie na základe empirických údajov;
  • prekonanie základného zaostávania možností nástroje Dáta ťažba z teoretických úspechov v tejto oblasti.

Ak v krátkodobom horizonte uvažujete o budúcnosti ťažby údajov, je zrejmé, že rozvoj tejto technológie je najviac nasmerovaný do oblastí súvisiacich s podnikaním.

V krátkodobom horizonte môžu byť výrobky s dátmi také bežné a potrebné ako e-mail, Napríklad, používajú používatelia, ktorí hľadajú najviac nízke ceny Na určitom produkte alebo najlacnejších vstupeniek.

V dlhodobom horizonte je budúcnosť ťažby dát je naozaj vzrušujúca - môže to byť hľadanie intelektuálnych zástupcov ako nové typy liečby rôznych chorôb a nového chápania povahy vesmíru.

Avšak, dátové ťažby sama osebe a potenciálne nebezpečenstvo - po tom všetkom, rastúcim množstvom informácií je k dispozícii prostredníctvom svetovej siete, vrátane súkromných informácií a viac a viac vedomostí je možné získať z neho

Nie je to tak dávno, najväčší internetový obchod "Amazon" bol v centre škandálu o patente, ktorý mu dostal "metódy a systémy pre pomoc používateľom pri nákupe tovaru", čo nie je nič viac ako iné dátové ťažobné výrobok určený na zhromažďovanie osobných údajov Údaje o návštevníkov ukladania. Nová technika vám umožňuje predpovedať budúce žiadosti na základe nákupov, ako aj vyvodiť závery o ich účele. Účelom tejto techniky je to, čo bolo uvedené vyššie - čo je možné viac Informácie o zákazníkov, vrátane súkromnej prírody (pohlavie, vek, preferencie atď.). Zhromažďujú sa teda údaje o súkromí kupujúcich obchodníkov, ako aj členov ich rodín vrátane detí. Ten je zakázané právnymi predpismi mnohých krajín - zber informácií o neplnoletých osôb je tam možný len s povolením rodičov.

Štúdie Všimnite si, že existujú obidve úspešné riešenia, ktoré používajú ťažbu dát a neúspešné skúsenosti s používaním tejto technológie. Oblasti, v ktorých bude pravdepodobne úspešné používanie technológie ťažby údajov, majú také funkcie:

  • vyžadujú riešenia založené na vedomostiach;
  • majú meniace sa prostredie;
  • prístupné, dostatočné a významné údaje;
  • poskytnite vysoké dividendy z správnych riešení.

Existujúce prístupy k analýze

Dlhodobo, dátová ťažba disciplína nebola uznaná ako plnohodnotná nezávislá oblasť analýzy údajov, niekedy sa nazýva "štatistické záložné karty" (Pregibon, 1997).

K dnešnému dňu bolo stanovených niekoľko hľadísk na ťažbu dát. Podporovatelia jedného z nich považujú jeho mirage, rozptyľujúcu pozornosť od klasickej analýzy

Čo je to ťažba údajov

orcha akéhokoľvek moderného podniku zvyčajne obsahuje súbor tabuliek, ktoré uchovávajú záznamy o určitých faktoch alebo objektoch (napríklad o tovare, predajoch, zákazníkoch, účtoch). Každá položka v podobnej tabuľke je spravidla popisuje určitý konkrétny objekt alebo fakt. Napríklad záznam v tabuľke predaja odráža skutočnosť, že takýto výrobok sa predáva takýmto klientom, potom niečo ako manažér, a veľký, nič, ale tieto informácie neobsahujú. Celkový počet takýchto záznamov akumulovaných v priebehu niekoľkých rokov však môže byť zdrojom dodatočných, oveľa cennejšími informáciami, ktoré nemožno získať na základe jedného konkrétneho záznamu, a to informácie o modeloch, trendoch alebo vzájomnej závislosti medzi akýmikoľvek údajmi. Príklady takýchto informácií sú informácie o tom, ako predaj určitého výrobku závisí od dňa v týždni, časom alebo sezóny, ktoré najčastejšie získali kategórie kupujúcich jeden alebo iný výrobok, ktorá časť kupujúcich jedného konkrétneho \\ t Produkt získava ďalší špecifický produkt, ktorý kategórie zákazníkov najčastejšie nedáva úver v čase.

Takéto informácie sa bežne používajú pri predpovedaní, strategickom plánovaní, analýze rizika a jeho hodnota pre podnik je veľmi vysoká. Zdá sa preto, že proces jeho vyhľadávania a dostal názov dát (Ťažba v angličtine znamená "baníctvo" a vyhľadávanie pre regulárnosti v obrovskom súbore skutočných údajov je skutočne podobný). Termín dátové ťažby označuje nie je toľko špecifickej technológie ako proces hľadania korelácií, trendov, vzťahov a vzorov prostredníctvom rôznych matematických a štatistických algoritmov: klastrovanie, vytváranie sub-objavenia, regresnej a korelačnej analýzy. Účelom tohto vyhľadávania je predložiť údaje vo forme jasne reflexných obchodných procesov, ako aj vybudovať model, s ktorým môžete predpovedať procesy, kritické pre podnikateľské plánovanie (napríklad dynamiku dopytu po určitých výrobkoch alebo službách alebo závislosť ich nadobudnutia z akéhokoľvek spotrebiteľského charakteru).

Všimnite si, že tradičný matematické štatistikyPo dlhú dobu, hlavný nástroj analýzy dát, ako aj prevádzkové analytické nástroje na spracovanie údajov (online analytické spracovanie, OLAP), ktoré sme opakovane napísali (pozri materiály na túto tému na našom CD), nemôže byť vždy úspešne na riešenie týchto úloh. Štatistické metódy a OLAP sa typicky používajú na kontrolu vopred formulovaných hypotéz. Často je však, že znenie hypotézy je presne najťažšou úlohou pri implementácii obchodnej analýzy pre následné rozhodovanie, pretože ďaleko od všetkých vzorov v údajoch sú zrejmé na prvý pohľad.

Základný moderná technológia Dátová ťažba je koncepcia šablón odrážajúcich vzory, ktoré sú obsiahnuté v dátových listoch. Vyhľadávanie šablón je vytvorené metódami, ktoré o týchto podložiach nepoužívajú žiadne priori. Ak so štatistickou analýzou alebo pri použití OLAP, problémy typu "Aký je priemerný počet nezaplatených účtov so zákazníkmi tejto služby?", Použitie dát ťažby spravidla znamená odpovede na typ "Existuje typický Kategória zákazníkov, ktorí neplatia za účty? ". Zároveň je odpoveďou na druhú otázku, ktorá často zabezpečuje netriviálny prístup k marketingovým politikám a organizácii práce s klientmi.

Dôležitým rysom ťažby dát je neštandardná a nezviditeľnosť požadovaných šablón. Inými slovami, nástroje na banské dát sa líšia od dátových štatistických nástrojov a nástrojov OLAP v tom, že namiesto testovania v pokrokovo údajne uvedených užívateľov vzájomného závislosti sú schopní nájsť také interdependents nezávisle a budovať hypotézy o ich charaktere.

Treba poznamenať, že použitie nástrojov na banské dát nevylučuje využívanie štatistických nástrojov a fondov OLAP, pretože výsledky spracovania údajov s použitím druhej, spravidla prispieť k lepšiemu pochopeniu povahy vzorov, ktoré by mali hľadať.

Zdrojové údaje pre ťažbu dát

Aplikácia ťažby dát je opodstatnená, ak existuje dostatočne veľké množstvo údajov, ideálne obsiahnuté v správne navrhnutom dátovom sklade (vlastne sa ich dátové obchody zvyčajne vytvárajú na riešenie analýz a prognózovania úloh spojených s podporou rozhodovania). O princípoch budov repozitov sme tiež napísali viac ako raz; Zodpovedajúce materiály nájdete na našom CD, takže sa na tomto probléme nezastavíme. Pripomíname vám len, že údaje v úložisku sú doplnené sada, jeden pre celý podnik a umožňuje kedykoľvek obnoviť obraz o svojich činnostiach kedykoľvek. Všimnite si tiež, že štruktúra údajov o skladovaní je navrhnutá takým spôsobom, že vykonávanie požiadaviek na to sa používa čo najefektívnejšie. Existujú však nástroje na banské dát, ktoré sú schopné hľadať vzory, korelácie a trendy nielen v dátových skladoch, ale aj v kockách OLAP, to znamená v súboch predbežných štatistických údajov.

Typy vzorov zistených metódami ťažby dát

v.A. Dyuku oznámil päť štandardných typov vzorov zistených metódami ťažby údajov:

Združenie je vysokou pravdepodobnosťou komunikácie udalostí navzájom (napríklad jeden produkt sa často zakúpi spolu s iným);

Sekvencia je vysoká pravdepodobnosť udalostí súvisiacich s reťazcom (napríklad počas určitého obdobia po nákupe jedného produktu bude získaný s vysokým stupňom pravdepodobnosti);

Klasifikácia - Existujú znaky charakterizujúce skupinu, na ktorú jedna alebo iná udalosť alebo objekt (zvyčajne na základe analýzy už utajovaných udalostí, sú formulované niektoré pravidlá);

Klastrovanie je vzorom podobným klasifikácii a od neho sa odlišuje, že samotné skupiny nie sú špecifikované - sú automaticky detegované počas spracovania údajov;

Dočasné vzory - prítomnosť šablón v dynamike správania určitých údajov (typický príklad - sezónne oscilácie dopytu po určitých výrobkoch alebo službách), ktoré sa používajú na predpovedanie.

Metódy výskumu dát v ťažbe dát

je to pekné! veľký počet Rôznych metód výskumu dát. Na základe uvedenej klasifikácie navrhovanej V.A. DYUK, medzi nimi môžete prideliť:

Analýza regresie, disperzie a korelácie (implementované vo väčšine moderných štatistických paketov, najmä vo výrobkoch firiem SAS Institute, Statsoft atď.);

Metódy analýzy v špecifickej oblasti predmetu založenej na empirických modeloch (často platia napríklad v nízkonákladových fondoch finančnej analýzy);

Algoritmy nervových sietí, ktorého myšlienka je založená na účinkoch nervového tkaniva a spočíva v tom, že počiatočné parametre sa považujú za signály konvertované v súlade s existujúcimi vzťahmi medzi "neurónmi", a ako odpoveď, ktorá Je výsledkom analýzy, posudzuje odpoveď celej siete na počiatočné údaje. Komunikácia v tomto prípade sa vytvárajú pomocou tzv. Sieťového vzdelávania odberom vzoriek veľkého množstva obsahujúceho zdrojové údaje a správne odpovede;

Algoritmy sú výberom úzkej analógu zdrojových údajov z existujúcich historických údajov. Tiež nazývaný "najbližší sused" metóda;

Stromy riešení - hierarchická štruktúra založená na súbore otázok, ktoré znamenajú odpoveď "áno" alebo "nie"; hoci táto metóda Spracovanie údajov ďaleko od vždy dokonale nájde existujúce vzory, je celkom bežne používané v predpovedajúcich systémoch z dôvodu zviditeľnenia prijatého odozvy;

Klasterové modely (niekedy aj nazývané modely segmentácie) sa používajú na kombináciu podobných udalostí v skupinách založených na podobných hodnotách viacerých polí v súbore údajov; Veľmi populárne pri vytváraní predikčných systémov;

Obmedzené algoritmy integrity, výpočet frekvencií kombinácií jednoduchých logických udalostí v podskupinách údajov;

Evolučné programovanie - vyhľadávanie a generácia algoritmu vyjadrujúceho vzájomnú závislosť údajov na základe pôvodne špecifikovaného algoritmu upraveného počas vyhľadávania; Niekedy sa vyhľadávanie vzájomných závislostí uskutočňuje medzi akýmkoľvek špecifickým typom funkcií (napríklad polynómy).

Prečítajte si viac o týchto a iných dátových ťažných algoritmoch, ako aj na ich prostriedkoch, môžete si prečítať v knihe "Údaje mining: výcvikový kurz"V.A. DOOKY A A.P. SAMOLENKO, vydaná Peterovým vydavateľstvom v roku 2001. Dnes je jedným z mála kníh v ruštine na probléme.

Vedúci výrobcovia údajov Ming

oddychovanie dát ťažby, ako väčšina fondov Business Intelligence, tradične patrí drahé softvérové \u200b\u200bnástroje - cena niektorých z nich dosahuje niekoľko desiatok tisíc dolárov. Až do nedávnej doby boli hlavnými spotrebiteľmi tejto technológie banky, finančné a poisťovne, veľké obchodné podniky a hlavné úlohy, ktoré si vyžadujú využívanie ťažby údajov, posúdenie úverových a poistných rizík a marketingových politík, boli zvažované. tarifné plány a ďalšie princípy práce s klientmi. V posledných rokoch sa situácia podrobila určitým zmenám: na trhu softvér Tam boli relatívne lacné nástroje na banské dát od niekoľkých výrobcov, ktoré túto technológiu k dispozícii pre malé a stredné podniky, predtým o tom nepremýšľali.

Moderné obchodné spravodajské nástroje zahŕňajú generátory prehľadov, nástroje na analýzu dát, nástroje na vývoj biopolsov (BI platformy) a tzv. Enterprise Bi Suites - Analýza analýzy a nástroje na spracovanie údajov, ktoré vám umožňujú vykonávať súbor údajov týkajúcich sa analýzy údajov a Vytvorenie správ a často zahŕňa integrované bi-nástroje a nástroje na rozvoj biop aplikácie. Ten spravidla obsahuje vo svojom zložení a prostriedkoch stavebných správ a fondov OLAP, a často - a dátové ťažby.

Podľa analytikov Gartner Group, vedúcimi predstaviteľmi na trhu s analýzou a spracovaním dátových šupín podniku sú spoločnosti obchodných objektov, cognos, informačných staviteľov, a tvrdia, že vedenie tiež Microsoft a Oracle (Obr. 1). Pokiaľ ide o rozvoj biologických riešení, hlavnou žiadateľom o vedenie v tejto oblasti sú Microsoft a SAS Institute (obr. 2).

Všimnite si, že fondy Business Intelligence spoločnosti Microsoft sa týkajú relatívne lacných produktov, ktoré sú k dispozícii širokému spektru spoločností. Preto budeme zvážiť niektoré praktické aspekty uplatňovania ťažby údajov na príklad produktov tejto spoločnosti v nasledujúcich častiach tohto článku.

Literatúra:

1. Duke V.A. Údaje mining - inteligentná analýza údajov. - http://www.olap.ru/basic/dm2.APP.

2. Duke V.A., SAMOILENKO A.P. Usporiadanie údajov: Tréningový kurz. - SPB.: Peter, 2001.

3. B. De Ville. Microsoft dátové ťažby. Digitálna tlač, 2001.

ÚDAJOVÉ UŽÍVAŽ

Dátové ťažby je metodika a proces detekcie vo veľkých dátových poliach akumulovaných v informačné systémy Spoločnosti, predtým neznámy, netriviálny, prakticky užitočný a prístupný k interpretácii poznatkov potrebných na rozhodovanie v rôznych oblastiach ľudskej činnosti. Dátová ťažba je jedným z krokov rozsiahlejšieho objavovania vedomostí v metodike databáz.

Znalosti objavené v procese banského dát by mali byť ne-triviálne a predtým neznáme. Netvorenosť predpokladá, že takéto vedomosti nemožno zistiť jednoduchou vizuálnou analýzou. Musia opísať vzťah medzi vlastnosťami obchodných objektov, predpovedať hodnoty niektorých značiek na základe iných, atď. Zistili sa, že znalosti musia byť použiteľné na nové objekty.

Praktická užitočnosť poznatkov je spôsobená možnosťou ich použitia v procese podpory prijatia rozhodnutí o riadení a zlepšenie činností spoločnosti.

Znalosť musí byť prezentovaná vo forme, ktorá je pochopiteľná pre používateľov, ktorí nemajú osobitný matematický výcvik. Napríklad logické návrhy "Ak potom" sú ľahšie vnímané osobou. Okrem toho takéto pravidlá môžu byť použité v rôznych DBMS ako SQL-Records. V prípade, že sa pre užívateľa nepriehľadne, musí existovať metódy po spracovaní, ktoré im umožňujú priviesť ich na interpretovú formu.

Údaje baníctvo nie je jedno, ale veľký počet rôzne metódy Detekcia vedomostí. Všetky úlohy vyriešené metódami ťažby dát môžu byť rozdelené do šiestich typov:

Údaje Ťažba je mediidisciplinárna, pretože obsahuje prvky numerických metód, matematických štatistík a teórie pravdepodobnosti, teória informácií a matematická logika, umelá inteligencia a strojové učenie.

Úlohy obchodnej analýzy sú formulované rôznymi spôsobmi, ale riešenie väčšiny z nich prichádza na jednu alebo inú úlohu údajov alebo do ich kombinácie. Napríklad hodnotenie rizika je riešením problému regresie alebo klasifikácie, segmentácie trhu - klastrovanie, propagácia dopyt - asociatívne pravidlá. Úlohy banských údajov sú v skutočnosti prvky, z ktorých môžete "zbierať" riešenie väčšiny reálnych obchodných úloh.

Na vyriešenie vyššie opísaných predmetov sa používajú rôzne metódy a dátové banské algoritmy. Vzhľadom k tomu, že ťažba údajov vyvinula a vyvíja na križovatke disciplín, ako sú matematické štatistiky, informačná teória, strojové učenie a databázy, je celkom prirodzené, že väčšina algoritmov a metód údajov údajov bola vyvinutá na základe rôznych Metódy z týchto disciplín. Napríklad algoritmus K-nie je požičaný z štatistík.

Pošlite svoju dobrú prácu v znalostnej báze je jednoduchá. Použite nižšie uvedený formulár

Študenti, absolventi študenti, mladí vedci, ktorí používajú vedomostnú základňu vo svojich štúdiách a práce, budú vám veľmi vďační.

Podobné dokumenty

    Popis funkčnosť Technológie banských údajov ako neznáme procesy detekcie údajov. Štúdium výstupných systémov associatívne pravidlá a mechanizmy algoritmov nervovej siete. Popis algoritmov klastrovania a používanie ťažby dát.

    vyšetrenie, pridané 06/14/2013

    Základy pre klastrovanie. Použitie ťažby dát ako spôsob, ako "detekovať vedomosti v databázach". Výber algoritmov klastrovania. Získanie údajov z úložiska databázy Distance Workshopu. Zhluční študenti a úlohy.

    kurz práce, pridané 07/10/2017

    Zlepšenie technológií zaznamenávania a skladovania údajov. Špecifickosť moderných požiadaviek na spracovanie informačných údajov. Koncepcia šablón odrážajúcich fragmenty multidimenzionálnych vzťahov v údajoch je založená na modernej technológii banskej dátovej.

    vyšetrenie, pridané 02.09.2010

    Usporiadanie údajov, vývojová anamnéza dát ťažby a objavovanie vedomostí. Technologické prvky a metódy ťažby dát. Kroky v objavení vedomostí. Zmena a detekcia odchýlky. Súvisiace disciplíny, vyhľadávanie informácií a extrakcia textu.

    správa, pridané 16.06.2012

    Dátové ťažby ako proces podpory rozhodovania založený na vyhľadávaní v týchto skrytých vzoroch (informačné šablóny). Jeho zákonitosti a fázy implementácie, história rozvoja tejto technológie, posudzovanie výhod a nevýhod, možnosti.

    esej, pridaný 12/17/2014

    Klasifikácia úloh datamingu. Vytvorenie správ a výsledkov. Možnosti dát baníkov v štatistike. Úloha klasifikácie, klastrovania a regresie. Analýza údajov o štatistike. Úlohy Essence Hľadať asociatívne pravidlá. Analýza prediktorov prežitia.

    kurz práce, pridané 19.05.2011

    Perspektívne smery Analýza údajov: Analýza textových informácií, inteligentná analýza údajov. Analýza štruktúrovaných informácií uložených v databázach. Proces analyzovania textových dokumentov. Vlastnosti predbežného spracovania údajov.

    abstrakt, pridané 13.02.2014

    Úlohy banských úloh. Úloha klastrovania a hľadania asociatívnych pravidiel. Definícia triedy objektov svojimi vlastnosťami a charakteristikami. Hľadanie častých závislostí medzi objektmi alebo udalosťami. Prevádzkové analytické spracovanie údajov.

    vyšetrenie, pridané 01/13/2013