Andmete ettevalmistamine andmete kaevandamise protsessis on. Andmekaevandustehnoloogia

Andmete kaevandamine jaguneb kahe suure rühma allika õppimise andmetega töötamise põhimõttele. Selles klassifikatsioonis ülemine tase Määratud põhjal, kas andmed salvestatakse pärast andmete kaevandamist või neid destilleeritakse hilisemaks kasutamiseks.

1. Otsene andmete kasutamine või andmete salvestamine.

Sellisel juhul salvestatakse esialgsed andmed ilmselge üksikasjaliku vormi ja neid kasutatakse otseselt etappidel ja / või erandite analüüs. Selle meetodite rühma probleem - kui seda kasutatakse, võib olla raske analüüsida ultra-kõrge andmebaase.

Selle grupi meetodid: klastri analüüs, lähim naabri meetod, k-lähim naabri meetod analoogia põhjendus.

2. Formaliseeritud avastamine ja kasutamine seadusedvõi destilleerimismallid.

Tehnoloogiaga destilleerimise mallid Üks näidis (mall) teavet ekstraheeritakse lähteandmete ja muundatakse mõned formaalseks struktuuriks, mille tüüp sõltub kasutatud andmete kaevandamise meetod. See protsess viiakse läbi etapis. tasuta otsingEsimesel meetodite rühma esimesel meetoditel puudub põhimõtteliselt põhimõtteliselt. Staadiumis prognostiline modelleerimine ja erandite analüüs Kasutatakse etapi tulemusi tasuta otsingNad on andmebaaside ise oluliselt kompaktsemad. Tuletame meelde, et nende mudelite disainilahendusi saab tõlgendada analüütik või ebaõiglaselt ("mustad kastid").

Selle rühma meetodid: loogilised meetodid; visualiseerimismeetodid; Ristuva tabeli meetodid; Võrranditel põhinevad meetodid.

Loogilised meetodid või loogiliste induktsioonimeetodite hulka kuuluvad: fuzzy taotlused ja analüüsid; sümboolsed reeglid; Lahenduste puud; Geneetilised algoritmid.

Selle rühma meetodid on ehk kõige tõlgendatud - nad joonistavad leitud mustrid, enamikul juhtudel, üsna läbipaistvas vormis kasutaja seisukohast. Saadud reeglid võivad hõlmata pidevaid ja diskreetseid muutujaid. Tuleb märkida, et lahenduste puud saab kergesti konverteerida sümboolsete reeglite komplektile, tekitades ühe reegli mööda teed puu juurest selle terminal Vertex. Lahenduste ja reeglite puud on tegelikult erinevalt Lahendused ühe ülesande ja erinevad ainult nende võimekus. Lisaks teostavad eeskirjade rakendamist aeglasemaid algoritme kui otsuste tegemist puude.

Cross-Tab-vahekaardi meetodid: agendid, Baiec (usaldus) võrgustik, rist-tabeli visualiseerimine. Viimane meetod ei reageeri ühele andmekaevanduse ühele omadustele - sõltumatu otsing seadused Analüütiline süsteem. Siiski tagab teabe edastamine ristlaua kujul, rakendamise peamise ülesande andmete kaevandamise - otsing mallid, nii et seda meetodit võib pidada ka üheks andmete kaevandamise meetodite.

Võrranditel põhinevad meetodid.

Selle rühma meetodid väljendavad tuvastatud mustreid matemaatiliste väljendite kujul - võrrandid. Seetõttu saavad nad töötada ainult numbriliste muutujatega ja muude tüüpide muutujad peavad vastavalt kodeerima. See mõnevõrra piirab selle rühma meetodite kasutamist, kuid neid kasutatakse laialdaselt erinevate ülesannete lahendamisel, eriti prognoosimise ülesannete lahendamisel.

Selle rühma peamised meetodid: statistilised meetodid ja närvivõrgud

Statistilisi meetodeid kasutatakse kõige sagedamini prognoosimise ülesannete lahendamiseks. Nende hulgas on palju statistilise analüüsi meetodeid, näiteks korrelatsiooni-regressioonianalüüsi, dünaamika seeria korrelatsiooni, dünaamilise seeria suundumuste kindlakstegemist harmoonilise analüüsi.

Teine klassifikatsioon jagab kõiki andmekaevandusmeetodite sorte kaheks rühmaks: statistilised ja küberneetilised meetodid. See eraldusskeem põhineb erinevatel lähenemisviisidel õppimisele. matemaatilised mudelid.

Tuleb märkida, et andmete kaevandamise statistiliste meetodite omistamisele on kaks lähenemisviisi. Esimene neist on vastu statistiliste meetodite ja andmete kaevandamise vastu, selle toetajad kaaluvad klassikalisi statistilisi meetodeid andmete analüüsi eraldi suunas. Teise lähenemisviisi kohaselt on statistilised analüüsimeetodid osa matemaatilise tööriistakomplekti andmete kaevandamisest. Enamik mainekaid allikaid järgivad teist lähenemisviisi.

Selles klassifikatsioonis eristage kahte meetodi rühma:

statistilised meetodid, mis põhinevad keskmistatud kogunenud kogemuste kasutamisel, mis kajastub tagasiulatuvatel andmetel;
küberkeetilised meetodid, mis hõlmavad paljusid heterogeenseid matemaatilisi lähenemisviise.

Sellise klassifikatsiooni puudumine: nii statistilised kui ka küberneetilised algoritmid ühel viisil või muul viisil sõltuvad statistiliste kogemuste võrdlemisel praeguse olukorra jälgimise tulemustega.

Sellise klassifikatsiooni eeliseks on selle mugavus tõlgendamiseks - seda kasutatakse kaasaegse lähenemisviisi matemaatiliste vahendite kirjeldamisel teadmiste väljavõtmine allikate tähelepanekute massiividest (operatiiv- ja tagasiulatuv), st Andmekaevanduste ülesannetes.

Kaaluma üksikasjalikumalt ülaltoodud rühmasid.

Statistilised meetodid Andmete kaevandamine

Need meetodid on neli omavahel seotud osa:

statistiliste andmete olemuse esialgne analüüs (statsionaarsuse, normaalsuse, sõltumatuse, ühtsuse, jaotusfunktsiooni tüübi hindamine, selle parameetrid jne);
Ühenduste avastamine I. seadused (lineaarne ja mittelineaarne regressioonianalüüs, korrelatsiooni analüüs jne);
mitmemõõtmelise statistilise analüüsi (lineaarne ja mittelineaarne analüüs, klastri analüüs, komponentide analüüs, \\ t faktori analüüs jne);
dünaamilised mudelid Ja prognoos põhineb ajaseerial.

Andmete kaevandamise statistiliste meetodite arsenal liigitatakse neljale meetoditele:

Kirjeldav analüüs ja lähteandmete kirjeldus.
Seos analüüs (korrelatsioon ja regressioonianalüüs, faktori analüüs, dispersioonianalüüs).
Mitmemõõtmeline statistiline analüüs (komponentide analüüs, diskrimineeriv analüüs, mitmemõõtmeline regressioonianalüüs, kanoonilised korrelatsioonid jne).
Ajutine seeria analüüs ( dünaamilised mudelid ja prognoosimine).

Cyberneetiliste meetodite andmete kaevandamine

Andmekaevanduse teine \u200b\u200bsuund on palju lähenemisviise, arvuti matemaatika idee ja tehisintellekti teooria kasutamine.

Andmekaevandamine) ja "jäme" uurimise analüüsil, mis moodustab operatiivse analüüsi andmetöötluse (online-analüütilise töötlemise, OLAP) aluse, samas kui üks andmete kaevandamise peamisi sätteid - mitte-ilmselge seadused. Andmekaevandustööriistad võivad leida selliseid korrektsusi iseseisvalt ja ehitada sõltumatult hüpoteesid suhteid. Kuna see on hüpoteesi preparaat sõltuvuste suhtes võrreldes väljakutsuv ülesanneAndmete kaevandamise eeliseks võrreldes teiste analüüsimeetoditega on ilmne.

Enamik statistilisi meetodeid andmete identifitseerimiseks andmete kasutamiseks kasutage keskmistamise kontseptsiooni proovi keskmistamise kontseptsiooni, mis viib toimingute tegemiseks olematute väärtuste üle, samas kui andmete kaevandamine tegutseb tegelike väärtustega.

OLAP sobib paremini tagasiulatuvate andmete mõistmiseks, andmete kaevandamine tugineb tagasiulatuvatele andmetele, et saada vastuseid tuleviku küsimustele.

Andmekaevandustehnoloogia väljavaated

Andmete kaevandamise potentsiaal annab rohelise valguse "laiendada tehnoloogia rakenduse piire. Seoses andmete kaevandamise väljavaateid, järgmised arengusuunad on võimalik:

objekti valdkondade liigide jaotamine vastava heuristikaga, mille vormistamine hõlbustab nende piirkondade vastavate andmete kaevandamisülesannete lahendamist;
ametlike keelte ja loogiliste vahendite loomine, millega argumendid vormistatakse ja automatiseerimine on vahend andmete kaevandamise ülesannete lahendamisel konkreetsetes valdkondades;
andmete kaevandamise meetodite loomine, mis on võimelised mitte ainult nende mustrite väljavõtmiseks, vaid ka teatavate empiirilistel andmetel põhinevate teooriate väljavõtmiseks;
võimaluste olulise mahajäämise ületamine tööriistad Andmete kaevandamine teoreetilistest saavutustest selles valdkonnas.

Kui kaalute andmete kaevandamise tulevikku lühiajaliselt, on ilmselge, et selle tehnoloogia arendamine on kõige rohkem suunatud äriga seotud valdkondadele.

Lühiajalises perspektiivis võivad andmete kaevandamise tooted olla tavalised ja vajalikud e-kiriNäiteks kasutajad kasutavad kõige rohkem otsida madalad hinnad Teatud toote või odavaim pileteid.

Pikaajalises perspektiivis on andmete kaevandamise tulevik tõesti põnev - see võib olla intellektuaalsete ainete otsimine uute tüüpidena erinevate haiguste raviks ja uue arusaama kohta universumi olemusest.

Andmete kaevandamine on siiski iseenesest ja potentsiaalne oht - lõppude lõpuks muutub üha suureneva teabe kogu maailmas kättesaadavaks ülemaailmse võrgu kaudu, kaasa arvatud erateave ja üha enam teadmisi on võimalik saada:

Mitte nii kaua aega tagasi, suurim veebipood "Amazon" oli skandaali keskmes tema poolt saadud patendi kohta "Meetodid ja süsteemid kaupade ostmisel", mis ei ole midagi muud kui isikliku andmete kogumiseks mõeldud andmekaevandussaadus. Andmed külastajate kaupluste kohta. Uus tehnikat võimaldab teil ennustada tulevasi taotlusi ostude alusel, samuti teha järeldusi nende eesmärgi kohta. Selle tehnika eesmärk on eespool mainitud - saada võimalikult rohkem Teave klientide, sealhulgas erasektori looduse (soo, vanuse, eelistuste jne kohta). Seega kogutakse andmed kauplus ostjate privaatsuse kohta, samuti nende pereliikmete, sealhulgas laste liikmete kohta. Viimane on keelatud paljude riikide õigusaktides - alaealiste teabe kogumine on võimalik ainult vanemate loal.

Uuringud Pange tähele, et on edukaid lahendusi, mis kasutavad andmete kaevandamist ja ebaõnnestunud kogemust selle tehnoloogia kasutamise kohta. Piirkonnad, kus andmete kaevandamise tehnoloogia kasutamine on tõenäoliselt edukas, on sellised omadused:

nõuda teadmistepõhiseid lahendusi;
neil on muutuv keskkond;
neil on ligipääsetavad piisavad ja olulised andmed;
pakkuda parematest lahendustest kõrgeid dividende.

Olemasolevad lähenemisviisid analüüsile

Pikka aega ei ole andmete kaevandamise distsipliini kajastatud täieõigusliku sõltumatu andmeanalüüsi valdkonnana, mõnikord nimetatakse seda "statistiliste tagaringi" (Pregibon, 1997).

Praeguseks määrati kindlaks mitmed andmekaevanduse seisukohad. Toetajad ühe neist kaaluvad tema miraaž, häirivad tähelepanu klassikalise analüüsi

Mis on andmete kaevandamine

iga kaasaegse ettevõtte lastekodu sisaldab tavaliselt tabeleid, mis salvestavad andmeid teatud faktide või esemete kohta (näiteks kaupade, müügi, klientide, kontode kohta). Reeglina kirjeldab iga sarnase tabeli kirje mõningast konkreetset objekti või fakti. Näiteks rekord müügi tabelis peegeldab asjaolu, et selline toode müüakse sellisele kliendile siis midagi juht ja suur, mitte midagi, kuid see teave ei sisalda. Kuid selliste dokumentide koguarv kogutud mitu aastat võib olla allikas täiendava, palju väärtuslikuma teabe, mida ei saa saada põhjal ühe konkreetse dokumendi, nimelt teabe mustrid, suundumusi või vastastikuse sõltuvuste vahel andmete vahel. Sellise teabe näited on teave selle kohta, kuidas teatud toote müük sõltub nädalapäeval, kellaajal või hooajal, millised ostjate kategooriad omandavad kõige sagedamini ühe või teise toote osa ühe konkreetse ostjate osa Toode omandab teise konkreetse toote, mis kategooria klientide kõige sagedamini ei anna laenu õigeaegselt.

Sellist teavet kasutatakse tavaliselt prognoosimisel, strateegilise planeerimise, riskianalüüsi ja selle väärtuse ettevõte ettevõtte jaoks on väga suur. Ilmselt seetõttu selle otsingu protsess ja sai nimi andmete kaevandamine (kaevandamine inglise keeles tähendab "kaevandamise kaevandamine" ja otsida korrigeerimist suurte tegelike andmete kogum on tõesti sarnane sellega). Mõiste andmete kaevandamine tähistab mitte niivõrd konkreetset tehnoloogiat kui korrelatsiooni, suundumuste, suhete ja mustrite leidmise protsessi erinevate matemaatiliste ja statistiliste algoritmite leidmise protsessi kaudu: klasterdamine, alam-avastuse, regressiooni ja korrelatsiooni analüüsi loomine. Selle otsingu eesmärk on esitada andmed selgelt peegeldavate äriprotsesside kujul, samuti mudeli ehitamise kujul, millega saate ennustada protsesse, mis on kriitiline äriplaneerimise jaoks (näiteks teatud kaupade või teenuste nõudluse dünaamika või sõltuvus nende omandamisest mis tahes tarbija omadustest).

Pange tähele, et traditsiooniline matemaatika statistika, pikka aega, põhiandmete analüüsi vahend, samuti operatiivsete analüütiliste andmetöötlusvahendite (online-analüütilise töötlemise, OLAP), mis oleme korduvalt kirjutanud (vt meie CD-lt materjale), ei saa alati edukalt edukalt selliste ülesannete lahendamiseks rakendatud. Tavaliselt kasutatakse eelnevalt formuleeritud hüpoteeside kontrollimiseks statistilisi meetodeid ja OLAPi. Siiski on siiski, et hüpoteeside sõnastus on just kõige raskem ülesanne äritegevuse analüüsi rakendamisel järgneva otsuste tegemisel, kuna kaugeltki andmete mustrid on lühidalt ilmsed.

Põhiline moodne tehnoloogia Andmete kaevandamine on mallide kontseptsioon, mis peegeldavad andmelehtedele omaseid mustreid. Template otsimine toimub meetodite abil, mis ei kasuta nende aluspühade kohta a priori eeldusi. Kui koos statistilise analüüsiga või OLAPi kasutamisel, tüübi küsimused "Mis on selle teenuse klientidega tasumata kontode keskmine arv?", Andmete kaevandamise kasutamine reeglina tähendab vastuseid "Kas tüüpiline Klientide kategooria, kes ei maksa kontode eest? ". Samal ajal on teisele küsimusele vastus sageli tagab turunduspoliitikale ja klientidega töökorralduse suurema lähenemisviisi.

Andmete kaevandamise oluline omadus on soovitud mallide mittestandardne ja nähtavus. Teisisõnu erinevad andmete kaevandamise vahendid andmete statistilistest vahenditest ja OLAP-i tööriistadest selle asemel, et katsetada kõigeettumate väidetavate vastastikuse sõltuvuse kasutajate katsetamist, võivad nad leida selliseid interdeteeritute sõltumatult ja ehitada hüpoteesid nende iseloomu kohta.

Tuleb märkida, et andmete kaevandamisvahendite kasutamine ei välista statistiliste vahendite ja OLAP-vahendite kasutamist, sest viimaste andmete töötlemise tulemused aitavad reeglina kaasa paremale arusaamisele selle mustrite olemusest otsitakse.

Lähteandmed andmete kaevandamise kohta

Andmete kaevandamise rakendamine on õigustatud, kui on piisavalt suur hulk andmeid, mis sobib ideaalselt õigesti kujundatud andmelaos (tegelikult luuakse andmekauplused ise otsustustoetusega seotud analüüsi ja prognoosimise ülesannete lahendamiseks). Hoonete repositorite põhimõtete kohta kirjutasime ka rohkem kui üks kord; Vastavaid materjale võib leida meie CD-lt, nii et me ei lõpe selles küsimuses. Meenutame teile ainult seda, et salvestamise andmed on täiendatud komplekt, üks kogu ettevõtte jaoks ja võimaldab teil igal ajal taastada oma tegevuse pildi. Märgistame ka, et säilitamisandmete struktuur on konstrueeritud nii, et taotluste täitmist kasutatakse võimalikult tõhusalt. Siiski on olemas andmekaevandusvahendid, mis on võimelised otsima mustreid, korrelatsioone ja suundumusi mitte ainult andmekapitalites, vaid ka OLAP kuubikutes, st eelnevalt töödeldud statistiliste andmete kogumis.

Andmekaevandusmeetodite tuvastatud mustrite tüübid

v.A. Dyuku teatas andmete kaevandamismeetoditega tuvastatud viiest standarditüübile:

Assotsiatsioon on suure tõenäosusega üksteisega ürituste edastamise suure tõenäosusega (näiteks üks toode ostetakse sageli koos teise);

Järjestus on ahelaga seotud sündmuste suur tõenäosus (näiteks teatud aja jooksul pärast ühe toote ostmist omandatakse suure tõenäosusega);

Klassifikatsioon - grupi iseloomustavad märke, millele on sõnastatud ühe või teise sündmuse või objekti (tavaliselt juba salastatud sündmuste analüüsi põhjal, mõned reeglid);

Klastring on sarnane klassifikatsioonile ja sellest erinevatele rühmadele, et rühmad ise ei ole määratud - need tuvastatakse automaatselt andmete töötlemise ajal automaatselt;

Ajutised mustrid - mallide olemasolu teatavate andmete käitumise dünaamika (tüüpiline näide - teatavate kaupade või teenuste nõudluse hooajaliste võnkumiste puhul).

Andmete uurimismeetodid andmekaevanduses

see on ilus! suur hulk Mitmesugused andmete uurimismeetodid. Tuginedes eespool esitatud klassifikatsiooni V.A. Dyuk, nende hulgas saate eraldada:

Regressioon, dispersioon ja korrelatsioonianalüüs (rakendatakse kõige kaasaegsetes statistilistes pakettides, eelkõige ettevõtete ettevõtete toodete, Standoft jne) toodetes;

Empiirilistel mudelitel põhineva konkreetse valdkonna analüüsimeetodid (sageli kohaldatakse näiteks finantsanalüüsi odavates vahendites);

Neural Network Algoritmid, mille idee põhineb närvikoe mõjul ja asub asjaolu, et esialgseid parameetreid peetakse signaalideks, mis on konverteeritud vastavalt olemasolevatele suhetele "neuronite" ja vastusena, mis Kas analüüsi tulemus peetakse kogu võrgu põhjal esialgsetele andmetele. Kommunikatsiooni käesolevas asjas luuakse nn võrgukoolituse abil, proovides suur kogus, mis sisaldab nii allikaandmeid kui ka õigeid vastuseid;

Algoritmid on olemasolevate ajaloose andmete lähedase analoogi valik. Seda nimetatakse ka "lähima naabri" meetodiks;

Lahenduste puud - hierarhiline struktuur, mis põhineb küsimuste kogumisel, mis tähendab vastust "jah" või "ei"; kuigi see meetod Andmetöötlu on kaugeltki täiesti täiesti olemas olemasolevate mustrite, see on üsna tavaliselt kasutatud ennustussüsteemide nähtavuse tõttu saadud vastuse;

Klastrimudeleid (mõnikord ka nimetatakse ka segmenteerimismudelitena) kasutatakse sarnaste sündmuste ühendamiseks rühmades, mis põhinevad sarnaste mitmevälja väärtustel andmekogumites; Ka väga populaarne ennustussüsteemide loomisel;

Piiratud terviklikkuse algoritmid, arvutamisel sageduste kombinatsioonide lihtsate loogiliste sündmuste andmete alarühmades;

Evolutsiooniline programmeerimine - algoritmi otsing ja põlvkond, mis väljendab andmete vastastikust sõltuvust algselt määratud algoritmi põhjal, mida muudeti otsingu ajal muudetud; Mõnikord teostatakse vastastikuse sõltuvuse otsimine mis tahes spetsiifiliste funktsioonide vahel (näiteks polünoomid).

Loe lähemalt nende ja teiste andmete kaevandamise algoritme, samuti nende vahenditest, saate lugeda raamatus "Andmete kaevandamine: koolitus"V.A. Dooky ja A.p. Samolenko, mille on välja andnud 2001. aastal Peter Puter Kirjastus. Täna on see üks vähestest raamatutest vene keeles.

Juhtiv tootjad andmed Ming

andmete kaevandamise puhkamine, nagu enamik äriintellekti fondidest, kuuluvad traditsiooniliselt kallis tarkvara tööriistad - mõnede nende hind jõuab mitu kümne tuhande dollarit. Seega, kuni hiljuti peamised tarbijad selle tehnoloogia olid pangad, finants- ja kindlustusseltsid, peamised kaubandusettevõtted ja peamised ülesanded, mis nõuavad andmete kaevandamise hindamise krediidi ja kindlustusriskide ja turunduspoliitika. tariifiplaanid ja muud kliendiga töötamise põhimõtted. Viimastel aastatel on olukord läbinud teatud muudatused: turul tarkvara Seal oli suhteliselt odav andmete kaevandamise tööriistad mitmest tootjatest, kes tegid selle tehnoloogia kättesaadavaks väikeste ja keskmise suurusega ettevõtete jaoks, varem ei mõelnud.

Kaasaegsed ärianalüüsi tööriistad hõlmavad aruande generaatorid, andmete analüüsivahendid, bi-lahenduste arendamise tööriistad (BI-platvormid) ja nn Enterprise Bi Suites - analüüsi analüüs ja andmetöötlusvahendid, mis võimaldavad teil teostada andmete analüüsi ja andmete kogumi andmeid Aruannete loomine ja sageli hõlmab integreeritud bi-vahendeid ja bi-rakenduste arendusvahendeid. Viimane sisaldab reeglina oma koostises ja ehitusaruannetes ja OLAP-fondides ning sageli - ja andmete kaevandamise vahenditest.

Gartner Grupi analüütikute sõnul on ettevõtte andmete skaalade analüüsimise ja töötlemise turul asuvad juhid äriobjektide, cognose, infoehitajate äriühinguid ja väidavad juhtpositsiooni ka Microsoft ja Oracle (joonis 1). Mis puutub bi-lahenduste väljatöötamisel, on peamised juhtimise taotlejad selles valdkonnas Microsoft ja SAS Institute (joonis 2).

Pange tähele, et Microsofti ärianalüüsifondid viitavad suhteliselt odavatele toodetele, mis on kättesaadavad paljude ettevõtete jaoks. Sellepärast peame kaaluma mõningaid praktilisi aspekte andmete kaevandamise rakendamisel selle ettevõtte toodete näites käesoleva artikli järgmistes osades.

Kirjandus:

1. Duke V.A. Andmete kaevandamine - intelligentne andmete analüüs. - http://www.olap.ru/basic/dm2.asp.

2. Duke V.A., Samoilenko A.P. Andmete kaevandamine: koolituskursus. - SPB.: Peter, 2001.

3. B. de Ville. Microsofti andmete kaevandamine. Digitaalne ajakirjandus, 2001.

Andmete kaevandamine (andmete kaevandamine)

Andmete kaevandamine on metoodika ja avastamisprotsess suurtes andmetes massiivides infosüsteemid Ettevõtted, varem teadmata, mittetriviaalsed, praktiliselt kasulikud ja kättesaadavad otsuste tegemiseks vajalike teadmiste tõlgendamisele erinevates inimtegevuse valdkondades. Andmete kaevandamine on andmebaaside metoodikas üks suuremahuliste teadmiste avastamise sammud.

Andmekaevandamisprotsessis avastatud teadmised peaksid olema mitte-triviaalsed ja varem teadmata. Mittetriviaalsus eeldab, et selliseid teadmisi ei saa lihtsa visuaalse analüüsi abil tuvastada. Nad peavad kirjeldama äriobjektide omaduste vahelist seost, ennustavad mõnede teiste märgi väärtusi, mis põhinevad teistel jne. Leitud teadmisi peavad olema uute objektide suhtes kohaldatav.

Teadmiste praktiline kasulikkus on tingitud võimalus nende kasutamist juhtimisotsuste vastuvõtmise toetamisel ja ettevõtte tegevuse parandamiseks.

Teadmised tuleb esitada kujul, mis on arusaadav kasutajatele, kellel ei ole spetsiaalset matemaatilist koolitust. Näiteks loogilised disainilahendused ", kui siis on inimese poolt lihtsam tajuda. Lisaks võib selliseid reegleid kasutada mitmesugustes DBMS-is SQL-kirjetena. Juhul kui õppinud teadmised on kasutaja jaoks läbipaistmatu, peab järgima töötlusjärgseid meetodeid, mis võimaldavad neil tuua need tõlgendatavale vormile.

Andmete kaevandamine ei ole üks, vaid suur hulk erinevad meetodid Teadmiste avastamine. Kõik andmete kaevandamismeetodite lahendatud ülesanded saab jagada kuue liiki:

Andmete kaevandamine on mediidiskellina, kuna see hõlmab numbriliste meetodite, matemaatilise statistika ja tõenäosusteooria elemente, teabeteooria ja matemaatiline loogikaKunstlik luure ja masinaõpe.

Äri analüüsi ülesanded formuleeritakse erinevalt, kuid enamiku neist lahendus langeb ühele või teisele andmekaevandamise ülesannetele või nende kombinatsioonile. Näiteks riskihindamine on probleemi lahendamine regressiooni või klassifikatsiooni, turusegmenteerimine - klastrite, nõudluse edendamine - assotsiatiivsed eeskirjad. Tegelikult on andmete kaevandamise ülesanded elemendid, millest saate kõige reaalsete äriülesannete lahendust "koguda".

Eespool kirjeldatud objektide lahendamiseks kasutatakse erinevaid meetodeid ja andmekaevandus algoritme. Tänu asjaolule, et andmete kaevandamine on välja töötanud ja arenenud distsipliinide ristmikul nagu matemaatiline statistika, teabeteooria, masinaõpe ja andmebaasid, on üsna loomulik, et enamik andmekaevandus algoritme ja meetodeid on välja töötatud erinevate andmete põhjal Nende erialade meetodid. Näiteks K-vahendit klastrite algoritmi laenati statistika.

Saada oma hea töö teadmistebaasis on lihtne. Kasutage allolevat vormi

Õpilased, kraadiõppurid, noored teadlased, kes kasutavad oma õpingute teadmistebaasi ja töötavad, on teile väga tänulikud.

Sarnased dokumendid

Kirjeldus funktsionaalsus Andmekaevandustehnoloogiad tundmatute andmete avastamise protsessidena. Väljastussüsteemide uurimine assotsiatiivsed reeglid närvivõrgu algoritmide mehhanismid. Klastrite algoritme kirjeldus ja andmete kaevandamise kasutamine.

uurimine, lisatud 06/14/2013

Põhitõed klastrite jaoks. Andmete kaevandamise kasutamine viis "Avastage teadmisi andmebaasides". Valik klastrite algoritmid. Andmete saamine vahemaa töökoja andmebaasi hoidlast. Klastrite õpilased ja ülesanded.

kursuse töö, lisas 07/10/2017

Salvestamise ja andmete säilitamise tehnoloogiate parandamine. Teabeandmete töötlemise kaasaegsete nõuete eripära. Mõiste malle, mis peegeldavad mitmemõõtmeliste suhete fragmendid, põhinevad kaasaegse andmete kaevandamise tehnoloogial.

uurimine, lisatud 02.09.2010

Andmete kaevandamine, andmete kaevandamise ja teadmiste avastamise arenguajalugu. Tehnoloogilised elemendid ja andmete kaevandamise meetodid. Tegelike teadmiste avastamise sammud. Muutus ja kõrvalekalle tuvastamine. Seotud distsipliinid, teabe otsimine ja teksti ekstraheerimine.

aruanne, lisatud 16.06.2012

Andmete kaevandamine otsuse toetusprotsessis, mis põhineb nende peidetud mustrite otsimisel (teabemallid). Tema regulatsiooni ja rakendamise etapid, selle tehnoloogia arendamise ajalugu, eeliste ja puuduste hindamine, võimalused.

essee, lisatud 12/17/2014

Ülesannete klassifitseerimine DataMining. Aruannete ja tulemuste loomine. Andmete kaevandaja võimalused Statistikaga. Klassifitseerimise, klastrite ja regressiooni ülesanne. Statistika andmekandja analüüs. Essensi ülesanded otsivad assotsiatiivseid eeskirju. Analüüs ellujäämise ennustajad.

kursuse töö, lisatud 19.05.2011

Perspektiivsuunad Andmete analüüs: Tekstiteave analüüs, intelligentne andmete analüüs. Andmebaasides salvestatud struktureeritud teabe analüüs. Tekstiokumentide analüüsimise protsess. Pre-töötlemise funktsioonid.

abstraktne, lisatud 13.02.2014

Andmete kaevandamise ülesannete klassifikatsioon. Klastrite ülesanne ja assotsiatiivsete eeskirjade otsimine. Objekti klassi määratlus oma omaduste ja omaduste järgi. Sagedaste sõltuvuste leidmine objektide või sündmuste vahel. Operatiivse analüüsi andmetöötlus.

uurimine, lisatud 01/13/2013