Andmekaeve kontseptsioon on muutunud populaarseks aastal. Andmekaeve Loginom Wiki

Saada oma head tööd teadmistebaasi on lihtne. Kasutage allolevat vormi

Üliõpilased, magistrandid, noored teadlased, kes kasutavad teadmistebaasi oma õpingutes ja töös, on teile väga tänulikud.

Sarnased dokumendid

    DataMining ülesannete klassifikatsioon. Aruannete ja kokkuvõtete koostamine. Data Mineri omadused statistikas. Klassifikatsiooni, rühmitamise ja regressiooni probleem. Analüüsitööriistad Statistica Data Miner. Probleemi olemus seisneb assotsiatsioonireeglite otsimises. Ellujäämise ennustajate analüüs.

    kursusetöö, lisatud 19.05.2011

    Kirjeldus funktsionaalsust Andmekaevandamise tehnoloogiad kui protsessid tundmatute andmete avastamiseks. Assotsiatsioonireeglite järeldussüsteemide ja närvivõrgu algoritmide mehhanismide uurimine. Andmekaeve klasterdamisalgoritmide ja ulatuste kirjeldus.

    test, lisatud 14.06.2013

    Klastrite moodustamise põhitõed. Andmekaevanduse kasutamine "teadmiste avastamiseks andmebaasides". Klasterdamisalgoritmide valik. Andmete toomine kaugtöökoja andmebaasi salvestusruumist. Õpilaste rühmitamine ja ülesanded.

    kursusetöö, lisatud 10.07.2017

    Andmekaeve, andmekaeve arengulugu ja teadmiste avastamine. Andmekaeve tehnoloogilised elemendid ja meetodid. Sammud teadmiste avastamisel. Muutuste ja kõrvalekallete tuvastamine. Seotud erialad, teabeotsing ja tekstiväljavõte.

    aruanne, lisatud 16.06.2012

    Klasterdamismeetodite ja algoritmide rakendamisel tekkivate probleemide analüüs. Klastrite põhialgoritmid. RapidMiner kui masinõppe ja andmeanalüüsi keskkond. Klasterdamise kvaliteedi hindamine andmekaeve meetodite abil.

    kursusetöö, lisatud 22.10.2012

    Andmete salvestamise ja salvestamise tehnoloogiate täiustamine. Infoandmete töötlemise kaasaegsete nõuete eripära. Andmete mitmemõõtmeliste suhete fragmente kajastavate mustrite kontseptsioon on tänapäevase andmekaevandamise tehnoloogia keskmes.

    test, lisatud 09.02.2010

    Närvivõrkude kasutamise analüüs olukorra prognoosimiseks ja otsuste tegemiseks börsil kasutades Trajan 3.0 närvivõrkude modelleerimise tarkvarapaketti. Esmaste andmete teisendus, tabelid. Programmi ergonoomiline hindamine.

    lõputöö, lisatud 27.06.2011

    Raskused evolutsiooniliste algoritmide kasutamisel. Loodusliku valiku põhimõtetel põhinevate arvutussüsteemide ehitamine. Geneetiliste algoritmide puudused. Evolutsiooniliste algoritmide näited. Evolutsioonilise modelleerimise juhised ja lõigud.

    Andmekaeve on jagatud kahte suurde rühma vastavalt algsete treeningandmetega töötamise põhimõttele. Selles klassifikatsioonis kõrgeim tase määratakse selle põhjal, kas andmed salvestatakse pärast andmete kaevandamist või destilleeritakse hilisemaks kasutamiseks.

    1. Andmete otsekasutamine või andmete salvestamine.

    Sel juhul salvestatakse algandmed selgesõnaliselt üksikasjalikul kujul ja neid kasutatakse vahetult etappidel ja/või erandi analüüs. Selle meetodite rühma probleem seisneb selles, et nende kasutamisel võib olla keeruline analüüsida väga suuri andmebaase.

    Selle rühma meetodid: klasteranalüüs, lähima naabri meetod, k-lähima naabri meetod, arutluskäik analoogia alusel.

    2. Formaaliseeritud tuvastamine ja kasutamine mustrid, või malli destilleerimine.

    Tehnoloogiaga destilleerimise mustrid lähteandmetest eraldatakse üks teabenäidis (mall) ja teisendatakse see mõneks formaalseks konstruktsiooniks, mille vorm sõltub kasutatavast andmekaeve meetodist. See protsess viiakse läbi etapis tasuta otsing, esimesel meetodite rühmal see etapp põhimõtteliselt puudub. Lavadel ennustav modelleerimine Ja erandi analüüs etapi tulemusi kasutatakse tasuta otsing, on need palju kompaktsemad kui andmebaasid ise. Tuletame meelde, et nende mudelite konstruktsioonid võivad olla analüütikule tõlgendatavad või mittetõlgendatavad (“mustad kastid”).

    Selle rühma meetodid: loogilised meetodid ; visualiseerimismeetodid; ristivahemeetodid; võrranditel põhinevad meetodid.

    Loogiliste meetodite või loogilise induktsiooni meetodite hulka kuuluvad: hägused päringud ja analüüsid; sümboolsed reeglid; otsustuspuud; geneetilised algoritmid.

    Selle rühma meetodid on ehk kõige paremini tõlgendatavad – need koostavad leitud mustrid enamasti kasutaja vaatenurgast üsna läbipaistval kujul. Saadud reeglid võivad sisaldada pidevaid ja diskreetseid muutujaid. Tuleb märkida, et otsustuspuud saab hõlpsasti teisendada sümboolsete reeglite kogumiks, genereerides ühe reegli mööda teed puu juurest selleni. terminali tipp. Otsustuspuud ja reeglid on tegelikult olemas erinevaid viise lahendused samale probleemile ja erinevad ainult oma võimaluste poolest. Veelgi enam, reeglite rakendamine toimub aeglasemate algoritmidega kui otsustuspuude induktsioon.

    Vahelehtedevahelised meetodid: agendid, Bayesi (usaldus)võrgud, kaartidevaheline visualiseerimine. Viimane meetod ei vasta päris täpselt ühele andmekaevandamise omadusele – sõltumatule otsingule mustrid analüütiline süsteem. Ristkaartide kujul teabe esitamine tagab aga andmekaevanduse peamise ülesande – mustrite otsimise – elluviimise, seega võib seda meetodit pidada ka üheks andmekaeve meetodiks.

    Võrranditel põhinevad meetodid.

    Selle rühma meetodid väljendavad ilmnenud mustreid matemaatiliste avaldiste - võrrandite kujul. Seetõttu saavad need töötada ainult numbriliste muutujatega ja muud tüüpi muutujad tuleb vastavalt kodeerida. See piirab mõnevõrra selle rühma meetodite rakendamist, kuid siiski kasutatakse neid laialdaselt erinevate probleemide lahendamisel, eriti aga prognoosimisprobleemide lahendamisel.

    Selle rühma peamised meetodid: statistilised meetodid ja närvivõrgud

    Enamasti kasutatakse prognoosimisprobleemide lahendamiseks statistilisi meetodeid. Statistilise andmeanalüüsi meetodeid on palju, nende hulgas näiteks korrelatsioon- ja regressioonanalüüs, aegridade korrelatsioon, aegridade trendide tuvastamine, harmooniline analüüs.

    Teine klassifikatsioon jagab kõik andmekaevandamise meetodid kahte rühma: statistilised ja küberneetilised meetodid. See eraldamisskeem põhineb erinevatel õppimisviisidel matemaatilised mudelid.

    Tuleb märkida, et statistiliste meetodite andmekaeveks klassifitseerimiseks on kaks lähenemisviisi. Esimene on statistiliste meetodite ja andmekaevanduse vastu, selle toetajad peavad klassikalisi statistilisi meetodeid eraldi andmeanalüüsi valdkonnaks. Teise lähenemisviisi kohaselt on statistilise analüüsi meetodid osa Data Mining matemaatilisest tööriistakomplektist. Enamik autoriteetseid allikaid kasutab teist lähenemisviisi.

    Selles klassifikatsioonis eristatakse kahte meetodite rühma:

    • statistilised meetodid, mis põhinevad keskmise kogunenud kogemuse kasutamisel, mis kajastub retrospektiivsetes andmetes;
    • küberneetilised meetodid, sealhulgas paljud heterogeensed matemaatilised lähenemisviisid.

    Sellise klassifikatsiooni miinuseks on see, et nii statistilised kui ka küberneetilised algoritmid toetuvad ühel või teisel viisil statistilise kogemuse võrdlusele hetkeolukorra jälgimise tulemustega.

    Sellise klassifikatsiooni eeliseks on selle tõlgendamise mugavus – seda kasutatakse kaasaegse lähenemise matemaatiliste vahendite kirjeldamisel. teadmiste ammutamine esialgsete (operatiivsete ja retrospektiivsete) vaatluste massiividest, st. andmete kaevandamise ülesannetes.

    Vaatame ülaltoodud rühmi lähemalt.

    Statistilised meetodid Andmekaeve

    Nendes meetodites on neli omavahel seotud osa:

    • statistiliste andmete olemuse eelanalüüs (statsionaarsuse, normaalsuse, sõltumatuse, homogeensuse hüpoteeside testimine, jaotusfunktsiooni tüübi, selle parameetrite jms hindamine);
    • linkide tuvastamine ja mustrid(lineaarne ja mittelineaarne regressioonanalüüs, korrelatsioonanalüüs jne);
    • mitmemõõtmeline statistiline analüüs (lineaarne ja mittelineaarne diskriminantanalüüs, klasteranalüüs, komponentanalüüs, faktoranalüüs ja jne);
    • dünaamilised mudelid ja prognoos aegridade põhjal.

    Statistiliste meetodite arsenal Andmekaevandamine jaguneb nelja meetodite rühma:

    1. Kirjeldav analüüs ja lähteandmete kirjeldamine.
    2. Seoste analüüs (korrelatsiooni- ja regressioonanalüüs, faktoranalüüs, dispersioonanalüüs).
    3. Mitmemõõtmeline statistiline analüüs (komponentanalüüs, diskriminantanalüüs, mitmemõõtmeline regressioonanalüüs, kanoonilised korrelatsioonid jne).
    4. Aegridade analüüs ( dünaamilised mudelid ja prognoosimine).

    Küberneetilised andmekaevandamise meetodid

    Andmekaevanduse teine ​​suund on lähenemisviiside kogum, mida ühendab arvutimatemaatika idee ja tehisintellekti teooria kasutamine.

    Mis on andmekaeve

    Iga kaasaegse ettevõtte ettevõtte andmebaas sisaldab tavaliselt tabelite komplekti, mis salvestab kirjeid teatud faktide või objektide kohta (näiteks kaupade, nende müügi, klientide, arvete kohta). Reeglina kirjeldab iga sellise tabeli kirje konkreetset objekti või fakti. Näiteks kajastab kanne müügitabelis seda, et sellist ja sellist toodet müüs sellisele ja sellisele kliendile sel ajal selline ja selline juht ning üldiselt ei sisalda see midagi peale selle teabe. Siiski täiteaine suur hulk Sellised mitme aasta jooksul kogunenud kirjed võivad saada täiendava, palju väärtuslikuma teabe allikaks, mida ei ole võimalik saada ühe konkreetse kirje põhjal, nimelt teavet mis tahes andmete mustrite, suundumuste või vastastikuste sõltuvuste kohta. Sellise teabe näiteks on teave selle kohta, kuidas konkreetse toote müük sõltub nädalapäevast, kellaajast või hooajast, millised ostjate kategooriad ostavad kõige sagedamini konkreetset toodet, milline osa ühe konkreetse toote ostjatest ostab mõnda muud konkreetset toodet. toode, milline klientide kategooria ei maksa kõige sagedamini laenu õigel ajal tagasi.

    Sellist teavet kasutatakse tavaliselt prognoosimisel, strateegilisel planeerimisel, riskianalüüsis ning selle väärtus ettevõtte jaoks on väga kõrge. Ilmselt seetõttu nimetati selle otsimise protsessi andmekaeveks (kaevandamine tähendab inglise keeles "kaevandamist" ja mustrite otsimine tohutul hulgal tegelikest andmetest on sellega tõesti sarnane). Mõiste andmekaeve ei viita mitte niivõrd konkreetsele tehnoloogiale, kuivõrd korrelatsioonide, suundumuste, seoste ja mustrite otsimise protsessile erinevate matemaatiliste ja statistiliste algoritmide abil: rühmitamine, alamvalim, regressioon ja korrelatsioonianalüüs. Selle otsingu eesmärk on esitada andmeid kujul, mis kajastaks selgelt äriprotsesse, samuti koostada mudel, mille abil saab ennustada äritegevuse planeerimisel kriitilise tähtsusega protsesse (näiteks teatud kaupade nõudluse dünaamika või või nende ostmise sõltuvus teatud tarbijaomadustest).

    Pange tähele, et traditsiooniline matemaatiline statistika, mis on pikka aega jäänud andmeanalüüsi peamiseks tööriistaks, aga ka veebipõhised analüütilise töötlemise (OLAP) tööriistad, millest oleme juba palju kordi kirjutanud (vt selleteemalisi materjale meie CD-l) saavad neid ei saa alati selliste probleemide lahendamiseks edukalt kasutada. Tavaliselt kasutatakse eelnevalt formuleeritud hüpoteeside testimiseks statistilisi meetodeid ja OLAP-i. Tihti osutub aga enim just hüpoteesi sõnastamine väljakutseid pakkuv ülesanneärianalüüsi rakendamisel hilisemate otsuste tegemiseks, kuna kõik andmete mustrid pole esmapilgul ilmsed.

    Kaasaegse andmekaevandamise tehnoloogia aluseks on mustrite kontseptsioon, mis peegeldavad andmete alamvalimitele omaseid mustreid. Mustreid otsitakse meetoditega, mis ei kasuta nende alamvalimite kohta mingeid a priori eeldusi. Kui statistiline analüüs või OLAP-rakendused formuleerivad tavaliselt selliseid küsimusi nagu "Kui palju on selle teenuse klientide keskmine tasumata arvete arv?", siis andmekaeve tähendab reeglina vastuseid küsimustele nagu "Kas on tüüpiline klientide kategooria, kes seda ei tee?" arveid maksma?" Samas annab just vastus teisele küsimusele sageli mittetriviaalsema lähenemise turunduspoliitikale ja klientidega töökorraldusele.

    Andmekaevanduse oluline tunnus on otsitavate mustrite ebastandardsus ja ebaselgus. Teisisõnu erinevad Data Mining tööriistad statistilistest andmetöötlusvahenditest ja OLAP-i tööriistadest selle poolest, et kasutajate eeldatud vastastikuste sõltuvuste kontrollimise asemel on neil võimalik olemasolevate andmete põhjal selliseid vastastikuseid sõltuvusi ise leida ja nende olemuse kohta hüpoteese püstitada.

    Tuleb märkida, et andmekaeve tööriistade kasutamine ei välista statistiliste tööriistade ja OLAP-i tööriistade kasutamist, kuna viimaste abil saadud andmetöötluse tulemused aitavad reeglina paremini mõista mustrite olemust, mida tuleks kasutada. otsitakse.

    Andmekaevanduse algandmed

    Andmekaeve kasutamine on põhjendatud, kui andmeid on piisavalt suurel hulgal, mis ideaaljuhul sisalduvad õigesti kujundatud andmelaos (tegelikult luuakse andmelaod ise enamasti otsustustoega seotud analüüsi- ja prognoosiprobleemide lahendamiseks). Samuti kirjutasime korduvalt andmeladude ehitamise põhimõtetest; asjakohased materjalid leiate meie CD-lt, seega me sellel teemal pikemalt ei peatu. Tuletame vaid meelde, et laos olevad andmed on täiendatud komplekt, mis on kogu ettevõtte jaoks ühine ja võimaldab teil igal ajahetkel taastada pildi selle tegevusest. Pange tähele ka seda, et salvestusandmete struktuur on konstrueeritud nii, et sellele suunatud päringute täitmine toimuks võimalikult tõhusalt. Siiski on andmekaevandamise tööriistu, mis võivad otsida mustreid, korrelatsioone ja suundumusi mitte ainult andmeladudest, vaid ka OLAP-i kuubikutest, st eeltöödeldud statistiliste andmete kogumitest.

    Andmekaevandamise meetoditega paljastatud mustrite tüübid

    V.A.Dyuki sõnul on andmekaevandamise meetodite abil tuvastatud viis standardset tüüpi mustreid:

    Assotsiatsioon - suur tõenäosus sündmuste omavaheliseks ühendamiseks (näiteks ostetakse sageli ühte toodet teisega koos);

    Järjestus - ajaliselt seotud sündmuste ahela suur tõenäosus (näiteks teatud aja jooksul pärast ühe toote ostmist ostetakse suure tõenäosusega teine);

    Klassifikatsioon - on märgid, mis iseloomustavad rühma, kuhu see või teine ​​sündmus või objekt kuulub (tavaliselt formuleeritakse teatud reeglid juba klassifitseeritud sündmuste analüüsi põhjal);

    Klasterdamine on klassifitseerimisele sarnane muster ja erineb sellest selle poolest, et rühmi endid sel juhul ei määrata – need tuvastatakse andmetöötluse käigus automaatselt;

    Ajalised mustrid - mustrite olemasolu teatud andmete käitumise dünaamikas (tüüpiline näide on hooajalised kõikumised nõudluse teatud kaupade või teenuste järele), mida kasutatakse prognoosimiseks.

    Andmekaeve meetodid andmekaevanduses

    Tänapäeval on üsna palju erinevaid andmekaeve meetodeid. V.A. Dyuki pakutud ülaltoodud klassifikatsiooni põhjal on nende hulgas:

    Regressioon-, dispersioon- ja korrelatsioonanalüüs (rakendatud enamikes kaasaegsetes statistikapakettides, eelkõige SAS Instituudi, StatSofti jne toodetes);

    Empiirilistel mudelitel põhinevad analüüsimeetodid konkreetses ainevaldkonnas (kasutatakse sageli nt odavates finantsanalüüsi vahendites);

    Närvivõrgu algoritmid, mille idee põhineb analoogial närvikoe toimimisega ja seisneb selles, et esialgseid parameetreid peetakse signaalideks, mida muudetakse vastavalt "neuronite" vahelistele olemasolevatele ühendustele. ja analüüsist tuleneva vastusena kogu võrgu vastus algandmetele. Lingid luuakse sel juhul nn võrkõppe abil läbi suure valimi, mis sisaldab nii algandmeid kui ka õigeid vastuseid;

    Algoritmid - algandmete lähedase analoogi valik juba olemasolevatest ajaloolistest andmetest. Seda nimetatakse ka lähima naabri meetodiks;

    Otsustuspuud - hierarhiline struktuur, mis põhineb küsimuste kogumil, mis eeldab vastust "jah" või "ei"; kuigi nii andmetöötlus ei leia alati ideaalis olemasolevaid mustreid, seda kasutatakse üsna sageli prognoosisüsteemides tänu saadud vastuse selgusele;

    Klastrite mudeleid (mõnikord nimetatakse ka segmenteerimismudeliteks) kasutatakse sarnaste sündmuste rühmitamiseks rühmadesse, mis põhinevad andmestiku mitme välja sarnastel väärtustel; on väga populaarsed ka prognoosisüsteemide loomisel;

    Piiratud otsingualgoritmid, mis arvutavad andmete alamrühmades lihtsate loogiliste sündmuste kombinatsioonide sagedusi;

    Evolutsiooniline programmeerimine - andmete vastastikust sõltuvust väljendava algoritmi otsing ja genereerimine, mis põhineb algselt määratletud algoritmil, mida otsinguprotsessis muudetakse; mõnikord otsitakse vastastikust sõltuvust mis tahes teatud tüüpi funktsioonide (näiteks polünoomide) hulgast.

    Lisateavet nende ja teiste andmekaeve algoritmide ning neid rakendavate tööriistade kohta saate lugeda raamatust „Andmekaeve: koolitus»V.A.Dyuk ja A.P.Samoilenko, välja antud kirjastuse "Piter" poolt 2001. aastal. Täna on see üks väheseid venekeelseid raamatuid, mis sellele probleemile pühendatud on.

    Juhtivad andmekaevetööriistade tootjad

    Andmekaeve tööriistad, nagu enamik Business Intelligence'i tööriistu, kuuluvad traditsiooniliselt kallite tarkvaratööriistade hulka – mõne hind ulatub mitmekümne tuhande dollarini. Seetõttu olid kuni viimase ajani selle tehnoloogia peamisteks tarbijateks pangad, finants- ja kindlustusfirmad, suured kaubandusettevõtted ning andmekaeve kasutamist nõudvateks peamisteks ülesanneteks peeti krediidi- ja kindlustusriskide hindamist ning turunduse väljatöötamist. poliitika, tariifiplaanid ja muud klientidega töötamise põhimõtted. Viimastel aastatel on olukord teatud muutusi teinud: turg tarkvara Ilmunud on suhteliselt odavad andmekaevandamise tööriistad mitmelt müüjalt, mis teeb selle tehnoloogia kättesaadavaks väikestele ja keskmise suurusega ettevõtetele, kes polnud sellele varem mõelnud.

    Kaasaegsete äriteabe tööriistade hulka kuuluvad aruannete generaatorid, analüütiline töötlemine andmed, BI arendustööriistad (BI platvormid) ja nn Enterprise BI Suites – üleettevõttelised andmeanalüüsi ja -töötluse tööriistad, mis võimaldavad sooritada andmeanalüüsi ja aruandlusega seotud toimingute komplekti ning sisaldavad sageli integreeritud BI komplekti. tööriistad ja BI-rakenduste arendustööriistad. Viimased sisaldavad reeglina nii aruandlustööriistu kui OLAP-tööriistu ning sageli ka andmekaeve tööriistu.

    Gartner Groupi analüütikute sõnul on Business Objects, Cognos, Information Builders ettevõtte mastaabis andmeanalüüsi ja -töötluse turul liidrid ning Microsoft ja Oracle pretendeerivad samuti juhtpositsioonile (joonis 1). Mis puutub BI-lahenduste arendustööriistadesse, siis selles valdkonnas on peamised kandidaatid liidripositsioonile Microsoft ja SAS Institute (joonis 2).

    Pange tähele, et Microsofti ärianalüüsi tööriistad on suhteliselt odavad tooted, mis on saadaval paljudele ettevõtetele. Seetõttu käsitleme selle artikli järgmistes osades selle ettevõtte tooteid näitena andmekaevanduse kasutamise praktilisi aspekte.

    Kirjandus:

    1. Hertsog V.A. Data Mining – andmekaeve. - http://www.olap.ru/basic/dm2.asp.

    2. Dyuk V.A., Samoylenko A.P. Andmekaeve: koolituskursus. - Peterburi: Peeter, 2001.

    3. B. de Ville. Microsofti andmekaeve. Digitaalne ajakirjandus, 2001.

    Andmete salvestamise ja säilitamise meetodite areng on toonud kaasa kogutava ja analüüsitava teabe mahu kiire kasvu. Andmete mahud on nii muljetavaldavad, et inimesel pole lihtsalt võimalik neid iseseisvalt analüüsida, kuigi vajadus sellise analüüsi järele on üsna ilmne, sest need "toored" sisaldavad teadmisi, mille põhjal saab otsuseid langetada. Automaatse andmeanalüüsi läbiviimiseks kasutatakse Data Mining’i.

    Andmekaevandamine on protsess, mille käigus avatakse algandmetes senitundmatuid mittetriviaalseid, praktiliselt kasulikke ja kättesaadavaid teadmisi, mis on vajalikud otsuste tegemiseks erinevates inimtegevuse valdkondades. Andmekaeve on üks andmebaasides teadmiste avastamise etappidest.

    Andmekaeve meetodite rakendamise käigus leitav teave peab olema mittetriviaalne ja varem teadmata, näiteks keskmine müük ei ole seda. Teadmised peaksid kirjeldama uusi seoseid omaduste vahel, ennustama mõne tunnuse väärtusi teiste põhjal jne. Leitud teadmised peaksid olema teatud kindlusega rakendatavad uute andmete puhul. Kasulikkus seisneb selles, et need teadmised võivad rakendamisel tuua teatud kasu. Teadmised peaksid olema kasutajale, mitte matemaatikule arusaadavas vormis. Näiteks loogilised konstruktsioonid "kui ... siis ..." on inimesele kõige kergemini tajutavad. Lisaks saab selliseid reegleid kasutada erinevates DBMS-ides SQL-päringutena. Juhul, kui ammutatud teadmised pole kasutajale läbipaistvad, peaksid olema järeltöötlusmeetodid, mis võimaldavad need tõlgendatavasse vormi viia.

    Andmekaevanduses kasutatavad algoritmid nõuavad palju arvutusi. Varem takistas see andmekaeve laialdast praktilist rakendamist, kuid tänane tootlikkuse kasv kaasaegsed protsessorid kõrvaldas selle probleemi kiireloomulisuse. Nüüd on mõistliku aja jooksul võimalik läbi viia sadade tuhandete ja miljonite kirjete kvalitatiivne analüüs.

    Andmekaeve meetoditega lahendatavad ülesanded:

    1. Klassifikatsioon- see on objektide (vaatluste, sündmuste) määramine mõnda varem tuntud klassi.
    2. Regressioon, sealhulgas prognoosimisprobleemid. Pideva väljundi sõltuvuse tuvastamine sisendmuutujatest.
    3. Klasterdamine on objektide (vaatluste, sündmuste) rühmitus, mis põhineb andmetel (omadustel), mis kirjeldavad nende objektide olemust. Klastris olevad objektid peavad olema üksteisega "sarnased" ja erinema teistes klastrites sisalduvatest objektidest. Mida rohkem sarnaseid objekte klastris on ja mida rohkem erinevusi klastrite vahel, seda täpsem on rühmitus.
    4. Ühing– seotud sündmuste vaheliste mustrite tuvastamine. Sellise mustri näide on reegel, mis näitab, et sündmus Y tuleneb sündmusest X. Selliseid reegleid nimetatakse assotsiatiivseteks. See probleem pakuti esmakordselt välja tüüpiliste ostumustrite leidmiseks supermarketites, mistõttu nimetatakse seda mõnikord ka turukorvi analüüsiks.
    5. Järjestikused mustrid– mustrite kehtestamine ajaga seotud sündmuste vahel, s.t. sõltuvuse tuvastamine, et kui sündmus X toimub, siis pärast antud aega sündmus Y toimub.
    6. Dispersioonanalüüs– kõige ebaiseloomulikumate mustrite tuvastamine.

    Ärianalüüsi probleeme formuleeritakse erinevalt, kuid enamiku nende lahendus taandub ühele või teisele Data Mining ülesandele või nende kombinatsioonile. Näiteks riskihindamine on regressiooni- või klassifitseerimisprobleemi lahendus, turu segmenteerimine on klasterdamine, nõudluse stimuleerimine on assotsiatsioonireeglid. Tegelikult on andmekaevandamise ülesanded need elemendid, millest saate koostada lahenduse enamikule tegelikele äriprobleemidele.

    Ülaltoodud probleemide lahendamiseks kasutatakse erinevaid andmekaeve meetodeid ja algoritme. Arvestades asjaolu, et andmekaeve on arenenud ja areneb selliste teadusharude ristumiskohas nagu statistika, infoteooria, masinõpe, andmebaasi teooria, on üsna loomulik, et enamik andmekaeve algoritme ja meetodeid töötati välja selle põhjal. erinevaid meetodeid nendest distsipliinidest. Näiteks k-keskmiste klastrite moodustamise protseduur laenati lihtsalt statistikast. Suure populaarsuse on kogunud järgmised andmekaevandamise meetodid: närvivõrgud, otsustuspuud, klasterdamisalgoritmid, sh skaleeritavad, sündmuste vaheliste assotsiatiivsete seoste tuvastamise algoritmid jne.

    Deductor on analüütiline platvorm, mis sisaldab täielikku tööriistakomplekti andmekaevandamise probleemide lahendamiseks: lineaarne regressioon, järelevalvega närvivõrgud, järelevalveta närvivõrgud, otsustuspuud, seosereeglite otsimine ja palju muud. Paljude mehhanismide jaoks on ette nähtud spetsiaalsed visualiseerijad, mis hõlbustavad oluliselt saadud mudeli kasutamist ja tulemuste tõlgendamist. Tugev punkt platvorm pole mitte ainult kaasaegsete analüüsialgoritmide rakendamine, vaid ka võimalus erinevaid analüüsimehhanisme meelevaldselt kombineerida.

    Mis on andmekaeve

    Andmekaevandamise ülesannete klassifikatsioon

    Ühingureeglite otsimise ülesanne

    Klastrite moodustamise probleem

    Data Mineri funktsioonid statistikas 8

    Analüüsitööriistad STATISTICA Data Miner

    Data Mininis töötamise näide

    Looge aruandeid ja kokkuvõtteid

    Teabe sorteerimine

    Elamukruntide hindade analüüs

    Ellujäämise ennustaja analüüs

    Järeldus


    Mis on andmekaeve

    Kaasaegne arvuti termin Andmekaeve on tõlgitud kui "teabe kaevandamine" või "andmete kaevandamine". Sageli koos andmekaevandusega leitakse ka termineid Knowledge Discovery ("teadmiste avastamine") ja Data Warehouse ("andmeladu"). Andmekaevanduse lahutamatuks osaks olevate terminite esilekerkimine on seotud andmete töötlemise ja säilitamise tööriistade ja meetodite väljatöötamise uue ringiga. Seega on andmekaevanduse eesmärk tuvastada peidetud reeglid ja mustrid suurtes (väga suurtes) andmemahtudes.

    Fakt on see, et inimmõistus ise ei ole kohandatud tajuma tohutuid heterogeense teabe massiive. Keskmiselt ei suuda inimene, välja arvatud mõned indiviidid, isegi väikestes valimites tabada rohkem kui kahte-kolme suhet. Kuid traditsiooniline statistika, mis pikka aega pretendeeris andmeanalüüsi peamise tööriista rolli, ebaõnnestub sageli ka probleemide lahendamisel päris elu. See toimib valimi keskmiste omadustega, mis on sageli fiktiivsed väärtused (kliendi keskmine maksevõime, kui sõltuvalt riskifunktsioonist või kahjufunktsioonist peate suutma ennustada kliendi maksevõimet ja kavatsusi; keskmine signaali intensiivsus, samal ajal kui olete huvitatud signaali tippude omadustest ja taustast jne. d.).

    Seetõttu meetodid matemaatiline statistika on kasulikud peamiselt eelnevalt sõnastatud hüpoteeside kontrollimiseks, samas kui hüpoteesi määratlemine on mõnikord üsna keeruline ja aeganõudev ülesanne. Kaasaegsed tehnoloogiad Andmekaevandamine töötleb teavet selleks, et automaatne otsing heterogeensete mitmemõõtmeliste andmete mis tahes fragmentidele iseloomulikud mallid (mustrid). Erinevalt veebipõhisest analüütilisest andmetöötlusest (OLAP) on andmekaevanduses hüpoteeside sõnastamise ja ebatavaliste (ootamatute) mustrite tuvastamise koorem nihutatud inimeselt arvutile. Andmekaeve ei ole üks, vaid paljude erinevate teadmiste avastamise meetodite kombinatsioon. Meetodi valik sõltub sageli saadaolevate andmete tüübist ja sellest, millist teavet proovite hankida. Siin on näiteks mõned meetodid: seostamine (kombineerimine), klassifitseerimine, klasterdamine, aegridade analüüs ja prognoosimine, närvivõrgud jne.

    Vaatleme üksikasjalikumalt definitsioonis antud avastatava teadmise omadusi.

    Teadmised peavad olema uued, varem tundmatud. Kasutajale juba teadaolevate teadmiste avastamiseks kulutatud vaev ei tasu end ära. Seetõttu on väärtus uus, senitundmatu teadmine.

    Teadmised peavad olema mittetriviaalsed. Analüüsi tulemused peaksid peegeldama mitteilmseid, ootamatuid mustreid andmetes, mis moodustavad nn varjatud teadmise. Tulemusi, mida oleks võimalik saada rohkem lihtsaid viise(näiteks visuaalsel vaatlusel) ei õigusta võimsate andmekaevandamise meetodite kasutamist.

    Teadmised peaksid olema praktiliselt kasulikud. Leitud teadmised peaksid olema rakendatavad, sealhulgas uute andmete puhul, piisavalt suure usaldusväärsusega. Kasulikkus seisneb selles, et need teadmised võivad nende rakendamisel kasu tuua.

    Teadmised peavad olema inimestele kättesaadavad. Leitud mustrid peavad olema loogiliselt seletatavad, vastasel juhul on võimalus, et need on juhuslikud. Lisaks tuleks avastatud teadmised esitada inimesele arusaadavas vormis.

    Andmekaevanduses kasutatakse saadud teadmiste esindamiseks mudeleid. Mudelite tüübid sõltuvad nende loomise meetoditest. Levinumad on: reeglid, otsustuspuud, klastrid ja matemaatilised funktsioonid.

    Andmekaeve ulatus on piiramatu – andmete kaevandamist on vaja kõikjal, kus andmeid on. Paljude selliste ettevõtete kogemused näitavad, et andmekaeve kasutamise tasuvus võib ulatuda 1000%-ni. Näiteks on teateid majanduslikust efektist, mis on 10–70 korda suurem kui esialgsed kulud 350–750 tuhat dollarit. Infot antakse 20 miljoni dollari suuruse projekti kohta, mis tasus end ära vaid 4 kuuga. Teine näide on 700 000 dollari suurune aastane sääst. Andmekaevanduse kasutuselevõtu kaudu Ühendkuningriigi supermarketite ketis. Andmekaevandamine on juhtide ja analüütikute jaoks nende igapäevatoimingutes väga väärtuslik. Ärimehed mõistsid, et andmekaevandamise meetodite abil on neil võimalik saavutada käegakatsutavaid konkurentsieelisi.

    Andmekaevandamise ülesannete klassifikatsioon

    DataMining meetodid võimaldavad lahendada paljusid analüütiku ees seisvaid probleeme. Neist peamised on: klassifikatsioon, regressioon, assotsiatsioonireeglite otsimine ja klasterdamine. Allpool on Lühike kirjeldus andmeanalüüsi põhiülesanded.

    1) Klassifitseerimise ülesanne taandub objekti klassi määramisele selle omaduste järgi. Tuleb märkida, et selle ülesande puhul on ette teada klasside kogum, kuhu objekti saab määrata.

    2) Regressiooniülesanne, nagu ka klassifitseerimisülesanne, võimaldab määrata mõne selle parameetri väärtuse objekti teadaolevate omaduste põhjal. Erinevalt klassifitseerimisprobleemist ei ole parameetri väärtus mitte lõplik klasside hulk, vaid reaalarvude hulk.

    3) Ühingu ülesanne. Seostusreeglite otsimisel on eesmärk leida objektide või sündmuste vahel sagedasi sõltuvusi (või seoseid). Leitud sõltuvused esitatakse reeglite kujul ja neid saab kasutada nii analüüsitavate andmete olemuse paremaks mõistmiseks kui ka sündmuste toimumise ennustamiseks.

    4) Klasterdamise ülesandeks on iseseisvate rühmade (klastrite) ja nende tunnuste otsimine kogu analüüsitavate andmete hulgast. Selle probleemi lahendamine aitab andmeid paremini mõista. Lisaks võimaldab homogeensete objektide rühmitamine vähendada nende arvu ja sellest tulenevalt hõlbustada analüüsi.

    5) Järjestikused mustrid - mustrite kehtestamine ajas seotud sündmuste vahel, s.t. tuvastada sõltuvus, et kui sündmus X toimub, siis sündmus Y toimub teatud aja pärast.

    6) Hälvete analüüs – kõige ebaiseloomulikumate mustrite väljaselgitamine.

    Loetletud ülesanded jagunevad eesmärgi järgi kirjeldavateks ja ennustavateks.

    Kirjeldavad ülesanded keskenduvad analüüsitavate andmete mõistmise parandamisele. Selliste mudelite põhipunkt on tulemuste lihtsus ja läbipaistvus inimese taju jaoks. Võimalik, et avastatud mustrid on konkreetsete uuritavate andmete eripära ja neid ei leia kusagilt mujalt, kuid see võib siiski olla kasulik ja seetõttu peaks neid teadma. Seda tüüpi probleem hõlmab rühmitamist ja seosereeglite otsimist.

    Ennustusülesannete lahendamine jaguneb kaheks etapiks. Esimeses etapis koostatakse mudel, mis põhineb teadaolevate tulemustega andmekogumil. Teises etapis kasutatakse seda uute andmekogumite põhjal tulemuste ennustamiseks. Sel juhul on loomulikult nõutav, et konstrueeritud mudelid töötaksid võimalikult täpselt. TO seda liikiülesannete hulka kuuluvad klassifitseerimise ja regressiooni ülesanded. See hõlmab ka seosereeglite otsimise probleemi, kui selle lahenduse tulemuste põhjal saab ennustada teatud sündmuste toimumist.

    Ülesannete lahendamise meetodite järgi jagunevad need juhendatud õppeks (õpe koos õpetajaga) ja juhendamata õppeks (õpe ilma õpetajata). See nimi pärineb terminist Machine Learning (masinõpe), mida kasutatakse sageli ingliskeelses kirjanduses ja mis viitab kõigile andmekaevandamise tehnoloogiatele.

    Juhendatud õppe puhul lahendatakse andmeanalüüsi probleem mitmes etapis. Esiteks koostatakse mis tahes andmekaeve algoritmi kasutades analüüsitud andmete mudel – klassifikaator. Seejärel koolitatakse klassifikaatorit. Teisisõnu kontrollitakse tema töö kvaliteeti ja kui see ei ole rahuldav, koolitatakse klassifikaatorit täiendavalt. See jätkub seni, kuni saavutatakse nõutav kvaliteeditase või selgub, et valitud algoritm ei tööta andmetega õigesti või andmetel endal puudub tuvastatav struktuur. Seda tüüpi probleemid hõlmavad klassifitseerimis- ja regressiooniprobleeme.

    Järelevalveta õppimine ühendab endas ülesandeid, mis tuvastavad kirjeldavaid mustreid, näiteks suures poes klientide tehtud ostude mustreid. Ilmselgelt, kui need mustrid on olemas, siis peaks mudel neid esindama ja selle õppimisest on kohatu rääkida. Sellest ka nimi – juhendamata õppimine. Selliste probleemide eeliseks on võimalus neid lahendada ilma analüüsitud andmete eelteadmiseta. Nende hulka kuuluvad rühmitamine ja seosereeglite otsimine.

    Klassifikatsiooni- ja regressiooniprobleem

    Analüüsimisel tuleb sageli kindlaks teha, millisesse teadaolevatest klassidest uuritavad objektid kuuluvad, s.t klassifitseerida. Näiteks kui inimene taotleb pangast laenu, peab pangaametnik otsustama, kas potentsiaalne klient on krediidivõimeline või mitte. On ilmne, et selline otsus tehakse uuritava objekti andmete põhjal (in sel juhul- inimene): tema töökoht, suurus palgad, vanus, perekonna koosseis jne. Selle teabe analüüsi tulemusena peab pangatöötaja määrama isiku kahest teadaolevast klassist "krediidivõimeline" ja "krediidivõimetu".

    Teine klassifitseerimisülesande näide on meilide filtreerimine. Sel juhul peab filtreerimisprogramm klassifitseerima sissetulev sõnum rämpspost (rämpspost Meil) või kirjana. See lahendus aktsepteeritakse sõnumis teatud sõnade esinemissageduse alusel (näiteks saaja nimi, isikustamata aadress, sõnad ja fraasid: omanda, "teeni", " tulus pakkumine" jne.).