Az adatbányászat népszerűvé vált Magyarországon. Adatbányászat Loginom Wiki

Küldje el a jó munkát a tudásbázis egyszerű. Használja az alábbi űrlapot

Diákok, végzős hallgatók, fiatal tudósok, akik a tudásbázist tanulmányaikban és munkájukban használják, nagyon hálásak lesznek Önnek.

Hasonló dokumentumok

    A DataMining feladatok osztályozása. Jelentések és összesítések készítése. A Data Miner szolgáltatásai a Statisticában. Osztályozási, klaszterezési és regressziós probléma. Elemző eszközök Statistica Data Miner. A probléma lényege az asszociációs szabályok keresése. Túlélési előrejelző elemzés.

    szakdolgozat, hozzáadva 2011.05.19

    Leírás funkcionalitás Az adatbányászati ​​technológiák, mint ismeretlen adatok észlelésének folyamatai. Neurális hálózati algoritmusok asszociatív szabályainak és mechanizmusainak következtetési rendszereinek tanulmányozása. Klaszterezési algoritmusok leírása és az adatbányászat alkalmazási területei.

    teszt, hozzáadva 2013.06.14

    A klaszterezés alapjai. Az adatbányászat használata a tudás „adatbázisokban való felfedezésének” módjaként. Klaszterezési algoritmusok kiválasztása. Adatok lekérése a távoli műhely adatbázis tárolójából. A tanulók és feladatok csoportosítása.

    szakdolgozat hozzáadva 2017.10.07

    Adatbányászat, az adatbányászat és a tudásfeltárás fejlődéstörténete. Az adatbányászat technológiai elemei és módszerei. A tudás felfedezésének lépései. Változás és eltérés észlelése. Kapcsolódó tudományágak, információkeresés és szövegkinyerés.

    jelentés hozzáadva: 2012.06.16

    A klaszterezési módszerek és algoritmusok alkalmazásából adódó problémák elemzése. Alapvető algoritmusok a klaszterezéshez. A RapidMiner szoftver gépi tanulási és adatelemzési környezetként. A klaszterezés minőségének felmérése Data Mining módszerekkel.

    szakdolgozat, hozzáadva 2012.10.22

    Adatrögzítési és -tárolási technológiák fejlesztése. Az információs adatfeldolgozás modern követelményeinek sajátossága. Az adatok többdimenziós kapcsolatainak töredékeit tükröző minták koncepciója a modern adatbányászati ​​technológia középpontjában.

    teszt, hozzáadva: 2010.09.02

    Neurális hálózatok tőzsdei helyzet-előrejelzési és döntéshozatali felhasználásának elemzése a Trajan 3.0 neurális hálózatmodellező szoftvercsomag segítségével. Elsődleges adatok, táblázatok konvertálása. Ergonómikus programértékelés.

    szakdolgozat, hozzáadva: 2011.06.27

    Az evolúciós algoritmusok használatának nehézségei. Számítógépes rendszerek építése a természetes szelekció elvei alapján. A genetikai algoritmusok hátrányai. Példák evolúciós algoritmusokra. Az evolúciós modellezés irányai és szakaszai.

    Az adatbányászat két nagy csoportra oszlik az eredeti képzési adatokkal való munka elve alapján. Ebben a besorolásban felső szint az alapján kerül meghatározásra, hogy az adatokat az adatbányászat után mentik-e, vagy későbbi felhasználás céljából desztillálják.

    1. Az adatok közvetlen felhasználása, ill adattárolás.

    Ebben az esetben a kezdeti adatokat kifejezetten részletezett formában tárolják, és közvetlenül felhasználják a szakaszokban és/vagy kivételek elemzése... Ezzel a módszercsoporttal az a probléma, hogy használatuk során nehézségek adódhatnak az ultranagy adatbázisok elemzésében.

    E csoport módszerei: klaszteranalízis, legközelebbi szomszéd módszer, k-legközelebbi szomszéd módszer, analógiás érvelés.

    2. A formalizált azonosítása és használata minták, vagy desztillációs sablonok.

    Technológiával desztillációs sablonok A kiindulási adatokból egy információmintát (sablont) kinyerünk és formális konstrukciókká alakítunk, amelyek formája az alkalmazott adatbányászati ​​módszertől függ. Ezt a folyamatot a szakaszban hajtják végre ingyenes keresés, a módszerek első csoportja elvileg nem rendelkezik ezzel a szakaszsal. Szakaszokban prediktív modellezésés kivételek elemzése szakasz eredményeit használják fel ingyenes keresés, sokkal kompaktabbak, mint maguk az adatbázisok. Emlékeztetni kell arra, hogy ezeknek a modelleknek a konstrukcióit az elemző értelmezheti vagy nem értelmezheti ("fekete dobozok").

    E csoport módszerei: logikai módszerek; vizualizációs módszerek; kereszttáblás módszerek; egyenleteken alapuló módszerek.

    A logikai módszerek vagy a logikai indukció módszerei a következők: fuzzy lekérdezések és elemzések; szimbolikus szabályok; döntési fák; genetikai algoritmusok.

    Ennek a csoportnak a módszerei talán a leginkább értelmezhetőek - ezek alkotják a talált mintákat, a legtöbb esetben a felhasználó szempontjából meglehetősen átlátható formában. Az eredményül kapott szabályok folytonos és diszkrét változókat tartalmazhatnak. Meg kell jegyezni, hogy a döntési fák könnyen átalakíthatók szimbolikus szabálykészletekké, ha egy szabályt generálunk a fa gyökerétől a fa gyökeréig vezető útvonal mentén. terminál teteje... A döntési fák és szabályok valójában különböző utak egy probléma megoldását, és csak képességeikben különböznek. Ráadásul a szabályok megvalósítását lassabb algoritmusok hajtják végre, mint a döntési fák indukciója.

    Kereszttáblás módszerek: ügynökök, Bayes-i (bizalmi) hálózatok, kereszttáblás vizualizáció. Az utolsó módszer nem egészen felel meg az adatbányászat egyik tulajdonságának - a független keresésnek minták elemző rendszer. A kereszttáblák formájában történő információszolgáltatás azonban biztosítja az Adatbányászat fő feladatának - a minták keresésének - megvalósítását, ezért ez a módszer is az Adatbányászati ​​módszerek egyikének tekinthető.

    Egyenlet alapú módszerek.

    Ennek a csoportnak a módszerei a feltárt mintákat matematikai kifejezések - egyenletek - formájában fejezik ki. Ezért csak numerikus változókkal dolgozhatnak, a más típusú változókat ennek megfelelően kell kódolni. Ez némileg korlátozza e csoport módszereinek alkalmazását, ennek ellenére széles körben alkalmazzák azokat különféle problémák, különösen előrejelzési problémák megoldásában.

    E csoport főbb módszerei: statisztikai módszerek és neurális hálózatok

    A statisztikai módszereket leggyakrabban az előrejelzési problémák megoldására alkalmazzák. A statisztikai adatelemzésnek számos módszere létezik, köztük a korrelációs-regressziós elemzés, az idősorok korrelációja, az idősorok trendjeinek meghatározása, a harmonikus elemzés.

    Egy másik osztályozás az adatbányászati ​​módszerek teljes skáláját két csoportra osztja: statisztikai és kibernetikai módszerekre. Ez a felosztási séma különböző tanulási megközelítéseken alapul matematikai modellek.

    Meg kell jegyezni, hogy kétféle megközelítés létezik a statisztikai módszerek adatbányászatként való osztályozására. Az első a statisztikai módszereket és az adatbányászatot állítja szembe, támogatói az adatelemzés külön irányának tekintik a klasszikus statisztikai módszereket. A második megközelítés szerint a statisztikai elemzési módszerek az Adatbányászat matematikai eszköztárának részét képezik. A legtöbb neves forrás a második megközelítést alkalmazza.

    Ebben az osztályozásban a módszerek két csoportját különböztetjük meg:

    • az átlagosan felhalmozott tapasztalatok felhasználásán alapuló statisztikai módszerek, amelyek tükröződnek a visszamenőleges adatokban;
    • kibernetikai módszerek, amelyek sok heterogén matematikai megközelítést tartalmaznak.

    Az ilyen osztályozás hátránya: mind a statisztikai, mind a kibernetikai algoritmusok valamilyen módon a statisztikai tapasztalatok összehasonlítására támaszkodnak a jelenlegi helyzet megfigyelésének eredményeivel.

    Ennek az osztályozásnak az előnye, hogy könnyen értelmezhető – a modern megközelítés matematikai eszközeinek leírására szolgál. tudáskinyerés kezdeti megfigyelések tömbjéből (operatív és retrospektív), azaz. az adatbányászati ​​feladatokban.

    Nézzük meg közelebbről a fent bemutatott csoportokat.

    Statisztikai adatbányászati ​​módszerek

    A módszerek négy egymással összefüggő szakaszt képviselnek:

    • a statisztikai adatok jellegének előzetes elemzése (stacionaritási, normalitási, függetlenségi, homogenitási hipotézisek tesztelése, az eloszlásfüggvény formájának, paramétereinek értékelése stb.);
    • linkek azonosítása és minták(lineáris és nemlineáris regresszióanalízis, korrelációs elemzés stb.);
    • többváltozós statisztikai elemzés (lineáris és nemlineáris diszkriminanciaanalízis, klaszteranalízis, komponensanalízis, faktoranalízis satöbbi.);
    • dinamikus modellekés idősoros előrejelzés.

    A statisztikai módszerek arzenálja Az adatbányászat négy módszercsoportba sorolható:

    1. A kiindulási adatok leíró elemzése és leírása.
    2. Linkelemzés (korrelációs és regressziós elemzés, faktoranalízis, varianciaanalízis).
    3. Többváltozós statisztikai elemzés (komponensanalízis, diszkriminanciaanalízis, többváltozós regresszióanalízis, kanonikus korrelációk stb.).
    4. Idősor elemzés ( dinamikus modellekés előrejelzés).

    Az adatbányászat kibernetikai módszerei

    Az adatbányászat második iránya a számítógépes matematika gondolata és a mesterséges intelligencia elméletének alkalmazása által egyesített megközelítések összessége.

    Mi az adatbányászat

    Bármely modern vállalat vállalati adatbázisa általában tartalmaz olyan táblákat, amelyek bizonyos tényekre vagy tárgyakra vonatkozó rekordokat tárolják (például árukról, értékesítésükről, vevőkről, számlákról). Általános szabály, hogy egy ilyen táblázatban minden rekord valamilyen konkrét tárgyat vagy tényt ír le. Például egy bejegyzés az értékesítési táblázatban azt tükrözi, hogy ilyen és olyan terméket adott el ilyen és ilyen vevőnek egy ilyen vagy olyan menedzser, és nagyjából nem tartalmaz mást, mint ezt az információt. Azonban a teljesség egy nagy szám az ilyen, több év alatt felhalmozott rekordok további, sokkal értékesebb információk forrásaivá válhatnak, amelyekhez nem lehet egyetlen rekord alapján hozzájutni, nevezetesen az adatok közötti mintázatokról, trendekről vagy összefüggésekről szóló információknak. Ilyen információ például az arra vonatkozó információ, hogy egy adott termék értékesítése hogyan függ a hét napjától, a napszaktól vagy az évszaktól, a vásárlók mely kategóriái vásárolják leggyakrabban ezt vagy azt a terméket, a vásárlók melyik része egy adott terméket. más meghatározott terméket vásárol, amely vásárlói kategória leggyakrabban nem fizeti vissza időben a felvett hitelt.

    Az ilyen jellegű információkat általában előrejelzésben, stratégiai tervezésben, kockázatelemzésben használják fel, és értéke a vállalat számára igen magas. Nyilván ezért is kapta a keresési folyamat a Data Mining nevet (a bányászat angolul bányászatot jelent, a tényadatok hatalmas halmazában való minták keresése pedig nagyon is ehhez hasonlít). Az adatbányászat kifejezés nem annyira egy specifikus technológiát jelöl, mint inkább a korrelációk, trendek, kapcsolatok és minták keresésének folyamatát különféle matematikai és statisztikai algoritmusok segítségével: klaszterezés, részmintavétel, regressziós és korrelációs elemzés. A keresés célja az adatok olyan formában történő bemutatása, amely egyértelműen tükrözi az üzleti folyamatokat, valamint olyan modell felépítése, amellyel előre jelezhetőek az üzleti tervezés szempontjából kritikus folyamatok (például bizonyos áruk iránti kereslet dinamikája, ill. szolgáltatások vagy vásárlásuk függősége a fogyasztó bármely tulajdonságától).

    Megjegyzendő, hogy a hagyományos matematikai statisztika, amely sokáig az adatelemzés fő eszköze maradt, valamint az online analitikai feldolgozó (OLAP) eszközök, amelyekről már sokszor írtunk (lásd a CD-n található anyagokat a témában) nem mindig sikeresen alkalmazzák az ilyen problémák megoldására. Általában statisztikai módszereket és OLAP-t használnak az előre megfogalmazott hipotézisek tesztelésére. Gyakran azonban a hipotézis megfogalmazásából derül ki kihívást jelentő feladat az üzleti elemzés végrehajtása során a későbbi döntéshozatalhoz, mivel az adatokban nem minden mintázat nyilvánvaló első pillantásra.

    A modern adatbányászati ​​technológia a sablonok koncepcióján alapul, amelyek tükrözik az adatalmintákban rejlő mintákat. A minták keresése olyan módszerekkel történik, amelyek nem használnak a priori feltételezéseket ezekről a részmintákról. Ha a statisztikai elemzés során vagy az OLAP alkalmazásakor olyan kérdések merülnek fel, mint "Hány a szolgáltatás ügyfelei által kifizetetlen számlák átlagos száma?" ... Ugyanakkor a második kérdésre adott válasz az, amely gyakran nem triviális megközelítést ad a marketingpolitikához és az ügyfelekkel való munka megszervezéséhez.

    Az adatbányászat egyik fontos jellemzője, hogy a keresett minták nem szabványosak és nem nyilvánvalóak. Vagyis az adatbányászati ​​eszközök abban különböznek a statisztikai adatfeldolgozó eszközöktől és az OLAP eszközöktől, hogy a felhasználók által előzetesen feltételezett kölcsönös függőségek ellenőrzése helyett a rendelkezésre álló adatok alapján önállóan is képesek ilyen kölcsönös függőségeket megtalálni és hipotéziseket felállítani. a természetükről.

    Megjegyzendő, hogy az adatbányászati ​​eszközök használata nem zárja ki a statisztikai eszközök és az OLAP eszközök használatát, mivel az utóbbiak segítségével végzett adatfeldolgozás eredményei főszabály szerint hozzájárulnak az adatbányászati ​​eszközök természetének jobb megértéséhez. mintákat kell keresni.

    Az adatbányászat kezdeti adatai

    Az Adatbányászat alkalmazása akkor indokolt, ha kellően nagy mennyiségű adat áll rendelkezésre, ideális esetben egy megfelelően kialakított adattárházban (valójában maguk az adattárházak általában a döntéstámogatással kapcsolatos elemzési és előrejelzési problémák megoldására jönnek létre). Az adattárházak építésének elveiről is többször írtunk; a vonatkozó anyagok a CD-ROM-unkon találhatók, ezért nem fogunk e kérdéssel foglalkozni. Emlékezzünk csak arra, hogy a raktárban lévő adatok egy feltöltött halmaz, amely az egész vállalkozásra egységes, és lehetővé teszi, hogy bármikor visszaállítsa a képet a tevékenységéről. Vegye figyelembe azt is, hogy az áruház adatstruktúrája úgy van kialakítva, hogy a lekérdezések végrehajtása a lehető leghatékonyabban történjen. Vannak azonban olyan Data Mining eszközök, amelyek nem csak adattárházakban, hanem OLAP kockákban, azaz előre feldolgozott statisztikai adatok halmazaiban is kereshetnek mintákat, összefüggéseket és trendeket.

    Az adatbányászati ​​módszerekkel észlelt minták típusai

    V.A. Duke szerint az adatbányászati ​​módszerekkel öt szabványos mintatípus létezik:

    Társulás - nagy a valószínűsége annak, hogy az események összekapcsolódnak egymással (például egy terméket gyakran vásárolnak egy másikkal együtt);

    Sorozat - időben összefüggő események láncolatának nagy valószínűsége (például egy termék megvásárlása után egy bizonyos időszakon belül nagy valószínűséggel egy másikat vásárolnak meg);

    Osztályozás - vannak olyan jelek, amelyek azt a csoportot jellemzik, amelyhez ez vagy az az esemény vagy objektum tartozik (általában a már minősített események elemzése alapján bizonyos szabályokat fogalmaznak meg);

    A klaszterezés az osztályozáshoz hasonló mintázat, és attól különbözik, hogy maguk a csoportok nincsenek megadva - az adatfeldolgozás során automatikusan észlelik őket;

    Időbeli minták - minták jelenléte bizonyos adatok viselkedésének dinamikájában (tipikus példa bizonyos áruk vagy szolgáltatások iránti kereslet szezonális ingadozása), amelyeket előrejelzésre használnak.

    Adatbányászati ​​módszerek az adatbányászatban

    Manapság az adatbányászatnak számos különféle módszere létezik. A V. A. Duke által javasolt fenti besorolás alapján ezek a következők:

    Regressziós, variancia- és korrelációs elemzés (a legtöbb modern statisztikai csomagban megvalósítva, különösen a SAS Institute, StatSoft stb. termékeiben);

    Empirikus modelleken alapuló elemzési módszerek egy adott tárgykörben (gyakran használják pl. olcsó pénzügyi elemzési eszközökben);

    Neurális hálózati algoritmusok, amelyek ötlete az idegszövet működésével való analógián alapul, és abban rejlik, hogy a kezdeti paramétereket olyan jeleknek tekintik, amelyek a „neuronok” és a a teljes hálózat válasza a kezdeti adatokra. Ebben az esetben az úgynevezett hálózati tréning segítségével a kiindulási adatokat és a helyes válaszokat is tartalmazó nagy minta segítségével hozzuk létre a kapcsolatokat;

    Algoritmusok - a kiindulási adatok szoros analógjának kiválasztása a meglévő történeti adatokból. A "legközelebbi szomszéd" módszernek is nevezik;

    A döntési fák egy olyan hierarchikus struktúra, amely olyan kérdéseken alapul, amelyekre „igen” vagy „nem” választ kell adni; habár Ily módon Az adatfeldolgozás nem mindig ideálisan találja meg a meglévő mintákat, a kapott válasz egyértelműsége miatt meglehetősen gyakran használják előrejelző rendszerekben;

    A klasztermodellek (néha szegmentációs modelleknek is nevezik) arra szolgálnak, hogy a hasonló eseményeket csoportokba csoportosítsák egy adatkészlet több mezőjének hasonló értékei alapján; nagyon népszerű előrejelző rendszerek létrehozásakor is;

    Korlátozott keresési algoritmusok, amelyek kiszámítják az egyszerű logikai események kombinációinak gyakoriságát adatalcsoportokban;

    Evolúciós programozás - az adatok egymásra utaltságát kifejező algoritmus keresése és generálása, az eredetileg megadott, a keresési folyamatban módosított algoritmus alapján; néha az interdependenciák keresése bizonyos típusú függvények (például polinomok) között történik.

    Ezekről és más adatbányászati ​​algoritmusokról, valamint az ezeket megvalósító eszközökről további részleteket az „Adatbányászat: képzés"V. A. Dyuk és A. P. Samoilenko, a "Peter" kiadó adta ki 2001-ben. Ma egyike azon kevés orosz nyelvű könyveknek, amelyek ennek a problémának szentelték.

    Az adatbányászati ​​eszközök vezető gyártói

    Az adatbányászati ​​eszközök, mint a legtöbb Business Intelligence eszköz, hagyományosan a drága szoftvereszközök közé tartoznak – némelyikük több tízezer dollárba kerül. Ennek a technológiának ezért a közelmúltig fő fogyasztói a bankok, pénzügyi és biztosítótársaságok, nagy kereskedelmi vállalkozások voltak, az Adatbányászat alkalmazását igénylő fő feladatok pedig a hitel- és biztosítási kockázatok felmérése, valamint a marketingpolitika kialakítása volt. díjcsomagokés az ügyfelekkel való munka egyéb alapelvei. Az elmúlt években a helyzet bizonyos változásokon ment keresztül: a piacon szoftver Megjelentek több gyártó viszonylag olcsó Data Mining eszközei, amelyekkel olyan kis- és középvállalkozások számára is elérhetővé tették ezt a technológiát, amelyek korábban nem gondoltak rá.

    A modern üzleti intelligencia eszközök közé tartoznak a jelentéskészítők, eszközök elemző feldolgozás adatok, BI-megoldások fejlesztői eszközei (BI-platformok) és az úgynevezett Enterprise BI Suite-ok - olyan vállalati szintű adatok elemzésére és feldolgozására szolgáló eszközök, amelyek lehetővé teszik az adatelemzéssel és jelentéskészítéssel kapcsolatos műveletek végrehajtását, és gyakran integrált BI-eszközöket és fejlesztőeszközöket tartalmaz a BI-alkalmazásokhoz. Ez utóbbiak általában tartalmaznak jelentéskészítő eszközöket és OLAP eszközöket, és gyakran adatbányászati ​​eszközöket is.

    A Gartner csoport elemzői szerint a vállalati szintű adatok elemzésének és feldolgozásának piacán vezető szerepet tölt be a Business Objects, a Cognos, az Information Builders, valamint a Microsoft és az Oracle is vezető szerepet vállal (1. ábra). Ami a BI-megoldások fejlesztési eszközeit illeti, ezen a területen a vezető szerepért a fő versenyzők Microsoftés a SAS Institute (2. ábra).

    Vegye figyelembe, hogy a Microsoft Business Intelligence eszközei viszonylag olcsó termékek, amelyek a vállalatok széles köre számára elérhetők. Éppen ezért a cikk további részeiben megvizsgáljuk az adatbányászat használatának néhány gyakorlati szempontját a cég termékeinek példáján.

    Irodalom:

    1. Duke V.A. Data Mining - adatbányászat. - http://www.olap.ru/basic/dm2.asp.

    2. Duke V.A., Samoilenko A.P. Adatbányászat: képzés. - SPb .: Péter, 2001.

    3. B. de Ville. Microsoft adatbányászat. Digitális sajtó, 2001.

    Az adatok rögzítésére és tárolására szolgáló módszerek fejlődése az összegyűjtött és elemzett információk mennyiségének gyors növekedéséhez vezetett. Az adatok mennyisége olyan lenyűgöző, hogy az ember egyszerűen nem tudja azokat önállóan elemezni, pedig az ilyen elemzés szükségessége teljesen nyilvánvaló, mivel ezek a „nyers” adatok olyan ismereteket tartalmaznak, amelyek a döntéshozatalban felhasználhatók. Az automatikus adatelemzés érdekében az adatbányászatot használják.

    Az adatbányászat az emberi tevékenység különböző területein a döntéshozatalhoz szükséges ismeretek korábban ismeretlen, nem triviális, gyakorlatilag hasznos és hozzáférhető értelmezésének „nyers” adatokban történő felfedezésének folyamata. Az adatbányászat az adatbázisokban történő tudásfeltárás egyik lépése.

    Az adatbányászati ​​módszerek alkalmazása során talált információnak nem triviálisnak és korábban ismeretlennek kell lennie, például az átlagos eladások nem. A tudásnak le kell írnia a tulajdonságok közötti új kapcsolatokat, meg kell jósolni egyes jellemzők értékét mások alapján stb. A talált ismereteket bizonyos fokú megbízhatósággal kell alkalmazni az új adatokra. A hasznosság abban rejlik, hogy ez a tudás némi hasznot hozhat az alkalmazásában. A tudásnak a felhasználó számára nem matematikailag érthető formában kell lennie. Például a "ha ... akkor ..." logikai konstrukciókat az ember a legkönnyebben érzékeli. Ezenkívül az ilyen szabályok különféle DBMS-ekben használhatók SQL-lekérdezésekként. Abban az esetben, ha a kinyert tudás nem átlátható a felhasználó számára, utólagos feldolgozási módszereket kell alkalmazni annak értelmezhető formába hozására.

    Az adatbányászatban használt algoritmusok számításigényesek. Korábban ez korlátozta az adatbányászat széles körű gyakorlati alkalmazását, de a mai termelékenység növekedése modern processzorok megszüntette a probléma sürgősségét. Most ésszerű időn belül több százezer és millió rekord minőségi elemzését végezheti el.

    Adatbányászati ​​módszerekkel megoldott feladatok:

    1. Osztályozás Objektumok (megfigyelések, események) hozzárendelése a korábban ismert osztályok valamelyikéhez.
    2. Regresszió, beleértve az előrejelzési feladatokat is. A folyamatos kimenet bemeneti változóktól való függésének megállapítása.
    3. Klaszterezés Objektumok (megfigyelések, események) csoportosítása olyan adatokon (tulajdonságokon) alapul, amelyek leírják ezen objektumok lényegét. A fürtön belüli objektumoknak "hasonlónak" kell lenniük egymáshoz, és különbözniük kell a többi fürtben lévő objektumtól. Minél több hasonló objektum van egy fürtön belül, és minél több a fürtök közötti különbség, annál pontosabb a klaszterezés.
    4. Egyesület- a kapcsolódó események közötti minták azonosítása. Példa egy ilyen mintára az a szabály, amely azt jelzi, hogy Y esemény X eseményből következik. Az ilyen szabályokat asszociatívnak nevezzük. Ezt a problémát először a szupermarketekben jellemző vásárlási minták megtalálására javasolták, ezért néha piaci kosár elemzésnek is nevezik.
    5. Szekvenciális minták- az időben összefüggő események közötti minták kialakítása, pl. annak a függőségnek a kimutatása, hogy ha X esemény bekövetkezik, akkor azután beállítani az időt Y esemény bekövetkezik.
    6. Eltérés elemzése- a legjellemzetlenebb minták azonosítása.

    Az üzleti elemzési problémákat másképpen fogalmazzák meg, de legtöbbjük megoldása egyik-másik adatbányászati ​​problémán vagy ezek kombinációján múlik. Például a kockázatértékelés egy regressziós vagy osztályozási probléma megoldása, a piaci szegmentáció klaszterezés, a kereslet serkentése asszociatív szabályok. Valójában az adatbányászati ​​feladatok olyan elemek, amelyek segítségével a valós üzleti problémák túlnyomó többségére megoldást lehet összeállítani.

    A fenti feladatok megoldására különféle adatbányászati ​​módszereket és algoritmusokat alkalmaznak. Tekintettel arra, hogy az adatbányászat olyan tudományágak metszéspontjában fejlődött és fejlődik, mint a statisztika, az információelmélet, gépi tanulás, adatbáziselmélet, teljesen természetes, hogy a legtöbb adatbányászati ​​algoritmus és módszer az alapján készült különböző módszerek ezeknek a tudományágaknak. Például a k-means klaszterezési eljárást egyszerűen a statisztikákból kölcsönözték. A következő adatbányászati ​​módszerek váltak nagyon népszerűvé: neurális hálózatok, döntési fák, klaszterező algoritmusok, beleértve a skálázhatóakat is, események közötti asszociatív kapcsolatok észlelésére szolgáló algoritmusok stb.

    A Deductor egy analitikai platform, amely az adatbányászati ​​problémák megoldására szolgáló eszközök teljes készletét tartalmazza: lineáris regresszió, felügyelt neurális hálózatok, nem felügyelt neurális hálózatok, döntési fák, asszociációs szabályok keresése és még sok más. Számos mechanizmushoz speciális vizualizálókat biztosítanak, amelyek nagyban megkönnyítik a kapott modell használatát és az eredmények értelmezését. Az erős pont A platform nem csak a modern elemzési algoritmusok megvalósítása, hanem lehetővé teszi a különféle elemzési mechanizmusok tetszőleges kombinálását is.

    Mi az adatbányászat

    Adatbányászati ​​feladatok osztályozása

    A társulási szabályok megtalálásának feladata

    Klaszterezési probléma

    A Data Miner szolgáltatásai a Statistica 8-ban

    Elemző eszközök STATISTICA Data Miner

    Példa a Data Mininben végzett munkára

    Jelentések és összesítések generálása

    Információk rendezése

    Lakótelkekre vonatkozó árak elemzése

    Túlélési előrejelző elemzés

    Következtetés


    Mi az adatbányászat

    Modern számítógépes kifejezés Az adatbányászatot „információ-kinyerésnek” vagy „adatbányászatnak” fordítják. A Knowledge Discovery és az Data Warehouse kifejezéseket gyakran használják az adatbányászat mellett. Az adatbányászat szerves részét képező kifejezések megjelenése az adatok feldolgozására és tárolására szolgáló eszközök és módszerek fejlesztésében egy új fordulóval jár. Tehát az adatbányászat célja rejtett szabályok és minták feltárása nagy (nagyon nagy) adatmennyiségben.

    Az a tény, hogy maga az emberi elme nem alkalmazkodik a hatalmas mennyiségű heterogén információ észleléséhez. Átlagosan egy személy – néhány egyed kivételével – még kis mintákban sem tud két-három kapcsolatnál többet megragadni. De a hagyományos statisztika, amely sokáig az adatelemzés fő eszközének vallotta magát, szintén gyakran kudarcot vall a problémák megoldása során. való élet... A minta átlagos jellemzőire működik, amelyek gyakran fiktív értékek (az ügyfél átlagos fizetőképessége, amikor a kockázati függvénytől vagy a veszteségfüggvénytől függően meg kell tudni előre jelezni az ügyfél konzisztenciáját és szándékait). kliens; az átlagos jelintenzitás, miközben érdeklődik a jelcsúcsok jellemzői és előfeltételei stb.) stb.).

    Ezért a módszerek matematikai statisztika főként előre megfogalmazott hipotézisek tesztelésére bizonyulnak hasznosnak, míg a hipotézis meghatározása néha meglehetősen nehéz és időigényes feladat. Modern technológiák Az adatbányászat információkat dolgoz fel erre a célra automatikus keresés heterogén többdimenziós adatok bármely töredékére jellemző sablonok (minták). Az online analitikai feldolgozástól (OLAP) ellentétben az adatbányászat a hipotézisek megfogalmazásának és a váratlan minták azonosításának terhét személyről számítógépre helyezte át. Az adatbányászat nem egy, hanem számos különféle tudásfeltárási módszer gyűjteménye. A módszer megválasztása gyakran a rendelkezésre álló adatok típusától és attól függ, hogy milyen információkat kíván megszerezni. Például néhány módszer: asszociáció (unió), osztályozás, klaszterezés, idősor elemzés és előrejelzés, neurális hálózatok stb.

    Tekintsük részletesebben a feltárt tudás definícióban megadott tulajdonságait.

    A tudásnak újnak, korábban ismeretlennek kell lennie. A felhasználó által már ismert tudás felfedezésére fordított erőfeszítés nem térül meg. Ezért az új, korábban ismeretlen tudás az értékes.

    A tudásnak nem triviálisnak kell lennie. Az elemzés eredményeinek nem nyilvánvaló, váratlan mintázatokat kell tükrözniük az úgynevezett rejtett tudást alkotó adatokban. Több elérhető eredmény egyszerű módokon(például vizuális megtekintés) nem indokolják a hatékony adatbányászati ​​módszerek alkalmazását.

    A tudásnak gyakorlatilag hasznosnak kell lennie. A talált ismereteknek kellően nagy megbízhatósággal kell alkalmazhatónak lenniük, beleértve az új adatokat is. A hasznosság abban rejlik, hogy ez a tudás némi hasznot hozhat az alkalmazásában.

    A tudásnak rendelkezésre kell állnia az emberi megértés számára. A talált mintáknak logikailag magyarázhatónak kell lenniük, különben fennáll annak a lehetősége, hogy véletlenszerűek. Ezenkívül a feltárt tudást az ember számára érthető formában kell bemutatni.

    Az adatbányászatban modelleket használnak a megszerzett tudás reprezentálására. A modellek típusai a létrehozásukhoz használt módszerektől függenek. A leggyakoribbak: szabályok, döntési fák, klaszterek és matematikai függvények.

    Az adatbányászat hatókörét semmi nem korlátozza – az adatbányászatra mindenhol szükség van, ahol van adat. Sok ilyen vállalkozás tapasztalata azt mutatja, hogy az adatbányászat használatának megtérülése elérheti az 1000%-ot. Például olyan gazdasági előnyökről számolnak be, amelyek 10-70-szer magasabbak, mint a kezdeti 350-750 ezer dolláros költségek. Információkat ad a 20 millió dolláros projektről, amely mindössze 4 hónap alatt megtérült. Egy másik példa az éves 700 000 dolláros megtakarítás. a Data Mining bevezetése révén az áruházláncban az Egyesült Királyságban. Az adatbányászat nagy értéket képvisel a vezetők és az elemzők számára napi tevékenységeik során. Üzletemberek rájöttek, hogy az adatbányászati ​​módszerek segítségével kézzelfogható előnyökhöz juthatnak a versenyben.

    Adatbányászati ​​feladatok osztályozása

    A DataMining módszerek lehetővé teszik az elemzők előtt álló számos probléma megoldását. Ezek közül a főbbek: osztályozás, regresszió, asszociációs szabályok keresése és klaszterezés. Az alábbiakban a Rövid leírás az adatelemzés fő feladatai.

    1) Az osztályozás feladata egy objektum osztályának jellemzői alapján történő meghatározására redukálódik. Megjegyzendő, hogy ebben a feladatban előre ismert az osztályok halmaza, amelyekhez az objektum hozzárendelhető.

    2) A regressziós probléma, akárcsak az osztályozási probléma, lehetővé teszi bizonyos paramétereinek értékének meghatározását egy objektum ismert jellemzőiből. Az osztályozási problémával ellentétben a paraméter értéke nem osztályok véges halmaza, hanem valós számok halmaza.

    3) Az egyesület feladata. Az asszociációs szabályok keresése során a cél az, hogy gyakori függőséget (vagy asszociációt) találjunk az objektumok vagy események között. A talált függőségek szabályok formájában kerülnek bemutatásra, és felhasználhatók mind az elemzett adatok természetének jobb megértésére, mind az események bekövetkezésének előrejelzésére.

    4) A klaszterezés feladata független csoportok (klaszterek) és jellemzőik megtalálása a teljes elemzett adathalmazban. A probléma megoldása segít az adatok jobb megértésében. Ezenkívül a homogén objektumok csoportosítása lehetővé teszi számuk csökkentését, és ennek következtében az elemzés megkönnyítését.

    5) Szekvenciális minták - minták megállapítása az időben összefüggő események között, pl. annak a függőségnek a kimutatása, hogy ha X esemény bekövetkezik, akkor Y esemény meghatározott idő után következik be.

    6) Az eltérések elemzése - a legjellemzetlenebb minták azonosítása.

    A felsorolt ​​feladatok cél szerint leíró és prediktív feladatokra vannak felosztva.

    A leíró feladatok az elemzett adatok jobb megértésére összpontosítanak. Az ilyen modellekben a kulcspont az eredmények egyszerűsége és átláthatósága az emberi észlelés szempontjából. Lehet, hogy a felfedezett minták az adott vizsgált adatok sajátos jellemzői lesznek, és máshol nem találhatók meg, de ez még mindig hasznos lehet, ezért ismerni kell. Az ilyen típusú feladatok közé tartozik a fürtözés és a társítási szabályok keresése.

    A prediktív problémák megoldása két szakaszra oszlik. Az első lépés egy modell felépítése ismert eredményekkel rendelkező adatkészlet alapján. A második lépésben az eredmények előrejelzésére szolgál új adatkészletek alapján. Ebben az esetben természetesen elvárás, hogy az elkészített modellek a lehető legpontosabban működjenek. NAK NEK ez a fajta a feladatok közé tartoznak az osztályozási és regressziós feladatok. Ebbe beletartozik az asszociációs szabályok megtalálásának problémája is, ha megoldásának eredményei alapján előre jelezhető bizonyos események bekövetkezése.

    A probléma megoldásának módszerei szerint fel vannak osztva irányított tanulásra (tanárral való tanulás) és felügyelet nélküli tanulásra (tanár nélküli tanulás). Ez az elnevezés az angol szakirodalomban gyakran használt Machine Learning kifejezésből származik, és az összes adatbányászati ​​technológiát jelöli.

    Felügyelt tanulás esetén az adatelemzési feladat megoldása több lépcsőben történik. Először is, valamilyen adatbányászati ​​algoritmus segítségével az elemzett adatok modelljét - egy osztályozót - építenek fel. Ezután az osztályozót betanítják. Vagyis a munkájának minőségét ellenőrzik, és ha az nem kielégítő, akkor az osztályozó kiegészítő képzésére kerül sor. Ez addig folytatódik, amíg el nem éri a kívánt minőségi szintet, vagy kiderül, hogy a választott algoritmus nem működik megfelelően az adatokkal, vagy maguk az adatok nem rendelkeznek azonosítható szerkezettel. Az ilyen típusú problémák osztályozási és regressziós problémákat tartalmaznak.

    A felügyelet nélküli tanulás olyan feladatokat egyesít, amelyek leíró mintákat azonosítanak, például vásárlási mintákat a vásárlóktól egy nagy üzletben. Nyilvánvalóan, ha ezek a minták léteznek, akkor a modellnek ezeket kell képviselnie, és nem helyénvaló a képzéséről beszélni. Innen a név – felügyelet nélküli tanulás. Az ilyen feladatok előnye, hogy az elemzett adatok előzetes ismerete nélkül is megoldhatók. Ezek közé tartozik a klaszterezés és a társítási szabályok keresése.

    Osztályozási és regressziós probléma

    Az elemzés során gyakran meg kell határozni, hogy a vizsgált objektumok az ismert osztályok közül melyikbe tartoznak, vagyis osztályozni kell őket. Például amikor egy személy hitelt kér a banktól, a banki alkalmazottnak el kell döntenie: hitelképes-e a potenciális ügyfél vagy sem. Nyilvánvaló, hogy egy ilyen döntést a vizsgált objektumra vonatkozó adatok alapján hozzák meg (in ez az eset- személy): munkahelye, mérete bérek, életkor, család összetétele stb. Ezen információk elemzésének eredményeként a banki alkalmazottnak két jól ismert „hiteles” és „fizetésképtelen” osztályba kell besorolnia egy személyt.

    Az e-mail szűrés egy másik példa az osztályozási feladatra. Ebben az esetben a szűrőprogramnak osztályoznia kell bejövő üzenet spamként (nem kívánt Email) vagy levélként. Ezt a döntést az üzenet bizonyos szavainak előfordulási gyakorisága alapján elfogadott (például a címzett neve, személytelen bánásmód, szavak és kifejezések: megszerezni, "keresni", " jövedelmező ajánlat" stb.).