Adatkezelés az adatbányászati \u200b\u200bfolyamatban. Adatbányászati \u200b\u200btechnológia

Az adatbányászat két nagy csoportra oszlik a forrás tanulási adatokkal való együttműködés elvén. Ebben az osztályozásban magasabb szint Azt állapítják meg, hogy az adatbányászat után az adatok mentésre kerülnek, vagy későbbi felhasználásra desztillálják.

1. Az adatok közvetlen használata, vagy adatok mentése.

Ebben az esetben a kezdeti adatokat nyilvánvaló részletes formában tárolják, és közvetlenül használják a szakaszokban és / vagy kivételek elemzése. A módszerek problémája - Használható, nehéz lehet elemezni az ultra-magas adatbázisokat.

E csoport módszerei: klaszterelemzés, a legközelebbi szomszéd módszer, a K-legközelebbi szomszéd módszere, analógia által végzett érvelés.

2. A formalizált felismerés és felhasználás törvényekvagy desztillációs sablonok.

Technológiával desztillációs sablonok Az információ egy minta (sablon) extrahálódik a forrásadatokból, és átalakul egy formális szerkezetekké, amelynek típusa az alkalmazott adatbányászati \u200b\u200bmódszertől függ. Ezt a folyamatot a színpadon végzik. ingyenes keresés, A módszerek első csoportjában ez a szakasz elvben hiányzik. Szakaszokban prognosztikai modellezés és kivételek elemzése A színpad eredményeit használják ingyenes keresésEzek jelentősen kompaktabbak az adatbázisokban. Emlékezzünk vissza arról, hogy ezeknek a modelleknek a formatervezései értelmezhetők elemzővel vagy inept módon ("fekete dobozok").

A csoport módszerei: logikai módszerek; vizualizációs módszerek; A kereszt-táblázatok módszerei; Az egyenleteken alapuló módszerek.

Logikai módszerek vagy logikai indukciós módszerek: Fuzzy kérések és elemzések; szimbolikus szabályok; Megoldások fái; Genetikai algoritmusok.

A csoport módszerei talán a leginkább értelmezettek - a legtöbb esetben a talált mintákat, a felhasználó szempontjából meglehetősen átlátható formában húzzák ki. A kapott szabályok magukban foglalhatják a folyamatos és diszkrét változókat. Meg kell jegyezni, hogy a megoldások fái könnyen átalakíthatók a szimbolikus szabályok készletéhez azáltal, hogy egy szabályt generálnak az út mentén a fa gyökeréből terminál csúcs. A megoldások és a szabályok fái valójában különböző utak Egy feladat megoldásai, és csak a képességeikben különböznek. Ezenkívül a szabályok végrehajtását lassabb algoritmusok végzik, mint a döntések fák indukálása.

Cross-Tab: Agents, Baiec (Trust) hálózat, kereszt-táblázatos megjelenítés. Az utolsó módszer nem válaszol az adatbányászat egyik tulajdonságaira - független keresés törvények Analitikai rendszer. Azonban a kereszteződés formájában szereplő információk biztosítása biztosítja az adatbányászat fő feladata - sablonok keresése, így ez a módszer az adatbányászati \u200b\u200bmódszerek egyikének is tekinthető.

Az egyenleteken alapuló módszerek.

A csoport módszerei kifejezik az azonosított mintákat matematikai kifejezések formájában - egyenletek. Ezért csak numerikus változókkal működhetnek, és más típusú változóit ennek megfelelően kell kódolni. Ez némileg korlátozza a csoport módszereinek használatát, azonban széles körben használják különböző feladatokat, különösen az előrejelzési feladatok megoldását.

A csoport fő módszerei: statisztikai módszerek és neurális hálózatok

A statisztikai módszerek leggyakrabban az előrejelzési feladatok megoldására szolgálnak. Az adatok statisztikai elemzésének számos módszere van, köztük, például a korrelációs-regressziós analízis, a dinamika sorozatának korrelációja, a dinamikus sorozat trendjeinek azonosítása, a harmonikus elemzés.

Egy másik osztályozás osztja meg az adatbányászati \u200b\u200bmódszerek összes fajtáját két csoportba: statisztikai és cybernetikus módszerek. Ez az elválasztási rendszer különböző tanulási megközelítéseken alapul. matematikai modellek.

Meg kell jegyezni, hogy két megközelítés van az adatbányászat statisztikai módszereinek tulajdonítására. Az elsőnek ellenzi a statisztikai módszereket és az adatbányást, a támogatóinak klasszikus statisztikai módszereket vizsgálnak az adatelemzés külön irányításához. A második megközelítés szerint a statisztikai elemzési módszerek a matematikai eszközkit adatbányászat része. A legmegfelelőbb források ragaszkodnak a második megközelítéshez.

Ebben az osztályozásban megkülönbözteti a két módszercsoportot:

statisztikai módszerek az átlagolt halmozott élmény használatán alapulva, amely tükröződik retrospektív adatokban;
a kibernetikus módszerek, amelyek sok heterogén matematikai megközelítést tartalmaznak.

Az ilyen besorolás hiánya: statisztikai és cybernetikus algoritmusok, vagy más módon támaszkodnak a statisztikai tapasztalat összehasonlítására a jelenlegi helyzet ellenőrzésének eredményeivel.

Az ilyen osztályozás előnye az értelmezés kényelme - a modern megközelítés matematikai eszközeinek leírására szolgál a tudás kivonása a forrásmegfigyelések (operatív és retrospektív) tömbökből, azaz azaz Adatbányászati \u200b\u200bfeladatokban.

Tekintsük részletesebben a fenti csoportokat.

Statisztikai módszerek Adatbányászat

Ezek a módszerek négy egymással összefüggő szakasz:

a statisztikai adatok jellegének előzetes elemzése (az állóépítés, a normalitás, a függetlenség, az egységesség, az elosztási funkció értékének értékelése, paraméterei stb.);
kapcsolatok kimutatása I. törvények (lineáris és nemlineáris regressziós analízis, korrelációs analízis stb.);
többdimenziós statisztikai elemzés (lineáris és nemlineáris diszkrimináns analízis, klaszterelemzés, komponenselemzés, faktoranalízis satöbbi.);
dinamikus modellek és az idősorokon alapuló prognózis.

Az adatbányászati \u200b\u200bstatisztikai módszerek arzenálja négy módszercsoportra van besorolva:

Leíró elemzés és a forrásadatok leírása.
Kapcsolatelemzés (korrelációs és regressziós analízis, faktoranalízis, diszperziós elemzés).
Többdimenziós statisztikai elemzés (komponens-elemzés, diszkrimenziós analízis, többdimenziós regressziós analízis, kanonikus korrelációk stb.).
Ideiglenes sorozat elemzése ( dinamikus modellek és előrejelzés).

Cybernetic módszerek Adatbányászat

Az adatbányászat második iránya sok megközelítés, a számítógépes matematika ötlete és a mesterséges intelligencia elmélet használata.

Adatbányászat) és egy "durva" feltárási elemzésen, amely a működési analitikai adatfeldolgozás alapját képezi (online analitikai feldolgozás, OLAP), míg az adatbányászat egyik fő rendelkezése - a nem nyilvánvaló törvények. Az adatbányászati \u200b\u200bszerszámok egymástól függetlenül találhatják ezeket a szabályokat, és önállóan építhetik a hipotéziseket a kapcsolatokról. Mivel a függőségekhez viszonyított hipotézis megfogalmazása a leginkább kihívást jelentő feladatAz adatbányászat előnye az egyéb elemzési módszerekhez képest nyilvánvaló.

Az adatkapcsolatok azonosítására szolgáló legtöbb statisztikai módszer A minta átlagolásának koncepcióját használja, ami a nem létező értékek feletti műveletekhez vezet, míg az adatbányászat valós értékekkel működik.

Az OLAP jobban megfelel a visszamenőleges adatok megértéséhez, az adatbányászat retrospektív adatokra támaszkodik, hogy válaszokat kapjon a jövőre vonatkozó kérdésekre.

Az adatbányászati \u200b\u200btechnológia kilátásai

Az adatbányászat lehetősége "zöld fényt" ad a technológia alkalmazásának határainak bővítésére. Az adatbányászati \u200b\u200bkilátások tekintetében a következő fejlesztési irányok lehetségesek:

a megfelelő heurisztikával rendelkező témák típusainak elosztása, amelynek formalizálása megkönnyíti az e területekhez tartozó megfelelő adatbányászati \u200b\u200bfeladatok megoldását;
formális nyelvek és logikai eszközök létrehozása, amelyekkel az érvek formalizálódnak, és amelyek automatizálása lesz az adatbányászati \u200b\u200bfeladatok megoldásának konkrét témakörben;
olyan adatbányászati \u200b\u200bmódszerek létrehozása, amelyek nemcsak kivonhatják ezeket a mintákat, hanem bizonyos elméleteket empirikus adatok alapján is;
a lehetőségek esszenciális lemaradásának leküzdése szerszámok Adatbányászat az elméleti eredményektől ezen a területen.

Ha rövid távon figyelembe vesszük az adatbányászat jövőjét, nyilvánvaló, hogy ennek a technológiának a fejlődése a leginkább az üzlethez kapcsolódó területekre irányul.

Rövid távon az adatbányászati \u200b\u200btermékek lehetnek rendesek és szükségesek emailpéldául a felhasználók által a legjobban keresik alacsony árak Egy adott terméken vagy a legolcsóbb jegyeken.

Hosszú távon az adatbányászat jövője nagyon izgalmas - lehet, hogy az intellektuális ügynökök keresése új típusú, különböző betegségek kezelésére és az univerzum természetének új megértésére.

Az adatbányászat önmagában és potenciális veszélye is - végül is egyre nagyobb információ áll rendelkezésre a világhálózaton keresztül, beleértve a magáninformációkat is, és egyre több tudás lehetséges tőle:

Nem is olyan régen, a legnagyobb online áruház „Amazon” közepén volt a botrány, ami a szabadalmi általa megkapott „eljárások és rendszerek felhasználókat segíti, ha vásárol árut”, amely nem más, mint egy másik Data Mining szánt terméket gyűjtünk személyes Adatok a látogatók tárolására. Az új technika lehetővé teszi, hogy a vásárlások alapján megjósolhassa a jövőbeni kérelmeket, valamint vonja le a céljukat. Ennek a technikának a célja, amit a fentiekben említettek több Információ az ügyfelekről, beleértve a magán jellegét (nem, életkor, preferenciák stb.). Így a bolt vásárlók magánéletét, valamint családtagjaikat, beleértve a gyermekeket is gyűjtött adatokról. Az utóbbit számos ország jogszabályai tiltják - a kiskorúakról szóló információgyűjtés csak a szülők engedélyével lehetséges.

Tanulmányok Megjegyezzük, hogy vannak olyan sikeres megoldások, amelyek adatbányászati \u200b\u200bés sikertelen tapasztalatokat használnak a technológia használatával. Azok a területek, ahol az adatbányászati \u200b\u200btechnológia használata valószínűleg sikeres lesz, rendelkeznie kell olyan funkciókkal:

tudásalapú megoldásokat igényelnek;
változó környezetük van;
hozzáférhető, elegendő és jelentős adatokkal rendelkeznek;
magas osztalékot biztosít a megfelelő megoldásokból.

Az elemzés meglévő megközelítései

Hosszú ideig az adatbányászati \u200b\u200bfegyelmet nem ismerik el teljes körű független adatelemzési területként, néha "statisztikai hátalak" (Pregibon, 1997).

A mai napig meghatároztuk az adatbányászatra vonatkozó több szempontot. Az egyik támogatóinak a klasszikus elemzésből figyelmen kívül hagyják a figyelmét

Mi az adatbányászat

az árvaház minden modern vállalkozás rendszerint tartalmaz táblacsoportban hogy tárolja nyilvántartást bizonyos tényeket vagy tárgyat (például mintegy áru értékesítése, vevők, számlák). Rendszerint minden egyes bejegyzés egy hasonló táblázatban ír le néhány konkrét tárgyat vagy tényt. Például egy rekord az értékesítési táblázat azt a tényt tükrözi, hogy egy ilyen termék értékesítése egy olyan kliens, akkor olyasmi, mint egy menedzser, és nagyjából, de ez semmi információt nem tartalmaz. Azonban a több éven keresztül felhalmozott ilyen nyilvántartások teljes száma további, sokkal értékesebb információforrás lehet, amelyet egy adott rekord alapján nem lehet beszerezni, nevezetesen a mintákról, a trendekről vagy az egyes adatok közötti kölcsönhatásokról. Az ilyen információkra példaként említhetők arról, hogy egy adott termék eladása a hét napjától, a napi időtartamtól vagy szezontól függ, amely a vásárlók kategóriái leggyakrabban egy vagy egy másik terméket kapnak A termék egy másik specifikus terméket szerez, amely az ügyfelek számára a leggyakrabban nem adnak kölcsön időben.

Az ilyen információkat általában a prediktálás, a stratégiai tervezés, a kockázatelemzés során használják, és értéke a vállalkozás számára nagyon magas. Nyilvánvaló, hogy a keresési folyamat és a névadatbányászat neve (az angol bányászat "bányászati \u200b\u200bbányászat", és a szabályszerűségek keresése egy hatalmas tényleges adatokhoz igazán hasonlít erre). Az adatbányászat kifejezés nem olyan konkrét technológiát jelöl, mint a korrelációk, trendek, kapcsolatok és minták megtalálásának folyamata különböző matematikai és statisztikai algoritmusokon: klaszterezés, al-felfedezés, regressziós és korrelációs elemzés létrehozása. Ennek a keresésnek a célja, hogy az adatokat egyértelműen fényvisszaverő üzleti folyamatok formájában, valamint egy modell létrehozásának formájában nyújtsák be, amellyel előre megjósolhatja a folyamatokat, kritikus az üzleti tervezéshez (például bizonyos áruk vagy szolgáltatások iránti kereslet dinamikája) vagy az akvizíció függvényétől függetlenül a fogyasztói jellemzőktől).

Vegye figyelembe, hogy a hagyományos matematikai statisztikák, hosszú ideig, a fő adatelemző eszköz, valamint a működési analitikai adatfeldolgozó eszközök (online analitikai feldolgozás, OLAP), amelyet ismételten írtunk (lásd az anyagokat ezen a témában a CD-n), nem mindig lehet sikeres alkalmazzák az ilyen feladatok megoldására. Általában a statisztikai módszereket és az OLAP-t használják előre megfogalmazott hipotézisek ellenőrzésére. Gyakran azonban gyakran a hipotézis megfogalmazása pontosan a legnehezebb feladat az üzleti elemzés végrehajtásában a későbbi döntéshozatalra, mivel az adatok minden mintájából egy pillantást vetnek.

Alapvető modern technológia Az adatbányászat az adatlapokban rejlő mintákat tükröző sablonok fogalma. A sablonok keresése olyan módszerekkel történik, amelyek nem használnak semmilyen priori feltevést ezekről az alhatúrákról. Ha a statisztikai elemzéssel vagy az OLAP használatával, a típusú kérdések "Melyek az átlagos nem fizetett számlák száma az ügyfelek számára e szolgáltatás igénybevételével?", Az adatbányászat használata általában azt jelenti, hogy a "Van egy tipikus Az ügyfelek kategóriája, akik nem fizetnek a számlákért? ". Ugyanakkor a második kérdésre adott válasz gyakran biztosítja a marketingpolitikákon és az ügyfelekkel való munkavégzés megszervezését.

Az adatbányászat fontos jellemzője a kívánt sablonok nem szabványos és nem láthatósága. Más szóval, az adatbányászati \u200b\u200beszközök különböznek az adatok statisztikai eszközeitől és az OLAP-eszközektől, hanem a fejlett állítólagos kölcsönös függőfelhasználók tesztelését helyett, képesek olyan kölcsönös függő anyagokat találni, és függetlenül és hipotéziseket építhetnek a karakterükről.

Meg kell jegyezni, hogy a használata adatbányászati \u200b\u200beszközök nem zárja ki a statisztikai eszközök használatát és az OLAP alapok, hiszen az eredmények adatfeldolgozás az utóbbi, mint általában, hogy az emberek jobban megértsék a természet a mintákat, hogy amennyiben keresni kell.

Forrás adatok az adatbányászathoz

Az alkalmazás a Data Mining indokolt, ha van egy elég nagy mennyiségű adat, ideális szereplő helyesen tervezett adattárház (tulajdonképpen az adatokat tárolja maguk általában létre, hogy megoldja elemzéseket és előrejelzéseket összefüggő feladatok döntéshozatal támogatása). Az építési repozitorok elveiről többször is írtunk; A megfelelő anyagok megtalálhatók CD-n, így nem fogjuk megállítani ezt a problémát. Csak emlékeztetünk arra, hogy a tárolás adatai egy feltöltött készlet, az egyik az egész vállalkozás számára, és lehetővé teszi, hogy bármikor helyreállítsa tevékenységét. Azt is megjegyezzük, hogy a tárolási adatok szerkezetét úgy tervezték meg, hogy a kérelmek végrehajtását a lehető leghatékonyabban használják. Vannak azonban olyan adatbányászati \u200b\u200beszközök, amelyek képesek a minták, korrelációk és tendenciák keresésére, nem csak az adatraktárakban, hanem az OLAP kockákban is, azaz az előre feldolgozott statisztikai adatok soraiban.

Az adatbányászati \u200b\u200bmódszerekkel kimutatott minták típusai

a Dyuku az adatok bányászati \u200b\u200bmódszerei által észlelt öt standard típusú mintákat jelentett be:

Egyesület az események kommunikációjának nagy valószínűsége (például egy terméket gyakran vásárolnak egy másikval);

A szekvencia a lánchoz kapcsolódó események nagy valószínűségét (például egy adott időszakban egy termék megvásárlása után magas valószínűséggel szerezzük be);

Osztályozás - vannak olyan jelek, amelyek jellemzik azt a csoportot, amelyre egy vagy egy másik esemény vagy tárgy (általában a már besorolt \u200b\u200besemények elemzése alapján egyes szabályokat fogalmaznak meg);

A klaszterezés az osztályozáshoz hasonló minta, és különbözik attól, hogy a csoportok magukat nem határozzák meg - automatikusan észlelik őket az adatfeldolgozás során;

Ideiglenes minták - a sablonok jelenléte bizonyos adatok viselkedésének dinamikájában (tipikus példa - bizonyos áruk vagy szolgáltatások igényeinek szezonális oszcillációja).

Adatkutatási módszerek az adatbányászatban

szép! nagyszámú Számos adatkutatási módszer. A fenti osztályozás alapján a V.A. Dyuk által javasolt, köztük a következőket lehet osztani:

Regressziós, diszperziós és korrelációs elemzés (a legmodernebb statisztikai csomagokban, különösen a vállalatok termékeiben, SAS Intézet, StatSoft stb.);

Az empirikus modelleken alapuló egyedi tárgyi területen (gyakran alkalmazandó például az alacsony költségű pénzeszközökben) elemzési módszerek;

A neurális hálózati algoritmusok, amelynek ötlete az idegszövet hatásaira épül, és abban a tényben rejlik, hogy a kezdeti paraméterek a "neuronok" közötti meglévő kapcsolatokkal összhangban átalakított jelekként tekintendők, és válaszként Az elemzés eredményét az egész hálózat válasza a kezdeti adatokra tekintve. A kommunikáció ebben az esetben létrejön az úgynevezett hálózati képzéssel, mintavételezéssel egy nagy mennyiségű, mind a forrásadatok, mind a helyes válaszok;

Az algoritmusok a jelenlegi történelmi adatok forrásadatának szoros analógját választják. Másnak is nevezik a "legközelebbi szomszéd" módszert;

A megoldások fái - hierarchikus struktúra, amely a "igen" vagy "nem" válaszra utaló kérdésekre alapozva; habár ez a módszer Az adatok feldolgozása messze mindig tökéletesen megtalálja a meglévő mintákat, a beérkezett válasz láthatóságának köszönhetően meglehetősen gyakran használható;

A klasztermodelleket (néha hasonló szegmentációs modelleknek is nevezik) használják hasonló események kombinációjára az adatkészlet több mezőjének hasonló értékei alapján; Szintén nagyon népszerű, ha előrejelzési rendszereket hoz létre;

Korlátozott integritás algoritmusok, az egyszerű logikai események kombinációinak kiszámítása az adat alcsoportokban;

Evolúciós programozás - az algoritmus keresése és generálása, amely kifejezi az adatok kölcsönös függőségét a keresés során módosított kezdetben meghatározott algoritmus alapján; Néha az összefüggések keresése minden egyes típusú funkciók (például polinomok) között történik.

Tudjon meg többet ezekről és más adatbányászati \u200b\u200balgoritmusokról, valamint azok eszközeiről, olvashat a könyv "Adatbányászat: képzés"V.A. Dooky és A.p. Samolenko, amelyet a Peter Publishing House 2001-ben ad ki. Ma az egyik kevés könyv orosz nyelven.

Az adatming vezető gyártói

a pihenő adatbányászat, mint az üzleti hírszerző alapok nagy része, hagyományosan a drága szoftvereszközökhöz tartoznak - néhány ára eléri több tízezer dollárt. Ezért a közelmúltig a technológia legfőbb fogyasztói voltak a bankok, a pénzügyi és biztosítótársaságok, a nagykereskedelmi vállalkozások, valamint az adatbányászat használatára, a hitel- és biztosítási kockázatok és a marketingpolitikák értékelésére vonatkozó főbb feladatok, figyelembe vették. tarifa tervek és az ügyfelekkel való munkavégzés egyéb elvei. Az elmúlt években a helyzet bizonyos változásokon ment keresztül: a piacon szoftver A gyártók viszonylag olcsó adatbányászati \u200b\u200beszközei voltak, amelyek ezt a technológiát a kis- és középvállalkozások számára kapták, korábban nem gondolták rá.

A modern üzleti hírszerző eszközök közé tartozik a jelentésgenerátorok, az adatelemző eszközök, a BI-Solutions Development Tools (BI-Platformok) és az úgynevezett Enterprise Bi Suites - analízis analízis és az adatfeldolgozó eszközök, amelyek lehetővé teszik az adatok elemzésével kapcsolatos adatkészleteket és Jelentések létrehozása, és gyakran tartalmaz egy integrált BI-Tools és Bi-Application fejlesztési eszközöket. Az utóbbiak általában tartalmaznak az építési jelentések, valamint az OLAP alapok, és gyakran - és az adatbányászat.

A Gartner Csoport elemzői szerint a vállalkozás adatmérlegeinek elemzésének és feldolgozásának vezetői az üzleti objektumok, a Cognos, az Information Builders vállalatok, valamint a Microsoft és az Oracle vezetése (1. ábra). Ami a bi-megoldások kidolgozását illeti, a fő pályázók számára a vezetés ezen a területen a Microsoft és a SAS Intézet (2. ábra).

Vegye figyelembe, hogy a Microsoft üzleti intelligencia alapok alatt viszonylag olcsón elérhető termékek széles skáláját a vállalatok. Ezért fogunk fontolóra venni néhány gyakorlati szempontokat az adatbányászat alkalmazására a vállalat termékeinek példáján a cikk későbbi részeiben.

Irodalom:

1. herceg v.a. Adatbányászat - intelligens adatelemzés. - http://www.olap.ru/basic/dm2.asp.

2. herceg v.a., Samoilenko A.p. Adatbányászat: Képzés. - SPB.: Peter, 2001.

3. B. De Ville. Microsoft adatbányászat. Digitális sajtó, 2001.

Adatbányászat (adatbányászat)

Az adatbányászat egy olyan módszertani és detektálási folyamat, amely nagy adathordozókban felhalmozódott információs rendszerek A korábban ismeretlen, nontiviális vállalatok, gyakorlatilag hasznos és hozzáférhetőek az emberi tevékenység különböző területein való döntéshozatalhoz szükséges ismeretek értelmezéséhez. Az adatbányászat az adatbázisok módszertanában található nagyméretű tudás felfedezés egyik lépése.

Az adatbányászati \u200b\u200bfolyamatban felfedezett tudásnak nem triviálisnak és korábban ismeretlennek kell lennie. A nonormialitás feltételezi, hogy az ilyen ismereteket egyszerű vizuális elemzéssel nem lehet kimutatni. Meg kell írniuk az üzleti objektumok tulajdonságai közötti kapcsolatot, megjósolni néhány jelek értékeit mások, stb. A megtalált ismereteket az új objektumokra kell alkalmazni.

A tudás gyakorlati hasznossága annak köszönhető, hogy használatukat a menedzsment döntések elfogadásának és a vállalat tevékenységének javítása érdekében használják fel.

A tudást az olyan formában kell bemutatni, amely érthető azoknak a felhasználóknak, akiknek nincs speciális matematikai képzése. Például a logikai tervek "Ha, akkor" könnyebben érzékelhetők egy személy. Ezenkívül az ilyen szabályok különböző DBMS-ben használhatók SQL-rekordokként. Abban az esetben, ha a tanult tudás átlátszatlan a felhasználó számára, olyan utólagos feldolgozási módszereknek kell lennie, amelyek lehetővé teszik számukra, hogy értelmezhető formában hozzák őket.

Az adatbányászat nem egy, de nagyszámú különböző módszerek Tudásfelismerés. Az adatbányászati \u200b\u200bmódszerekkel megoldott összes feladatot hat típusra oszthatjuk:

Az adatbányászat mediidiszciplináris, mivel magában foglalja a numerikus módszerek, a matematikai statisztikák és a valószínűségi elmélet, az információelmélet és a valószínűségi elmélet elemeit matematikai logika, Mesterséges intelligencia és gép tanulás.

Az üzleti elemzés feladatai különböző módon vannak megfogalmazva, de a legtöbbjük megoldása egy vagy egy másik adatbányászati \u200b\u200bfeladatra vagy kombinációra kerül. Például a kockázatértékelés a regressziós vagy osztályozási probléma megoldása, a piaci szegmentáció - klaszterezés, a kereslet - asszociatív szabályok előmozdítása. Tény, hogy az adatbányászati \u200b\u200bfeladatok olyan elemek, amelyekből "gyűjthetjük" a leginkább valós üzleti feladatok megoldását.

A fent leírt tárgyak megoldásához különböző módszereket és adatbányászati \u200b\u200balgoritmusokat használnak. Annak a ténynek köszönhetően, hogy az adatbányászat olyan tudományágakban alakult ki és alakult ki, mint a matematikai statisztikák, az információs elmélet, a gépi tanulás és az adatbázisok, meglehetősen természetes, hogy az adatbányászati \u200b\u200balgoritmusok és módszerek nagy részét különbözőek alapján fejlesztették ki ezekből a tudományágakból származó módszerek. Például a K-eszköz klasztering algoritmust kölcsönzött a statisztikákból.

Küldje el a jó munkát a tudásbázisban egyszerű. Használja az alábbi űrlapot

A diákok, a diplomás hallgatók, a fiatal tudósok, akik a tudásbázisokat használják tanulmányaikban és munkájukban, nagyon hálásak lesznek.

Hasonló dokumentumok

Leírás funkcionalitás Adatbányászati \u200b\u200btechnológiák ismeretlen adatfelismerési folyamatokként. A kimeneti rendszerek tanulmányozása asszociatív szabályok és a neurális hálózati algoritmusok mechanizmusai. A klaszterezési algoritmusok leírása és az adatbányászat használata.

vizsgálat, hozzáadva 06/14/2013

Alapok a klaszterezéshez. Az adatbányászat használata az "ismeretek észlelése adatbázisokban". Klaszterezési algoritmusok kiválasztása. Adatok beszerzése a távolsági műhely adatbázis tárolójából. Klaszteres diákok és feladatok.

a tanfolyam munka, hozzáadva 07/10/2017

A felvétel és az adattárolási technológiák javítása. Az információs adatok feldolgozására szolgáló modern követelmények sajátosságai. A multidimenzionális kapcsolatok töredékét tükröző sablonok koncepciója az adatokban a modern adatbányászati \u200b\u200btechnológián alapul.

vizsgálat, hozzáadva 02.09.2010

Adatbányászat, adatbányászat és tudás felfedezés fejlesztési története. Az adatbányászat technológiai elemei és módszerei. Lépések a tudás felfedezésében. Változás és eltérés észlelése. Kapcsolódó tudományágak, információ visszakeresés és szöveges kitermelés.

jelentés, hozzáadva 16.06.2012

Adatbányászat, mint döntési támogatási folyamat, amely a rejtett minták keresése alapján (információs sablonok). A végrehajtás szabályai és szakaszai, a technológia fejlődésének története, az előnyök és hátrányok értékelése, lehetőségek.

essay, hozzáadva 12/17/2014

Feladatok osztályozása Datamining. Jelentések és eredmények létrehozása. A statisztikai adatbányász lehetősége. A besorolás, a klaszterezés és a regresszió feladata. Statisztika adatbányász elemzés. Essence feladatok asszociatív szabályok keresése. A túlélési előrejelzők elemzése.

a kurzus munka, hozzáadva 19.05.05.2011

Perspektív irányok Adatelemzés: Szöveges információs elemzés, intelligens adatelemzés. Az adatbázisokban tárolt strukturált információk elemzése. A szöveges dokumentumok elemzésének folyamata. Az előfeldolgozó adatok jellemzői.

absztrakt, hozzáadta 13.02.2014

Adatbányászati \u200b\u200bfeladatok besorolása. A klaszterezés és az asszociatív szabályok keresése. Egy objektumosztály meghatározása tulajdonságai és jellemzői. Gyakori függőségek keresése az objektumok vagy események között. Működési analitikai adatfeldolgozás.

vizsgálat, hozzáadva 01/13/2013