Priprema podataka u procesu miniranja podataka je. Tehnologija rudarstva podataka

Rudarstvo podataka podijeljeno je u dvije velike grupe na principu rada sa izvornim podacima učenja. U ovoj klasifikaciji gornji nivo Određeno na osnovu toga da li se podaci sačuvaju nakon rudarstva podataka ili su destilirani za kasniju upotrebu.

1. Direktno korištenje podataka ili spremanje podataka.

U ovom se slučaju početni podaci pohranjuju u očigledan detaljni obrazac i izravno se koriste u fazama i / ili analiza izuzetaka. Problem ove grupe metoda - Kada se koristi, može biti teško analizirati ultra visoke baze podataka.

Metode ove grupe: Analiza klastera, najbliža susjedska metoda, metoda komšije za K-Najbliža, obrazloženje analogije.

2. Otkrivanje i upotreba formaliziranog zakoni, ili predlošci destilacije.

Sa tehnologijom predlošci destilacije Jedan uzorak (predložak) informacija izvučen je iz izvornih podataka i pretvara se u neke formalne strukture, čija vrijednost ovisi o korištenoj metodi rudarstva podataka. Ovaj proces se izvodi u fazi. besplatna pretraga, u prvoj grupi metoda ova faza je u principu izostala. U fazama prognostic modeliranje i analiza izuzetaka Rezultati pozornice koriste se besplatna pretraga, oni su znatno kompaktniji u samim bazama podataka. Podsjetimo da se dizajni ovih modela mogu tumačiti analitičari ili nestruke ("crne kutije").

Metode ove grupe: logičke metode; Metode vizualizacije; Metode unakrsnog tabela; Metode na osnovu jednadžbi.

Logičke metode ili logičke metode indukcije uključuju: nejasne zahtjeve i analize; simbolička pravila; Stabla rješenja; Genetski algoritmi.

Metode ove grupe možda su najviše tumačene - oni u većini slučajeva izvlače pronađene obrasce, u prilično transparentnom obliku sa korisničkog gledišta. Dobivena pravila mogu sadržavati kontinuirane i diskretne varijable. Treba napomenuti da se stabla rješenja može lako pretvoriti u skupove simboličkih pravila generirajući jedno pravilo uz put iz korijena stabla do njenog terminal Vertex. Zapravo su stabla rješenja i pravila različiti putevi Rješenja jednog zadatka i razlikuju se samo u njihovim mogućnostima. Pored toga, provedba pravila vrši se sporijim algoritmima od indukcije stabala odluka.

Metode unakrsnog jezika: agenti, baiec (povjerenje) mreža, križa tabela vizualizacija. Posljednja metoda ne odgovara baš na jednoj od svojstava rudarstva podataka - nezavisno pretraživanje zakoni Analitički sistem. Međutim, pružanje informacija u obliku unakrsne tablice osigurava provedbu glavnog zadatka rudarstva podataka - potraga za predlošcima, tako da se ova metoda također može smatrati jednom od metoda rudarstva podataka.

Metode na osnovu jednadžbi.

Metode ove grupe izražavaju identificirane obrasce u obliku matematičkih izraza - jednadžbe. Stoga mogu raditi samo s numeričkim varijablama, a varijable drugih vrsta moraju se u skladu s tim kodirati. To donekle ograničava upotrebu metoda ove grupe, međutim, široko se koriste u rješavanju različitih zadataka, posebno zadataka predviđanja.

Glavne metode ove grupe: statističke metode i neuronske mreže

Statističke metode se najčešće koriste za rješavanje zadataka predviđanja. Postoje mnoge metode statističke analize podataka, među njima, na primjer, korelacijsko-regresijske analize, povezanost niza dinamike, identifikacije trendova dinamičke serije, harmonične analize.

Još jedna klasifikacija dijeli sve sorte metoda rudarstva podataka u dvije grupe: statističke i cybernetičke metode. Ova se shema razdvajanja temelji se na različitim pristupima učenju. matematički modeli.

Treba napomenuti da postoje dva pristupa pripisivanja statističkih metoda za rudarstvo podataka. Prvi se od njih protivi statističkim metodama i rudarstvu podataka, njeni pristaše razmatraju klasične statističke metode za posebnim smjerom analize podataka. Prema drugom pristupu, metode statističke analize dio su matematičkog rudarskog alata. Najupriličniji izvori pridržavaju se drugog pristupa.

U ovoj klasifikaciji razlikuju dvije grupe metoda:

  • statističke metode zasnovane na korištenju prosječnog akumuliranog iskustva, što se odražava na retrospektivne podatke;
  • kibernetičke metode koje uključuju mnoge heterogene matematičke pristupe.

Nedostatak takve klasifikacije: i statistički i cybernetski algoritmi na ovaj način ili na neki drugi način osloni se na usporedbu statističkog iskustva sa rezultatima praćenja trenutne situacije.

Prednost takve klasifikacije je njegova praktičnost za tumačenje - koristi se u opisivanju matematičkog sredstva modernog pristupa izvlačenje znanja iz nizova promatranja izvora (operativna i retrospektivna), I.E. U zadacima rudanja podataka.

Razmislite o detaljnijem gore navedenim grupama.

Statistički metode Rudarstvo podataka

Ove metode su četiri međusobno povezana odjeljka:

  • preliminarna analiza prirode statističkih podataka (inspekcija hipoteze stacionarnosti, normalnosti, neovisnosti, ujednačenosti, procjena vrste distribucijske funkcije, njegovih parametara itd.);
  • otkrivanje veza I. zakoni (linearna i nelinearna regresijska analiza, korelacijska analiza itd.);
  • višedimenzionalna statistička analiza (linearna i nelinearna diskriminantna analiza, analiza klastera, analiza komponenata, analiza faktora itd.);
  • dinamički modeli i prognoza zasnovana na vremenskoj seriji.

Arsenal za miniranje podataka podataka klasificira se za četiri grupe metoda:

  1. Deskriptivna analiza i opis izvornih podataka.
  2. Analiza odnosa (povezanost i regresijska analiza, analiza faktora, disperzijska analiza).
  3. Višedimenzionalna statistička analiza (analiza komponenata, diskriminantna analiza, višedimenzionalna regresijska analiza, kanonske korelacije itd.).
  4. Analiza privremene serije ( dinamički modeli i predviđanje).

Cybernetičke metode Rudarstvo podataka

Drugi smjer rudarstva podataka puno je pristupa, ideja računarske matematike i korištenja teorije umjetne inteligencije.

Rudarstvo podataka) i na "grubim" analizi istraživanja koja čini osnovu operativne analitičke obrade podataka (internetska analitička obrada, OLAP), dok je jedna od glavnih odredbi rudanja podataka - potraga za ne-očitom zakoni. Rudarski alati za rudarstvo mogu pronaći takve pravilnosti nezavisno i samostalno izgraditi hipoteze o vezama. Budući da je formulacija hipoteze u odnosu na zavisnost ovisnosti izazovan zadatakPrednost rudarstva podataka u odnosu na druge metode analize je očigledno.

Većina statističkih metoda za identifikaciju međusobnih veza u podacima koriste koncept prosjeka na uzorku, što dovodi do operacija preko nepostojećih vrijednosti, dok rudarstvo podataka djeluje sa stvarnim vrijednostima.

OLAP je pogodniji za razumijevanje retrospektivnih podataka, rudarstvo podataka se oslanja na retrospektivne podatke kako bi se dobio odgovore na pitanja o budućnosti.

Izgledi za rudarsku tehnologiju podataka

Potencijal rudarstva podataka daje "zeleno svjetlo" za širenje granica primjene tehnologije. Što se tiče izgleda za rudarstvo podataka, moguća su sljedeći razvojni smjerovi:

  • raspodjela vrsta predmetnih područja sa odgovarajućim heurističkim terenskom, formalizacijom će olakšati rješenje odgovarajućih zadataka za rudarstvo podataka koji pripadaju tim područjima;
  • stvaranje formalnih jezika i logičkih alata pomoću kojih će argumenti biti formalizirani i čija će automatizacija biti sredstvo za rješavanje zadataka za rudarstvo podataka u određenim predmetnim područjima;
  • stvaranje metoda rudarstva podataka koje su sposobne ne samo izvući ove obrasce, već i formirati određene teorije zasnovane na empirijskim podacima;
  • prevladavanje bitnog zaostavljenosti mogućnosti alati Rudarstvo podataka iz teorijskih dostignuća u ovom području.

Ako u kratkom roku smatrate da je budućnost rudanja podataka u kratkom roku, očito je da je razvoj ove tehnologije najprimjereniji na područja koja se odnose na posao.

U kratkom roku, proizvodi za rudarstvo podataka mogu biti tako obični i potrebni kao e-pošta, na primjer, koriste korisnici da ih najviše pretražuju niske cijene Na određenom proizvodu ili najjeftinim ulaznicama.

Dugoročno, budućnost rudarstva podataka je zaista uzbudljiva - može biti potraga za intelektualnim agentima kao novim vrstama liječenja različitih bolesti i novo razumijevanje prirode svemira.

Međutim, rudarstvo podataka sam po sebi i potencijalna opasnost - nakon svega, sve veća količina informacija postaje dostupna putem svjetske široke mreže, uključujući privatne informacije, a više i više znanja mogući su iz njega:

Ne tako davno, najveća internetska trgovina "Amazon" bila je u središtu skandala o patentima koji su dobili "Metode i sustavi za pomoć korisnicima prilikom kupovine robe", što nije ništa drugo od drugog rudarskog proizvoda namijenjen prikupljanju ličnih proizvoda Podaci o prodavaonicama. Nova tehnika omogućava vam predviđanje budućih zahtjeva na temelju kupovina, kao i izvući zaključke o njihovoj svrsi. Svrha ove tehnike je ono što je gore spomenuto - što je moguće više Informacije o kupcima, uključujući privatnu prirodu (spol, dob, preferencije itd.). Stoga se prikupljaju podaci o privatnosti kupaca trgovine, kao i pripadnici njihovih porodica, uključujući djecu. Potonje je zabranjeno zakonodavstvom mnogih zemalja - prikupljanje podataka o maloljetnicima moguće je tamo samo uz dozvolu roditelja.

Studije napominju da postoje i uspješna rješenja koja koriste rudarstvo podataka i neuspješno iskustvo korištenja ove tehnologije. Područja u kojima će se upotreba rudarske tehnologije podataka vjerovatno biti uspješna, imamo takve karakteristike:

  • zahtijevaju rješenja zasnovana na znanju;
  • imati promjenjivu okolinu;
  • imaju pristupačne, dovoljne i značajne podatke;
  • pružaju visoke dividende iz pravih rješenja.

Postojeći pristupi analizi

Dugo vremena, rudarska disciplina podataka nije prepoznata kao potpuno bledano neovisno područje analize podataka, ponekad se naziva "statističkim dvorištima" (Pregibon, 1997).

Do danas je određeno nekoliko pojedinih mjesta na rudarstvu podataka. Navijači jednog od njih smatraju mu miraz, odvratiti pažnju od klasične analize

Šta je rudarstvo podataka

orfanijaža svakog moderno preduzeća obično sadrži skup tablica koji pohranjuju evidenciju o određenim činjenicama ili objektima (na primjer, o robi, prodaji, kupcima, računima). U pravilu, svaki unos u sličnom tablicu opisuje određeni predmet ili činjenicu. Na primjer, zapisnik u prodajnom tablicu odražava činjenicu da se takav proizvod prodaje takvom klijentu, a zatim nešto poput menadžera, a po i velikim, ništa osim ove informacije ne sadrže. Međutim, ukupan broj takvih evidencija nakupljen više od nekoliko godina može biti izvor dodatnih, mnogo vrijednijih informacija, koji se ne mogu dobiti na temelju jednog određenog evidencija, naime, informacije o obrascima, trendovima ili međuovisnostima između bilo kojeg podataka. Primjeri takvih podataka su informacije o tome kako prodaja određenog proizvoda ovisi o danu u sedmici, doba dana ili sezone, koje kategorije kupaca najčešće stječu jedan ili neki drugi proizvod, koji je dio jednog određenog kupca Proizvod stiče drugog određenog proizvoda, koju kategoriju kupaca najčešće ne daje zajam na vrijeme.

Takve se informacije obično koriste u predviđanju, strateškom planiranju, analizi rizika, a njegova vrijednost za poduzeće je vrlo visoka. Očigledno, proces njegove pretrage i dobio je rudarstvo podataka naziva (rudarsko rudarstvo na engleskom znači "rudarsko rudarstvo", a traženje pravilnosti u ogromnom skupu stvarnih podataka uistinu je za to). Izraz rudarstvo podataka ne označava ne toliko određenu tehnologiju kao proces pronalaženja korelacija, trendova, odnosa i obrazaca kroz različite matematičke i statističke algoritme: klasteriranje, stvaranje pod-otkrića, regresijske i korelacijske analize. Svrha ove pretrage je slanje podataka u obliku jasno reflektirajućeg poslovnog procesa, kao i izgradnju modela, s kojim možete predvidjeti procese, kritične za poslovno planiranje (na primjer, dinamiku potražnje za određenom robom ili uslugama ili ovisnost o kupovini iz bilo kojeg od karakteristika potrošača).

Imajte na umu da tradicionalni matematička statistika, Dugo, glavna alat za analizu podataka, kao i operativni analitički alati za obradu podataka (internetska analitička obrada, OLAP), koju smo više puta napisali (vidi materijale na ovoj temi na našem CD-u), ne mogu uvijek biti uspješno primijenjeno za rješavanje takvih zadataka. Obično statističke metode i OLAP koriste se za provjeru unaprijed formuliranih hipoteza. Međutim, to je često da je formulacija hipoteze upravo najteži zadatak u provođenju poslovne analize za naknadno odlučivanje, jer su na prvi pogled na popise.

Osnovni moderna tehnologija Rudarstvo podataka je koncept predložaka koji odražavaju obrasce svojstvene listove podataka. Potraga za predlošcima izrađuje se metodama koje ne koriste nikakve priori pretpostavke o tim podzemnimima. Ako sa statističkom analizom ili kada koristite OLAP, pitanja tipa "Koji su prosječni broj neplaćenih računa kod kupaca ove usluge?", Upotreba rudarstva podataka u pravilu, podrazumijeva odgovore na tip "Postoji li tipično Kategorija kupaca koji ne plaćaju račune? ". Istovremeno, odgovor na drugo pitanje često osigurava nerivijalni pristup marketinškim politikama i organizaciji rada sa klijentima.

Važna karakteristika rudarstva podataka je nestandardna i ne-vidljivost željenih predložaka. Drugim riječima, alati za rudanje podataka razlikuju se od statističkih alata za statistike i OLAP alati u toj umjesto testiranja u napredovanju korisnicima uzajamnih međuobičnih ovisnosti, oni mogu samostalno pronaći takve međukendente i izgraditi hipoteze o njihovom karakteru.

Treba napomenuti da upotreba alata za rudarstvo podataka ne isključuje upotrebu statističkih instrumenata i OLAPS fondova, jer rezultati obrade podataka u pravilu, u pravilu doprinose boljem razumijevanju prirode uzoraka koji bi trebali biti tražen.

Izvorni podaci za rudarstvo podataka

Primjena rudarstva podataka opravdana je ako postoji dovoljno velika količina podataka, u idealnom slučaju sadržanu u pravilno dizajniranom skladištu podataka (zapravo, pohranjuje se podaci sami obično kreiraju za rješavanje zadataka analize i predviđanja povezanih s podrškom za donošenje odluka). Na principima izgradnje repositora, pisali smo i više od jednom; Odgovarajući materijali mogu se naći na našem CD-u, tako da nećemo prestati na ovom pitanju. Podsjećamo da su podaci u skladištu dopunjen set, jedan za cijelo poduzeće i omogućava vam da u bilo kojem trenutku vratite sliku svojih aktivnosti. Također imamo na umu da je struktura podataka za pohranu dizajnirana na takav način da se izvršenje zahtjeva koristi što efikasnije. Međutim, postoje alati za rudarstvo podataka koji su sposobni za traženje obrazaca, korelacija i trendovi ne samo u skladištima podataka, već i u OLAP kockicama, u skupovima unaprijed obrađenih statističkih podataka.

Vrste obrazaca otkrivenih metodama rudarstva podataka

v.A. Dyuku najavio je pet standardnih vrsta obrazaca otkrivenih metodama rudanja podataka:

Udruženje je velika verovatnoća komunikacije događaja jedni s drugima (na primer, jedan se proizvod često kupuje zajedno sa drugim);

Slijed je velika verovatnoća događaja vezanih za lanca (na primer, tokom određenog perioda nakon kupovine jednog proizvoda bit će stečen visokim stupnjem vjerojatnosti);

Klasifikacija - Postoje znakovi koji karakterišu grupu na koji se jedan ili drugi događaj ili objekt (obično, na osnovu analize već klasificiranih događaja formulišu neka pravila);

Klasteriranje je obrazac sličan klasifikaciji i razlikujući se od toga da same grupe nisu navedene - otkrivaju se automatski tijekom obrade podataka;

Privremeni obrasci - Prisutnost predložaka u dinamici ponašanja određenih podataka (tipičan primjer - sezonske oscilacije potražnje za određenom robom ili uslugama) koji se koriste za predviđanje.

Metode istraživanja podataka u rudarstvu podataka

prilično je! veliki broj Različite metode istraživanja podataka. Na osnovu gornje klasifikacije koje je predložio V.A. Dyuk, među njima možete dodijeliti:

Regresija, disperzija i korelacijska analiza (implementirana u najmodernijim statističkim paketima, posebno u proizvodima kompanije SAS Institute, StatSoft itd.);

Metode analize u određenom području zasnovane na empirijskim modelima (često primjenjuju primjenjuju, u niskim sredstvima financijske analize);

Algoritmi neuronske mreže, čiji se ideja zasniva na učincima nervnog tkiva i leži u činjenici da se početni parametri smatraju signalima pretvorenim u skladu s postojećim odnosima između "neurona", i kao odgovor, koji kao odgovor Rezultat je analize, smatra se odgovornom mrežom na početne podatke. Komunikacije u ovom slučaju kreirane su pomoću takozvane mrežne obuke uzorkovanjem velike količine koja sadrži i izvorne podatke i tačne odgovore;

Algoritmi su izbor bliskog analognog izvornog podataka iz postojećih povijesnih podataka. Naziva se i metodom "najbližeg susjeda";

Drveće rješenja - hijerarhijska struktura zasnovana na skupu pitanja koja podrazumijevaju odgovor "da" ili "ne"; iako ova metoda Obrada podataka daleko od savršeno savršeno pronalaze postojeće obrasce, prilično se koristi u predviđanjem sistema zbog vidljivosti primljenog odgovora;

Klasterski modeli (ponekad se nazivaju i modeli segmentacije) koriste se za kombiniranje sličnih događaja u grupama na osnovu sličnih vrijednosti više polja u skupu podataka; Takođe vrlo popularan prilikom kreiranja sistema predviđanja;

Ograničeni algoritmi integriteta, izračunavanje frekvencija kombinacija jednostavnih logičkih događaja u podskupinama podataka;

Evolucijsko programiranje - pretraga i stvaranje algoritma koji izražavaju međuovisnost podataka na temelju prvobitno određenog algoritma modificiranog tokom pretrage; Ponekad se traženje međuovisnosti vrši među bilo kojim određenim vrstama funkcija (na primjer, polinomi).

Pročitajte više o tim i drugim algoritmima rudanja podataka, kao i na njihovim sredstvima, možete čitati u knjizi "Rudarstvo podataka: obuka"V.A. Dooky i A.P. Samolenko, koju je izdala Peter izdavačka kuća 2001. godine. Danas je to jedna od rijetkih knjiga na ruskom na problemu.

Olovne proizvođače podataka o mingu

odmaranje podataka, kao i većina poslovnih obavještajnih sredstava, tradicionalno pripada skupim softverskim alatima - cijena nekih od njih dostižu nekoliko desetina hiljada dolara. Stoga su, donedavno glavni potrošači ove tehnologije bili banke, financijske i osiguravajuće kuće, glavna trgovinska preduzeća i glavni zadaci koji zahtijevaju korištenje rudarstva podataka, razmatrana je procjena kreditnih i osiguranja. tarifni planovi i drugi principi rada sa klijentima. Posljednjih godina situacija je prošla određene promjene: na tržištu softver Postojali su relativno jeftini alati za rudarstvo podataka iz nekoliko proizvođača, što je ovu tehnologiju na raspolaganju na raspolaganju za mala i srednja preduzeća, a prethodno nisu razmišljali o tome.

Moderni poslovni inteligencijski alati uključuju alati za analizu podataka, alati za razvoj podataka (BI platforme) i takozvani Enterprise BI Suites - Analiza analize i alate za obradu podataka koji omogućuju da izvršite skup podataka koji se odnose na analizu podataka i Stvaranje izvještaja, a često uključuje integrirane bi-alatne i bi-aplikacijske razvojne alate. Potonje, u pravilu, sadrže u svom sastavu i sredstvima izgradnje izveštaja i Olap fondove, a često - i rudarstvo podataka.

Prema analitičarima Gartnerove grupe, lideri na tržištu analize i prerade podataka preduzeća su kompanije poslovnih objekata, Cognos, građevinari informacija i tvrde da je vođstvo takođe Microsoft i Oracle (Sl. 1). Što se tiče razvoja Bi-rešenja, glavni podnosioci predstavke za vođstvo u ovoj oblasti su Microsoft i SAS institut (Sl. 2).

Imajte na umu da se Microsoftove poslovne obaveštajne službe odnose na relativno jeftine proizvode na raspolaganju širokom rasponu kompanija. Zbog toga ćemo razmotriti neke praktične aspekte primjene rudarstva podataka na primjeru proizvoda ove kompanije u narednim dijelovima ovog članka.

Literatura:

1. Duke v.a. Rudarstvo podataka - inteligentna analiza podataka. - http://www.olap.ru/basic/dm2.asp.

2. Duke V.A., Samoilenko A.P. Rudarstvo podataka: kurs za obuku. - SPB.: Peter, 2001.

3. B. de ville. Microsoftov rudarstvo podataka. Digitalna preša, 2001.

Rudarstvo podataka (rudarstvo podataka)

Rudarstvo podataka je proces metodologije i otkrivanja u velikim poljama podataka akumulirane u informacioni sistemi Kompanije, prethodno nepoznato, netrivial, praktično korisne i dostupne tumačenju znanja potrebnih za donošenje odluka u raznim oblastima ljudske aktivnosti. Rudarstvo podataka jedan je od koraka više otkrivanja znanja u metodologiji baze podataka.

Znanje otkriveno u procesu rudarstva podataka treba biti ne-trivijalno i prethodno nepoznato. Netrivilnost pretpostavlja da takva znanja ne mogu biti otkrivena jednostavnom vizualnom analizom. Moraju opisati odnos između svojstava poslovnih objekata, predvidjeti vrijednosti nekih znakova na osnovu drugih itd. Pronađeno znanje mora biti primjenjivo na nove objekte.

Praktična korisnost znanja nastala je zbog mogućnosti njihove upotrebe u procesu podrške donošenju odluka upravljanja i poboljšanje aktivnosti kompanije.

Znanje mora biti predstavljeno u obliku koji je razumljiv korisnicima koji nemaju posebnu matematičku obuku. Na primjer, logički dizajni "ako je onda lakše percipirati osobu. Štaviše, takva se pravila mogu koristiti u različitim DBMS-u kao SQL-zapisi. U slučaju kada je naučeno znanje neprozirno za korisnika, mora postojati metode nakon obrade koji im omogućuju da ih dovode u interpretirani oblik.

Rudarstvo podataka nije jedno, već veliki broj razne metode Detekcija znanja. Svi zadaci riješeni metodama rudarstva podataka mogu se podijeliti u šest vrsta:

Rudarstvo podataka je medidisciplinarno, jer uključuje elemente numeričkih metoda, matematičke statistike i teorije vjerojatnosti, teoriju informacija i matematička logika, umjetna inteligencija i mašinsko učenje.

Zadaci poslovne analize formulisani su na različite načine, ali rješenje većine njih svodi se na jedan ili drugi zadatak rudarstva podataka ili njihovu kombinaciju. Na primjer, procjena rizika je rješenje problema regresije ili klasifikacije, tržišne segmentacije - klasteriranje, promocija potražnje - asocijativna pravila. Zapravo, zadaci rudanja podataka su elementi iz kojih možete "sakupljati" rješenje najpouzdanijih poslovnih zadataka.

Da biste rešili gore opisane objekte, koriste se različite metode i algoritmi rudanja podataka. Zbog činjenice da se rudarstvo podataka razvijalo i razvijalo se na spoju disciplina, kao što su matematička statistika, teorija informacija, teorija za informaciju, mašinsko učenje i baza podataka, sasvim je prirodno da su većina rudarskih algoritmi i metoda razvijenih na osnovu različitih Metode ovih disciplina. Na primjer, K-znači algoritam klasteriranja koji je posuđen iz statistike.

Pošaljite svoj dobar rad u bazi znanja je jednostavan. Koristite obrazac u nastavku

Studenti, diplomirani studenti, mladi naučnici koji koriste bazu znanja u studiranju i radu bit će vam vrlo zahvalni.

Slični dokumenti

    Opis funkcionalnost Rudarske tehnologije podataka kao nepoznati procesi otkrivanja podataka. Studija izlaznih sistema asocijativna pravila i mehanizmi algoritama neuronskih mreža. Opis algoritama klasteriranja i upotreba rudarstva podataka.

    ispitivanje, dodano 14.06.2013

    Osnove za grupiranje. Korištenje rudanja podataka kao načina za "otkrivanje znanja u bazama podataka". Izbor algoritama klasteriranja. Dobivanje podataka iz spremišta baze radne radionice. Klasteriranje učenika i zadataka.

    kursev rad, dodano 07.07.2017

    Poboljšanje tehnologija za snimanje i pohranu podataka. Specifičnost savremenih zahtjeva za obradu podataka o informacijama. Koncept predložaka koji odražavaju fragmente višedimenzionalnih odnosa u podacima temelje se na modernom tehnologiji rudanja podataka.

    ispitivanje, dodano 02.09.2010

    Rudarstvo podataka, razvojna povijest razminiranja i otkrivanja znanja. Tehnološki elementi i metode rudarstva podataka. Koraci u otkrivanju znanja. Promjena i otkrivanje odstupanja. Srodne discipline, preuzimanje informacija i ekstrakcija teksta.

    izveštaj, dodano 06/16/2012

    Rudarstvo podataka kao proces podrške odlučivanju na osnovu pretraživanja u ovim skrivenim uzorcima (predlošci informativnih podataka). Njegove pravilnosti i faze implementacije, historija razvoja ove tehnologije, procjena prednosti i nedostataka, mogućnosti.

    esej, dodano 17.12.2014

    Klasifikacija zadataka Datamining. Izrada izvještaja i rezultata. Mogućnosti rudara podataka u statistici. Zadatak klasifikacije, grupiranje i regresija. Analiza rudara podataka Statistica. Zadaci suštine Traži za asocijativne pravila. Analiza predizbora preživljavanja.

    kursni rad, dodano 19.05.2011

    Perspektivni pravci Analiza podataka: Tekstualna analiza informacija, inteligentna analiza podataka. Analiza strukturiranih informacija pohranjenih u bazama podataka. Proces analize tekstualnih dokumenata. Značajke podataka o preradiranju.

    sažetak, dodano 13.02.2014

    Klasifikacija zadataka za miniranje podataka. Zadatak grupiranja i pretraživanja za asocijativne pravila. Definicija klase objekta prema svojim svojstvima i karakteristikama. Pronalaženje čestih ovisnosti između objekata ili događaja. Operativna analitička obrada podataka.

    ispitivanje, dodano 13.01.2013