Koncept rudarenja podataka postao je popularan u. Data Mining Loginom Wiki

Pošaljite svoj dobar rad u bazu znanja je jednostavno. Koristite obrazac ispod

Studenti, postdiplomci, mladi naučnici koji koriste bazu znanja u svom studiranju i radu biće vam veoma zahvalni.

Slični dokumenti

Klasifikacija zadataka rudarenja podataka. Izrada izvještaja i sažetaka. Značajke Data Miner-a u Statistici. Problem klasifikacije, grupisanja i regresije. Alati za analizu Statistica Data Miner. Suština problema je traženje pravila asocijacije. Analiza prediktora preživljavanja.

seminarski rad, dodan 19.05.2011

Opis funkcionalnost Data Mining tehnologije kao procesi za otkrivanje nepoznatih podataka. Proučavanje sistema zaključivanja pravila asocijacije i mehanizama algoritama neuronske mreže. Opis algoritama klasteriranja i opsega Data Mininga.

test, dodano 14.06.2013

Osnove za grupisanje. Korištenje Data Mininga kao načina za "otkrivanje znanja u bazama podataka". Izbor algoritama za grupisanje. Dohvaćanje podataka iz baze podataka udaljene radionice. Grupiranje učenika i zadataka.

seminarski rad, dodan 10.07.2017

Data mining, razvojna istorija rudarenja podataka i otkrivanje znanja. Tehnološki elementi i metode rudarenja podataka. Koraci u otkrivanju znanja. Detekcija promjena i odstupanja. Povezane discipline, pronalaženje informacija i ekstrakcija teksta.

izvještaj, dodano 16.06.2012

Analiza problema koji nastaju u primjeni metoda i algoritama klasterizacije. Osnovni algoritmi grupisanja. RapidMiner kao okruženje za mašinsko učenje i analizu podataka. Procjena kvaliteta klasteriranja korištenjem Data Mining metoda.

seminarski rad, dodan 22.10.2012

Unapređenje tehnologija za snimanje i skladištenje podataka. Specifičnost savremenih zahtjeva za obradu informacijskih podataka. Koncept obrazaca koji odražavaju fragmente višedimenzionalnih odnosa u podacima je u srcu moderne tehnologije rudarenja podataka.

test, dodano 09.02.2010

Analiza upotrebe neuronskih mreža za predviđanje stanja i donošenje odluka na berzi korišćenjem softverskog paketa za modeliranje neuronskih mreža Trajan 3.0. Transformacija primarnih podataka, tabele. Ergonomska procjena programa.

disertacije, dodato 27.06.2011

Poteškoće u korištenju evolucijskih algoritama. Izgradnja računarskih sistema zasnovanih na principima prirodne selekcije. Nedostaci genetskih algoritama. Primjeri evolucijskih algoritama. Pravci i dijelovi evolucijskog modeliranja.

gornji nivo

1. Direktno korištenje podataka, ili čuvanje podataka.

U ovom slučaju, početni podaci se pohranjuju u eksplicitno detaljnom obliku i direktno se koriste u fazama i/ili analiza izuzetaka. Problem sa ovom grupom metoda je što kada se koriste, može biti teško analizirati veoma velike baze podataka.

Metode ove grupe: klaster analiza, metoda najbližeg susjeda, metoda k-najbližeg susjeda, rezoniranje po analogiji.

2. Identifikacija i upotreba formalizovanih uzorci, ili šablonska destilacija.

Sa tehnologijom obrasci destilacije jedan uzorak (šablon) informacija se izdvaja iz izvornih podataka i pretvara u neke formalne konstrukcije, čiji oblik zavisi od metode Data Mininga koja se koristi. Ovaj proces se provodi u fazi besplatno pretraživanje, prva grupa metoda u principu nema ovu fazu. Na pozornici prediktivno modeliranje i analiza izuzetaka koriste se rezultati faze besplatno pretraživanje, mnogo su kompaktnije od samih baza podataka. Podsjetimo da se konstrukcije ovih modela mogu interpretirati od strane analitičara ili neinterpretirane („crne kutije“).

Metode ove grupe: logičke metode; metode vizualizacije; unakrsne metode; metode zasnovane na jednačinama.

Logičke metode, ili metode logičke indukcije, uključuju: nejasne upite i analize; simbolička pravila; stabla odlučivanja; genetski algoritmi.

Metode ove grupe su možda najshvatljivije - one izrađuju pronađene obrasce, u većini slučajeva, u prilično transparentnoj formi sa tačke gledišta korisnika. Rezultirajuća pravila mogu uključivati kontinuirane i diskretne varijable. Treba napomenuti da se stabla odluka mogu lako pretvoriti u skupove simboličkih pravila generiranjem jednog pravila duž putanje od korijena stabla do njegovog terminalni vrh. Stabla odlučivanja i pravila su u stvari Različiti putevi rješenja za isti problem i razlikuju se samo po svojim mogućnostima. Štaviše, implementacija pravila se vrši sporijim algoritmima od indukcije stabala odlučivanja.

Metode unakrsnih tablica: agenti, Bayesove mreže (povjerenja), vizualizacija unakrsnih kartica. Posljednja metoda ne odgovara sasvim jednom od svojstava Data Mining-a - neovisno pretraživanje uzorci analitički sistem. Međutim, pružanje informacija u obliku unakrsnih tablica omogućava implementaciju glavnog zadatka Data Mininga – traženje obrazaca, pa se i ova metoda može smatrati jednom od metoda Data Mininga.

Metode zasnovane na jednačinama.

Metode ove grupe iskazuju otkrivene pravilnosti u obliku matematičkih izraza – jednačina. Stoga, oni mogu raditi samo s numeričkim varijablama, a varijable drugih tipova moraju biti kodirane u skladu s tim. To donekle ograničava primenu metoda ove grupe, ali se one u velikoj meri koriste u rešavanju različitih problema, posebno problema prognoziranja.

Glavne metode ove grupe: statističke metode i neuronske mreže

Za rješavanje problema predviđanja najčešće se koriste statističke metode. Postoje mnoge metode statističke analize podataka, među kojima su, na primjer, korelacija i regresiona analiza, korelacija vremenskih serija, identifikacija trendova u vremenskim serijama, harmonska analiza.

Druga klasifikacija dijeli čitav niz metoda Data Mininga u dvije grupe: statističke i kibernetičke metode. Ova šema razdvajanja zasnovana je na različitim pristupima učenju matematički modeli.

Treba napomenuti da postoje dva pristupa klasifikaciji statističkih metoda kao Data Mining. Prvi se suprotstavlja statističkim metodama i Data Miningu, njegovi pristalice smatraju da su klasične statističke metode posebna oblast analize podataka. Prema drugom pristupu, metode statističke analize dio su matematičkog alata Data Mining. Većina autoritativnih izvora koristi drugi pristup.

U ovoj klasifikaciji razlikuju se dvije grupe metoda:

statističke metode zasnovane na korištenju prosječnog akumuliranog iskustva, koje se ogleda u retrospektivnim podacima;
kibernetičke metode, uključujući mnoge heterogene matematičke pristupe.

Nedostatak takve klasifikacije je što se i statistički i kibernetički algoritmi na ovaj ili onaj način oslanjaju na poređenje statističkog iskustva sa rezultatima praćenja trenutne situacije.

Prednost takve klasifikacije je njena pogodnost za interpretaciju - koristi se u opisu matematičkih sredstava savremenog pristupa izvlačenje znanja iz nizova početnih zapažanja (operativnih i retrospektivnih), tj. u zadacima rudarenja podataka.

Pogledajmo bliže gore navedene grupe.

Statističke metode Data mining

U ovim metodama postoje četiri međusobno povezana dijela:

preliminarna analiza prirode statističkih podataka (testiranje hipoteza stacionarnosti, normalnosti, nezavisnosti, homogenosti, evaluacija tipa funkcije distribucije, njenih parametara, itd.);
identifikaciju veza i uzorci(linearna i nelinearna regresiona analiza, korelaciona analiza, itd.);
multivarijantna statistička analiza (linearna i nelinearna diskriminantna analiza, klaster analiza, komponentna analiza, faktorska analiza i sl.);
dinamički modeli i prognoza zasnovana na vremenskim serijama.

Arsenal statističkih metoda Data Mining je klasifikovan u četiri grupe metoda:

Deskriptivna analiza i opis početnih podataka.
Analiza odnosa (korelacija i regresiona analiza, faktorska analiza, analiza varijanse).
Multivarijantna statistička analiza (komponentna analiza, diskriminantna analiza, multivarijantna regresiona analiza, kanonske korelacije, itd.).
Analiza vremenskih serija ( dinamički modeli i predviđanje).

Cybernetic Data Mining Methods

Drugi pravac Data Mininga je skup pristupa ujedinjenih idejom kompjuterske matematike i upotrebom teorije umjetne inteligencije.

Šta je Data Mining?

Korporativna baza podataka svakog modernog preduzeća obično sadrži skup tabela koje čuvaju zapise o određenim činjenicama ili objektima (na primjer, o robi, njihovoj prodaji, kupcima, fakturama). Po pravilu, svaki unos u takvoj tabeli opisuje određeni predmet ili činjenicu. Na primjer, unos u tablici prodaje odražava činjenicu da je takav i takav proizvod prodat tom i tom klijentu od strane tog i takvog menadžera u to vrijeme i uglavnom ne sadrži ništa osim ovih podataka. Međutim, agregat veliki broj takvi zapisi akumulirani tokom nekoliko godina mogu postati izvor dodatnih, mnogo vrijednijih informacija koje se ne mogu dobiti na osnovu jednog konkretnog zapisa, odnosno informacija o obrascima, trendovima ili međuzavisnostima između bilo kojeg podatka. Primjeri takvih informacija su informacije o tome kako prodaja određenog proizvoda ovisi o danu u tjednu, dobu dana ili godišnjem dobu, koje kategorije kupaca najčešće kupuju određeni proizvod, koji dio kupaca jednog određenog proizvoda kupuje drugi određeni proizvod. proizvod, koja kategorija kupaca najčešće ne otplaćuje kredit na vrijeme.

Ova vrsta informacija se obično koristi u predviđanju, strateškom planiranju, analizi rizika, a njihova vrijednost za preduzeće je veoma visoka. Očigledno, zbog toga je proces traženja nazvan Data Mining (mining na engleskom znači „vađenje“, a potraga za obrascima u ogromnom skupu stvarnih podataka zaista je slična ovome). Termin Data Mining se ne odnosi toliko na konkretnu tehnologiju koliko na sam proces traženja korelacija, trendova, odnosa i obrazaca kroz različite matematičke i statističke algoritme: grupisanje, poduzorkovanje, regresiju i korelacione analize. Svrha ove pretrage je da se podaci predstave u obliku koji jasno odražavaju poslovne procese, kao i da se izgradi model koji se može koristiti za predviđanje procesa koji su kritični za poslovno planiranje (npr. dinamika potražnje za određenom robom ili usluge ili ovisnost njihove kupovine o određenim karakteristikama potrošača).

Imajte na umu da tradicionalna matematička statistika, koja je dugo vremena ostala glavni alat za analizu podataka, kao i alati za online analitičku obradu (OLAP) o kojima smo već pisali mnogo puta (pogledajte materijale o ovoj temi na našem CD-u) mogu ne mogu se uvijek uspješno koristiti za rješavanje takvih problema. Tipično, statističke metode i OLAP se koriste za testiranje unaprijed formuliranih hipoteza. Međutim, često se najviše pokaže formulacija hipoteze izazovan zadatak pri implementaciji poslovne analize za naknadno donošenje odluka, jer nisu svi obrasci u podacima očigledni na prvi pogled.

Osnova moderne Data Mining tehnologije je koncept obrazaca koji odražavaju obrasce svojstvene poduzorcima podataka. Uzorci se pretražuju metodama koje ne koriste nikakve apriorne pretpostavke o ovim poduzorcima. Dok statističke analize ili OLAP aplikacije obično formulišu pitanja poput „Koji je prosječan broj neplaćenih faktura od strane korisnika ove usluge?“, Data mining, po pravilu, podrazumijeva odgovore na pitanja poput „Postoji li tipična kategorija kupaca koji ne platiti račune?” . Istovremeno, odgovor na drugo pitanje često daje netrivijalniji pristup marketinškoj politici i organizaciji rada sa klijentima.

Važna karakteristika Data Mininga je nestandardnost i neočiglednost obrazaca koji se traže. Drugim riječima, Data Mining alati se razlikuju od alata za statističku obradu podataka i OLAP alata po tome što, umjesto provjere međuzavisnosti koje korisnici pretpostavljaju, oni mogu sami pronaći takve međuzavisnosti na osnovu dostupnih podataka i graditi hipoteze o njihovoj prirodi.

Treba napomenuti da korištenje Data Mining alata ne isključuje korištenje statističkih alata i OLAP alata, budući da rezultati obrade podataka korištenjem potonjih po pravilu doprinose boljem razumijevanju prirode obrazaca koji bi trebali biti tražen.

Početni podaci za Data Mining

Upotreba Data Mininga je opravdana ako postoji dovoljno velika količina podataka, idealno sadržanih u ispravno dizajniranom skladištu podataka (u stvari, sama skladišta podataka se obično kreiraju za rješavanje problema analize i predviđanja vezanih za podršku odlučivanju). Takođe smo više puta pisali o principima izgradnje skladišta podataka; relevantni materijali se mogu naći na našem CD-u, tako da se nećemo zadržavati na ovom pitanju. Podsjećamo samo da su podaci u skladištu dopunjeni skup, zajednički za cijelo poduzeće i koji vam omogućava da vratite sliku njegovih aktivnosti u bilo kojem trenutku. Imajte na umu i da je struktura podataka za skladištenje dizajnirana na način da se izvršavanje zahtjeva prema njoj odvija što je moguće efikasnije. Međutim, postoje alati za rudarenje podataka koji mogu pretraživati obrasce, korelacije i trendove ne samo u skladištima podataka, već iu OLAP kockama, odnosno u skupovima prethodno obrađenih statističkih podataka.

Vrste obrazaca otkrivenih metodama Data Mininga

Prema V.A.Dyuku, postoji pet standardnih tipova obrazaca identifikovanih metodama Data Mininga:

Asocijacija - velika vjerovatnoća međusobnog povezivanja događaja (na primjer, jedan proizvod se često kupuje zajedno s drugim);

Slijed - velika vjerovatnoća lanca događaja vezanih za vrijeme (na primjer, u određenom periodu nakon kupovine jednog proizvoda, drugi će biti kupljen sa visokim stepenom vjerovatnoće);

Klasifikacija - postoje znakovi koji karakterišu grupu kojoj pripada ovaj ili onaj događaj ili predmet (obično se određena pravila formulišu na osnovu analize već klasifikovanih događaja);

Grupisanje je obrazac sličan klasifikaciji i razlikuje se od njega po tome što same grupe nisu postavljene u ovom slučaju – one se automatski detektuju tokom obrade podataka;

Vremenski obrasci - prisutnost obrazaca u dinamici ponašanja određenih podataka (tipičan primjer su sezonske fluktuacije potražnje za određenim dobrima ili uslugama) koji se koriste za predviđanje.

Metode rudarenja podataka u Data Mining-u

Danas postoji prilično veliki broj različitih metoda rudarenja podataka. Na osnovu gornje klasifikacije koju je predložio V.A. Dyuk, među njima su:

Analiza regresije, disperzije i korelacije (implementirana u najsavremenijim statističkim paketima, posebno u proizvodima SAS Instituta, StatSoft, itd.);

Metode analize u određenoj predmetnoj oblasti zasnovane na empirijskim modelima (često se koriste, na primjer, u jeftinim alatima finansijske analize);

Algoritmi neuronske mreže, čija je ideja zasnovana na analogiji s funkcioniranjem nervnog tkiva i leži u činjenici da se početni parametri smatraju signalima koji se transformiraju u skladu s postojećim vezama između "neurona", a kao odgovor koji proizlazi iz analize, odgovor cijele mreže na početne podatke. Veze se u ovom slučaju kreiraju korišćenjem takozvanog mrežnog učenja kroz veliki uzorak koji sadrži i originalne podatke i tačne odgovore;

Algoritmi - izbor bliskog analoga originalnih podataka iz već dostupnih istorijskih podataka. Naziva se i metoda najbližeg susjeda;

Stabla odlučivanja - hijerarhijska struktura zasnovana na skupu pitanja koja podrazumijevaju odgovor "Da" ili "Ne"; unatoč činjenici da ovu metodu obrada podataka ne pronalazi uvijek u idealnom slučaju postojeće obrasce, prilično se često koristi u sistemima predviđanja zbog jasnoće primljenog odgovora;

Klasterski modeli (ponekad se nazivaju i modeli segmentacije) koriste se za grupiranje sličnih događaja u grupe na osnovu sličnih vrijednosti nekoliko polja u skupu podataka; takođe su veoma popularni u kreiranju sistema predviđanja;

Ograničeni algoritmi pretraživanja koji izračunavaju frekvencije kombinacija jednostavnih logičkih događaja u podgrupama podataka;

Evoluciono programiranje - pretraživanje i generisanje algoritma koji izražava međuzavisnost podataka, na osnovu inicijalno specificiranog algoritma, modifikovanog u procesu pretraživanja; ponekad se potraga za međuzavisnostima vrši između bilo koje određene vrste funkcija (na primjer, polinoma).

Više o ovim i drugim Data Mining algoritmima, kao i o alatima koji ih implementiraju, možete pročitati u knjizi „Data Mining: obuka»V.A.Dyuk i A.P.Samoilenko, u izdanju izdavačke kuće „Piter“ 2001. godine. Danas je to jedna od rijetkih knjiga na ruskom jeziku posvećena ovom problemu.

Vodeći proizvođači alata za rudarenje podataka

Alati za rudarenje podataka, kao i većina alata Business Intelligence, tradicionalno spadaju u skupe softverske alate - cijena nekih od njih doseže nekoliko desetina hiljada dolara. Stoga su donedavno glavni potrošači ove tehnologije bile banke, finansijska i osiguravajuća društva, velika trgovačka preduzeća, a glavnim zadacima koji zahtijevaju korištenje Data Mininga smatrali su se procjena kreditnih i osiguravajućih rizika i razvoj marketinga. politika, tarifni planovi i drugi principi rada sa klijentima. Posljednjih godina situacija je doživjela određene promjene: tržište softvera Pojavili su se relativno jeftini alati za rudarenje podataka od nekoliko proizvođača, čineći ovu tehnologiju dostupnom malim i srednjim preduzećima koja nikada ranije nisu razmišljala o tome.

Moderni alati poslovne inteligencije uključuju generatore izvještaja, analitička obrada podaci, BI razvojni alati (BI Platforms) i tzv. Enterprise BI Suites - alati za analizu i obradu podataka za cijelo preduzeće koji vam omogućavaju da izvršite niz radnji vezanih za analizu podataka i izvještavanje, a često uključuju integrirani skup BI alate i alate za razvoj BI aplikacija. Potonji, po pravilu, sadrže i alate za izvještavanje i OLAP alate, a često i alate za rudarenje podataka.

Prema analitičarima Gartner grupe, Business Objects, Cognos, Information Builders su lideri na tržištu analize i obrade podataka na nivou preduzeća, a Microsoft i Oracle takođe tvrde da su lideri (slika 1). Što se tiče razvojnih alata za BI rješenja, glavni kandidati za liderstvo u ovoj oblasti su Microsoft i Institut SAS (Sl. 2).

Imajte na umu da su Microsoftovi alati Business Intelligence relativno jeftini proizvodi dostupni širokom spektru kompanija. Zbog toga ćemo razmotriti neke praktične aspekte korištenja Data Mininga koristeći proizvode ove kompanije kao primjer u narednim dijelovima ovog članka.

književnost:

1. Vojvoda V.A. Data Mining - rudarenje podataka. - http://www.olap.ru/basic/dm2.asp .

2. Dyuk V.A., Samoylenko A.P. Data Mining: kurs obuke. - Sankt Peterburg: Petar, 2001.

3. B. de Ville. Microsoft Data Mining. Digitalna štampa, 2001.

Razvoj metoda za snimanje i pohranjivanje podataka doveo je do brzog povećanja obima prikupljenih i analiziranih informacija. Obim podataka je toliko impresivan da ih čovjek jednostavno ne može samostalno analizirati, iako je potreba za takvom analizom sasvim očigledna, jer ovi „sirovi“ podaci sadrže znanje koje se može koristiti za donošenje odluka. Za automatsku analizu podataka koristi se Data Mining.

Data Mining je proces otkrivanja do sada nepoznatih netrivijalnih, praktično korisnih i dostupnih znanja u sirovim podacima, koji su neophodni za donošenje odluka u različitim oblastima ljudske aktivnosti. Data Mining je jedan od koraka otkrivanja znanja u bazama podataka.

Informacije koje se pronađu u procesu primjene metoda rudarenja podataka moraju biti netrivijalne i prethodno nepoznate, na primjer, prosječna prodaja nije. Znanje treba da opiše nove odnose između svojstava, predvidi vrijednosti nekih karakteristika na osnovu drugih itd. Pronađeno znanje trebalo bi biti primjenjivo na nove podatke sa određenim stepenom sigurnosti. Korisnost leži u činjenici da ovo znanje može donijeti određene koristi kada se primjenjuje. Znanje treba da bude u formi koja je razumljiva korisniku, a ne matematičaru. Na primjer, logičke konstrukcije "ako ... onda ..." osoba najlakše percipira. Štaviše, takva pravila se mogu koristiti u različitim DBMS-ima kao SQL upiti. U slučaju kada izvučeno znanje nije transparentno za korisnika, treba da postoje metode naknadne obrade koje omogućavaju njihovo dovođenje u interpretabilan oblik.

Algoritmi koji se koriste u Data Mining-u zahtijevaju mnogo kalkulacija. Ranije je to odvraćalo raširenu praktičnu primjenu Data Mininga, ali današnji rast produktivnosti savremeni procesori otklonio hitnost ovog problema. Sada, u razumnom roku, moguće je izvršiti kvalitativnu analizu stotina hiljada i miliona zapisa.

Zadaci rješavani metodama Data Mininga:

Klasifikacija- ovo je dodjela objekata (zapažanja, događaja) jednoj od prethodno poznatih klasa.
Regresija, uključujući probleme predviđanja. Uspostavljanje zavisnosti kontinuiranog izlaza o ulaznim varijablama.
Grupiranje je grupisanje objekata (zapažanja, događaja) na osnovu podataka (osobina) koji opisuju suštinu ovih objekata. Objekti unutar klastera moraju biti "slični" jedni drugima i različiti od objekata uključenih u druge klastere. Što više sličnih objekata unutar klastera i što više razlika između klastera, to je tačnije grupiranje.
Udruženje– utvrđivanje obrazaca između povezanih događaja. Primjer takvog obrasca je pravilo koje ukazuje da događaj Y slijedi iz događaja X. Takva pravila se nazivaju asocijativna. Ovaj problem je prvi put predložen za pronalaženje tipičnih obrazaca kupovine u supermarketima i stoga se ponekad naziva analiza tržišne korpe.
Sequential Patterns– uspostavljanje obrazaca između vremenskih događaja, tj. detekcija zavisnosti da ako se dogodi događaj X, onda nakon dato vrijeme desiće se događaj Y.
Analiza varijance– identifikacija najnekarakterističnijih obrazaca.

Problemi poslovne analize su različito formulirani, ali rješenje za većinu njih svodi se na jedan ili drugi zadatak rudarenja podataka ili njihovu kombinaciju. Na primjer, procjena rizika je rješenje za problem regresije ili klasifikacije, segmentacija tržišta je grupisanje, stimulacija potražnje je asocijacijska pravila. Zapravo, zadaci rudarenja podataka su elementi iz kojih možete sastaviti rješenje za veliku većinu stvarnih poslovnih problema.

Za rješavanje navedenih problema koriste se različite metode i algoritmi Data Mininga. S obzirom na činjenicu da se Data Mining razvio i razvija na raskrsnici disciplina kao što su statistika, teorija informacija, mašinsko učenje, teorija baze podataka, sasvim je prirodno da je većina algoritama i metoda Data Mining-a razvijena na osnovu razne metode iz ovih disciplina. Na primjer, postupak grupiranja k-means jednostavno je pozajmljen iz statistike. Sljedeće metode Data Mininga su stekle veliku popularnost: neuronske mreže, stabla odlučivanja, algoritmi za grupisanje, uključujući i skalabilne, algoritmi za otkrivanje asocijativnih veza između događaja, itd.

Deductor je analitička platforma koja uključuje kompletan skup alata za rješavanje problema rudarenja podataka: linearnu regresiju, nadzirane neuronske mreže, nenadzirane neuronske mreže, stabla odlučivanja, traženje pravila asocijacije i mnoge druge. Za mnoge mehanizme predviđeni su specijalizirani vizualizatori koji uvelike olakšavaju korištenje rezultirajućeg modela i interpretaciju rezultata. Jaka tačka Platforma nije samo implementacija savremenih algoritama analize, već i mogućnost proizvoljnog kombinovanja različitih mehanizama analize.

Šta je Data Mining?

Klasifikacija zadataka rudarenja podataka

Zadatak traženja pravila asocijacije

Problem grupisanja

Karakteristike Data Miner-a u Statistici 8

Alati za analizu STATISTICA Data Miner

Primjer rada u Data Mininu

Kreirajte izvještaje i sažetke

Sortiranje informacija

Analiza cijena stambenih parcela

Analiza prediktora preživljavanja

Zaključak

Šta je Data Mining?

Moderna kompjuterski termin Data Mining se prevodi kao "vađenje informacija" ili "vađenje podataka". Često se, uz Data Mining, nalaze pojmovi Otkrivanje znanja („otkrivanje znanja“) i Skladište podataka („skladište podataka“). Pojava ovih pojmova, koji su sastavni deo Data Mininga, povezana je sa novim krugom u razvoju alata i metoda za obradu i skladištenje podataka. Dakle, svrha Data Mininga je da identifikuje skrivena pravila i obrasce u velikim (veoma velikim) količinama podataka.

Činjenica je da sam ljudski um nije prilagođen za percepciju ogromnih nizova heterogenih informacija. U prosjeku, osoba, sa izuzetkom nekih pojedinaca, nije u stanju uhvatiti više od dvije ili tri veze, čak ni u malim uzorcima. Ali tradicionalna statistika, koja je dugo vremena imala ulogu glavnog alata za analizu podataka, također često ne uspijeva pri rješavanju problema iz pravi zivot. Radi sa prosječnim karakteristikama uzorka, koje su često fiktivne vrijednosti (prosječna solventnost klijenta, kada, ovisno o funkciji rizika ili funkciji gubitka, morate moći predvidjeti solventnost i namjere klijenta; prosječna intenzitet signala, dok vas zanimaju karakteristike i pozadina pikova signala, itd. d.).

Dakle, metode matematičke statistike korisni su uglavnom za testiranje unaprijed formuliranih hipoteza, dok je definicija hipoteze ponekad prilično složen i dugotrajan zadatak. Moderne tehnologije Data Mining obrađuje informacije kako bi automatska pretragašabloni (obrasci) karakteristični za bilo koje fragmente heterogenih višedimenzionalnih podataka. Za razliku od onlajn analitičke obrade podataka (OLAP), u Data Miningu, teret formulisanja hipoteza i identifikovanja neobičnih (neočekivanih) obrazaca prebacuje se sa čoveka na računar. Data mining nije jedna, već kombinacija velikog broja različitih metoda otkrivanja znanja. Izbor metode često zavisi od vrste dostupnih podataka i informacija koje pokušavate da dobijete. Evo, na primjer, nekoliko metoda: asocijacija (kombinacija), klasifikacija, grupisanje, analiza i predviđanje vremenskih serija, neuronske mreže, itd.

Razmotrimo detaljnije svojstva znanja koje treba otkriti, data u definiciji.

Znanje mora biti novo, ranije nepoznato. Trud uložen u otkrivanje znanja koje je korisniku već poznato ne isplati se. Dakle, novo, do sada nepoznato znanje ima vrijednost.

Znanje mora biti netrivijalno. Rezultati analize treba da odražavaju neočigledne, neočekivane obrasce u podacima koji čine takozvano skriveno znanje. Rezultati koji se mogu dobiti više jednostavne načine(na primjer, vizuelnom inspekcijom) ne opravdavaju upotrebu moćnih metoda rudarenja podataka.

Znanje bi trebalo da bude praktično korisno. Pronađena znanja treba da budu primenljiva, uključujući i nove podatke, sa dovoljno visokim stepenom pouzdanosti. Korisnost leži u činjenici da ovo znanje može donijeti određenu korist u njegovoj primjeni.

Znanje mora biti dostupno ljudskom razumijevanju. Pronađeni obrasci moraju biti logički objašnjivi, inače postoji mogućnost da su nasumični. Osim toga, otkriveno znanje treba prikazati u čovjeku razumljivom obliku.

U Data Miningu, modeli se koriste za predstavljanje stečenog znanja. Vrste modela zavise od metoda njihovog kreiranja. Najčešći su: pravila, stabla odlučivanja, klasteri i matematičke funkcije.

Opseg Data Mininga je neograničen - Data Mining je potreban svuda gdje postoje podaci. Iskustvo mnogih takvih preduzeća pokazuje da povraćaj korišćenja Data Mininga može dostići 1000%. Na primjer, postoje izvještaji o ekonomskom efektu koji je 10-70 puta veći od početnih troškova od 350 do 750 hiljada dolara. Daju se podaci o projektu od 20 miliona dolara, koji se isplatio za samo 4 mjeseca. Drugi primjer je godišnja ušteda od 700.000 dolara. kroz uvođenje Data Mininga u lanac supermarketa u Velikoj Britaniji. Data mining je od velike vrijednosti za menadžere i analitičare u njihovim svakodnevnim aktivnostima. Poslovni ljudi shvatili da uz pomoć Data Mining metoda mogu steći opipljive konkurentske prednosti.

Klasifikacija zadataka rudarenja podataka

Metode rudarenja podataka omogućavaju rješavanje mnogih problema sa kojima se suočava analitičar. Od njih su glavne: klasifikacija, regresija, traženje pravila asocijacije i grupisanje. Ispod je Kratki opis glavni zadaci analize podataka.

1) Zadatak klasifikacije se svodi na određivanje klase objekta prema njegovim karakteristikama. Treba napomenuti da je u ovom problemu unaprijed poznat skup klasa kojima se objekt može dodijeliti.

2) Zadatak regresije, kao i zadatak klasifikacije, omogućava vam da odredite vrijednost nekih njegovih parametara na osnovu poznatih karakteristika objekta. Za razliku od problema klasifikacije, vrijednost parametra nije konačan skup klasa, već skup realnih brojeva.

3) Zadatak udruživanja. Kada tražite pravila asocijacije, cilj je pronaći česte zavisnosti (ili asocijacije) između objekata ili događaja. Pronađene zavisnosti su predstavljene u obliku pravila i mogu se koristiti kako za bolje razumijevanje prirode analiziranih podataka, tako i za predviđanje nastanka događaja.

4) Zadatak klasteriranja je traženje nezavisnih grupa (klastera) i njihovih karakteristika u cjelokupnom skupu analiziranih podataka. Rješavanje ovog problema pomaže boljem razumijevanju podataka. Osim toga, grupiranje homogenih objekata omogućava smanjenje njihovog broja i, posljedično, olakšavanje analize.

5) Sekvencijalni obrasci - uspostavljanje obrazaca između događaja povezanih u vremenu, tj. otkrivanje zavisnosti da ako se dogodi događaj X, onda će se događaj Y dogoditi nakon određenog vremena.

6) Analiza odstupanja – identifikacija najnekarakterističnijih obrazaca.

Navedeni zadaci su po namjeni podijeljeni na deskriptivne i prediktivne.

Deskriptivni zadaci se fokusiraju na poboljšanje razumijevanja podataka koji se analiziraju. Ključna stvar u takvim modelima je lakoća i transparentnost rezultata za ljudsku percepciju. Moguće je da će otkriveni obrasci biti specifična karakteristika specifičnih podataka koji se proučavaju i da se neće naći nigdje drugdje, ali ipak mogu biti korisni i stoga ih treba znati. Ova vrsta problema uključuje grupisanje i traženje pravila asocijacije.

Rješenje prediktivnih problema podijeljeno je u dvije faze. U prvoj fazi se gradi model na osnovu skupa podataka sa poznatim rezultatima. U drugom koraku, koristi se za predviđanje rezultata na osnovu novih skupova podataka. U ovom slučaju, naravno, potrebno je da izrađeni modeli rade što je moguće preciznije. To ovu vrstu zadaci uključuju zadatke klasifikacije i regresije. Ovo uključuje i problem pronalaženja pravila asocijacije, ako se rezultati njegovog rješenja mogu koristiti za predviđanje nastanka određenih događaja.

Prema načinu rješavanja problema dijele se na učenje sa nadzorom (učenje sa nastavnikom) i učenje bez nadzora (učenje bez nastavnika). Ovaj naziv dolazi od izraza Machine Learning (mašinsko učenje), koji se često koristi u literaturi na engleskom jeziku i odnosi se na sve tehnologije rudarenja podataka.

U slučaju učenja pod nadzorom, problem analize podataka rješava se u nekoliko faza. Prvo, koristeći bilo koji Data Mining algoritam, gradi se model analiziranih podataka – klasifikator. Klasifikator se zatim obučava. Drugim riječima, provjerava se kvalitet njegovog rada i, ako je nezadovoljavajući, klasifikator se dodatno obučava. Ovo se nastavlja sve dok se ne dostigne traženi nivo kvaliteta ili ne postane jasno da odabrani algoritam ne radi ispravno sa podacima, ili sami podaci nemaju strukturu koja se može identifikovati. Ova vrsta problema uključuje probleme klasifikacije i regresije.

Učenje bez nadzora kombinuje zadatke koji identifikuju opisne obrasce, kao što su obrasci u kupovini kupaca u velikoj prodavnici. Očigledno, ako ovi obrasci postoje, onda bi ih model trebao predstavljati i neprimjereno je govoriti o njegovom učenju. Otuda i naziv - učenje bez nadzora. Prednost ovakvih problema je mogućnost njihovog rješavanja bez prethodnog poznavanja analiziranih podataka. To uključuje grupiranje i traženje pravila asocijacije.

Problem klasifikacije i regresije

Prilikom analize često je potrebno utvrditi kojoj od poznatih klasa pripadaju predmeti koji se proučavaju, odnosno klasifikovati ih. Na primjer, kada se osoba obrati banci za kredit, službenik banke mora odlučiti da li je potencijalni klijent kreditno sposoban ili ne. Očigledno je da se takva odluka donosi na osnovu podataka o objektu koji se proučava (in ovaj slučaj- osoba): njegovo radno mjesto, veličina plate, godine, sastav porodice itd. Kao rezultat analize ovih informacija, službenik banke mora osobu pripisati jednoj od dvije poznate klase "kreditno" i "nekreditno".

Drugi primjer zadatka klasifikacije je filtriranje e-pošte. U tom slučaju, program za filtriranje mora klasificirati dolaznu poruku kao neželjena pošta (smeće Email) ili kao pismo. Ovo rješenje prihvaća se na osnovu učestalosti pojavljivanja određenih riječi u poruci (na primjer, ime primaoca, nelična adresa, riječi i fraze: steći, "zaraditi", " isplativ predlog" itd.).