Conceptul de data mining a devenit popular în. Exploatarea datelor Loginom Wiki

Trimiteți-vă munca bună în baza de cunoștințe este simplu. Utilizați formularul de mai jos

Studenții, studenții absolvenți, tinerii oameni de știință care folosesc baza de cunoștințe în studiile și munca lor vă vor fi foarte recunoscători.

Documente similare

Clasificarea sarcinilor DataMining. Crearea de rapoarte si totaluri. Caracteristicile Data Miner în Statistica. Problemă de clasificare, grupare și regresie. Instrumente de analiză Statistica Data Miner. Esența problemei este căutarea regulilor de asociere. Analiza predictorilor de supraviețuire.

lucrare de termen, adăugată 19.05.2011

Descriere funcţionalitate Tehnologiile Data Mining ca procese de detectare a datelor necunoscute. Studiul sistemelor de inferență a regulilor asociative și a mecanismelor algoritmilor de rețele neuronale. Descrierea algoritmilor de clustering și a domeniilor de aplicare ale Data Mining.

test, adaugat 14.06.2013

Bazele grupării. Folosind data mining ca o modalitate de „descoperire a cunoștințelor în baze de date”. Alegerea algoritmilor de grupare. Preluarea datelor din baza de date de stocare a atelierului de la distanță. Clustering studenți și sarcini.

lucrare de termen adăugată la 07.10.2017

Exploatarea datelor, istoricul dezvoltării minării datelor și descoperirea cunoștințelor. Elemente tehnologice și metode de data mining. Pași în descoperirea cunoștințelor. Detectarea schimbărilor și a abaterilor. Discipline înrudite, regăsirea informațiilor și extragerea textului.

raport adaugat la 16.06.2012

Analiza problemelor apărute în urma aplicării metodelor și algoritmilor de clustering. Algoritmi de bază pentru clustering. Software-ul RapidMiner ca mediu pentru învățarea automată și analiza datelor. Evaluarea calității clusterizării folosind metodele Data Mining.

lucrare de termen, adăugată 22.10.2012

Îmbunătățirea tehnologiilor de înregistrare și stocare a datelor. Specificitatea cerințelor moderne pentru prelucrarea datelor informaționale. Conceptul de modele care reflectă fragmente de relații multidimensionale în date în centrul tehnologiei moderne de data mining.

test, adaugat 09.02.2010

Analiza utilizării rețelelor neuronale pentru prezicerea situației și luarea deciziilor la bursă folosind pachetul software de modelare a rețelelor neuronale Trajan 3.0. Conversia datelor primare, tabele. Evaluarea programului ergonomic.

teză, adăugată 27.06.2011

Dificultăți în utilizarea algoritmilor evolutivi. Construirea sistemelor de calcul bazate pe principiile selecției naturale. Dezavantajele algoritmilor genetici. Exemple de algoritmi evolutivi. Direcții și secțiuni ale modelării evolutive.

nivelul superior

1. Utilizarea directă a datelor sau stocare a datelor.

În acest caz, datele inițiale sunt stocate într-o formă explicit detaliată și sunt utilizate direct în etape și/sau analizarea excepțiilor... Problema cu acest grup de metode este că atunci când le folosiți, poate fi dificil să analizați baze de date foarte mari.

Metode din acest grup: analiza cluster, metoda celui mai apropiat vecin, metoda k-cel mai apropiat vecin, raționament prin analogie.

2. Identificarea și utilizarea formalizate modele, sau modele de distilare.

Cu tehnologie modele de distilare din datele inițiale se extrage un eșantion (șablon) de informații și se transformă în niște construcții formale, a căror formă depinde de metoda de Data Mining utilizată. Acest proces se realizează în etapă căutare gratuită, primul grup de metode nu are în principiu această etapă. Pe etape modelare predictivăși analizarea excepțiilor sunt utilizate rezultatele etapei căutare gratuită, sunt mult mai compacte decât bazele de date în sine. Să reamintim că construcțiile acestor modele pot fi interpretate de analist sau neurmate („cutii negre”).

Metode din acest grup: metode logice; metode de vizualizare; metode de tabulare încrucișată; metode bazate pe ecuații.

Metodele logice, sau metodele de inducție logică, includ: interogări și analize neclare; reguli simbolice; arbori de decizie; algoritmi genetici.

Metodele acestui grup sunt, poate, cele mai interpretabile - ele formalizează tiparele găsite, în cele mai multe cazuri, într-o formă destul de transparentă din punctul de vedere al utilizatorului. Regulile rezultate pot include variabile continue și discrete. Trebuie remarcat faptul că arborii de decizie pot fi convertiți cu ușurință în seturi de reguli simbolice prin generarea unei reguli de-a lungul căii de la rădăcina arborelui la acesta. partea superioară a terminalului... Arborele de decizie și regulile sunt de fapt căi diferite soluții la o singură problemă și diferă doar prin capacitățile lor. În plus, implementarea regulilor este realizată de algoritmi mai lenți decât inducerea arborilor de decizie.

Metode de tabelare încrucișată: agenți, rețele bayesiene (încredere), vizualizare încrucișată. Ultima metodă nu corespunde în totalitate cu una dintre proprietățile Data Mining - căutare independentă modele sistem analitic. Cu toate acestea, furnizarea de informații sub formă de tabele încrucișate asigură implementarea sarcinii principale a Data Mining - căutarea modelelor, prin urmare această metodă poate fi considerată și una dintre metodele Data Mining.

Metode bazate pe ecuații.

Metodele acestui grup exprimă tiparele relevate sub formă de expresii matematice - ecuații. Prin urmare, ele pot funcționa numai cu variabile numerice, iar variabilele de alte tipuri trebuie să fie codificate corespunzător. Acest lucru limitează oarecum aplicarea metodelor acestui grup, cu toate acestea, ele sunt utilizate pe scară largă în rezolvarea diferitelor probleme, în special în prognozarea problemelor.

Principalele metode ale acestui grup: metode statistice și rețele neuronale

Metodele statistice sunt cel mai adesea folosite pentru a rezolva problemele de prognoză. Există multe metode de analiză a datelor statistice, printre care, de exemplu, analiza corelației-regresiune, corelarea seriilor temporale, identificarea tendințelor în seriale temporale, analiza armonică.

O altă clasificare împarte întreaga varietate de metode de Data Mining în două grupe: metode statistice și cibernetice. Această schemă de împărțire se bazează pe diferite abordări de învățare modele matematice.

Trebuie remarcat faptul că există două abordări pentru clasificarea metodelor statistice ca Data Mining. Prima dintre ele contrastează metodele statistice și Data Mining, susținătorii săi consideră că metodele statistice clasice sunt o direcție separată a analizei datelor. Conform celei de-a doua abordări, metodele statistice de analiză fac parte din setul de instrumente matematice Data Mining. Cele mai multe surse de renume adoptă a doua abordare.

În această clasificare, se disting două grupuri de metode:

metode statistice bazate pe utilizarea experienței medii acumulate, care se reflectă în datele retrospective;
metode cibernetice, care includ multe abordări matematice eterogene.

Dezavantajul unei astfel de clasificări: atât algoritmii statistici, cât și cei cibernetici se bazează într-un fel sau altul pe compararea experienței statistice cu rezultatele monitorizării situației actuale.

Avantajul acestei clasificări este comoditatea sa pentru interpretare - este folosită pentru a descrie instrumentele matematice ale abordării moderne a extragerea cunoștințelor din rețele de observații inițiale (operaționale și retrospective), adică în sarcinile Data Mining.

Să aruncăm o privire mai atentă asupra grupurilor prezentate mai sus.

Metode de extragere a datelor statistice

Metodele reprezintă patru secțiuni interdependente:

analiza preliminară a naturii datelor statistice (testarea ipotezelor de staționaritate, normalitate, independență, omogenitate, evaluarea formei funcției de distribuție, a parametrilor acesteia etc.);
identificarea legăturilor şi modele(analiza de regresie liniară și neliniară, analiza de corelație etc.);
analiză statistică multivariată (analiza discriminantă liniară și neliniară, analiza cluster, analiza componentelor, analiza factorilor si etc.);
modele dinamiceși prognoza serii temporale.

Arsenalul de metode statistice Data Mining este clasificat în patru grupe de metode:

Analiza descriptivă și descrierea datelor inițiale.
Analiza relațiilor (analiza de corelație și regresie, analiza factorilor, analiza variatiei).
Analiză statistică multivariată (analiza componentelor, analiza discriminantă, analiza regresiei multivariate, corelații canonice etc.).
Analiza serii temporale ( modele dinamiceși prognoză).

Metode cibernetice de extragere a datelor

A doua direcție a Data Mining este un set de abordări unite de ideea matematicii computerizate și de utilizarea teoriei inteligenței artificiale.

Ce este data mining

Baza de date corporativă a oricărei întreprinderi moderne conține de obicei un set de tabele care stochează înregistrări despre anumite fapte sau obiecte (de exemplu, despre bunuri, vânzările acestora, clienți, conturi). De regulă, fiecare înregistrare dintr-un astfel de tabel descrie un obiect sau un fapt specific. De exemplu, o intrare în tabelul de vânzări reflectă faptul că un astfel de produs a fost vândut unui astfel de client de către un astfel de manager și, în general, nu conține nimic altceva decât această informație. Cu toate acestea, totalitatea un numar mare astfel de înregistrări acumulate pe parcursul mai multor ani pot deveni o sursă de informații suplimentare, mult mai valoroase, care nu pot fi obținute pe baza unei înregistrări specifice, și anume, informații despre tipare, tendințe sau interdependențe între orice date. Exemple de astfel de informații sunt informații despre modul în care vânzările unui anumit produs depind de ziua săptămânii, ora zilei sau perioada anului, care categorii de cumpărători cumpără cel mai adesea acest produs sau acel produs, care parte dintre cumpărătorii unui anumit produs achizitioneaza un alt produs anume, care categorie de clienti de cele mai multe ori nu ramburseaza creditul acordat la timp.

Acest tip de informații este de obicei folosit în prognoză, planificare strategică, analiza riscului, iar valoarea sa pentru întreprindere este foarte mare. Aparent, de aceea procesul de căutare a fost numit Data Mining (mining în engleză înseamnă „minerit”, iar căutarea modelelor într-un set imens de date faptice este într-adevăr asemănătoare cu aceasta). Termenul Data Mining desemnează nu atât o tehnologie specifică, cât procesul de căutare a corelațiilor, tendințelor, relațiilor și modelelor prin intermediul diverșilor algoritmi matematici și statistici: clustering, sub-eșantionare, regresie și analiză de corelație. Scopul acestei căutări este de a prezenta datele într-o formă care să reflecte clar procesele de afaceri, precum și de a construi un model care poate fi utilizat pentru a prezice procese care sunt critice pentru planificarea afacerii (de exemplu, dinamica cererii pentru anumite bunuri sau servicii sau dependența achiziției acestora de oricare dintre caracteristicile consumatorului).

Rețineți că statisticile matematice tradiționale, care au rămas pentru o lungă perioadă de timp instrumentul principal pentru analiza datelor, precum și instrumentele de procesare analitică online (OLAP), despre care am scris deja de multe ori (a se vedea materialele pe acest subiect pe CD-ul nostru) , nu pot întotdeauna aplicat cu succes pentru a rezolva astfel de probleme. De obicei, metodele statistice și OLAP sunt folosite pentru a testa ipotezele preformulate. Cu toate acestea, deseori formularea ipotezei se dovedește a fi sarcina dificila atunci când implementați analiza de afaceri pentru luarea deciziilor ulterioare, deoarece nu toate tiparele din date sunt evidente la prima vedere.

Tehnologia modernă Data Mining se bazează pe conceptul de șabloane care reflectă tiparele inerente subeșantioanelor de date. Căutarea tiparelor este efectuată prin metode care nu folosesc nicio ipoteză a priori despre aceste subeșantioane. Dacă în analiza statistică sau la aplicarea OLAP, întrebări de genul „Care este numărul mediu de facturi neplătite de către clienții acestui serviciu?”... În același timp, este răspunsul la a doua întrebare care oferă adesea o abordare mai netrivială a politicii de marketing și a organizării muncii cu clienții.

O caracteristică importantă a Data Mining este non-standardul și neevidența tiparelor căutate. Cu alte cuvinte, instrumentele Data Mining diferă de instrumentele de prelucrare a datelor statistice și instrumentele OLAP prin faptul că, în loc să verifice interdependența asumate în prealabil de utilizatori, sunt capabili să găsească singuri astfel de interdependențe pe baza datelor disponibile și să construiască ipoteze despre natura lor. .

De menționat că utilizarea instrumentelor de Data Mining nu exclude utilizarea instrumentelor statistice și a instrumentelor OLAP, deoarece rezultatele prelucrării datelor cu ajutorul acestora din urmă, de regulă, contribuie la o mai bună înțelegere a naturii modele care ar trebui căutate.

Date inițiale pentru Data Mining

Utilizarea Data Mining-ului este justificată dacă există o cantitate suficient de mare de date, în mod ideal conținute într-un depozit de date proiectat corect (de fapt, depozitele de date în sine sunt create de obicei pentru a rezolva problemele de analiză și prognoză legate de suportul decizional). De asemenea, am scris de mai multe ori despre principiile construirii depozitelor de date; materialele relevante pot fi găsite pe CD-ROM-ul nostru, așa că nu ne vom opri asupra acestei probleme. Să reamintim doar că datele din depozit sunt un set completat, uniform pentru întreaga întreprindere și care vă permite să restabiliți imaginea activităților sale în orice moment. De asemenea, rețineți că structura de date a depozitului este concepută în așa fel încât execuția interogărilor către acesta să fie realizată cât mai eficient posibil. Cu toate acestea, există instrumente de Data Mining care pot căuta modele, corelații și tendințe nu numai în depozitele de date, ci și în cuburi OLAP, adică în seturi de date statistice preprocesate.

Tipuri de modele dezvăluite prin metodele Data Mining

Potrivit lui V.A. Dyuk, există cinci tipuri standard de modele identificate prin metodele Data Mining:

Asociere - o probabilitate mare de apariție a evenimentelor între ele (de exemplu, un produs este adesea achiziționat împreună cu altul);

Secvență - o probabilitate mare a unui lanț de evenimente legate în timp (de exemplu, într-o anumită perioadă de la achiziționarea unui produs, altul va fi achiziționat cu un grad ridicat de probabilitate);

Clasificare - există semne care caracterizează grupul căruia îi aparține un eveniment sau un obiect (de obicei, unele reguli sunt formulate pe baza analizei unor evenimente deja clasificate);

Clustering-ul este un model similar clasificării și diferit de acesta prin faptul că grupurile în sine nu sunt specificate în același timp - sunt detectate automat în timpul prelucrării datelor;

Modele temporale - prezența modelelor în dinamica comportamentului anumitor date (un exemplu tipic sunt fluctuațiile sezoniere ale cererii pentru anumite bunuri sau servicii) utilizate pentru prognoză.

Metode de data mining în data mining

Există destul de multe metode diferite de data mining astăzi. Pe baza clasificării de mai sus propuse de V.A. Duke, printre acestea se numără:

Analiza de regresie, varianță și corelație (implementată în majoritatea pachetelor statistice moderne, în special în produsele SAS Institute, StatSoft etc.);

Metode de analiză într-un domeniu specific bazate pe modele empirice (deseori utilizate, de exemplu, în instrumente ieftine de analiză financiară);

Algoritmi de rețea neuronală, a căror idee se bazează pe o analogie cu funcționarea țesutului nervos și constă în faptul că parametrii inițiali sunt considerați ca semnale care sunt transformate în conformitate cu conexiunile existente între „neuroni” și răspunsul întregii rețele la datele inițiale. În acest caz, conexiunile sunt create folosind așa-numitul training de rețea prin intermediul unui eșantion mare care conține atât datele inițiale, cât și răspunsurile corecte;

Algoritmi - selectarea unui analog apropiat al datelor inițiale din datele istorice existente. Denumită și metoda „cel mai apropiat vecin”;

Arborele de decizie reprezintă o structură ierarhică bazată pe un set de întrebări care necesită un răspuns „Da” sau „Nu”; deşi Pe aici prelucrarea datelor nu întotdeauna regăsește în mod ideal tiparele existente, este destul de des folosită în sistemele de prognoză datorită clarității răspunsului primit;

Modelele de cluster (uneori numite și modele de segmentare) sunt folosite pentru a grupa evenimente similare în grupuri pe baza valorilor similare ale mai multor câmpuri dintr-un set de date; de asemenea, foarte popular atunci când se creează sisteme de prognoză;

Algoritmi de căutare delimitate care calculează frecvențele combinațiilor de evenimente logice simple în subgrupuri de date;

Programare evolutivă - căutarea și generarea unui algoritm care exprimă interdependența datelor, pe baza algoritmului specificat inițial, modificat în procesul de căutare; uneori, căutarea interdependențelor este efectuată între orice tipuri specifice de funcții (de exemplu, polinoame).

Mai multe detalii despre aceștia și alți algoritmi de Data Mining, precum și instrumentele care îi implementează, pot fi găsite în cartea „Data Mining: curs de pregatire„V. A. Dyuk și A. P. Samoilenko, publicat la editura „Peter” în 2001. Astăzi este una dintre puținele cărți în limba rusă dedicate acestei probleme.

Producători de top de instrumente de data mining

Instrumentele de data mining, la fel ca majoritatea instrumentelor de Business Intelligence, aparțin în mod tradițional unor instrumente software scumpe - prețul unora dintre ele ajunge la câteva zeci de mii de dolari. Prin urmare, până de curând, principalii consumatori ai acestei tehnologii au fost băncile, companiile financiare și de asigurări, marile întreprinderi comerciale, iar principalele sarcini care necesitau utilizarea Data Mining-ului au fost evaluarea riscurilor de credit și asigurări și elaborarea unei politici de marketing. planuri tarifareși alte principii de lucru cu clienții. În ultimii ani, situația a suferit anumite schimbări: în piață software Au apărut instrumente de Data Mining relativ ieftine de la mai mulți producători, care au făcut această tehnologie disponibilă pentru întreprinderile mici și mijlocii, care nu s-au gândit anterior la asta.

Instrumentele moderne de Business Intelligence includ generatoare de rapoarte, instrumente prelucrare analitică date, instrumente de dezvoltare pentru soluții BI (Platforme BI) și așa-numitele Enterprise BI Suites - instrumente de analiză și procesare a datelor la scară întreprindere care vă permit să efectuați un set de acțiuni legate de analiza și raportarea datelor și, adesea include un set integrat de instrumente BI și instrumente de dezvoltare pentru aplicații BI. Acestea din urmă, de regulă, conțin atât instrumente de raportare, cât și instrumente OLAP, și adesea instrumente de Data Mining.

Potrivit analiștilor de la Gartner Group, liderii de pe piața de analiză și procesare a datelor la scară întreprindere sunt Business Objects, Cognos, Information Builders, iar Microsoft și Oracle pretind, de asemenea, leadership (Fig. 1). În ceea ce privește instrumentele de dezvoltare pentru soluțiile BI, principalii concurenți la leadership în acest domeniu sunt Microsoftși Institutul SAS (Fig. 2).

Rețineți că instrumentele Microsoft Business Intelligence sunt produse relativ ieftine disponibile pentru o gamă largă de companii. De aceea, vom lua în considerare câteva aspecte practice ale utilizării Data Mining folosind exemplul produselor acestei companii în părțile ulterioare ale acestui articol.

Literatură:

1. Ducele V.A. Data Mining - extragerea datelor. - http://www.olap.ru/basic/dm2.asp.

2. Ducele V.A., Samoilenko A.P. Data Mining: curs de formare. - SPb.: Peter, 2001.

3. B. de Ville. Microsoft Data Mining. Presa digitală, 2001.

Dezvoltarea metodelor de înregistrare și stocare a datelor a condus la o creștere rapidă a cantității de informații colectate și analizate. Volumele de date sunt atât de impresionante încât o persoană pur și simplu nu le poate analiza singură, deși necesitatea unei astfel de analize este destul de evidentă, deoarece aceste date „brute” conțin cunoștințe care pot fi folosite în luarea deciziilor. Pentru a efectua analiza automată a datelor, se utilizează Data Mining.

Data Mining-ul este un proces de descoperire a interpretării necunoscute anterior, non-triviale, practic utile și accesibile, a cunoștințelor necesare pentru luarea deciziilor în diverse sfere ale activității umane în date „brute”. Data Mining este unul dintre pașii descoperirii cunoștințelor în baze de date.

Informațiile găsite în procesul de aplicare a metodelor Data Mining ar trebui să nu fie banale și necunoscute anterior, de exemplu, vânzările medii nu sunt. Cunoștințele ar trebui să descrie noi relații între proprietăți, să prezică valorile unor caracteristici pe baza altora etc. Cunoștințele găsite ar trebui să fie aplicabile unor date noi cu un anumit grad de fiabilitate. Utilitatea constă în faptul că aceste cunoștințe pot aduce unele beneficii în aplicarea lor. Cunoștințele ar trebui să fie într-o formă care nu poate fi înțeleasă din punct de vedere matematic pentru utilizator. De exemplu, construcțiile logice „dacă... atunci...” sunt cel mai ușor percepute de o persoană. Mai mult, astfel de reguli pot fi folosite în diferite DBMS ca interogări SQL. În cazul în care cunoștințele extrase nu sunt transparente pentru utilizator, ar trebui să existe metode de post-procesare pentru a le aduce într-o formă interpretabilă.

Algoritmii utilizați în Data Mining sunt intensivi din punct de vedere computațional. Anterior, acesta a fost un factor limitativ în aplicarea practică pe scară largă a Data Mining, cu toate acestea, creșterea productivității de astăzi. procesoare moderne a eliminat urgenta acestei probleme. Acum, într-un timp rezonabil, puteți efectua o analiză calitativă a sute de mii și milioane de înregistrări.

Sarcini rezolvate prin metodele Data Mining:

Clasificare Este atribuirea de obiecte (observații, evenimente) uneia dintre clasele cunoscute anterior.
Regresia, inclusiv sarcinile de prognoză. Stabilirea dependenței ieșirii continue de variabilele de intrare.
Clustering Este o grupare de obiecte (observații, evenimente) bazată pe date (proprietăți) care descriu esența acestor obiecte. Obiectele dintr-un cluster trebuie să fie „asemănătoare” între ele și să difere de obiectele incluse în alte clustere. Cu cât obiectele din cluster sunt mai asemănătoare și cu cât sunt mai multe diferențe între clustere, cu atât este mai precisă gruparea.
Asociere- identificarea tiparelor între evenimentele înrudite. Un exemplu de astfel de model este o regulă care indică faptul că evenimentul Y decurge din evenimentul X. Astfel de reguli sunt numite asociative. Această problemă a fost propusă pentru a găsi modele tipice de cumpărături în supermarketuri, de aceea este uneori numită și analiza coșului de piață.
Modele secvențiale- stabilirea tiparelor între evenimente legate în timp, i.e. detectarea dependenței că dacă apare evenimentul X, atunci după potriveste ora va avea loc evenimentul Y.
Analiza abaterilor- identificarea celor mai necaracteristice tipare.

Problemele de analiză a afacerii sunt formulate într-un mod diferit, dar soluția pentru cele mai multe dintre ele se rezumă la una sau alta problemă de Data Mining sau o combinație a acestora. De exemplu, evaluarea riscului este o soluție la o problemă de regresie sau clasificare, segmentarea pieței este gruparea, stimularea cererii este reguli asociative. De fapt, sarcinile Data Mining sunt elemente care pot fi folosite pentru a asambla o soluție la marea majoritate a problemelor reale de afaceri.

Pentru a rezolva problemele de mai sus, se folosesc diverse metode și algoritmi de Data Mining. Datorită faptului că Data Mining s-a dezvoltat și se dezvoltă la intersecția unor discipline precum statistica, teoria informației, învățare automată, teoria bazelor de date, este destul de firesc ca majoritatea algoritmilor și metodelor de Data Mining să fie dezvoltate pe baza metode diferite a acestor discipline. De exemplu, procedura de grupare k-means a fost pur și simplu împrumutată din statistici. Următoarele metode de Data Mining au câștigat o mare popularitate: rețele neuronale, arbori de decizie, algoritmi de clustering, inclusiv cei scalabili, algoritmi de detectare a legăturilor asociative între evenimente etc.

Deductor este o platformă analitică care include un set complet de instrumente pentru rezolvarea problemelor de Data Mining: regresie liniară, rețele neuronale supravegheate, rețele neuronale nesupravegheate, arbori de decizie, căutare de reguli de asociere și multe altele. Pentru multe mecanisme sunt furnizate vizualizatoare specializate, care facilitează foarte mult utilizarea modelului obținut și interpretarea rezultatelor. Punctul forte platforma nu este doar implementarea algoritmilor moderni de analiză, dar oferă și capacitatea de a combina în mod arbitrar diverse mecanisme de analiză.

Ce este data mining

Clasificarea sarcinilor de data mining

Sarcina de a găsi reguli de asociere

Problemă de grupare

Caracteristicile Data Miner în Statistica 8

Instrumente de analiză STATISTICA Data Miner

Un exemplu de lucru în Data Minin

Generarea de rapoarte și totaluri

Sortarea informațiilor

Analiza preturilor pentru terenurile rezidentiale

Analiza predictorilor de supraviețuire

Concluzie

Ce este data mining

Modern termen de calculator Data Mining este tradus ca „extracție de informații” sau „exploatare de date”. Destul de des, alături de Data Mining, există termenii Knowledge Discovery și Data Warehouse. Apariția acestor termeni, care fac parte integrantă din Data Mining, este asociată cu o nouă rundă în dezvoltarea instrumentelor și metodelor de procesare și stocare a datelor. Deci, scopul Data Mining este de a dezvălui reguli și modele ascunse în cantități mari (foarte mari) de date.

Faptul este că mintea umană în sine nu este adaptată la percepția unor cantități uriașe de informații eterogene. În medie, o persoană, cu excepția unor indivizi, nu este capabilă să surprindă mai mult de două sau trei relații, chiar și în eșantioane mici. Dar statisticile tradiționale, care s-au prefăcut de mult timp a fi instrumentul principal pentru analiza datelor, adesea eșuează atunci când rezolvă problemele din viata reala... Funcționează pe caracteristicile medii ale eșantionului, care sunt adesea valori fictive (solvabilitatea medie a clientului, atunci când, în funcție de funcția de risc sau de funcția de pierdere, trebuie să puteți prezice consistența și intențiile client; intensitatea medie a semnalului, în timp ce sunteți interesat de caracteristicile și condițiile prealabile ale vârfurilor de semnal etc.) etc.).

Prin urmare, metodele statistici matematice se dovedesc a fi utile în principal pentru testarea ipotezelor preformulate, în timp ce definirea unei ipoteze este uneori o sarcină destul de dificilă și consumatoare de timp. Tehnologii moderne Data Mining procesează informații în acest scop căutare automatășabloane (modele) caracteristice oricăror fragmente de date multidimensionale eterogene. Spre deosebire de procesarea analitică online (OLAP), data mining a mutat povara formulării ipotezelor și identificării tiparelor neașteptate de la persoană la computer. Data Mining nu este una, ci o colecție de un număr mare de metode diferite de descoperire a cunoștințelor. Alegerea metodei depinde adesea de tipul de date disponibile și de ce informații încercați să obțineți. De exemplu, unele metode sunt: asociere (unire), clasificare, clustering, analiza și prognoza serii de timp, rețele neuronale etc.

Să luăm în considerare mai detaliat proprietățile cunoștințelor descoperite date în definiție.

Cunoștințele trebuie să fie noi, necunoscute anterior. Efortul depus pentru descoperirea cunoștințelor deja cunoscute utilizatorului nu dă roade. Prin urmare, noile cunoștințe, necunoscute anterior, sunt cele valoroase.

Cunoștințele ar trebui să nu fie banale. Rezultatele analizei ar trebui să reflecte modele neevidente, neașteptate în datele care alcătuiesc așa-numitele cunoștințe ascunse. Rezultate care s-ar putea obține mai mult în moduri simple(de exemplu, vizualizarea vizuală) nu justifică utilizarea unor metode puternice de Data Mining.

Cunoștințele ar trebui să fie practic utile. Cunoștințele găsite ar trebui să fie aplicabile, inclusiv asupra datelor noi, cu un grad suficient de ridicat de fiabilitate. Utilitatea constă în faptul că aceste cunoștințe pot aduce unele beneficii în aplicarea lor.

Cunoașterea ar trebui să fie disponibilă pentru înțelegerea umană. Tiparele găsite trebuie să fie explicabile logic, altfel există posibilitatea ca acestea să fie accidentale. În plus, cunoștințele descoperite ar trebui să fie prezentate într-o formă înțeleasă de oameni.

În Data Mining, modelele sunt folosite pentru a reprezenta cunoștințele dobândite. Tipurile de modele depind de metodele folosite pentru a le crea. Cele mai comune sunt: reguli, arbori de decizie, clustere și funcții matematice.

Domeniul de aplicare al Data Mining nu este limitat de nimic - Data Mining este necesar oriunde există date. Experiența multor astfel de întreprinderi arată că rentabilitatea utilizării Data Mining poate ajunge la 1000%. De exemplu, există rapoarte de beneficii economice care sunt de 10-70 de ori mai mari decât costurile inițiale de la 350 la 750 de mii de dolari. Oferă informații despre proiectul de 20 de milioane de dolari, care a dat roade în doar 4 luni. Un alt exemplu este economiile anuale de 700.000 USD. prin introducerea Data Mining-ului în lanțul de supermarketuri din Marea Britanie. Data Mining este de mare valoare pentru manageri și analiști în activitățile lor zilnice. Oameni de afaceriși-au dat seama că cu ajutorul metodelor de Data Mining pot obține avantaje tangibile în competiție.

Clasificarea sarcinilor DataMining

Metodele DataMining vă permit să rezolvați multe dintre problemele cu care se confruntă un analist. Dintre acestea, principalele sunt: clasificarea, regresia, căutarea regulilor de asociere și gruparea. Mai jos este scurta descriere principalele sarcini ale analizei datelor.

1) Sarcina clasificării se reduce la determinarea clasei unui obiect după caracteristicile sale. Trebuie remarcat faptul că în această problemă se cunoaște dinainte setul de clase cărora le poate fi atribuit obiectul.

2) Sarcina de regresie, ca și sarcina de clasificare, vă permite să determinați valoarea unora dintre parametrii săi din caracteristicile cunoscute ale unui obiect. Spre deosebire de problema de clasificare, valoarea parametrului nu este un set finit de clase, ci un set de numere reale.

3) Sarcina asociaţiei. Când căutați reguli de asociere, scopul este de a găsi dependențe (sau asocieri) frecvente între obiecte sau evenimente. Dependențele găsite sunt prezentate sub formă de reguli și pot fi folosite atât pentru o mai bună înțelegere a naturii datelor analizate, cât și pentru prezicerea apariției evenimentelor.

4) Sarcina grupării este de a găsi grupuri independente (clustere) și caracteristicile acestora în întregul set de date analizate. Rezolvarea acestei probleme vă ajută să înțelegeți mai bine datele. În plus, gruparea obiectelor omogene face posibilă reducerea numărului acestora și, în consecință, facilitarea analizei.

5) Tipare secvențiale - stabilirea tiparelor între evenimente legate în timp, i.e. detectarea dependenței că, dacă apare evenimentul X, atunci evenimentul Y va avea loc după un timp specificat.

6) Analiza abaterilor - identificarea celor mai necaracteristice tipare.

Sarcinile enumerate sunt împărțite în funcție de scop în descriptive și predictive.

Sarcinile descriptive se concentrează pe îmbunătățirea înțelegerii datelor analizate. Punctul cheie în astfel de modele este ușurința și transparența rezultatelor pentru percepția umană. Poate că modelele descoperite vor fi o caracteristică specifică a datelor investigate specifice și nu vor fi găsite nicăieri altundeva, dar acest lucru poate fi totuși util și, prin urmare, ar trebui cunoscut. Aceste tipuri de sarcini includ gruparea și găsirea regulilor de asociere.

Soluția problemelor predictive este împărțită în două etape. Primul pas este construirea unui model bazat pe un set de date cu rezultate cunoscute. În al doilea pas, este folosit pentru a prezice rezultate pe baza noilor seturi de date. În acest caz, desigur, este necesar ca modelele construite să funcționeze cât mai precis posibil. LA acest fel sarcinile includ sarcini de clasificare și regresie. Aceasta include problema găsirii regulilor de asociere, dacă rezultatele soluției sale pot fi folosite pentru a prezice apariția anumitor evenimente.

După metodele de rezolvare a problemei, acestea se împart în învățare supravegheată (învățare cu profesor) și învățare nesupravegheată (învățare fără profesor). Acest nume provine de la termenul Machine Learning, care este adesea folosit în literatura de limba engleză și denotă toate tehnologiile Data Mining.

În cazul învățării supravegheate, sarcina de analiză a datelor este rezolvată în mai multe etape. În primul rând, folosind un algoritm de Data Mining, se construiește un model al datelor analizate - un clasificator. Clasificatorul este apoi antrenat. Cu alte cuvinte, se verifică calitatea muncii sale și, dacă aceasta este nesatisfăcătoare, are loc o pregătire suplimentară a clasificatorului. Aceasta continuă până când este atins nivelul cerut de calitate sau devine clar că algoritmul ales nu funcționează corect cu datele, sau datele în sine nu au o structură care să poată fi identificată. Acest tip de problemă include probleme de clasificare și regresie.

Învățarea nesupravegheată combină sarcini care identifică modele descriptive, cum ar fi modele de cumpărare de la clienți dintr-un magazin mare. Evident, dacă aceste tipare există, atunci modelul trebuie să le reprezinte și este nepotrivit să vorbim despre pregătirea lui. De aici și numele - învățarea nesupravegheată. Avantajul unor astfel de sarcini este capacitatea de a le rezolva fără nicio cunoaștere prealabilă a datelor analizate. Acestea includ regulile de grupare și găsirea de asocieri.

Problemă de clasificare și regresie

Când se analizează, se cere adesea să se determine căreia dintre clasele cunoscute aparțin obiectele studiate, adică să le clasificăm. De exemplu, atunci când o persoană solicită un împrumut la o bancă, angajatul băncii trebuie să ia o decizie: dacă potenţialul client este solvabil sau nu. Evident, o astfel de decizie se ia pe baza datelor referitoare la obiectul studiat (în în acest caz- persoană): locul său de muncă, mărime salariile, vârsta, componența familiei etc. Ca urmare a analizei acestor informații, un angajat al băncii trebuie să clasifice o persoană într-una din cele două clase cunoscute „solvabil” și „insolvabil”.

Filtrarea e-mailului este un alt exemplu de sarcină de clasificare. În acest caz, programul de filtrare trebuie să clasifice mesaj primit ca spam (nedorit E-mail) sau sub formă de scrisoare. Această decizie este luată pe baza frecvenței de apariție a anumitor cuvinte în mesaj (de exemplu, numele destinatarului, tratamentul impersonal, cuvinte și expresii: dobândește, „câștigă”, „ propunere profitabilă" etc.).