Տվյալների պատրաստումը տվյալների հանքարդյունաբերության գործընթացում է: Տվյալների արդյունահանման տեխնոլոգիա

Տվյալների արդյունահանումը բաժանված է երկու խոշոր խմբերի ՝ ելնելով վերապատրաստման օրիգինալ տվյալների հետ աշխատելու սկզբունքից: Այս դասակարգման մեջ վերին մակարդակորոշվում է `հաշվի առնելով տվյալների պահումը Տվյալների արդյունահանումից հետո, թե թորումը հետագա օգտագործման համար:

1. Տվյալների ուղղակի օգտագործումը, կամ տվյալների պահպանում.

Այս դեպքում նախնական տվյալները պահվում են հստակ մանրամասն ձևով և ուղղակիորեն օգտագործվում են փուլերում և (կամ) բացառությունների վերլուծություն... Մեթոդների այս խմբի խնդիրն այն է, որ դրանք օգտագործելիս կարող են ծագել չափազանց մեծ շտեմարանների վերլուծության դժվարություններ:

Այս խմբի մեթոդները `կլաստերային վերլուծություն, մոտակա հարևանի մեթոդ, k- մոտակա հարևանի մեթոդ, պատճառաբանություն անալոգիայի միջոցով:

2. Ֆորմալացվածի նույնականացում և օգտագործում նախշերով, կամ թորման կաղապարներ.

Տեխնոլոգիայով թորման կաղապարներՏեղեկատվության մեկ օրինակ (կաղապար) հանվում է սկզբնական տվյալներից և վերածվում որոշ պաշտոնական կառուցվածքների, որոնց ձևը կախված է օգտագործված Տվյալների մշակման եղանակից: Այս գործընթացը իրականացվում է փուլում անվճար որոնում, մեթոդների առաջին խումբը սկզբունքորեն չունի այս փուլը: Փուլերով կանխատեսող մոդելավորումեւ բացառությունների վերլուծությունօգտագործվում են փուլի արդյունքները անվճար որոնում, դրանք շատ ավելի կոմպակտ են, քան բազաներն իրենք: Հիշենք, որ այս մոդելների կոնստրուկցիաները կարող են մեկնաբանվել վերլուծաբանի կողմից կամ չհետևել («սև արկղեր»):

Այս խմբի մեթոդներ. Տրամաբանական մեթոդներ; արտացոլման մեթոդներ; խաչաձեւ աղյուսակավորման մեթոդներ; հավասարումների վրա հիմնված մեթոդներ:

Տրամաբանական մեթոդները կամ տրամաբանական ինդուկցիայի մեթոդները ներառում են `անորոշ հարցումներ և վերլուծություններ; խորհրդանշական կանոններ; որոշումների ծառեր; գենետիկական ալգորիթմներ:

Այս խմբի մեթոդները, թերևս, առավել մեկնաբանելի են. Դրանք ձևավորում են գտնված օրինաչափությունները, շատ դեպքերում ՝ օգտատիրոջ տեսանկյունից բավականին թափանցիկ ձևով: Ստացված կանոնները կարող են ներառել շարունակական և դիսկրետ փոփոխականներ: Հարկ է նշել, որ որոշումների ծառերը հեշտությամբ կարող են փոխակերպվել խորհրդանշական կանոնների ՝ ստեղծելով մեկ կանոն ՝ ծառի արմատից դեպի իր ճանապարհի երկայնքով: տերմինալի վերև... Որոշման ծառերն ու կանոններն իրականում են տարբեր ճանապարհներլուծումներ մեկ խնդրի համար և տարբերվում են միայն իրենց հնարավորություններով: Բացի այդ, կանոնների իրականացումը կատարվում է ավելի դանդաղ ալգորիթմներով, քան որոշումների ծառերի ինդուկցիան:

Խաչաձեւ աղյուսակավորման մեթոդներ. Գործակալներ, բայեսյան (վստահության) ցանցեր, խաչաձեւ աղյուսակային պատկերացում: Վերջին մեթոդը այնքան էլ չի համապատասխանում Տվյալների արդյունահանման հատկություններից մեկին `անկախ որոնմանը նախշերովվերլուծական համակարգ: Այնուամենայնիվ, խաչաձև աղյուսակների տեսքով տեղեկատվության տրամադրումը ապահովում է Տվյալների արդյունահանման հիմնական առաջադրանքի իրականացումը `օրինաչափությունների որոնումը, հետևաբար այս մեթոդը կարող է համարվել նաև Տվյալների մշակման մեթոդներից մեկը:

Հավասարումների վրա հիմնված մեթոդներ:

Այս խմբի մեթոդները բացահայտված օրինաչափություններն արտահայտում են մաթեմատիկական արտահայտությունների `հավասարումների տեսքով: Հետեւաբար, դրանք կարող են աշխատել միայն թվային փոփոխականների հետ, իսկ այլ տեսակների փոփոխականները պետք է համապատասխանաբար կոդավորվեն: Սա որոշ չափով սահմանափակում է այս խմբի մեթոդների կիրառումը, այնուամենայնիվ, դրանք լայնորեն կիրառվում են տարբեր խնդիրների լուծման, հատկապես `խնդիրների կանխատեսման մեջ:

Այս խմբի հիմնական մեթոդները `վիճակագրական մեթոդներ և նյարդային ցանցեր

Կանխատեսման խնդիրները լուծելու համար առավել հաճախ օգտագործվում են վիճակագրական մեթոդներ: Կան վիճակագրական տվյալների վերլուծության բազմաթիվ մեթոդներ, որոնց թվում են, օրինակ, հարաբերակցություն-ռեգրեսիայի վերլուծությունը, ժամանակային շարքերի հարաբերակցությունը, ժամանակային շարքերի միտումների բացահայտումը, ներդաշնակ վերլուծությունը:

Մեկ այլ դասակարգում Տվյալների արդյունահանման մեթոդների ամբողջ բազմազանությունը բաժանում է երկու խմբի `վիճակագրական և կիբերնետիկ մեթոդներ: Այս բաժանման սխեման հիմնված է ուսուցման տարբեր մոտեցումների վրա մաթեմատիկական մոդելներ.

Հարկ է նշել, որ վիճակագրական մեթոդները որպես տվյալների մշակում դասակարգելու երկու մոտեցում կա: Դրանցից առաջինը հակադրում է վիճակագրական մեթոդներին և Տվյալների մշակմանը, որի կողմնակիցները դասական վիճակագրական մեթոդները համարում են տվյալների վերլուծության առանձին ուղղություն: Երկրորդ մոտեցման համաձայն `վերլուծության վիճակագրական մեթոդները հանդիսանում են Data Mining մաթեմատիկական գործիքակազմի մի մասը: Հեղինակավոր աղբյուրներից շատերն օգտվում են երկրորդ մոտեցումից:

Այս դասակարգման մեջ առանձնանում են մեթոդների երկու խումբ.

միջին վիճակագրական մեթոդներ ՝ հիմնված միջին կուտակված փորձի օգտագործման վրա, որն արտացոլվում է հետադարձ տվյալների մեջ.
կիբեռնետիկական մեթոդներ, որոնք ներառում են բազմաթիվ տարասեռ մաթեմատիկական մոտեցումներ:

Նման դասակարգման թերությունը. Եվ՛ վիճակագրական, և՛ կիբեռնետիկ ալգորիթմները այս կամ այն կերպ հիմնվում են վիճակագրական փորձի համեմատության վրա `ներկա իրավիճակի մոնիտորինգի արդյունքների հետ:

Այս դասակարգման առավելությունը մեկնաբանման հարմարությունն է. Այն օգտագործվում է ժամանակակից մոտեցման մաթեմատիկական միջոցները նկարագրելու համար գիտելիքների կորզումսկզբնական դիտարկումների զանգվածներից (գործառնական և հետահայաց), այսինքն. Տվյալների արդյունահանման առաջադրանքներում:

Եկեք ավելի սերտ նայենք վերը ներկայացված խմբերին:

Վիճակագրական տվյալների արդյունահանման մեթոդներ

Մեթոդները ներկայացնում են չորս փոխկապակցված բաժիններ.

վիճակագրական տվյալների բնույթի նախնական վերլուծություն (ստացիոնարության, նորմալության, անկախության, միատարրության վարկածների ստուգում, բաշխման գործառույթի ձևի գնահատում, դրա պարամետրեր և այլն);
հղումների նույնականացում և նախշերով(գծային և ոչ գծային ռեգրեսիայի վերլուծություն, հարաբերակցության վերլուծություն և այլն);
բազմատարր վիճակագրական վերլուծություն (գծային և ոչ գծային խտրական վերլուծություն, կլաստերային վերլուծություն, բաղադրիչների վերլուծություն, գործոնների վերլուծությունև այլն);
դինամիկ մոդելներև ժամանակային շարքերի կանխատեսում:

Վիճակագրական մեթոդների զինանոցը Տվյալների մշակումը դասակարգվում է մեթոդների չորս խմբի.

Նախնական տվյալների նկարագրական վերլուծություն և նկարագրություն:
Հարաբերությունների վերլուծություն (հարաբերակցության և հետընթացի վերլուծություն, գործոնների վերլուծություն, շեղման վերլուծություն).
Բազմաբնույթ վիճակագրական վերլուծություն (բաղադրիչների վերլուծություն, խտրական վերլուծություն, բազմատարր ռեգրեսիոն վերլուծություն, կանոնական հարաբերակցություններ և այլն):
Timeամանակային շարքերի վերլուծություն ( դինամիկ մոդելներև կանխատեսում):

Տվյալների արդյունահանման կիբեռնետիկ մեթոդներ

Տվյալների արդյունահանման երկրորդ ուղղությունը մի շարք մոտեցումներ են, որոնք միավորված են համակարգչային մաթեմատիկայի գաղափարով և արհեստական բանականության տեսության օգտագործմամբ:

տվյալների հանքարդյունաբերություն) և «կոպիտ» հետախուզական վերլուծության վրա, որը հիմք է հանդիսանում գործառնական վերլուծական մշակման համար (OnLine Analytical Processing, OLAP), մինչդեռ Տվյալների արդյունահանման հիմնական դրույթներից մեկը անթաքույցի որոնումն է: նախշերով... Տվյալների մշակման գործիքները կարող են ինքնուրույն գտնել նման օրինաչափություններ, ինչպես նաև ինքնուրույն ձևավորել հարաբերությունների մասին վարկածներ: Քանի որ դա կախվածության վերաբերյալ վարկածի ձևակերպումն է դժվարին առաջադրանք, Տվյալների արդյունահանման առավելությունը վերլուծության այլ մեթոդների համեմատ ակնհայտ է:

Տվյալների փոխհարաբերությունները որոշելու վիճակագրական մեթոդներից շատերն օգտագործում են նմուշի միջինացման միջին հասկացությունը, ինչը հանգեցնում է գոյություն չունեցող արժեքների գործառնությունների, մինչդեռ Տվյալների արդյունահանումը իրական արժեքների վրա է գործում:

OLAP- ն ավելի հարմար է պատմական տվյալները հասկանալու համար, Data Mining- ը հիմնված է պատմական տվյալների վրա `ապագայի վերաբերյալ հարցերին պատասխանելու համար:

Տվյալների արդյունահանման տեխնոլոգիայի հեռանկարներ

Data Mining- ի ներուժը կանաչ լույս է տալիս տեխնոլոգիայի սահմանները առաջ մղելու համար: Ինչ վերաբերում է Տվյալների արդյունահանման հեռանկարներին, ապա հնարավոր են զարգացման հետևյալ ուղղությունները.

առարկայական ոլորտների տեսակների նույնականացում համապատասխան հեվրիստիկայի հետ, որոնց ձևակերպումը կնպաստի այս ոլորտներին վերաբերող համապատասխան Տվյալների արդյունահանման խնդիրների լուծմանը.
պաշտոնական լեզուների և տրամաբանական միջոցների ստեղծում, որոնց օգնությամբ ձևակերպվելու է հիմնավորումը, և որի ավտոմատացումը կդառնա գործիք ՝ Տվյալների մշակման խնդիրների լուծման համար որոշակի առարկայական ոլորտներում.
Տվյալների մշակման մեթոդների ստեղծում, որոնք կարող են ոչ միայն տվյալների օրինակներ քաղել, այլև ձևավորել որոշ տեսություններ ՝ հիմնված էմպիրիկ տվյալների վրա.
հնարավորությունների զգալի կուտակման հաղթահարում գործիքներՏվյալների մշակում ՝ ոլորտի տեսական առաջընթացից:

Եթե հաշվի առնենք Data Mining- ի ապագան կարճաժամկետ հեռանկարում, ակնհայտ է, որ այս տեխնոլոգիայի զարգացումն առավելապես ուղղված է բիզնեսին առնչվող ոլորտներին:

Կարճաժամկետ հեռանկարում Data Mining- ի արտադրանքը կարող է դառնալ սովորական և անհրաժեշտ Էլ, և, օրինակ, օգտագործվեն օգտվողների կողմից ՝ առավելագույնը գտնելու համար ցածր գներկոնկրետ ապրանքի կամ ամենաէժան տոմսերի համար:

Երկարաժամկետ հեռանկարում Տվյալների արդյունահանման ապագան իսկապես հուզիչ է. Դա կարող է լինել խելացի գործակալների կողմից տարբեր հիվանդությունների բուժման նոր մեթոդների որոնում և տիեզերքի բնության նոր պատկերացում:

Այնուամենայնիվ, Տվյալների արդյունահանումը հղի է պոտենցիալ վտանգով. Ի վերջո, համաշխարհային ցանցի միջոցով հասանելի է դառնում ավելի շատ տեղեկատվություն, ներառյալ մասնավոր տեղեկատվությունը, և դրանից ավելի ու ավելի շատ գիտելիքներ կարող են ձեռք բերվել.

Ոչ վաղ անցյալում «Amazon» խոշորագույն առցանց խանութը սկանդալի կենտրոնում էր իր «Ապրանքներ գնելու օգտվողներին օգնելու մեթոդներ և համակարգեր» սկանդալի կենտրոնում, որը ոչ այլ ինչ է, քան մեկ այլ Data Mining ապրանք, որը նախատեսված է խանութի վերաբերյալ անձնական տվյալներ հավաքելու համար: այցելուներ: Նոր տեխնիկան հնարավորություն է տալիս կանխատեսել ապագա հարցումները ՝ ելնելով գնումների փաստերից, ինչպես նաև եզրակացություններ անել դրանց նպատակի վերաբերյալ: Այս տեխնիկայի նպատակն է, ինչպես նշվեց վերևում, հնարավորինս շատ ստանալ ավելինհաճախորդների մասին տեղեկատվություն, ներառյալ մասնավոր բնույթի (սեռը, տարիքը, նախասիրությունները և այլն): Այս կերպ տվյալները հավաքվում են խանութների գնորդների, ինչպես նաև նրանց ընտանիքի անդամների, ներառյալ երեխաների գաղտնիության մասին: Վերջինս արգելված է շատ երկրների օրենսդրությամբ. Անչափահասների մասին տեղեկատվության հավաքումն այնտեղ հնարավոր է միայն ծնողների թույլտվությամբ:

Հետազոտությունը նշում է, որ կան և տվյալների լուծման հաջող լուծումներ, և այս տեխնոլոգիայի վատ փորձառություններ: Այն ոլորտները, որտեղ Data Mining տեխնոլոգիան, ամենայն հավանականությամբ, հաջողակ կլինի, ունեն հետևյալ հատկանիշները.

պահանջում են գիտելիքների վրա հիմնված լուծումներ;
ունենալ փոփոխվող միջավայր;
ունեն մատչելի, բավարար և իմաստալից տվյալներ.
ապահովել բարձր դիվիդենտներ ճիշտ որոշումներից:

Վերլուծության առկա մոտեցումները

Երկար ժամանակ Տվյալների մշակման կարգապահությունը չէր ճանաչվում որպես տվյալների վերլուծության լիարժեք անկախ ոլորտ, երբեմն այն կոչվում է «վիճակագրության բակ» (Պրեգիբոն, 1997):

Մինչ օրս որոշվել են Տվյալների արդյունահանման վերաբերյալ մի քանի տեսակետներ: Նրանցից մեկի կողմնակիցներն այն համարում են միրաժ, որը շեղում է ուշադրությունը դասական վերլուծությունից:

Ինչ է տվյալների հանքարդյունաբերությունը

Modernանկացած ժամանակակից ձեռնարկության կորպորատիվ տվյալների բազան սովորաբար պարունակում է որոշակի փաստերի կամ օբյեկտների վերաբերյալ գրառումներ (օրինակ ՝ ապրանքների, դրանց վաճառքի, հաճախորդների, հաշիվների մասին) գրառումներ: Որպես կանոն, նման աղյուսակի յուրաքանչյուր գրառում նկարագրում է որոշակի առարկա կամ փաստ: Օրինակ, վաճառքի աղյուսակում գրառումն արտացոլում է այն փաստը, որ այսինչ ապրանքը այսինչ հաճախորդին վաճառվել է այսինչ մենեջերի կողմից, և մեծ հաշվով ոչինչ չի պարունակում, քան այս տեղեկատվությունը: Այնուամենայնիվ, մի քանի տարվա ընթացքում կուտակված մեծ թվով նման գրառումների համախառն կարող է դառնալ լրացուցիչ, շատ ավելի արժեքավոր տեղեկատվության աղբյուր, որը չի կարող ձեռք բերվել մեկ կոնկրետ գրառման հիման վրա, այն է ՝ որևէ տվյալների միջև օրինաչափությունների, միտումների կամ փոխկախվածությունների մասին տեղեկատվություն: . Նման տեղեկատվության օրինակներ են այն տեղեկատվությունը, թե ինչպես է որոշակի ապրանքի վաճառքը կախված շաբաթվա օրից, օրվա ժամից կամ տարվա եղանակից, գնորդների որ կատեգորիաներն են առավել հաճախ գնում այս կամ այն ապրանքը, որևէ ապրանքի գնորդների որ մասը: գնում է մեկ այլ կոնկրետ ապրանք, որի հաճախորդների կատեգորիան առավել հաճախ չի մարում ժամանակին տրամադրված վարկը:

Այս տեսակի տեղեկատվությունը սովորաբար օգտագործվում է կանխատեսման, ռազմավարական պլանավորման, ռիսկերի վերլուծության մեջ, և դրա արժեքը ձեռնարկության համար շատ բարձր է: Ըստ երևույթին, այդ պատճառով դրա որոնման գործընթացը կոչվեց Data Mining (հանքարդյունաբերությունը անգլերեն նշանակում է «հանքարդյունաբերություն», իսկ օրինաչափությունների որոնումը փաստացի տվյալների հսկայական փաթեթում իսկապես նման է դրան): Տվյալների մշակում տերմինը նշանակում է ոչ այնքան հատուկ տեխնոլոգիա, որքան հարաբերություններ, միտումներ, հարաբերություններ և նախշեր տարբեր մաթեմատիկական և վիճակագրական ալգորիթմների միջոցով ՝ կլաստերացում, ենթաընտրական նմուշառում, հետընթաց և հարաբերակցության վերլուծություն: Այս որոնման նպատակն է ներկայացնել տվյալները այնպիսի ձևով, որը հստակորեն արտացոլում է բիզնես գործընթացները, ինչպես նաև կառուցել մի մոդել, որը կարող է օգտագործվել բիզնես պլանավորման համար կարևոր գործընթացների կանխատեսման համար (օրինակ ՝ որոշակի ապրանքների պահանջարկի դինամիկան կամ ծառայությունները կամ դրանց գնման կախվածությունը սպառողի որևէ բնութագրից):

Նշենք, որ ավանդական մաթեմատիկական վիճակագրություն, որը երկար ժամանակ մնացել է տվյալների վերլուծության, ինչպես նաև առցանց վերլուծական մշակման (OLAP) գործիքները, որոնց մասին մենք արդեն բազմիցս գրել ենք (տե՛ս այս թեմայի նյութերը մեր CD- ում), միշտ չէ, որ կարող են հաջողությամբ կիրառվել լուծման համար նման խնդիրներ: Սովորաբար, վիճակագրական մեթոդները և OLAP- ն օգտագործվում են նախապես ձևակերպված վարկածները ստուգելու համար: Այնուամենայնիվ, հաճախ վարկածի ձևակերպումն է, որ պարզվում է, որ ամենադժվար խնդիրն է հետագա որոշումների կայացման համար բիզնեսի վերլուծության իրականացման գործում, քանի որ տվյալների ոչ բոլոր օրինաչափություններն են ակնհայտ առաջին հայացքից:

Հիմքը ժամանակակից տեխնոլոգիաՏվյալների արդյունահանումը հիմնված է կաղապարների հայեցակարգի վրա, որոնք արտացոլում են տվյալների ենթատեսակներին բնորոշ օրինաչափությունները: Կաղապարների որոնումը կատարվում է այնպիսի մեթոդների կիրառմամբ, որոնք չեն օգտագործում այս ենթատեսակների վերաբերյալ նախնական ենթադրություններ: Եթե վիճակագրական վերլուծության կամ OLAP- ի կիրառման ժամանակ հարց է առաջանում, ինչպիսին է «Որքա՞ն է այս ծառայության հաճախորդների չվճարված հաշիվ -ապրանքագրերի միջին թիվը» ... Միևնույն ժամանակ, դա երկրորդ հարցի պատասխանն է, որը հաճախ տալիս է շուկայավարման քաղաքականության և հաճախորդների հետ աշխատանքի կազմակերպման ավելի անլուրջ մոտեցում:

Տվյալների արդյունահանման կարևոր առանձնահատկությունը փնտրվող օրինաչափությունների ոչ ստանդարտ և ոչ ակնհայտությունն է: Այլ կերպ ասած, Տվյալների արդյունահանման գործիքները տարբերվում են վիճակագրական տվյալների մշակման գործիքներից և OLAP գործիքներից այն առումով, որ օգտվողների կողմից նախապես ստանձնած փոխկախվածությունները ստուգելու փոխարեն նրանք կարող են ինքնուրույն առկա տվյալների հիման վրա գտնել այդպիսի փոխկախվածություններ և կառուցել իրենց մասին վարկածներ: բնությունը:

Պետք է նշել, որ Data Mining գործիքների օգտագործումը չի բացառում վիճակագրական գործիքների և OLAP գործիքների օգտագործումը, քանի որ վերջիններիս օգնությամբ տվյալների մշակման արդյունքները, որպես կանոն, նպաստում են օրինաչափություններ, որոնք պետք է փնտրել:

Տվյալների արդյունահանման սկզբնական տվյալներ

Տվյալների արդյունահանման օգտագործումը հիմնավորված է, եթե կա բավականաչափ մեծ քանակությամբ տվյալներ, որոնք իդեալականորեն պարունակվում են ճիշտ նախագծված տվյալների պահեստում (իրականում տվյալների պահեստները սովորաբար ստեղծվում են որոշումների աջակցության հետ կապված վերլուծության և կանխատեսման խնդիրները լուծելու համար): Մենք նաև մի քանի անգամ գրել ենք տվյալների պահեստներ կառուցելու սկզբունքների մասին. համապատասխան նյութերը կարելի է գտնել մեր CD-ROM- ում, այնպես որ մենք չենք անդրադառնա այս հարցին: Պարզապես հիշեցնենք, որ պահեստում եղած տվյալները համալրված հավաքածու են, միատեսակ ամբողջ ձեռնարկության համար և թույլ են տալիս ցանկացած պահի վերականգնել նրա գործունեության պատկերը: Նկատի ունեցեք նաև, որ խանութի տվյալների կառուցվածքը նախագծված է այնպես, որ դրան ուղղված հարցումների կատարումը հնարավորինս արդյունավետ իրականացվի: Այնուամենայնիվ, կան Տվյալների արդյունահանման գործիքներ, որոնք կարող են նախշեր, հարաբերություններ և միտումներ փնտրել ոչ միայն տվյալների պահեստներում, այլև OLAP խորանարդներում, այսինքն ՝ նախապես մշակված վիճակագրական տվյալների հավաքածուներում:

Տվյալների արդյունահանման մեթոդներով հայտնաբերված օրինաչափությունների տեսակները

Ըստ V.A. Duke- ի ՝ տվյալների հանքարդյունաբերության մեթոդներով առանձնացված նախշերի հինգ ստանդարտ տեսակ կա.

Ասոցիացիա - միմյանց հետ կապված իրադարձությունների մեծ հավանականություն (օրինակ, մեկ ապրանք հաճախ գնում է մյուսի հետ միասին);

Հաջորդականություն - ժամանակին առնչվող իրադարձությունների շղթայի մեծ հավանականություն (օրինակ, մեկ ապրանք գնելուց հետո որոշակի ժամանակահատվածում, մյուսը կգնվի հավանականության բարձր աստիճանով);

Դասակարգում - կան նշաններ, որոնք բնութագրում են այն խումբը, որին պատկանում է այս կամ այն իրադարձությունը կամ օբյեկտը (սովորաբար, որոշ կանոններ ձևակերպվում են արդեն դասակարգված իրադարձությունների վերլուծության հիման վրա);

Կլաստերացումը դասակարգման նման մի օրինաչափություն է և տարբերվում է նրանով, որ խմբերն իրենք միաժամանակ չեն նշվում. Դրանք ինքնաբերաբար հայտնաբերվում են տվյալների մշակման ընթացքում.

Temամանակավոր օրինաչափություններ - որոշակի տվյալների վարքի դինամիկայում օրինաչափությունների առկայություն (տիպիկ օրինակ են որոշակի ապրանքների կամ ծառայությունների պահանջարկի սեզոնային տատանումները), որոնք օգտագործվում են կանխատեսման համար:

Տվյալների արդյունահանման մեթոդներ տվյալների մշակման մեջ

կան բավականին մեծ թվովտվյալների մշակման մի շարք մեթոդներ: Ելնելով Վ.Ա. Դյուկի առաջարկած վերը նշված դասակարգումից ՝ դրանցից են.

Հետընթաց, շեղում և հարաբերակցության վերլուծություն (իրականացվում է ժամանակակից վիճակագրական փաթեթների մեծ մասում, մասնավորապես SAS ինստիտուտի, StatSoft- ի և այլնի արտադրանքներում);

Վերլուծության մեթոդներ որոշակի առարկայական ոլորտում `հիմնված էմպիրիկ մոդելների վրա (հաճախ օգտագործվում են, օրինակ, էժան ֆինանսական վերլուծության գործիքներում);

Նյարդային ցանցի ալգորիթմները, որոնց գաղափարը հիմնված է նյարդային հյուսվածքի գործունեության անալոգիայի վրա և կայանում է նրանում, որ սկզբնական պարամետրերը համարվում են ազդանշաններ, որոնք փոխակերպվում են «նեյրոնների» միջև գոյություն ունեցող կապերի համաձայն, և ամբողջ ցանցի արձագանքը նախնական տվյալներին: Այս դեպքում կապեր են ստեղծվում, այսպես կոչված, ցանցային ուսուցման միջոցով `մեծ նմուշի միջոցով, որը պարունակում է ինչպես նախնական տվյալները, այնպես էլ ճիշտ պատասխանները.

Ալգորիթմներ - գոյություն ունեցող պատմական տվյալների սկզբնական տվյալների սերտ անալոգի ընտրություն: Նաև կոչվում է «մոտակա հարևանի» մեթոդ;

Որոշումների ծառերը հիերարխիկ կառույց են ՝ հիմնված մի շարք հարցերի վրա, որոնք պահանջում են «Այո» կամ «Ոչ» պատասխան; Չնայած նրան այս կերպտվյալների մշակումը միշտ չէ, որ իդեալականորեն գտնում է առկա օրինաչափությունները. այն բավականին հաճախ օգտագործվում է կանխատեսման համակարգերում `ստացված պատասխանի հստակության պատճառով.

Կլաստերային մոդելները (երբեմն նաև անվանում են հատվածավորման մոդելներ) օգտագործվում են նմանատիպ իրադարձությունները խմբերի խմբավորելու համար ՝ հիմնվելով տվյալների բազայի մի քանի դաշտերի նմանատիպ արժեքների վրա. նաև շատ տարածված է կանխատեսման համակարգերում.

Սահմանափակ որոնման ալգորիթմներ, որոնք հաշվարկում են տվյալների ենթախմբերի պարզ տրամաբանական իրադարձությունների համակցությունների հաճախականությունը.

Էվոլյուցիոն ծրագրավորում - որոնում և ալգորիթմի ստեղծում, որն արտահայտում է տվյալների փոխկախվածությունը ՝ հիմնված սկզբնապես նշված ալգորիթմի վրա, որը փոփոխվել է որոնման ընթացքում. երբեմն փոխկախվածությունների որոնումը կատարվում է որոշ տեսակի գործառույթների (օրինակ ՝ բազմանդամների) միջև:

Այս և Տվյալների արդյունահանման այլ ալգորիթմների, ինչպես նաև դրանք իրականացնող գործիքների մասին ավելի մանրամասն կարելի է գտնել «Տվյալների արդյունահանում. դասընթաց«Վ. Ա. Դյուկ և Ա. Պ. Սամոիլենկո, հրատարակվել է 2001 թվականին« Պետրոս »հրատարակչության կողմից: Այսօր այն ռուսերեն այն սակավաթիվ գրքերից է, որը նվիրված է այս խնդրին:

Data Mining գործիքների առաջատար արտադրողներ

Data Mining գործիքները, ինչպես և Business Intelligence գործիքների մեծ մասը, ավանդաբար պատկանում են թանկարժեք ծրագրային գործիքներին, որոնցից մի քանիսի արժեքը տասնյակ հազարավոր դոլարներ են: Հետևաբար, մինչև վերջերս այս տեխնոլոգիայի հիմնական սպառողները բանկերն էին, ֆինանսական և ապահովագրական ընկերությունները, խոշոր առևտրային ձեռնարկությունները, իսկ Տվյալների արդյունահանումից պահանջվող հիմնական խնդիրները վարկային և ապահովագրական ռիսկերի գնահատումն ու շուկայավարման քաղաքականության մշակումն էին: սակագնային պլաններև հաճախորդների հետ աշխատելու այլ սկզբունքներ: Վերջին տարիներին իրավիճակը որոշակի փոփոխությունների ենթարկվեց ՝ շուկայում ծրագրային ապահովումՀամեմատաբար էժան Data Mining գործիքներ հայտնվեցին մի քանի արտադրողների կողմից, որոնք այս տեխնոլոգիան հասանելի դարձրին փոքր և միջին բիզնեսի համար, որոնք նախկինում չէին մտածել դրա մասին:

Բիզնեսի հետախուզության ժամանակակից գործիքները ներառում են հաշվետվությունների գեներատորներ, տվյալների վերլուծական գործիքներ, BI լուծումների մշակման գործիքներ (BI պլատֆորմներ) և այսպես կոչված Enterprise BI Suites-ձեռնարկության մասշտաբով տվյալների վերլուծության և մշակման գործիքներ, որոնք թույլ են տալիս կատարել մի շարք գործողություններ: տվյալների վերլուծություն և հաշվետվությունների ստեղծում, և հաճախ ներառում են BI գործիքների և գործիքների ինտեգրված փաթեթ BI ծրագրերի մշակման համար: Վերջիններս, որպես կանոն, պարունակում են և՛ հաշվետվության գործիքներ, և՛ OLAP գործիքներ, և՛ հաճախ Տվյալների արդյունահանման գործիքներ:

Ըստ Gartner Group- ի վերլուծաբանների, ձեռնարկությունների մասշտաբի տվյալների վերլուծության և մշակման շուկայում առաջատարներն են Business Objects- ը, Cognos- ը, Information Builders- ը, և Microsoft- ը և Oracle- ը նույնպես հավակնում են առաջնորդության (նկ. 1): Ինչ վերաբերում է BI լուծումների զարգացման գործիքներին, այս ոլորտում ղեկավարության հիմնական հավակնորդներն են Microsoft- ը և SAS ինստիտուտը (նկ. 2):

Նկատի ունեցեք, որ Microsoft- ի Business Intelligence- ի գործիքները համեմատաբար էժան ապրանքներ են, որոնք մատչելի են ընկերությունների լայն շրջանակի համար: Այդ իսկ պատճառով մենք մտադիր ենք այս հոդվածի հաջորդ մասերում հաշվի առնել Տվյալների արդյունահանումն օգտագործելու որոշ գործնական ասպեկտներ:

Գրականություն:

1. դուքս V.A. Տվյալների արդյունահանում - տվյալների արդյունահանում: - http://www.olap.ru/basic/dm2.asp:

2. Duke V.A., Samoilenko A.P. Տվյալների արդյունահանում. Վերապատրաստման դասընթաց: - SPb.: Peter, 2001:

3. Բ. Դե Վիլ: Microsoft Data Mining. Թվային մամուլ, 2001:

Տվյալների արդյունահանում

Տվյալների մշակումը մեթոդաբանություն և գործընթաց է ՝ մեծ քանակությամբ տվյալների կուտակման համար տեղեկատվական համակարգերընկերություններ, որոնք նախկինում անհայտ էին, ոչ մանրուք, գործնականում օգտակար և մատչելի ՝ մարդկային գործունեության տարբեր ոլորտներում որոշումներ կայացնելու համար անհրաժեշտ գիտելիքների մեկնաբանման համար: Տվյալների արդյունահանումը տվյալների շտեմարաններում Գիտելիքի բացահայտման ավելի լայն փուլերից մեկն է:

Տվյալների արդյունահանման գործընթացում հայտնաբերված գիտելիքները պետք է լինեն աննշան և նախկինում անհայտ: Ոչ մանրուքները հուշում են, որ նման գիտելիքները հնարավոր չէ հայտնաբերել պարզ տեսողական վերլուծության միջոցով: Նրանք պետք է նկարագրեն գործարար օբյեկտների հատկությունների միջև փոխհարաբերությունները, կանխատեսեն որոշ հատկանիշների արժեքները ՝ ելնելով մյուսներից և այլն: Գտնված գիտելիքները պետք է կիրառելի լինեն նաև նոր օբյեկտների համար:

Գիտելիքի գործնական օգտակարությունը պայմանավորված է կառավարման որոշումների ընդունմանն աջակցելու և ընկերության գործունեության բարելավման գործընթացում դրա օգտագործման հնարավորությամբ:

Գիտելիքները պետք է ներկայացվեն այնպիսի ձևով, որը հասկանալի է այն օգտվողների համար, ովքեր չունեն հատուկ մաթեմատիկական գիտելիքներ: Օրինակ, «եթե, ապա» տրամաբանական կառուցվածքները ամենահեշտ ընկալվում են մարդու կողմից: Ավելին, նման կանոնները կարող են օգտագործվել տարբեր DBMS- ում ՝ որպես SQL հարցումներ: Այն դեպքում, երբ արդյունահանվող գիտելիքները թափանցիկ չեն օգտագործողի համար, պետք է լինեն հետամշակման մեթոդներ ՝ այն մեկնաբանելի ձևի հասցնելու համար:

Տվյալների արդյունահանումը ոչ թե մեկ է, այլ մեծ թվով հավաքածու տարբեր մեթոդներգիտելիքների բացահայտում: Տվյալների արդյունահանման մեթոդներով լուծված բոլոր խնդիրները պայմանականորեն կարելի է բաժանել վեց տեսակի.

Տվյալների մշակումը բազմամասնագիտական բնույթ ունի, քանի որ այն ներառում է թվային մեթոդների, մաթեմատիկական վիճակագրության և հավանականությունների տեսության, տեղեկատվության տեսության և մաթեմատիկական տրամաբանություն, արհեստական բանականություն և մեքենայական ուսուցում:

Բիզնեսի վերլուծության խնդիրները ձևակերպվում են տարբեր ձևերով, սակայն դրանցից շատերի լուծումը հանգում է Տվյալների արդյունահանման այս կամ այն խնդիրներին կամ դրանց համադրությանը: Օրինակ, ռիսկերի գնահատումը հետընթացի կամ դասակարգման խնդրի լուծում է, շուկայի սեգմենտավորումը խմբավորվում է, պահանջարկի խթանումը `ասոցիատիվ կանոններ: Փաստորեն, Տվյալների արդյունահանման առաջադրանքներն այն տարրերն են, որոնք կարող են օգտագործվել բիզնեսի իրական խնդիրների մեծ մասի լուծումներ «հավաքելու» համար:

Վերոնշյալ խնդիրները լուծելու համար օգտագործվում են Տվյալների արդյունահանման տարբեր մեթոդներ և ալգորիթմներ: Հաշվի առնելով այն հանգամանքը, որ տվյալների հանքարդյունաբերությունը զարգացել և զարգանում է այնպիսի առարկաների խաչմերուկում, ինչպիսիք են մաթեմատիկական վիճակագրությունը, տեղեկատվության տեսությունը, մեքենայական ուսուցումը և տվյալների բազաները, միանգամայն բնական է, որ տվյալների մշակման ալգորիթմների և մեթոդների մեծ մասը մշակվել են դրանցից տարբեր մեթոդների հիման վրա: կարգապահություններ. Օրինակ, k-means կլաստերացման ալգորիթմը վերցվել է վիճակագրությունից:

Գիտելիքների բազայում ձեր լավ աշխատանքը ուղարկելը պարզ է: Օգտագործեք ստորև բերված ձևը

Ուսանողները, ասպիրանտները, երիտասարդ գիտնականները, ովքեր գիտելիքների բազան օգտագործում են իրենց ուսման և աշխատանքի մեջ, շատ երախտապարտ կլինեն ձեզ:

Նմանատիպ փաստաթղթեր

Նկարագրություն ֆունկցիոնալությունըՏվյալների արդյունահանման տեխնոլոգիաները `որպես անհայտ տվյալների հայտնաբերման գործընթացներ: Ուսումնասիրելով դուրսբերման համակարգերը ասոցիացիայի կանոններըև նյարդային ցանցի ալգորիթմների մեխանիզմները: Կլաստերացման ալգորիթմների և տվյալների մշակման կիրառման ոլորտների նկարագրություն:

թեստ, ավելացվել է 06/14/2013 թ

Կլաստերացման հիմունքներ: Տվյալների արդյունահանումը որպես «տվյալների բազայում գիտելիքների հայտնաբերման» միջոց: Կլաստերացման ալգորիթմների ընտրություն: Տվյալների ստացում հեռավոր արտադրամասի տվյալների բազայի պահեստից: Ուսանողների խմբավորում և առաջադրանքների կատարում:

կուրսային աշխատանք ՝ ավելացված 07/10/2017 թ

Տվյալների գրանցման և պահպանման տեխնոլոգիաների կատարելագործում: Տեղեկատվության տվյալների մշակման ժամանակակից պահանջների յուրահատկությունը: Տվյալների արդյունահանման ժամանակակից տեխնոլոգիայի հիմքում ընկած տվյալների բազմաշերտ հարաբերությունների բեկորներն արտացոլող օրինաչափությունների հայեցակարգը:

թեստ, ավելացվել է 09/02/2010

Տվյալների արդյունահանում, տվյալների հանքարդյունաբերության զարգացման պատմություն և գիտելիքների հայտնաբերում: Տվյալների արդյունահանման տեխնոլոգիական տարրեր և մեթոդներ: Գիտելիքների հայտնաբերման քայլեր: Փոփոխությունների և շեղումների հայտնաբերում: Առնչվող առարկաներ, տեղեկատվության որոնում և տեքստի արդյունահանում:

զեկույցը ավելացվել է 16.06.2012 թ

Տվյալների արդյունահանումը `որպես որոշումների աջակցության գործընթաց, որը հիմնված է տվյալների թաքնված օրինաչափությունների (տեղեկատվական օրինաչափությունների) որոնման վրա: Իր օրինաչափությունները և իրականացման փուլերը, այս տեխնոլոգիայի զարգացման պատմությունը, առավելությունների և թերությունների գնահատումը, հնարավորությունները:

շարադրություն, ավելացվել է 17/12/2014

DataMining առաջադրանքների դասակարգում: Հաշվետվությունների և հանրագումարների ստեղծում: Data Miner- ի առանձնահատկությունները Statisticsa- ում: Դասակարգման, խմբավորման և հետընթացի խնդիրը: Վերլուծության գործիքներ Statisticsa Data Miner: Խնդրի էությունը ասոցիացիայի կանոնների որոնումն է: Գոյատևման կանխատեսման վերլուծություն:

կուրսային աշխատանք, ավելացվել է 05/19/2011 թ

Խոստումնալից ուղղություններտվյալների վերլուծություն. տեքստային տեղեկատվության վերլուծություն, տվյալների արդյունահանում: Շտեմարաններում պահվող կառուցվածքային տեղեկատվության վերլուծություն: Տեքստային փաստաթղթերի վերլուծության գործընթացը: Տվյալների նախնական մշակման առանձնահատկությունները:

վերացական, ավելացվել է 02/13/2014

Տվյալների արդյունահանման առաջադրանքների դասակարգում: Խմբավորման և ասոցիացիայի կանոններ գտնելու խնդիրը: Օբյեկտի դասի որոշում ըստ իր հատկությունների և բնութագրերի: Օբյեկտների կամ իրադարձությունների միջև հաճախակի կախվածություն գտնելը: Գործառնական վերլուծական տվյալների մշակում:

թեստ, ավելացվել է 01/13/2013 թ