Տվյալների արդյունահանման հայեցակարգը հայտնի է դարձել Հայաստանում: Data Mining Loginom Wiki

Ուղարկել ձեր լավ աշխատանքը գիտելիքների բազայում պարզ է: Օգտագործեք ստորև ներկայացված ձևը

Ուսանողները, ասպիրանտները, երիտասարդ գիտնականները, ովքեր օգտագործում են գիտելիքների բազան իրենց ուսումնառության և աշխատանքի մեջ, շատ շնորհակալ կլինեն ձեզ:

Նմանատիպ փաստաթղթեր

    DataMining առաջադրանքների դասակարգում. Հաշվետվությունների և ամփոփագրերի ստեղծում: Data Miner-ի առանձնահատկությունները Statistica-ում: Դասակարգման, կլաստերավորման և ռեգրեսիայի խնդիրը: Վերլուծության գործիքներ Statistica Data Miner. Խնդրի էությունը ասոցիացիայի կանոնների որոնումն է։ Գոյատևման կանխատեսումների վերլուծություն:

    կուրսային աշխատանք, ավելացվել է 19.05.2011թ

    Նկարագրություն ֆունկցիոնալությունըՏվյալների արդյունահանման տեխնոլոգիաները որպես անհայտ տվյալների հայտնաբերման գործընթացներ: Նեյրոնային ցանցերի ալգորիթմների ասոցիացիայի կանոնների և մեխանիզմների եզրակացության համակարգերի ուսումնասիրությունը։ Կլաստերավորման ալգորիթմների և տվյալների արդյունահանման շրջանակների նկարագրությունը:

    թեստ, ավելացվել է 06/14/2013

    Կլաստերավորման հիմունքներ. Տվյալների հանքարդյունաբերության օգտագործումը որպես «շտեմարաններում գիտելիքների հայտնաբերման» միջոց: Կլաստերավորման ալգորիթմների ընտրություն: Տվյալների առբերում հեռավոր սեմինարի տվյալների բազայից: Աշակերտների խմբավորում և առաջադրանքներ:

    կուրսային աշխատանք, ավելացվել է 10.07.2017թ

    Տվյալների արդյունահանում, տվյալների մայնինգի զարգացման պատմություն և գիտելիքի հայտնաբերում: Տվյալների մայնինգի տեխնոլոգիական տարրեր և մեթոդներ: Գիտելիքի հայտնաբերման քայլեր. Փոփոխությունների և շեղումների հայտնաբերում: Առնչվող առարկաներ, տեղեկատվության որոնում և տեքստի արդյունահանում:

    հաշվետվություն, ավելացվել է 16.06.2012թ

    Կլաստերավորման մեթոդների և ալգորիթմների կիրառման ժամանակ առաջացող խնդիրների վերլուծություն. Կլաստերավորման հիմնական ալգորիթմներ. RapidMiner-ը որպես մեքենայական ուսուցման և տվյալների վերլուծության միջավայր: Կլաստերավորման որակի գնահատում Data Mining մեթոդների կիրառմամբ:

    կուրսային աշխատանք, ավելացվել է 22.10.2012թ

    Տվյալների գրանցման և պահպանման տեխնոլոգիաների կատարելագործում: Տեղեկատվական տվյալների մշակման ժամանակակից պահանջների առանձնահատկությունը: Տվյալների մեջ բազմաչափ հարաբերությունների բեկորներն արտացոլող օրինաչափությունների հայեցակարգը գտնվում է տվյալների արդյունահանման ժամանակակից տեխնոլոգիայի հիմքում:

    թեստ, ավելացվել է 09/02/2010

    Նյարդային ցանցերի օգտագործման վերլուծություն ֆոնդային շուկայում իրավիճակի կանխատեսման և որոշումներ կայացնելու համար՝ օգտագործելով Trajan 3.0 նեյրոնային ցանցերի մոդելավորման ծրագրային փաթեթը։ Առաջնային տվյալների, աղյուսակների փոխակերպում: Ծրագրի էրգոնոմիկ գնահատում:

    թեզ, ավելացվել է 27.06.2011թ

    Էվոլյուցիոն ալգորիթմների օգտագործման դժվարություններ: Բնական ընտրության սկզբունքների հիման վրա հաշվողական համակարգերի կառուցում: Գենետիկական ալգորիթմների թերությունները. Էվոլյուցիոն ալգորիթմների օրինակներ. Էվոլյուցիոն մոդելավորման ուղղություններ և բաժիններ:

    Տվյալների արդյունահանումը բաժանվում է երկու մեծ խմբի՝ ըստ նախնական վերապատրաստման տվյալների հետ աշխատելու սկզբունքի։ Այս դասակարգման մեջ վերին մակարդակորոշվում է այն հիման վրա, թե արդյոք տվյալները պահվում են Data Mining-ից հետո, թե թորվում են հետագա օգտագործման համար:

    1. Տվյալների ուղղակի օգտագործումը, կամ տվյալների խնայողություն.

    Այս դեպքում սկզբնական տվյալները պահվում են հստակ մանրամասն ձևով և ուղղակիորեն օգտագործվում են փուլերում և (կամ) բացառության վերլուծություն. Մեթոդների այս խմբի խնդիրն այն է, որ դրանք օգտագործելիս կարող է դժվար լինել վերլուծել շատ մեծ տվյալների բազաները:

    Այս խմբի մեթոդները՝ կլաստերային վերլուծություն, մոտակա հարեւանի մեթոդ, k-մոտակա հարեւանի մեթոդ, անալոգիա հիմնավորում:

    2. Նույնականացում և օգտագործում պաշտոնականացված նախշեր, կամ կաղապարի թորում.

    Տեխնոլոգիայով թորման ձևերՏեղեկատվության մեկ նմուշ (կաղապար) քաղվում է սկզբնաղբյուր տվյալներից և վերածվում որոշ ֆորմալ կառուցվածքների, որոնց ձևը կախված է կիրառվող Data Mining մեթոդից: Այս գործընթացն իրականացվում է փուլում անվճար որոնում, մեթոդների առաջին խմբին սկզբունքորեն բացակայում է այս փուլը։ Բեմերում կանխատեսող մոդելավորումև բացառության վերլուծությունօգտագործվում են փուլի արդյունքները անվճար որոնում, դրանք շատ ավելի կոմպակտ են, քան բուն տվյալների բազաները։ Հիշեցնենք, որ այս մոդելների կոնստրուկցիաները կարող են մեկնաբանելի լինել վերլուծաբանի կողմից կամ ոչ մեկնաբանելի («սև արկղեր»):

    Այս խմբի մեթոդները. տրամաբանական մեթոդներ ; վիզուալիզացիայի մեթոդներ; խաչաձեւ ներդիրների մեթոդներ; մեթոդներ, որոնք հիմնված են հավասարումների վրա:

    Տրամաբանական մեթոդները կամ տրամաբանական ինդուկցիայի մեթոդները ներառում են. անորոշ հարցումներ և վերլուծություններ; խորհրդանշական կանոններ; որոշման ծառեր; գենետիկական ալգորիթմներ.

    Այս խմբի մեթոդները, թերևս, ամենամեկնաբանելին են. նրանք հայտնաբերված օրինաչափությունները կազմում են, շատ դեպքերում, օգտագործողի տեսանկյունից բավականին թափանցիկ ձևով: Ստացված կանոնները կարող են ներառել շարունակական և դիսկրետ փոփոխականներ: Պետք է նշել, որ որոշման ծառերը հեշտությամբ կարող են վերածվել խորհրդանշական կանոնների հավաքածուի՝ ստեղծելով մեկ կանոն ծառի արմատից մինչև ծառի ճանապարհին: տերմինալ գագաթ. Որոշման ծառերն ու կանոններն իրականում են տարբեր ճանապարհներնույն խնդրի լուծումները և տարբերվում են միայն իրենց հնարավորություններով: Ավելին, կանոնների իրականացումը կատարվում է ավելի դանդաղ ալգորիթմներով, քան որոշումների ծառերի ինդուկցիան։

    Cross-tab մեթոդներ. գործակալներ, Բայեսյան (վստահության) ցանցեր, խաչաձեւ ներդիրների վիզուալիզացիա: Վերջին մեթոդը այնքան էլ չի համապատասխանում Data Mining-ի հատկություններից մեկին՝ անկախ որոնմանը նախշերվերլուծական համակարգ. Այնուամենայնիվ, խաչաձեւ ներդիրների տեսքով տեղեկատվության տրամադրումն ապահովում է Data Mining-ի հիմնական առաջադրանքի իրականացումը՝ օրինաչափությունների որոնումը, ուստի այս մեթոդը նույնպես կարելի է համարել Data Mining մեթոդներից մեկը:

    Հավասարումների վրա հիմնված մեթոդներ.

    Այս խմբի մեթոդներն արտահայտում են բացահայտված օրինաչափությունները մաթեմատիկական արտահայտությունների՝ հավասարումների տեսքով։ Հետևաբար, դրանք կարող են աշխատել միայն թվային փոփոխականների հետ, և այլ տիպի փոփոխականները պետք է համապատասխանաբար կոդավորվեն: Սա որոշակիորեն սահմանափակում է այս խմբի մեթոդների կիրառումը, այնուհանդերձ, դրանք լայնորեն կիրառվում են տարբեր խնդիրների, հատկապես՝ կանխատեսման խնդիրների լուծման համար։

    Այս խմբի հիմնական մեթոդները՝ վիճակագրական մեթոդներ և նյարդային ցանցեր

    Կանխատեսման խնդիրները լուծելու համար առավել հաճախ օգտագործվում են վիճակագրական մեթոդներ: Գոյություն ունեն վիճակագրական տվյալների վերլուծության բազմաթիվ մեթոդներ, որոնցից են, օրինակ՝ հարաբերական և ռեգրեսիոն վերլուծություն, ժամանակային շարքերի հարաբերակցություն, ժամանակային շարքերի միտումների բացահայտում, ներդաշնակ վերլուծություն։

    Մեկ այլ դասակարգում տվյալների արդյունահանման մեթոդների ամբողջ բազմազանությունը բաժանում է երկու խմբի՝ վիճակագրական և կիբեռնետիկ մեթոդներ: Այս տարանջատման սխեման հիմնված է տարբեր ուսուցման մոտեցումների վրա մաթեմատիկական մոդելներ.

    Հարկ է նշել, որ վիճակագրական մեթոդները տվյալների արդյունահանման դասակարգման երկու մոտեցում կա: Առաջինը հակադրվում է վիճակագրական մեթոդներին և տվյալների արդյունահանմանը, նրա կողմնակիցները դասական վիճակագրական մեթոդները համարում են տվյալների վերլուծության առանձին ոլորտ: Երկրորդ մոտեցման համաձայն՝ վիճակագրական վերլուծության մեթոդները Տվյալների հանքարդյունաբերության մաթեմատիկական գործիքակազմի մաս են կազմում: Հեղինակավոր աղբյուրներից շատերն ընդունում են երկրորդ մոտեցումը:

    Այս դասակարգման մեջ առանձնանում են մեթոդների երկու խումբ.

    • վիճակագրական մեթոդներ, որոնք հիմնված են միջին կուտակված փորձի օգտագործման վրա, որն արտացոլված է հետահայաց տվյալների մեջ.
    • կիբեռնետիկ մեթոդներ, ներառյալ բազմաթիվ տարասեռ մաթեմատիկական մոտեցումներ:

    Նման դասակարգման թերությունն այն է, որ և՛ վիճակագրական, և՛ կիբեռնետիկ ալգորիթմներն այս կամ այն ​​կերպ հիմնվում են վիճակագրական փորձի համեմատության վրա՝ ներկա իրավիճակի մոնիտորինգի արդյունքների հետ:

    Նման դասակարգման առավելությունը նրա մեկնաբանման հարմարությունն է. այն օգտագործվում է ժամանակակից մոտեցման մաթեմատիկական միջոցների նկարագրության մեջ. գիտելիքների արդյունահանումսկզբնական դիտարկումների զանգվածներից (գործառնական և հետահայաց), այսինքն. Տվյալների հանքարդյունաբերության առաջադրանքներում:

    Եկեք մանրամասն նայենք վերը նշված խմբերին:

    Վիճակագրական մեթոդներ Տվյալների արդյունահանում

    Այս մեթոդներում կան չորս փոխկապակցված բաժիններ.

    • վիճակագրական տվյալների բնույթի նախնական վերլուծություն (ստացիոնարության, նորմալության, անկախության, միատարրության վարկածների փորձարկում, բաշխման ֆունկցիայի տեսակի, դրա պարամետրերի գնահատում և այլն);
    • նույնականացման հղումներ և նախշեր(գծային և ոչ գծային ռեգրեսիոն վերլուծություն, հարաբերակցության վերլուծություն և այլն);
    • բազմաչափ վիճակագրական վերլուծություն (գծային և ոչ գծային տարբերակիչ վերլուծություն, կլաստերային վերլուծություն, բաղադրիչի վերլուծություն, գործոնային վերլուծությունև այլն);
    • դինամիկ մոդելներև կանխատեսումը՝ հիմնված ժամանակային շարքերի վրա։

    Վիճակագրական մեթոդների զինանոցը Տվյալների արդյունահանումը դասակարգվում է մեթոդների չորս խմբի.

    1. Նկարագրական վերլուծություն և սկզբնական տվյալների նկարագրություն:
    2. Հարաբերությունների վերլուծություն (հարաբերությունների և ռեգրեսիոն վերլուծություն, գործոնային վերլուծություն, շեղումների վերլուծություն).
    3. Բազմաչափ վիճակագրական վերլուծություն (բաղադրիչ վերլուծություն, դիսկրիմինանտ վերլուծություն, բազմաչափ ռեգրեսիոն վերլուծություն, կանոնական հարաբերակցություններ և այլն):
    4. Ժամանակային շարքերի վերլուծություն ( դինամիկ մոդելներև կանխատեսում):

    Կիբեռնետիկ տվյալների արդյունահանման մեթոդներ

    Տվյալների մայնինգի երկրորդ ուղղությունը մոտեցումների մի շարք է, որոնք միավորված են համակարգչային մաթեմատիկայի գաղափարով և արհեստական ​​ինտելեկտի տեսության կիրառմամբ:

    Ինչ է տվյալների արդյունահանումը

    Ցանկացած ժամանակակից ձեռնարկության կորպորատիվ տվյալների բազան սովորաբար պարունակում է աղյուսակների մի շարք, որոնք պահում են որոշակի փաստերի կամ առարկաների մասին գրառումներ (օրինակ՝ ապրանքների, դրանց վաճառքի, հաճախորդների, հաշիվ-ապրանքագրերի մասին): Որպես կանոն, նման աղյուսակի յուրաքանչյուր գրառում նկարագրում է որոշակի առարկա կամ փաստ: Օրինակ, վաճառքի աղյուսակում գրառումն արտացոլում է այն փաստը, որ այսինչ ապրանքը վաճառվել է այսինչ հաճախորդին այն ժամանակ այսինչ մենեջերի կողմից, և, ընդհանուր առմամբ, ոչինչ չի պարունակում, բացի այս տեղեկատվությունից: Այնուամենայնիվ, ագրեգատը մեծ թվովՆման գրառումները, որոնք կուտակվել են մի քանի տարիների ընթացքում, կարող են դառնալ լրացուցիչ, շատ ավելի արժեքավոր տեղեկատվության աղբյուր, որը հնարավոր չէ ստանալ մեկ կոնկրետ գրառման հիման վրա, այն է՝ օրինաչափությունների, միտումների կամ որևէ տվյալների միջև փոխկախվածության մասին տեղեկություններ: Նման տեղեկատվության օրինակներ են տեղեկություններն այն մասին, թե ինչպես է որոշակի ապրանքի վաճառքը կախված շաբաթվա օրվանից, օրվա ժամից կամ սեզոնից, գնորդների որ կատեգորիան է առավել հաճախ գնում որոշակի ապրանք, մեկ կոնկրետ ապրանքի գնորդների որ մասն է գնում մեկ այլ կոնկրետ։ ապրանք, որը հաճախորդների որ կատեգորիան է ամենից հաճախ ժամանակին չի մարում վարկը.

    Այս տեսակի տեղեկատվությունը սովորաբար օգտագործվում է կանխատեսումների, ռազմավարական պլանավորման, ռիսկերի վերլուծության մեջ, և դրա արժեքը ձեռնարկության համար շատ բարձր է: Ըստ երևույթին, սա է պատճառը, որ դրա որոնման գործընթացը կոչվում էր Data Mining (հանքարդյունաբերությունը անգլերենում նշանակում է «հանքարդյունաբերություն», և փաստացի տվյալների հսկայական շարքում օրինաչափությունների որոնումը իսկապես նման է դրան): Տվյալների հանքարդյունաբերություն տերմինը վերաբերում է ոչ այնքան կոնկրետ տեխնոլոգիայի, որքան հարաբերակցությունների, միտումների, հարաբերությունների և օրինաչափությունների որոնման գործընթացին տարբեր մաթեմատիկական և վիճակագրական ալգորիթմների միջոցով՝ կլաստերավորում, ենթաընտրանք, ռեգրեսիա և հարաբերակցություն վերլուծություն: Այս որոնման նպատակն է ներկայացնել տվյալները այնպիսի ձևով, որը հստակ արտացոլում է բիզնես գործընթացները, ինչպես նաև մոդելի կառուցումը, որը կարող է օգտագործվել բիզնես պլանավորման համար կարևոր գործընթացները կանխատեսելու համար (օրինակ՝ որոշակի ապրանքների պահանջարկի դինամիկան կամ ծառայությունները կամ դրանց գնման կախվածությունը որոշակի ապա սպառողական բնութագրերից):

    Նկատի ունեցեք, որ ավանդական մաթեմատիկական վիճակագրությունը, որը երկար ժամանակ մնում էր տվյալների վերլուծության հիմնական գործիքը, ինչպես նաև առցանց վերլուծական մշակման (OLAP) գործիքները, որոնց մասին մենք արդեն բազմիցս գրել ենք (տե՛ս այս թեմայի վերաբերյալ նյութերը մեր CD-ում), կարող են. միշտ չէ, որ հաջողությամբ օգտագործվում է նման խնդիրների լուծման համար: Սովորաբար, վիճակագրական մեթոդները և OLAP-ն օգտագործվում են նախապես ձևակերպված վարկածները ստուգելու համար: Այնուամենայնիվ, հաճախ ամենաշատը հենց վարկածի ձևակերպումն է ստացվում դժվար առաջադրանքբիզնեսի վերլուծություն իրականացնելիս հետագա որոշումների կայացման համար, քանի որ տվյալների ոչ բոլոր օրինաչափություններն են ակնհայտ առաջին հայացքից:

    Ժամանակակից Data Mining տեխնոլոգիայի հիմքը օրինաչափությունների հայեցակարգն է, որոնք արտացոլում են տվյալների ենթանմուշներին բնորոշ օրինաչափությունները: Կաղապարները որոնվում են այնպիսի մեթոդներով, որոնք չեն օգտագործում որևէ ապրիորի ենթադրություն այս ենթանմուշների վերաբերյալ: Մինչ վիճակագրական վերլուծությունը կամ OLAP հավելվածները սովորաբար ձևակերպում են այնպիսի հարցեր, ինչպիսիք են «Որքա՞ն է այս ծառայության հաճախորդների կողմից չվճարված հաշիվների միջին թիվը», «Տվյալների մայնինգը, որպես կանոն, նշանակում է պատասխաններ այնպիսի հարցերի, ինչպիսիք են՝ «Կա՞ հաճախորդների բնորոշ կատեգորիա, որը չի անում: վճարե՞լ օրինագծերը»: Միևնույն ժամանակ, դա երկրորդ հարցի պատասխանն է, որը հաճախ ավելի ոչ տրիվիալ մոտեցում է տալիս մարքեթինգային քաղաքականությանը և հաճախորդների հետ աշխատանքի կազմակերպմանը:

    Տվյալների մայնինգի կարևոր հատկանիշը փնտրվող օրինաչափությունների ոչ ստանդարտ և ոչ ակնհայտ լինելն է: Այլ կերպ ասած, Data Mining գործիքները տարբերվում են վիճակագրական տվյալների մշակման գործիքներից և OLAP գործիքներից նրանով, որ փոխանակ ստուգելու փոխկախվածությունը, որը ենթադրում են օգտատերերը, նրանք կարողանում են ինքնուրույն գտնել այդպիսի փոխկախվածություն առկա տվյալների հիման վրա և ստեղծել վարկածներ դրանց բնույթի վերաբերյալ:

    Հարկ է նշել, որ Data Mining գործիքների օգտագործումը չի բացառում վիճակագրական գործիքների և OLAP գործիքների օգտագործումը, քանի որ վերջիններիս օգտագործմամբ տվյալների մշակման արդյունքները, որպես կանոն, նպաստում են օրինաչափությունների բնույթի ավելի լավ ըմբռնմանը, որոնք պետք է. փնտրել.

    Տվյալների մայնինգի նախնական տվյալներ

    Data Mining-ի օգտագործումը արդարացված է, եթե կա բավականաչափ մեծ քանակությամբ տվյալներ, որոնք իդեալականորեն պարունակվում են ճիշտ նախագծված տվյալների պահեստում (իրականում տվյալների պահեստներն իրենք սովորաբար ստեղծվում են որոշումների աջակցության հետ կապված վերլուծության և կանխատեսման խնդիրները լուծելու համար): Մենք նաև բազմիցս գրել ենք տվյալների պահեստների կառուցման սկզբունքների մասին. Համապատասխան նյութեր կարելի է գտնել մեր ձայնասկավառակում, ուստի մենք չենք անդրադառնա այս խնդրին: Մենք միայն հիշում ենք, որ պահեստում եղած տվյալները համալրված հավաքածու են, որը տարածված է ամբողջ ձեռնարկության համար և թույլ է տալիս ժամանակի ցանկացած պահի վերականգնել իր գործունեության պատկերը: Նկատի ունեցեք նաև, որ տվյալների պահպանման կառուցվածքը նախագծված է այնպես, որ դրան ուղղված հարցումների կատարումն իրականացվի հնարավորինս արդյունավետ: Այնուամենայնիվ, կան Data Mining գործիքներ, որոնք կարող են որոնել օրինաչափություններ, հարաբերակցություններ և միտումներ ոչ միայն տվյալների պահեստներում, այլ նաև OLAP խորանարդներում, այսինքն՝ նախապես մշակված վիճակագրական տվյալների հավաքածուներում:

    Տվյալների հանքարդյունաբերության մեթոդներով բացահայտված օրինաչափությունների տեսակները

    Ըստ V.A.Dyuk-ի՝ տվյալների հանքարդյունաբերության մեթոդներով բացահայտված օրինաչափությունների հինգ ստանդարտ տեսակներ կան.

    Ասոցիացիա - իրադարձությունները միմյանց հետ կապելու մեծ հավանականություն (օրինակ, մեկ ապրանքը հաճախ գնում է մյուսի հետ միասին);

    Հերթականություն - ժամանակի հետ կապված իրադարձությունների շղթայի մեծ հավանականություն (օրինակ, մի ապրանք գնելուց հետո որոշակի ժամանակահատվածում մյուսը կգնեն հավանականության բարձր աստիճանով);

    Դասակարգում - կան նշաններ, որոնք բնութագրում են այն խմբին, որին պատկանում է այս կամ այն ​​իրադարձությունը կամ առարկան (սովորաբար, որոշակի կանոններ ձևակերպվում են արդեն դասակարգված իրադարձությունների վերլուծության հիման վրա);

    Կլաստերավորումը դասակարգմանը նման օրինաչափություն է և դրանից տարբերվում է նրանով, որ խմբերն իրենք այս դեպքում սահմանված չեն. դրանք ինքնաբերաբար հայտնաբերվում են տվյալների մշակման ժամանակ.

    Ժամանակավոր օրինաչափություններ - կանխատեսման համար օգտագործվող որոշակի տվյալների վարքագծի դինամիկայի օրինաչափությունների առկայություն (տիպիկ օրինակ է որոշակի ապրանքների կամ ծառայությունների պահանջարկի սեզոնային տատանումները):

    Տվյալների արդյունահանման մեթոդներ Տվյալների հանքարդյունաբերության մեջ

    Այսօր կան տվյալների մայնինգի բավականին մեծ թվով տարբեր մեթոդներ: Վ.Ա.Դյուկի կողմից առաջարկված վերը նշված դասակարգման հիման վրա դրանց թվում են.

    Ռեգրեսիա, դիսպերսիա և հարաբերակցություն վերլուծություն (իրականացված է ժամանակակից վիճակագրական փաթեթներում, մասնավորապես՝ SAS Institute-ի, StatSoft-ի և այլնի արտադրանքներում);

    Վերլուծության մեթոդներ կոնկրետ առարկայի ոլորտում՝ հիմնված էմպիրիկ մոդելների վրա (հաճախ օգտագործվում են, օրինակ, ֆինանսական վերլուծության էժան գործիքներում);

    Նյարդային ցանցի ալգորիթմներ, որոնց գաղափարը հիմնված է նյարդային հյուսվածքի աշխատանքի անալոգիայի վրա և կայանում է նրանում, որ սկզբնական պարամետրերը համարվում են ազդանշաններ, որոնք փոխակերպվում են «նեյրոնների» միջև առկա կապերին համապատասխան։ և որպես վերլուծության արդյունքում ստացված պատասխան՝ ամբողջ ցանցի պատասխանը սկզբնական տվյալներին։ Հղումները այս դեպքում ստեղծվում են՝ օգտագործելով այսպես կոչված ցանցային ուսուցումը մեծ նմուշի միջոցով, որը պարունակում է ինչպես սկզբնական տվյալները, այնպես էլ ճիշտ պատասխանները.

    Ալգորիթմներ - սկզբնական տվյալների մոտ անալոգի ընտրություն արդեն առկա պատմական տվյալներից: Նաև կոչվում է մոտակա հարևան մեթոդ;

    Որոշման ծառեր - հիերարխիկ կառուցվածք, որը հիմնված է մի շարք հարցերի վրա, որոնք ենթադրում են «Այո» կամ «Ոչ» պատասխանը. չնայած այս կերպՏվյալների մշակումը միշտ չէ, որ իդեալականորեն գտնում է գոյություն ունեցող օրինաչափությունները, այն բավականին հաճախ օգտագործվում է կանխատեսման համակարգերում՝ ստացված պատասխանի հստակության պատճառով.

    Կլաստերային մոդելները (երբեմն նաև կոչվում են սեգմենտավորման մոդելներ) օգտագործվում են նմանատիպ իրադարձությունները խմբերի խմբավորելու համար՝ հիմնված տվյալների բազայի մի քանի դաշտերի նման արժեքների վրա. շատ տարածված են նաև կանխատեսման համակարգերի ստեղծման մեջ.

    Սահմանափակ որոնման ալգորիթմներ, որոնք հաշվարկում են պարզ տրամաբանական իրադարձությունների համակցությունների հաճախականությունը տվյալների ենթախմբերում.

    Էվոլյուցիոն ծրագրավորում - որոնման գործընթացում փոփոխված տվյալների փոխկախվածությունն արտահայտող ալգորիթմի որոնում և ստեղծում. երբեմն փոխկախվածությունների որոնումն իրականացվում է որոշակի տեսակի ֆունկցիաների (օրինակ՝ բազմանդամների) միջև։

    Տվյալների հանքարդյունաբերության այս և այլ ալգորիթմների, ինչպես նաև դրանք կիրառող գործիքների մասին ավելին կարող եք կարդալ «Տվյալների հանքարդյունաբերություն. դասընթաց«Վ.Ա.Դյուկը և Ա.Պ.Սամոյլենկոն, հրատարակված «Պիտեր» հրատարակչության կողմից 2001 թ. Այսօր այն ռուսերեն եզակի գրքերից է, որոնք նվիրված են այս խնդրին։

    Տվյալների արդյունահանման գործիքների առաջատար արտադրողներ

    Տվյալների հանքարդյունաբերության գործիքները, ինչպես Business Intelligence գործիքների մեծ մասը, ավանդաբար պատկանում են թանկարժեք ծրագրային գործիքներին. դրանցից որոշների գինը հասնում է մի քանի տասնյակ հազար դոլարի: Հետևաբար, մինչև վերջերս այս տեխնոլոգիայի հիմնական սպառողները բանկերն էին, ֆինանսական և ապահովագրական ընկերությունները, խոշոր առևտրային ձեռնարկությունները, և տվյալների մայնինգի օգտագործումը պահանջող հիմնական խնդիրները համարվում էին վարկային և ապահովագրական ռիսկերի գնահատումը և շուկայավարման զարգացումը: քաղաքականություն, սակագնային պլաններև հաճախորդների հետ աշխատանքի այլ սկզբունքներ: Վերջին տարիներին իրավիճակը որոշակի փոփոխությունների է ենթարկվել՝ շուկան ծրագրային ապահովումՄի քանի վաճառողների կողմից ի հայտ են եկել համեմատաբար էժան Տվյալների արդյունահանման գործիքներ, որոնք այս տեխնոլոգիան հասանելի են դարձնում փոքր և միջին բիզնեսի համար, որոնք նախկինում երբեք չեն մտածել դրա մասին:

    Բիզնեսի հետախուզության ժամանակակից գործիքները ներառում են հաշվետվությունների գեներատորներ, վերլուծական մշակումտվյալները, BI-ի զարգացման գործիքները (BI հարթակներ) և այսպես կոչված Enterprise BI Suites - ձեռնարկության ամբողջ տվյալների վերլուծության և մշակման գործիքները, որոնք թույլ են տալիս կատարել տվյալների վերլուծության և հաշվետվության հետ կապված մի շարք գործողություններ և հաճախ ներառում են BI-ի ինտեգրված հավաքածու: գործիքներ և BI հավելվածների մշակման գործիքներ: Վերջիններս, որպես կանոն, պարունակում են և՛ հաշվետվության գործիքներ, և՛ OLAP գործիքներ, և հաճախ՝ Data Mining գործիքներ։

    Ըստ Gartner Group-ի վերլուծաբանների՝ Business Objects, Cognos, Information Builders-ը առաջատարներն են ձեռնարկությունների մասշտաբով տվյալների վերլուծության և մշակման շուկայում, իսկ Microsoft-ը և Oracle-ը նույնպես հավակնում են առաջատարի դիրքին (նկ. 1): Ինչ վերաբերում է BI լուծումների մշակման գործիքներին, ապա այս ոլորտում առաջատար լինելու հիմնական հավակնորդներն են Microsoft-ըև SAS ինստիտուտը (նկ. 2):

    Նշենք, որ Microsoft-ի Business Intelligence գործիքները համեմատաբար էժան ապրանքներ են, որոնք հասանելի են ընկերությունների լայն շրջանակի համար: Այդ իսկ պատճառով մենք պատրաստվում ենք դիտարկել Տվյալների հանքարդյունաբերության օգտագործման որոշ գործնական ասպեկտներ՝ օգտագործելով այս ընկերության արտադրանքը որպես օրինակ այս հոդվածի հաջորդ մասերում:

    Գրականություն:

    1. Դուքս Վ.Ա. Տվյալների հանքարդյունաբերություն - տվյալների արդյունահանում: - http://www.olap.ru/basic/dm2.asp.

    2. Dyuk V.A., Samoylenko A.P. Տվյալների մշակում. վերապատրաստման դասընթաց. - Սանկտ Պետերբուրգ: Պետեր, 2001 թ.

    3. Բ. դե Վիլ. Microsoft Data Mining. Թվային մամուլ, 2001 թ.

    Տվյալների գրանցման և պահպանման մեթոդների մշակումը հանգեցրել է հավաքագրված և վերլուծված տեղեկատվության ծավալի արագ աճի: Տվյալների ծավալներն այնքան տպավորիչ են, որ մարդու համար պարզապես հնարավոր չէ ինքնուրույն վերլուծել դրանք, թեև նման վերլուծության անհրաժեշտությունը միանգամայն ակնհայտ է, քանի որ այս «հում» տվյալները պարունակում են գիտելիքներ, որոնք կարող են օգտագործվել որոշումներ կայացնելու համար: Տվյալների ավտոմատ վերլուծություն իրականացնելու համար օգտագործվում է Data Mining:

    Տվյալների արդյունահանումը հում տվյալների մեջ նախկինում անհայտ ոչ տրիվիալ, գործնականում օգտակար և հասանելի գիտելիքների հայտնաբերման գործընթաց է, որն անհրաժեշտ է մարդկային գործունեության տարբեր ոլորտներում որոշումներ կայացնելու համար: Տվյալների արդյունահանումը տվյալների բազաներում գիտելիքների հայտնաբերման քայլերից մեկն է:

    Տվյալների արդյունահանման մեթոդների կիրառման գործընթացում հայտնաբերված տեղեկատվությունը պետք է լինի ոչ տրիվիալ և նախկինում անհայտ, օրինակ, միջին վաճառքները չեն: Գիտելիքը պետք է նկարագրի նոր հարաբերություններ հատկությունների միջև, կանխատեսի որոշ հատկանիշների արժեքները՝ հիմնվելով մյուսների վրա և այլն: Հայտնաբերված գիտելիքները պետք է կիրառելի լինեն նոր տվյալների համար որոշակի որոշակի աստիճանով: Օգտակարությունը կայանում է նրանում, որ այս գիտելիքը կարող է որոշակի օգուտներ բերել, երբ կիրառվում է: Գիտելիքը պետք է լինի այնպիսի ձևով, որը հասկանալի լինի օգտագործողին, այլ ոչ թե մաթեմատիկոսին: Օրինակ, «եթե ... ապա ...» տրամաբանական կոնստրուկցիաները մարդու կողմից ամենահեշտն են ընկալվում։ Ավելին, նման կանոնները կարող են օգտագործվել տարբեր DBMS-ներում որպես SQL հարցումներ: Այն դեպքում, երբ ստացված գիտելիքները թափանցիկ չեն օգտագործողի համար, պետք է լինեն հետմշակման մեթոդներ, որոնք թույլ կտան դրանք հասցնել մեկնաբանելի ձևի:

    Data Mining-ում օգտագործվող ալգորիթմները պահանջում են շատ հաշվարկներ: Նախկինում սա կանխարգելիչ էր տվյալների հանքարդյունաբերության լայնածավալ գործնական կիրառման համար, սակայն այսօրվա արտադրողականության աճը ժամանակակից պրոցեսորներվերացրեց այս խնդրի հրատապությունը: Այժմ, ողջամիտ ժամկետում, հնարավոր է հարյուր հազարավոր և միլիոնավոր գրառումների որակական վերլուծություն կատարել։

    Տվյալների արդյունահանման մեթոդներով լուծված առաջադրանքներ.

    1. Դասակարգում- սա օբյեկտների (դիտարկումներ, իրադարձություններ) նշանակում է նախկինում հայտնի դասերից մեկին:
    2. Հետընթաց, ներառյալ կանխատեսման խնդիրները: Շարունակական արտադրանքի կախվածության հաստատում մուտքային փոփոխականներից:
    3. Կլաստերավորումօբյեկտների (դիտարկումների, իրադարձությունների) խմբավորում է՝ հիմնված տվյալների (հատկությունների) վրա, որոնք նկարագրում են այդ օբյեկտների էությունը։ Կլաստերի մեջ գտնվող օբյեկտները պետք է «նման» լինեն միմյանց և տարբերվեն այլ կլաստերներում ներառված առարկաներից: Որքան շատ նման օբյեկտներ լինեն կլաստերի մեջ և որքան շատ լինեն կլաստերների միջև եղած տարբերությունները, այնքան ավելի ճշգրիտ կլինի կլաստերավորումը:
    4. Ասոցիացիա- նույնականացնել օրինաչափությունները հարակից իրադարձությունների միջև: Նման օրինաչափության օրինակ է կանոնը, որը ցույց է տալիս, որ Y իրադարձությունը բխում է X իրադարձությունից: Նման կանոնները կոչվում են ասոցիատիվ: Այս խնդիրն առաջին անգամ առաջարկվել է սուպերմարկետներում սովորական գնումների օրինաչափություններ գտնելու համար, ուստի այն երբեմն կոչվում է նաև շուկայական զամբյուղի վերլուծություն:
    5. Հաջորդական օրինաչափություններ- օրինաչափությունների հաստատում ժամանակի հետ կապված իրադարձությունների միջև, այսինքն. կախվածության հայտնաբերում, որ եթե X իրադարձությունը տեղի է ունենում, ապա դրանից հետո տրված ժամանակտեղի կունենա Y իրադարձություն:
    6. Տարբերակումների վերլուծություն- ամենաանբնութագրական օրինաչափությունների նույնականացում:

    Բիզնեսի վերլուծության խնդիրները տարբեր կերպ են ձևակերպվում, բայց դրանցից շատերի լուծումը հանգում է տվյալների արդյունահանման այս կամ այն ​​առաջադրանքին կամ դրանց համակցությանը: Օրինակ, ռիսկի գնահատումը ռեգրեսիայի կամ դասակարգման խնդրի լուծում է, շուկայի սեգմենտավորումը կլաստերավորում է, պահանջարկի խթանումը ասոցացման կանոններ են: Փաստորեն, Data Mining-ի առաջադրանքները այն տարրերն են, որոնցից դուք կարող եք լուծում հավաքել իրական բիզնեսի խնդիրների ճնշող մեծամասնության համար:

    Վերոնշյալ խնդիրները լուծելու համար օգտագործվում են տվյալների մայնինգի տարբեր մեթոդներ և ալգորիթմներ։ Շնորհիվ այն բանի, որ Տվյալների հանքարդյունաբերությունը զարգացել և զարգանում է այնպիսի առարկաների խաչմերուկում, ինչպիսիք են վիճակագրությունը, տեղեկատվության տեսությունը, մեքենայական ուսուցումտվյալների բազայի տեսությունը, միանգամայն բնական է, որ տվյալների մայնինգի ալգորիթմների և մեթոդների մեծ մասը մշակվել են տարբեր մեթոդներայս առարկաներից: Օրինակ, k-means կլաստերավորման ընթացակարգը պարզապես փոխառվել է վիճակագրությունից: Տվյալների արդյունահանման հետևյալ մեթոդները մեծ ժողովրդականություն են ձեռք բերել.

    Deductor-ը վերլուծական հարթակ է, որը ներառում է տվյալների հանքարդյունաբերության խնդիրների լուծման գործիքների ամբողջական փաթեթ՝ գծային ռեգրեսիա, վերահսկվող նյարդային ցանցեր, չվերահսկվող նեյրոնային ցանցեր, որոշումների ծառեր, ասոցիացիայի կանոնների որոնում և շատ ուրիշներ: Շատ մեխանիզմների համար տրամադրվում են մասնագիտացված վիզուալիզատորներ, որոնք մեծապես նպաստում են ստացված մոդելի կիրառմանը և արդյունքների մեկնաբանմանը: Ուժեղ կետհարթակը ոչ միայն ժամանակակից վերլուծության ալգորիթմների իրականացումն է, այլ նաև վերլուծության տարբեր մեխանիզմները կամայականորեն համադրելու հնարավորությունը:

    Ինչ է տվյալների արդյունահանումը

    Տվյալների արդյունահանման առաջադրանքների դասակարգում

    Ասոցիացիայի կանոնների որոնման խնդիրը

    Կլաստերավորման խնդիր

    Data Miner-ի առանձնահատկությունները Statistica 8-ում

    Վերլուծության գործիքներ STATISTICA Data Miner

    Data Minin-ում աշխատելու օրինակ

    Ստեղծեք հաշվետվություններ և ամփոփագրեր

    Տեղեկությունների տեսակավորում

    Բնակելի հողամասերի գների վերլուծություն

    Գոյատևման կանխատեսման վերլուծություն

    Եզրակացություն


    Ինչ է տվյալների արդյունահանումը

    Ժամանակակից համակարգչային տերմինՏվյալների հանքարդյունաբերությունը թարգմանվում է որպես «տեղեկատվության արդյունահանում» կամ «տվյալների մայնինգ»: Հաճախ տվյալների արդյունահանման հետ մեկտեղ հանդիպում են Գիտելիքի բացահայտում («գիտելիքի հայտնաբերում») և տվյալների պահեստ («տվյալների պահեստ») տերմինները: Այս տերմինների առաջացումը, որոնք հանդիսանում են Data Mining-ի անբաժանելի մասը, կապված է տվյալների մշակման և պահպանման գործիքների և մեթոդների մշակման նոր փուլի հետ: Այսպիսով, Data Mining-ի նպատակն է բացահայտել թաքնված կանոններն ու օրինաչափությունները մեծ (շատ մեծ) տվյալների մեջ:

    Փաստն այն է, որ մարդու միտքն ինքը հարմարեցված չէ տարասեռ տեղեկատվության հսկայական զանգվածների ընկալմանը: Միջին հաշվով, մարդը, բացառությամբ որոշ անհատների, չի կարողանում ֆիքսել երկու-երեքից ավելի հարաբերություններ, նույնիսկ փոքր նմուշներով: Բայց ավանդական վիճակագրությունը, որը երկար ժամանակ պնդում էր տվյալների վերլուծության հիմնական գործիքի դերը, նույնպես հաճախ ձախողվում է խնդիրներ լուծելիս. իրական կյանք. Այն գործում է նմուշի միջին բնութագրերով, որոնք հաճախ ֆիկտիվ արժեքներ են (հաճախորդի միջին վճարունակությունը, երբ, կախված ռիսկի կամ կորստի ֆունկցիայից, դուք պետք է կարողանաք կանխատեսել հաճախորդի վճարունակությունը և մտադրությունները. միջինը. ազդանշանի ինտենսիվությունը, մինչդեռ դուք հետաքրքրված եք ազդանշանի գագաթնակետերի բնութագրերով և նախապատմությամբ և այլն: դ.):

    Հետեւաբար, մեթոդներ մաթեմատիկական վիճակագրությունօգտակար են հիմնականում նախապես ձևակերպված վարկածների փորձարկման համար, մինչդեռ վարկածի սահմանումը երբեմն բավականին բարդ և ժամանակատար խնդիր է: Ժամանակակից տեխնոլոգիաներՏվյալների հանքարդյունաբերությունը մշակում է տեղեկատվությունը, որպեսզի ավտոմատ որոնումտարասեռ բազմաչափ տվյալների ցանկացած հատվածին բնորոշ կաղապարներ (օրինաչափություններ): Ի տարբերություն առցանց վերլուծական տվյալների մշակման (OLAP), Data Mining-ում վարկածների ձևակերպման և անսովոր (անսպասելի) օրինաչափությունների հայտնաբերման բեռը մարդուց տեղափոխվում է համակարգիչ: Տվյալների արդյունահանումը մեկ չէ, այլ գիտելիքի հայտնաբերման մեծ թվով տարբեր մեթոդների համադրություն: Մեթոդի ընտրությունը հաճախ կախված է առկա տվյալների տեսակից և ինչ տեղեկատվություն եք փորձում ստանալ: Ահա, օրինակ, որոշ մեթոդներ՝ ասոցիացիա (համակցում), դասակարգում, կլաստերավորում, ժամանակային շարքերի վերլուծություն և կանխատեսում, նեյրոնային ցանցեր և այլն։

    Եկեք ավելի մանրամասն քննարկենք բացահայտվելիք գիտելիքների հատկությունները, որոնք տրված են սահմանման մեջ:

    Գիտելիքը պետք է լինի նոր, նախկինում անհայտ: Օգտագործողին արդեն հայտնի գիտելիքի հայտնաբերման վրա ծախսված ջանքերը արդյունք չեն տալիս: Հետեւաբար, դա նոր, նախկինում անհայտ գիտելիք է, որն արժեք ունի:

    Գիտելիքը պետք է լինի ոչ տրիվիալ: Վերլուծության արդյունքները պետք է արտացոլեն ոչ ակնհայտ, անսպասելի օրինաչափություններ տվյալների մեջ, որոնք կազմում են այսպես կոչված թաքնված գիտելիքը: Արդյունքներ, որոնք կարելի էր ավելի շատ ստանալ պարզ ուղիներ(օրինակ՝ տեսողական ստուգմամբ) չեն արդարացնում տվյալների արդյունահանման հզոր մեթոդների օգտագործումը:

    Գիտելիքը պետք է գործնականում օգտակար լինի: Գտած գիտելիքները պետք է կիրառելի լինեն, ներառյալ նոր տվյալների վրա, բավականաչափ բարձր հուսալիությամբ: Օգտակարությունը կայանում է նրանում, որ այս գիտելիքը կարող է որոշակի օգուտ բերել դրա կիրառմանը:

    Գիտելիքը պետք է հասանելի լինի մարդկային ըմբռնմանը: Գտնված օրինաչափությունները պետք է տրամաբանորեն բացատրելի լինեն, հակառակ դեպքում կա հավանականություն, որ դրանք պատահական են: Բացի այդ, հայտնաբերված գիտելիքները պետք է ներկայացվեն մարդու համար հասկանալի ձևով։

    Տվյալների մայնինգում մոդելներն օգտագործվում են ձեռք բերված գիտելիքները ներկայացնելու համար: Մոդելների տեսակները կախված են դրանց ստեղծման մեթոդներից։ Ամենատարածվածներն են՝ կանոնները, որոշումների ծառերը, կլաստերները և մաթեմատիկական ֆունկցիաները։

    Data Mining-ի շրջանակն անսահմանափակ է. Data Mining-ը անհրաժեշտ է այնտեղ, որտեղ կան որևէ տվյալ: Շատ նման ձեռնարկությունների փորձը ցույց է տալիս, որ Data Mining-ի օգտագործման եկամտաբերությունը կարող է հասնել 1000%-ի: Օրինակ՝ տեղեկություններ կան տնտեսական էֆեկտի մասին, որը 10-70 անգամ գերազանցում է նախնական ծախսերը՝ 350-750 հազար դոլար։ Տեղեկություն է տրվում 20 միլիոն դոլար արժողությամբ նախագծի մասին, որն իր արդյունքը տվեց ընդամենը 4 ամսում։ Մեկ այլ օրինակ է տարեկան $700,000 խնայողությունները: Մեծ Բրիտանիայի սուպերմարկետների ցանցում Data Mining-ի ներդրման միջոցով: Տվյալների արդյունահանումը մեծ արժեք ունի մենեջերների և վերլուծաբանների համար իրենց ամենօրյա գործունեության մեջ: Գործարար մարդիկհասկացան, որ տվյալների մայնինգի մեթոդների օգնությամբ նրանք կարող են ձեռք բերել շոշափելի մրցակցային առավելություններ:

    Տվյալների արդյունահանման առաջադրանքների դասակարգում

    DataMining մեթոդները թույլ են տալիս լուծել բազմաթիվ խնդիրներ, որոնց բախվում է վերլուծաբանը: Դրանցից հիմնականներն են՝ դասակարգումը, ռեգրեսիան, ասոցիացիայի կանոնների որոնումը և կլաստերավորումը։ Ստորև ներկայացված է Կարճ նկարագրությունտվյալների վերլուծության հիմնական խնդիրները.

    1) Դասակարգման խնդիրը կրճատվում է օբյեկտի դասի որոշման վրա՝ ըստ նրա բնութագրերի. Հարկ է նշել, որ այս խնդրի մեջ նախապես հայտնի է դասերի բազմությունը, որոնց կարող է վերագրվել օբյեկտ։

    2) Ռեգրեսիայի առաջադրանքը, ինչպես դասակարգման առաջադրանքը, թույլ է տալիս որոշել իր որոշ պարամետրերի արժեքը՝ հիմնվելով օբյեկտի հայտնի բնութագրերի վրա: Ի տարբերություն դասակարգման խնդրի, պարամետրի արժեքը դասերի վերջավոր բազմություն չէ, այլ իրական թվերի բազմություն։

    3) Ասոցիացիայի առաջադրանք. Ասոցիացիայի կանոններ որոնելիս նպատակը օբյեկտների կամ իրադարձությունների միջև հաճախակի կախվածություններ (կամ ասոցիացիաներ) գտնելն է: Գտնված կախվածությունները ներկայացված են կանոնների տեսքով և կարող են օգտագործվել ինչպես վերլուծված տվյալների բնույթն ավելի լավ հասկանալու, այնպես էլ իրադարձությունների առաջացումը կանխատեսելու համար:

    4) Կլաստերավորման խնդիրն է անկախ խմբերի (կլաստերի) և դրանց բնութագրերի որոնումը վերլուծված տվյալների ողջ փաթեթում: Այս խնդրի լուծումն օգնում է ավելի լավ հասկանալ տվյալները: Բացի այդ, միատարր առարկաների խմբավորումը հնարավորություն է տալիս նվազեցնել դրանց թիվը և, հետևաբար, հեշտացնել վերլուծությունը։

    5) Հերթական օրինաչափություններ - օրինաչափությունների հաստատում ժամանակի հետ կապված իրադարձությունների միջև, այսինքն. հայտնաբերելով կախվածություն, որ եթե X իրադարձությունը տեղի է ունենում, ապա Y իրադարձությունը տեղի կունենա տվյալ ժամանակից հետո:

    6) շեղումների վերլուծություն՝ ամենաանբնութագրական օրինաչափությունների բացահայտում.

    Թվարկված առաջադրանքները ըստ նպատակի բաժանվում են նկարագրական և կանխատեսող:

    Նկարագրական առաջադրանքները կենտրոնանում են վերլուծվող տվյալների ըմբռնման բարելավման վրա: Նման մոդելների առանցքային կետը մարդու ընկալման համար արդյունքների հեշտությունն ու թափանցիկությունն է: Հնարավոր է, որ հայտնաբերված օրինաչափությունները լինեն հատուկ ուսումնասիրվող տվյալների հատուկ հատկանիշը և չգտնվեն որևէ այլ տեղ, բայց դա դեռ կարող է օգտակար լինել և, հետևաբար, պետք է հայտնի լինի: Խնդիրների այս տեսակը ներառում է կլաստերավորում և ասոցիացիայի կանոնների որոնում:

    Կանխատեսող խնդիրների լուծումը բաժանված է երկու փուլի. Առաջին փուլում մոդելը կառուցվում է տվյալների հավաքածուի հիման վրա՝ հայտնի արդյունքներով: Երկրորդ քայլում այն ​​օգտագործվում է տվյալների նոր հավաքածուների հիման վրա արդյունքները կանխատեսելու համար: Այս դեպքում, իհարկե, պահանջվում է, որ կառուցված մոդելները հնարավորինս ճշգրիտ աշխատեն։ TO այս տեսակըառաջադրանքները ներառում են դասակարգման և ռեգրեսիայի առաջադրանքներ: Սա ներառում է նաև ասոցիացիայի կանոններ գտնելու խնդիրը, եթե դրա լուծման արդյունքները կարող են օգտագործվել որոշակի իրադարձությունների առաջացումը կանխատեսելու համար:

    Ըստ խնդիրների լուծման մեթոդների՝ դրանք բաժանվում են վերահսկվող ուսուցման (ուսուցում ուսուցչի հետ) և առանց վերահսկման (ուսուցում առանց ուսուցչի): Այս անվանումը գալիս է Machine Learning (մեքենայական ուսուցում) տերմինից, որը հաճախ օգտագործվում է անգլալեզու գրականության մեջ և վերաբերում է Data Mining բոլոր տեխնոլոգիաներին։

    Վերահսկվող ուսուցման դեպքում տվյալների վերլուծության խնդիրը լուծվում է մի քանի փուլով. Նախ, օգտագործելով տվյալների արդյունահանման ցանկացած ալգորիթմ, կառուցվում է վերլուծված տվյալների մոդելը՝ դասակարգիչ: Այնուհետև դասակարգիչը վերապատրաստվում է: Այսինքն՝ ստուգվում է դրա աշխատանքի որակը, և եթե այն անբավարար է, դասակարգիչը լրացուցիչ վերապատրաստվում է։ Սա շարունակվում է այնքան ժամանակ, մինչև հասնի որակի պահանջվող մակարդակը կամ պարզվի, որ ընտրված ալգորիթմը ճիշտ չի աշխատում տվյալների հետ, կամ տվյալներն ինքնին չունեն նույնականացման կառուցվածք: Խնդիրների այս տեսակը ներառում է դասակարգման և ռեգրեսիայի խնդիրներ:

    Չվերահսկվող ուսուցումը միավորում է առաջադրանքները, որոնք նույնացնում են նկարագրական օրինաչափությունները, ինչպիսիք են մեծ խանութում հաճախորդների կողմից կատարված գնումների օրինակները: Ակնհայտ է, որ եթե այդ օրինաչափությունները կան, ապա մոդելը պետք է ներկայացնի դրանք, և դրա սովորելու մասին խոսելն անտեղի է: Այստեղից էլ անվանումը՝ չվերահսկվող ուսուցում։ Նման խնդիրների առավելությունը դրանք լուծելու հնարավորությունն է՝ առանց վերլուծված տվյալների նախնական իմացության։ Դրանք ներառում են կլաստերավորում և ասոցիացիայի կանոնների որոնում:

    Դասակարգման և ռեգրեսիայի խնդիր

    Վերլուծելիս հաճախ անհրաժեշտ է լինում որոշել, թե ուսումնասիրվող օբյեկտները հայտնի դասերից որին են պատկանում, այսինքն՝ դասակարգել դրանք։ Օրինակ, երբ մարդը դիմում է բանկ վարկ ստանալու համար, բանկի աշխատակիցը պետք է որոշի՝ արդյոք պոտենցիալ հաճախորդը վարկունակ է, թե ոչ: Ակնհայտ է, որ նման որոշումը կայացվում է ուսումնասիրվող օբյեկտի վերաբերյալ տվյալների հիման վրա (մ այս դեպքը- անձ). նրա աշխատանքի վայրը, չափը աշխատավարձերը, տարիք, ընտանիքի կազմ և այլն: Այս տեղեկատվության վերլուծության արդյունքում բանկի աշխատակիցը պետք է անձին վերագրի երկու հայտնի դասերից մեկին՝ «վարկարժան» և «անվարկարժան»:

    Դասակարգման առաջադրանքի մեկ այլ օրինակ էլփոստի զտումն է: Այս դեպքում զտման ծրագիրը պետք է դասակարգի մուտքային հաղորդագրությունսպամ (աղբ Էլ) կամ որպես նամակ։ Այս որոշումըընդունվում է՝ ելնելով հաղորդագրության մեջ որոշակի բառերի առաջացման հաճախականությունից (օրինակ՝ ստացողի անունը, անանձնական հասցեն, բառերն ու արտահայտությունները. ձեռք բերել, «վաստակել», « շահավետ առաջարկ«և այլն):