Մեծ տվյալներ մեծ տվյալներ: Մեծ տվյալներ. Վերլուծություններ և լուծումներ

Գիտե՞ք այս հայտնի կատակը: Big Data- ը նման է 18 տարեկանից ցածր սեքսի.

բոլորը մտածում են դրա մասին;
բոլորը խոսում են դրա մասին;
բոլորը կարծում են, որ դա անում են իրենց ընկերները.
գրեթե ոչ ոք դա չի անում;
նա, ով դա անում է, վատ է անում.
բոլորը կարծում են, որ հաջորդ անգամ ավելի լավ կստացվի;
ոչ ոք անվտանգության միջոցներ չի ձեռնարկում.
որևէ մեկը ամաչում է ընդունել, որ ինքը ինչ -որ բան չգիտի.
եթե ինչ -որ մեկին հաջողվի, դա միշտ շատ աղմուկ է բարձրացնում:

Բայց եկեք անկեղծ լինենք, որ ցանկացած աղմուկ բարձրացնելու դեպքում միշտ կլինի սովորական հետաքրքրասիրությունը. Մի խոսքով, այո, կա: Մանրամասները ՝ ստորև: Մենք ձեզ համար ընտրել ենք Big Data տեխնոլոգիաների ամենազարմանալի և հետաքրքիր ծրագրերը: Այս փոքր շուկայի ուսումնասիրությունը հստակ օրինակների հետ բախվում է մի պարզ փաստի. Ապագան չի գա, կարիք չկա «սպասել ևս մեկ տարի, և կախարդությունն իրականություն կդառնա»: Ոչ, այն արդեն եկել է, բայց այն դեռևս աննկատ է աչքի համար, և, հետևաբար, եզակիության սինթեզումը դեռ այնքան չի այրում աշխատաշուկայի հայտնի կետը: Գնա

1 Ինչպես են Big Data տեխնոլոգիաները կիրառվում այնտեղ, որտեղից ծագել են

ՏՏ խոշոր ընկերություններն այն վայրն են, որտեղ ծնվել է տվյալների գիտությունը, ուստի նրանց ներքին մասն ամենահետաքրքիրն է այս ոլորտում: Google Campaign- ը, որտեղ գտնվում է Map Reduce պարադիգմը, որի միակ նպատակն է ծրագրավորողներին կրթել մեքենայական ուսուցման տեխնոլոգիաներում: Եվ սա նրանց մրցակցային առավելությունն է. Նոր գիտելիքներ ստանալուց հետո աշխատակիցները նոր մեթոդներ կիրականացնեն Google- ի այն նախագծերում, որտեղ նրանք մշտապես աշխատում են: Պատկերացրեք այն ոլորտների հսկայական ցանկը, որտեղ քարոզարշավը կարող է հեղափոխություն առաջացնել: Մեկ օրինակ. Օգտագործվում են նյարդային ցանցեր:

Կորպորացիան նաև իր բոլոր արտադրանքներում իրականացնում է մեքենայական ուսուցում: Դրա առավելությունը մեծ էկոհամակարգի առկայությունն է, որը ներառում է առօրյա կյանքում օգտագործվող բոլոր թվային սարքերը: Սա թույլ է տալիս Apple- ին հասնել անհնարին մակարդակի. Միևնույն ժամանակ, գաղտնիության քաղաքականությունը շատ խիստ է. Կորպորացիան միշտ պարծենում էր, որ գովազդային նպատակների համար չի օգտագործում հաճախորդների տվյալները: Ըստ այդմ, օգտվողի տվյալները գաղտնագրված են այնպես, որ Apple- ի իրավաբանները կամ նույնիսկ ՀԴԲ -ն երաշխավորությամբ չեն կարող կարդալ այն: Ըստ ձեզ, դուք կգտնեք հիանալի ակնարկ Apple- ի AI- ի զարգացում:

2 Մեծ տվյալներ 4 անիվների վրա

Carամանակակից մեքենան տեղեկատվության կուտակիչ է. Այն կուտակում է վարորդի, շրջակա միջավայրի, միացված սարքերի և իր մասին բոլոր տվյալները: Շուտով մեկ տրանսպորտային միջոց, որը միացված է այսպիսի ցանցին, ժամում կստեղծի մինչև 25 ԳԲ տվյալներ:

Տրանսպորտային տելեմատիկան երկար տարիներ օգտագործվում է ավտոարտադրողների կողմից, սակայն լոբբինգի է ենթարկվում տվյալների հավաքագրման ավելի բարդ մեթոդ, որը լիովին օգտվում է Big Data- ից: Սա նշանակում է, որ տեխնոլոգիան այժմ կարող է վարորդին ահազանգել ճանապարհի վատ պայմանների մասին `ինքնաբերաբար ակտիվացնելով արգելափակման և սայթաքման համակարգերը:

Այլ մտահոգություններ, ներառյալ BMW- ն, օգտագործում են Big Data տեխնոլոգիան ՝ զուգորդված փորձնական նախատիպերից, մեքենայի սխալների հիշողության համակարգից և հաճախորդների բողոքներից հավաքված տեղեկատվությամբ ՝ արտադրության վաղ մոդելի թույլ կողմերը բացահայտելու համար: Այժմ, ամիսներ տևողությամբ տվյալները ձեռքով գնահատելու փոխարեն, կիրառվում է ժամանակակից ալգորիթմ: Սխալները և շտկման ծախսերը կրճատվում են, ինչը արագացնում է BMW- ում տեղեկատվական վերլուծության աշխատանքային հոսքերը:

Փորձագետների գնահատականներով ՝ մինչև 2019 թվականը միացված ավտոմեքենաների շուկայական շրջանառությունը կհասնի 130 միլիարդ դոլարի: Սա զարմանալի չէ `հաշվի առնելով մեքենայի անբաժանելի մաս հանդիսացող տեխնոլոգիաների ավտոարտադրողների ինտեգրման տեմպերը:

Մեծ տվյալների օգտագործումը օգնում է մեքենան ավելի անվտանգ և ֆունկցիոնալ դարձնել: Այսպիսով, Toyota- ն տեղադրելով տեղեկատվական հաղորդակցության մոդուլներ (DCM): Մեծ տվյալների համար օգտագործվող այս գործիքը մշակում և վերլուծում է DCM- ի կողմից հավաքված տվյալները `դրանից հետագա օգուտ ստանալու համար:

3 Մեծ տվյալների կիրառումը բժշկության մեջ

Բժշկական ոլորտում Big Data տեխնոլոգիաների ներդրումը թույլ է տալիս բժիշկներին ավելի մանրակրկիտ ուսումնասիրել հիվանդությունը և ընտրել կոնկրետ դեպքի բուժման արդյունավետ ընթացք: Տեղեկատվության վերլուծության շնորհիվ բուժաշխատողների համար ավելի հեշտ է դառնում կանխատեսել ռեցիդիվը և կանխարգելիչ միջոցառումներ ձեռնարկել: Արդյունքն ավելի ճշգրիտ ախտորոշումն է և բարելավված բուժումը:

Նոր տեխնիկան հնարավորություն տվեց հիվանդների խնդիրներին նայել այլ տեսանկյունից, ինչը հանգեցրեց խնդրի նախկինում անհայտ աղբյուրների բացահայտմանը: Օրինակ, որոշ ցեղեր գենետիկորեն ավելի հակված են սրտային հիվանդությունների, քան մյուս էթնիկ խմբերը: Այժմ, երբ հիվանդը դժգոհում է որոշակի հիվանդությունից, բժիշկները հաշվի են առնում նրա ցեղի ներկայացուցիչների տվյալները, ովքեր բողոքել են նույն խնդրից: Տվյալների հավաքումը և վերլուծությունը թույլ են տալիս շատ ավելին իմանալ հիվանդների մասին ՝ սննդի նախասիրություններից և ապրելակերպից մինչև ԴՆԹ -ի գենետիկական կառուցվածքը և բջիջների, հյուսվածքների, օրգանների մետաբոլիտների կառուցվածքը: Օրինակ, Կանզաս Սիթիի Մանկական գենոմիկական բժշկության կենտրոնը օգտագործում է հիվանդներին և վերլուծում քաղցկեղ առաջացնող գենետիկական կոդի մուտացիաների առկայությունը: Յուրաքանչյուր հիվանդի նկատմամբ անհատական մոտեցումը, հաշվի առնելով նրա ԴՆԹ -ն, բուժման արդյունավետությունը կբարձրացնի որակապես նոր մակարդակի:

Հասկանալը, թե ինչպես են օգտագործվում Big Data- ն, բժշկական ոլորտում առաջին և ամենակարևոր փոփոխությունն է: Երբ հիվանդը բուժում է անցնում, հիվանդանոցը կամ առողջապահական այլ հաստատություն կարող են շատ իմաստալից տեղեկություններ ստանալ անձի մասին: Հավաքված տեղեկատվությունը օգտագործվում է որոշակի ճշգրտությամբ հիվանդության կրկնությունը կանխատեսելու համար: Օրինակ, եթե հիվանդը կաթված է ստացել, բժիշկները ուսումնասիրում են ուղեղային անոթների վթարի ժամանակի տվյալները, վերլուծում են նախորդ նախադեպերի միջև միջակայքը (եթե այդպիսիք կան) ՝ հատուկ ուշադրություն դարձնելով սթրեսային իրավիճակներին և ծանր ֆիզիկական ակտիվությանը հիվանդի կյանքում: Այս տվյալների հիման վրա հիվանդանոցները հիվանդին տալիս են գործողությունների հստակ ծրագիր `հետագայում ինսուլտի հավանականությունը կանխելու համար:

Հագանելի սարքերը նույնպես դեր են խաղում առողջական խնդիրների բացահայտման հարցում, նույնիսկ եթե անձը չունի որոշակի հիվանդության ակնհայտ ախտանիշներ: Երկար հետազոտությունների ընթացքում հիվանդի վիճակը գնահատելու փոխարեն, բժիշկը կարող է եզրակացություններ անել `հիմնվելով ֆիտնես թրեքերի կամ խելացի ժամացույցի հավաքած տեղեկատվության վրա:

Վերջին օրինակներից մեկն է. Մինչ հիվանդը հետազոտվում էր նոր առգրավման համար դեղորայքի բացակայության պատճառով, բժիշկները պարզեցին, որ տղամարդը շատ ավելի լուրջ առողջական խնդիր ունի: Պարզվեց, որ այս խնդիրը նախասրտերի ֆիբրիլյացիա է: Ախտորոշումը դրվել է այն բանի շնորհիվ, որ բաժանմունքի անձնակազմին հասանելի է եղել հիվանդի հեռախոսը, այն է ՝ այն ֆիթնես -հետագծիչի հետ զուգակցված հավելվածը: Դիմումից ստացված տվյալները ախտորոշման որոշման առանցքային գործոն են դարձել, քանի որ հետազոտության պահին տղամարդը սրտի անոմալիաներ չի ունեցել:

Սա միայն այն սակավաթիվ դեպքերից է, որը ցույց է տալիս ինչու օգտագործել մեծ տվյալներըայսօր բժշկական ոլորտում այդպիսի նշանակալի դեր է խաղում:

4 Տվյալների վերլուծությունն արդեն դարձել է մանրածախ առևտրի հիմքը

Օգտվողի հարցումների և թիրախավորման ըմբռնումը Մեծ տվյալների գործիքների կիրառման ամենամեծ և ամենատարածված ոլորտներից մեկն է: Big Data- ն օգնում է վերլուծել հաճախորդների սովորությունները `հետագայում սպառողների կարիքներն ավելի լավ հասկանալու համար: Ընկերությունները ձգտում են ընդլայնել ավանդական տվյալների հավաքածուն սոցիալական լրատվամիջոցներով և դիտարկիչների որոնման պատմությամբ `հաճախորդների հնարավորինս լիարժեք պատկեր ստեղծելու համար: Երբեմն խոշոր կազմակերպությունները որպես գլոբալ նպատակ ընտրում են ստեղծել իրենց կանխատեսող մոդելը:

Օրինակ, Target ցանցի խանութներին տվյալների խորը վերլուծության և իրենց կանխատեսումների համակարգի օգնությամբ հաջողվում է բարձր ճշգրտությամբ որոշել. Յուրաքանչյուր հաճախորդին տրվում է ID, որն իր հերթին կապված է վարկային քարտի, անվան կամ էլ. Նույնացուցիչը ծառայում է որպես զամբյուղի տեսակ, որտեղ տեղեկատվությունը պահվում է այն ամենի մասին, ինչ երբևէ անձը գնել է: Networkանցի մասնագետները պարզել են, որ դիրքում գտնվող կանայք ակտիվորեն ձեռք են բերում ոչ բուրավետ ապրանքներ հղիության երկրորդ եռամսյակից առաջ, և առաջին 20 շաբաթվա ընթացքում նրանք հենվում են կալցիումի, ցինկի և մագնեզիումի հավելումների վրա: Ստացված տվյալների հիման վրա Target- ը հաճախորդներին է ուղարկում մանկական ապրանքների կտրոններ: Երեխաների համար ապրանքների նույն զեղչերը «նոսրացվում են» այլ ապրանքների կտրոններով, այնպես որ օրորոց կամ տակդիր գնելու առաջարկները չափազանց աներես տեսք չունեն:

Նույնիսկ պետական գերատեսչությունները գտել են Big Data- ի տեխնոլոգիաներն ընտրական քարոզարշավներն օպտիմալացնելու համար: Ոմանք կարծում են, որ Բարաք Օբամայի հաղթանակն է 2012 թ. ԱՄՆ նախագահական ընտրությունների պայմանավորված էր գերազանց աշխատանքի իր թիմի վերլուծաբանների, որոնք մշակված հսկայական քանակությամբ տվյալների ճիշտ ճանապարհով:

5 Օրենքի և կարգուկանոնի պահպանման վերաբերյալ մեծ տվյալներ

Վերջին մի քանի տարիների ընթացքում իրավապահ մարմինները պարզել են, թե ինչպես և երբ օգտագործել Մեծ տվյալները: Բոլորին հայտնի է, որ Ազգային անվտանգության գործակալությունը օգտագործում է Big Data տեխնոլոգիան `ահաբեկչական հարձակումները կանխելու համար: Այլ գերատեսչություններ օգտագործում են առաջադեմ մեթոդաբանություն ՝ փոքր հանցագործությունները կանխելու համար:

Դիմում է Լոս Անջելեսի ոստիկանության բաժինը: Նա ներգրավված է այն բանում, որը սովորաբար կոչվում է նախաձեռնող իրավապահ մարմիններ: Օգտագործելով հանցագործության մասին հաշվետվությունները որոշակի ժամանակահատվածի համար, ալգորիթմը սահմանում է այն ոլորտները, որտեղ հանցագործություններ կատարելու հավանականությունը ամենամեծն է: Համակարգը քաղաքի քարտեզի վրա նման տարածքներ է նշում կարմիր փոքր հրապարակներով, և այդ տվյալները անմիջապես փոխանցվում են պարեկային մեքենաներին:

Ոստիկաններ Չիկագո օգտագործել Big Data տեխնոլոգիաներըմի փոքր այլ կերպ: Քամիների քաղաքի իրավապահ մարմիններն ունեն նույնը, սակայն այն նպատակ ունի սահմանել այն մարդկանց «ռիսկի շրջանակը», ովքեր կարող են լինել զինված հարձակման զոհը կամ մասնակիցը: Ինչպես գրում է The New York Times- ը, այս ալգորիթմը վերագրում է անապահովության գնահատականը մի անձի վրա իր քրեական պատմությունը (ձերբակալությունների եւ մասնակցության կրակոցների պատկանող հանցավոր խմբերի): Ծրագրավորողը համակարգի հավաստիացնում է, որ մինչ այդ համակարգի ուսումնասիրությունների քրեական պատմությունը անհատի, դա չի հաշվի առնվեն երկրորդական գործոններ, ինչպիսիք են ռասայից, սեռից, ազգությունից եւ գտնվելու վայրը անձի.

6 Ինչպես են մեծ տվյալների տեխնոլոգիաներն օգնում քաղաքներին զարգանալ

Veniam- ի գործադիր տնօրեն ãոա Բարոսը ցուցադրում է Պորտուի ավտոբուսներում Wi-Fi երթուղիչներին հետևելու քարտեզը

Տվյալների վերլուծությունը օգտագործվում է նաև քաղաքների և երկրների գործունեության մի շարք ասպեկտների բարելավման համար: Օրինակ, հստակ իմանալով, թե ինչպես և երբ օգտագործել Big Data տեխնոլոգիաները, կարող եք օպտիմալացնել տրանսպորտային հոսքերը: Դրա համար հաշվի են առնվում տրանսպորտային միջոցների առցանց տեղաշարժը, վերլուծվում են սոցիալական մեդիան և օդերևութաբանական տվյալները: Այսօր մի շարք քաղաքներ ձեռնամուխ են եղել տվյալների վերլուծության օգտագործմանը `տրանսպորտային ենթակառուցվածքը այլ տեսակի կոմունալ ծառայությունների հետ համահունչ ամբողջության մեջ ինտեգրելու համար: Դա խելացի քաղաքի հայեցակարգ է, որի համաձայն ավտոբուսները սպասում են ուշ գնացքի, իսկ լուսացույցները կարողանում են կանխատեսել երթևեկի խցանումները, որպեսզի նվազեցնեն գերբնակվածությունը:

Long Beach- ն օգտագործում է Big Data տեխնոլոգիաները `խելացի ջրաչափեր գործարկելու համար, որոնք օգտագործվում են ապօրինի ոռոգումը զսպելու համար: Նախկինում դրանք օգտագործվում էին մասնավոր տնային տնտեսությունների կողմից ջրի սպառումը նվազեցնելու համար (առավելագույն արդյունքը 80%կրճատումն է): Քաղցր ջուր խնայելը միշտ արդիական խնդիր է: Հատկապես երբ մի պետություն ապրում է երբևէ գրանցված ամենավատ երաշտը:

Մեծ տվյալներ օգտագործողների ցանկին միացել են Լոս Անջելեսի տրանսպորտի դեպարտամենտի ներկայացուցիչները: Theանապարհային տեսախցիկների սենսորներից ստացված տվյալների հիման վրա իշխանությունները վերահսկում են լուսացույցների աշխատանքը, ինչն իր հերթին թույլ է տալիս կարգավորել երթևեկությունը: Համակարգչային համակարգի հսկողության ներքո ամբողջ քաղաքում կա մոտ 4,500,000 լուսացույց: Ըստ պաշտոնական տվյալների, նոր ալգորիթմը նպաստեց գերբեռնվածության նվազմանը 16%-ով:

7 Շուկայավարման և վաճառքի առաջընթացի շարժիչը

Շուկայավարման ոլորտում Big Data- ի գործիքները հնարավորություն են տալիս որոշել, թե որ գաղափարներն են առավել արդյունավետ վաճառքի ցիկլի որոշակի փուլում: Տվյալների վերլուծությունը որոշում է, թե ինչպես կարող են ներդրումները բարելավել հաճախորդների հետ հարաբերությունների կառավարումը, ինչ ռազմավարություն օգտագործել փոխակերպման տոկոսադրույքները բարձրացնելու համար և ինչպես օպտիմալացնել հաճախորդների կյանքի ցիկլը: Ամպային բիզնեսում Big Data- ի ալգորիթմները օգտագործվում են պարզելու համար, թե ինչպես կարելի է նվազագույնի հասցնել հաճախորդների ձեռքբերման ծախսերը և բարձրացնել հաճախորդների կյանքի ցիկլը:

Գնային ռազմավարությունների տարբերակումը `կախված հաճախորդի ներհամակարգային մակարդակից, թերևս այն հիմնականն է, որի համար Big Data- ն օգտագործվում է շուկայավարման ոլորտում: McKinsey- ն պարզել է, որ միջին ընկերության եկամտի մոտ 75% -ը գալիս է հիմնական ապրանքներից, որոնց 30% -ը սխալ գներով են: Գնի 1% աճը վերածվում է գործառնական շահույթի 8.7% աճի:

Forrester- ի հետազոտական խումբը որոշեց, որ տվյալների վերլուծությունը թույլ է տալիս շուկայավարներին կենտրոնանալ հաճախորդների հետ հարաբերությունների բարելավման վրա: Ուսումնասիրելով հաճախորդների զարգացման ուղղությունը ՝ մասնագետները կարող են գնահատել նրանց հավատարմության մակարդակը, ինչպես նաև երկարացնել կյանքի ցիկլը որոշակի ընկերության համատեքստում:

Վաճառքի ռազմավարությունների օպտիմիզացումը և աշխարհաքաղաքական վերլուծությունների միջոցով նոր շուկաներ մուտք գործելու քայլերն արտացոլված են կենսագործունեության ոլորտում: Ըստ McKinsey- ի, դեղագործական ընկերությունները իրենց շահույթի միջինը 20-30% -ը ծախսում են կառավարման և վաճառքի վրա: Եթե բիզնեսը սկսի ավելի ակտիվանալ օգտագործել մեծ տվյալներըառավել եկամտաբեր և ամենաարագ աճող շուկաները բացահայտելու համար ծախսերն անմիջապես կկրճատվեն:

Տվյալների վերլուծությունը միջոց է ընկերությունների համար `իրենց բիզնեսի հիմնական ասպեկտներին լիարժեք պատկերացում կազմելու համար: Եկամուտների ավելացումը, ծախսերի իջեցումը և շրջանառու միջոցների կրճատումը երեք մարտահրավեր են, որոնք ժամանակակից բիզնեսը փորձում է լուծել վերլուծական գործիքներով:

Ի վերջո, CMO- ների 58% -ը պնդում է, որ Big Data տեխնոլոգիաների ներդրումը կարելի է գտնել որոնման համակարգի օպտիմալացման (SEO), էլ. Եվ միայն 4% -ով ավելի քիչ հարցվողներ են վստահ, որ Big Data- ը նշանակալի դեր կխաղա շուկայավարման բոլոր ռազմավարությունների մեջ երկար տարիներ:

8 Մոլորակային մասշտաբով տվյալների վերլուծություն

Ոչ պակաս հետաքրքրասեր է: Հնարավոր է, որ մեքենայական ուսուցումը, ի վերջո, լինի միակ ուժը, որն ընդունակ է պահպանել նուրբ հավասարակշռությունը: Գլոբալ տաքացման վրա մարդու ազդեցության թեման դեռ շատ հակասությունների առարկա է, ուստի միայն մեծ քանակությամբ տվյալների վերլուծության վրա հիմնված հուսալի կանխատեսող մոդելները կարող են ճշգրիտ պատասխան տալ: Ի վերջո, արտանետումների նվազեցումը կօգնի մեզ բոլորիս ՝ մենք ավելի քիչ էներգիա կծախսենք:

Այժմ Big Data- ը վերացական հասկացություն չէ, որը կարող է իր կիրառությունը գտնել մի քանի տարի անց: Սա միանգամայն աշխատող տեխնոլոգիաների հավաքածու է, որը կարող է օգտակար լինել մարդկային գործունեության գրեթե բոլոր ոլորտներում ՝ բժշկությունից և իրավապահ մարմիններից մինչև մարքեթինգ և վաճառք: Մեր տվյալների առօրյայում Big Data- ի ակտիվ ինտեգրման փուլը նոր է սկսվել, և ո՞վ գիտի, թե ինչ դեր կունենա Big Data- ը մի քանի տարի անց:

Մեծ տվյալները լայն տերմին են ոչ սովորական ռազմավարությունների և տեխնոլոգիաների համար, որոնք անհրաժեշտ են մեծ տվյալների հավաքածուներից տեղեկատվություն հավաքելու, կազմակերպելու և մշակելու համար: Թեև տվյալների հետ աշխատելու խնդիրը, որը գերազանցում է մեկ համակարգչի մշակման հզորությունը կամ պահեստային հզորությունը, նոր չէ, վերջին տարիներին այս տեսակի հաշվարկների մասշտաբներն ու արժեքը զգալիորեն ընդլայնվել են:

Այս հոդվածում դուք կգտնեք հիմնական հասկացությունները, որոնց կարող եք հանդիպել մեծ տվյալներ ուսումնասիրելիս: Այն նաև քննարկում է որոշ գործընթացներ և տեխնոլոգիաներ, որոնք ներկայումս օգտագործվում են այս ոլորտում:

Ի՞նչ է մեծ տվյալները:

Մեծ տվյալների ճշգրիտ սահմանումը դժվար է ձևակերպել, քանի որ նախագծերը, վաճառողները, պրակտիկանտները և բիզնեսի մասնագետները այն օգտագործում են շատ տարբեր ձևերով: Հաշվի առնելով սա ՝ մեծ տվյալները կարող են սահմանվել հետևյալ կերպ.

Խոշոր տվյալների հավաքածուներ:
Հաշվարկային ռազմավարությունների և տեխնոլոգիաների կատեգորիա, որոնք օգտագործվում են մեծ տվյալների հավաքածուների մշակման համար:

Այս համատեքստում «մեծ տվյալների հավաքածու» նշանակում է տվյալների հավաքածու, որը չափազանց մեծ է մշակման կամ պահպանման համար ավանդական գործիքների կամ մեկ համակարգչի վրա: Սա նշանակում է, որ տվյալների հավաքածուի ընդհանուր մասշտաբը մշտապես փոխվում է և կարող է զգալիորեն տարբերվել դեպքից դեպք:

Մեծ տվյալների համակարգեր

Մեծ տվյալների հետ աշխատելու հիմնական պահանջները նույնն են, ինչ ցանկացած այլ տվյալների հավաքածուի համար: Այնուամենայնիվ, տվյալների զանգվածային մասշտաբը, մշակման արագությունը և բնութագրերը, որոնք հանդիպում են գործընթացի յուրաքանչյուր փուլում, ներկայացնում են գործիքների նախագծման հիմնական նոր մարտահրավերները: Մեծ տվյալների համակարգերի մեծամասնության նպատակն է հասկանալ և հաղորդակցվել մեծ քանակությամբ տարասեռ տվյալների հետ, ինչը հնարավոր չէր լինի սովորական մեթոդներով:

2001 թվականին Գարտների Դագ Լեյնին ներկայացրեց «Մեծ տվյալների երեք V» ՝ նկարագրելու որոշ առանձնահատկություններ, որոնք տարբերակում են Մեծ տվյալների մշակումը տվյալների մշակման այլ տեսակներից.

Volավալը (տվյալների ծավալը):
Արագություն (տվյալների կուտակման և մշակման արագություն):
Բազմազանություն (մշակված տվյալների տեսակների բազմազանություն):

Տվյալների ծավալը

Մշակված տեղեկատվության մեծ մասշտաբը օգնում է սահմանել մեծ տվյալների համակարգեր: Այս տվյալների հավաքածուները կարող են լինել ավանդական տվյալների հավաքածուներից ավելի մեծության կարգեր, որոնք պահանջում են ավելի մեծ ուշադրություն մշակման և պահպանման յուրաքանչյուր փուլում:

Քանի որ պահանջները գերազանցում են մեկ համակարգչի հնարավորությունները, հաճախ դժվար է համակարգչային խմբերից ռեսուրսների համատեղումը, բաշխումը և համակարգումը: Կլաստերի վերահսկողությունը և ալգորիթմները, որոնք ունակ են առաջադրանքներն ավելի փոքր կտորների բաժանել, դառնում են ավելի կարևոր այս ոլորտում:

Կուտակման և մշակման արագություն

Երկրորդ բնութագիրը, որը զգալիորեն առանձնացնում է մեծ տվյալները այլ տվյալների համակարգերից, այն արագությունն է, որով տեղեկատվությունը շարժվում է համակարգով: Տվյալները հաճախ գալիս են համակարգ բազմաթիվ աղբյուրներից և պետք է մշակվեն իրական ժամանակում `համակարգի ներկա վիճակը թարմացնելու համար:

Սա կենտրոնանում է ակնթարթի վրա հետադարձ կապստիպել է շատ պրակտիկ մասնագետների հրաժարվել խմբաքանակի վրա հիմնված մոտեցումից և ընտրել իրական ժամանակի հոսքային համակարգ: Տվյալները մշտապես ավելանում, մշակվում և վերլուծվում են ՝ նոր տեղեկատվության ներհոսքին համընթաց քայլելու և արժեքավոր տվյալներ ստանալու վաղ փուլում, երբ դրանք առավել արդիական են: Սա պահանջում է բարձր հասանելի բաղադրիչներով հուսալի համակարգեր `տվյալների խողովակաշարի երկայնքով խափանումներից պաշտպանվելու համար:

Մշակված տվյալների տեսակների բազմազանություն

Մեծ տվյալների մեջ կան բազմաթիվ եզակի մարտահրավերներ ՝ կապված վերամշակված աղբյուրների լայն շրջանակի և դրանց հարաբերական որակի հետ:

Տվյալները կարող են գալ ներքին համակարգերից, ինչպիսիք են ծրագրերի և սերվերների տեղեկամատյանները, սոցիալական մեդիայի ալիքներից և այլ արտաքին API- ներից, տվիչներից ֆիզիկական սարքերև այլ աղբյուրներից: Մեծ տվյալների համակարգերի նպատակը պոտենցիալ օգտակար տվյալների մշակումն է ՝ անկախ ծագումից, ամբողջ տեղեկատվությունը մեկ համակարգի մեջ համադրելով:

Լրատվամիջոցների ձևաչափերն ու տեսակները նույնպես կարող են զգալիորեն տարբերվել: MediaԼՄ -ները (պատկերներ, տեսանյութեր և աուդիո) համակցված են տեքստային ֆայլերի, կառուցվածքային տեղեկամատյանների և այլնի հետ: Տվյալների մշակման ավելի ավանդական համակարգերը ակնկալում են, որ տվյալները կմտնեն արդեն պիտակավորված, ձևաչափված և կազմակերպված խողովակաշար, սակայն մեծ տվյալների համակարգերը սովորաբար ընդունում և պահում են տվյալները: փորձելով պահպանել իրենց սկզբնական վիճակը: Իդեալում, հում տվյալների ցանկացած փոփոխություն կամ փոփոխություն տեղի կունենա հիշողության մեջ `մշակման ընթացքում:

Այլ բնութագրեր

Timeամանակի ընթացքում փորձագետներն ու կազմակերպությունները առաջարկել են ընդլայնել երեք V- ի բնօրինակը, չնայած այս նորամուծությունները հակված են նկարագրել խնդիրները, այլ ոչ թե մեծ տվյալների բնութագրերը:

Racշմարտություն. Աղբյուրների բազմազանությունը և մշակման բարդությունը կարող են հանգեցնել տվյալների որակի գնահատման խնդիրների (և, հետևաբար, ստացված վերլուծության որակի):
Փոփոխականություն. Տվյալների փոփոխությունը հանգեցնում է որակի լայն փոփոխությունների: Անորակ տվյալների հայտնաբերումը, մշակումը կամ զտումը կարող է պահանջել լրացուցիչ ռեսուրսներ, որոնք կարող են բարելավել տվյալների որակը:
Արժեք. Մեծ տվյալների վերջնական նպատակը արժեքն է: Երբեմն համակարգերն ու գործընթացները շատ բարդ են, ինչը դժվարացնում է տվյալների օգտագործումը և իրական արժեքների արդյունահանումը:

Մեծ տվյալների կյանքի ցիկլ

Այսպիսով, ինչպե՞ս է իրականում մշակվում մեծ տվյալները: Իրականացման մի քանի տարբեր մոտեցումներ կան, բայց ռազմավարությունների և ծրագրային ապահովման մեջ կան նմանություններ:

Տվյալների մուտքագրում համակարգ
Տվյալների պահպանում պահեստում
Տվյալների հաշվարկ և վերլուծություն
Արդյունքների պատկերացում

Նախքան աշխատանքային չորս հոսքերի այս չորս կատեգորիաներին մանրամասն անդրադառնալը, եկեք խոսենք կլաստերային հաշվարկների մասին, կարևոր ռազմավարություն, որն օգտագործվում է բազմաթիվ մեծ տվյալների գործիքների կողմից: Հաշվարկային կլաստերի ստեղծումը կյանքի ցիկլի յուրաքանչյուր փուլում կիրառվող տեխնոլոգիայի հիմքն է:

Կլաստերային հաշվարկ

Մեծ տվյալների որակի պատճառով անհատական համակարգիչները պիտանի չեն տվյալների մշակման համար: Կլաստերներն ավելի հարմար են դրա համար, քանի որ կարող են հաղթահարել մեծ տվյալների պահպանման և հաշվարկման կարիքները:

Մեծ տվյալների խմբավորման ծրագրակազմը միավորում է բազմաթիվ փոքր մեքենաների ռեսուրսները ՝ նպատակ ունենալով ապահովել մի շարք առավելություններ.

Համախմբման ռեսուրսներ. Տվյալների մեծ հավաքածուների մշակումը պահանջում է մեծ քանակությամբ պրոցեսոր և հիշողության ռեսուրսներ, ինչպես նաև շատ մատչելի պահեստային տարածք:
Բարձր մատչելիություն. Կլաստերները կարող են ապահովել տարբեր մակարդակների սխալների հանդուրժողականություն և մատչելիություն, որպեսզի ապարատային կամ ծրագրային ապահովման խափանումները չազդեն տվյալների հասանելիության և մշակման վրա: Սա հատկապես կարևոր է իրական ժամանակի վերլուծությունների համար:
Մատչելիություն. Կլաստերներն աջակցում են արագ հեռացման (կլաստերին նոր մեքենաների ավելացում):

Կլաստերում աշխատելը պահանջում է կլաստերի անդամության կառավարման, ռեսուրսների բաշխման համակարգման և առանձին հանգույցների հետ աշխատանքի պլանավորման գործիքներ: Կլաստերի անդամակցությունը և ռեսուրսների բաշխումը կարող են իրականացվել ՝ օգտագործելով այնպիսի ծրագրեր, ինչպիսիք են Hadoop YARN- ը (ևս մեկ ռեսուրսների բանակցող) կամ Apache Mesos- ը:

Հավաքված հավաքովի կլաստերը հաճախ գործում է որպես հիմք, որի հետ մեկ ուրիշը փոխազդում է տվյալների մշակման համար: ծրագրային ապահովում... Հաշվարկային կլաստերին մասնակցող մեքենաները նույնպես սովորաբար կապված են բաշխված պահեստավորման համակարգի կառավարման հետ:

Տվյալների ստացում

Տվյալների ստացումը համակարգում հումքի տվյալների ավելացման գործընթաց է: Այս գործողության բարդությունը մեծապես կախված է տվյալների աղբյուրների ձևից և որակից և այն բանից, թե որքանով են տվյալները բավարարում մշակման պահանջներին:

Դուք կարող եք մեծ տվյալներ ավելացնել համակարգին ՝ օգտագործելով հատուկ գործիքներ: Apache Sqoop- ի նման տեխնոլոգիաները կարող են վերցնել գոյություն ունեցող տվյալները հարաբերական տվյալների շտեմարաններից և ավելացնել դրանք մեծ տվյալների համակարգին: Կարող եք նաև օգտագործել Apache Flume և Apache Chukwa ՝ ծրագրեր, որոնք նախատեսված են ծրագրերի և սերվերների տեղեկամատյանների համախմբման և ներմուծման համար: Հաղորդագրության բրոքերները, ինչպիսիք են Apache Kafka- ն, կարող են օգտագործվել որպես տարբեր տվյալների գեներատորների և մեծ տվյալների համակարգի միջերես: Գոբբլինի նման շրջանակները կարող են համատեղել և օպտիմալացնել խողովակաշարի վերջում բոլոր գործիքների ելքը:

Վերլուծությունը, տեսակավորումը և պիտակավորումը սովորաբար կատարվում է տվյալների հավաքագրման ընթացքում: Այս գործընթացը երբեմն կոչվում է ETL (քաղվածք, փոխակերպում, բեռ), ինչը նշանակում է քաղվածք, փոխակերպում և բեռ: Թեև տերմինը սովորաբար վերաբերում է ավանդական պահպանման գործընթացներին, այն երբեմն կիրառվում է նաև մեծ տվյալների համակարգերի նկատմամբ: Տիպիկ գործողությունները ներառում են մուտքային տվյալների ձևափոխում, դասակարգում և պիտակավորում, զտում կամ վավերացում `համապատասխանության համար:

Իդեալում, մուտքային տվյալները անցնում են նվազագույն ձևաչափման:

Տվյալների պահպանում

Ստանալուց հետո տվյալները փոխանցվում են խանութը կառավարող բաղադրիչներին:

Բաշխված ֆայլային համակարգերը սովորաբար օգտագործվում են չմշակված տվյալները պահելու համար: Նման լուծումները, ինչպիսիք են HDFS- ը Apache Hadoop- ից, թույլ են տալիս մեծ քանակությամբ տվյալներ գրել մի քանի հանգույցներում ՝ կլաստերի մեջ: Այս համակարգը տրամադրում է հաշվողական ռեսուրսներ ՝ տվյալների հասանելիություն, կարող է տվյալները բեռնել կլաստերի RAM- ի մեջ ՝ հիշողության գործառնությունների համար և կարգավորել բաղադրիչի խափանումները: HDFS- ի փոխարեն կարող են օգտագործվել այլ բաշխված ֆայլային համակարգեր, ներառյալ Ceph և GlusterFS:

Տվյալները կարող են ներմուծվել նաև այլ բաշխված համակարգեր `ավելի կառուցվածքային հասանելիության համար: Բաշխված տվյալների բազաները, հատկապես NoSQL տվյալների բազաները, լավ են համապատասխանում այս դերին, քանի որ դրանք կարող են մշակել տարասեռ տվյալներ: Կան բազմաթիվ տարբեր տեսակի բաշխված շտեմարաններ, ընտրությունը կախված է նրանից, թե ինչպես եք ցանկանում կազմակերպել և ներկայացնել ձեր տվյալները:

Տվյալների հաշվարկ և վերլուծություն

Տվյալների հասանելի լինելուց հետո համակարգը կարող է սկսել մշակումը: Հաշվարկային շերտը թերևս համակարգի ամենաազատ մասն է, քանի որ այստեղ պահանջներն ու մոտեցումները կարող են էապես տարբերվել `կախված տեղեկատվության տեսակից: Տվյալները հաճախ վերամշակվում են կամ մեկ գործիքով, կամ տարբեր տեսակի տվյալների մշակման մի շարք գործիքներով:

Խմբաքանակի մշակումը տվյալների հավաքածուների հաշվարկման մեկ մեթոդ է: Այս գործընթացը ներառում է տվյալները փոքր կտորների բաժանել, յուրաքանչյուր կտորի մշակումը պլանավորել առանձին մեքենայի վրա, տվյալների վերադասավորում միջանկյալ արդյունքներև վերջնական արդյունքի հաշվարկ և հավաքում: Այս ռազմավարությունը օգտագործվում է MapReduce- ի կողմից Apache Hadoop- ից: Խմբաքանակի մշակումը առավել օգտակար է, երբ աշխատում են շատ մեծ տվյալների հավաքածուների հետ, որոնք պահանջում են մեծ հաշվարկ:

Այլ ծանրաբեռնվածություններ պահանջում են իրական ժամանակի մշակում: Այս դեպքում տեղեկատվությունը պետք է անմիջապես մշակվի և պատրաստվի, և համակարգը պետք է ժամանակին արձագանքի, քանի որ նոր տեղեկատվությունը հասանելի է դառնում: Իրական ժամանակի մշակում իրականացնելու եղանակներից մեկը տվյալների շարունակական հոսքի մշակումն է, որը բաղկացած է առանձին տարրեր... Իրական ժամանակի պրոցեսորների մեկ այլ ընդհանուր բնութագիրն է տվյալների հաշվարկը կլաստերային հիշողության մեջ, ինչը խուսափում է սկավառակի վրա գրելու անհրաժեշտությունից:

Apache Storm, Apache Flink և Apache Spark առաջարկը տարբեր ճանապարհներիրական ժամանակի մշակման իրականացում: Այս ճկուն տեխնոլոգիաները թույլ են տալիս ընտրել յուրաքանչյուրի համար լավագույն մոտեցումը առանձին խնդիր... Ընդհանուր առմամբ, իրական ժամանակի մշակումը լավագույնս համապատասխանում է համակարգում փոփոխվող կամ արագ ավելացված տվյալների փոքր մասերի վերլուծությանը:

Այս բոլոր ծրագրերը շրջանակներ են: Այնուամենայնիվ, կան բազմաթիվ այլ եղանակներ ՝ տվյալների մեծ համակարգում տվյալները հաշվարկելու կամ վերլուծելու համար: Այս գործիքները հաճախ միանում են վերը նշված շրջանակներին և լրացուցիչ միջերեսներ ապահովում հիմքում ընկած շերտերի հետ փոխգործակցության համար: Օրինակ ՝ Apache Hive- ը տրամադրում է տվյալների պահեստի միջերես Hadoop- ի համար, Apache Pig- ը տրամադրում է հարցման միջերես և փոխազդեցություն SQL տվյալներապահովված է Apache Drill- ով, Apache Impala- ով, Apache Spark SQL- ով և Presto- ով: Մեքենայական ուսուցումն օգտագործում է Apache SystemML, Apache Mahout և MLlib Apache Spark- ից: Ուղղակի վերլուծական ծրագրավորման համար, որը լայնորեն աջակցում է տվյալների էկոհամակարգը, օգտագործվում են R և Python:

Արդյունքների պատկերացում

Trendsամանակի ընթացքում տվյալների միտումների կամ փոփոխությունների ճանաչումը հաճախ ավելի կարևոր է, քան ստացված արժեքները: Տվյալների արտացոլումը միտումները բացահայտելու և մեծ թվով տվյալների միավորներ կազմակերպելու ամենաօգտակար միջոցներից մեկն է:

Իրական ժամանակի մշակումն օգտագործվում է դիմումի և սերվերի չափանիշների պատկերացման համար: Տվյալները հաճախ փոխվում են, և չափումների մեծ տարածումը սովորաբար ցույց է տալիս համակարգերի կամ կազմակերպությունների առողջության վրա էական ազդեցություն: Պրոմեթևսի նման նախագծերը կարող են օգտագործվել տվյալների հոսքերի և ժամանակային շարքերի մշակման և պատկերացման համար:

Տվյալների արտացոլման հանրաճանաչ եղանակներից մեկը Elastic stack- ն է, որը նախկինում հայտնի էր որպես ELK stack: Logstash- ը օգտագործվում է տվյալների հավաքագրման համար, Elasticsearch- ը ՝ տվյալների ինդեքսավորման և Kibana- ն ՝ տեսողական տեսքի համար: Էլաստիկ կույտը կարող է աշխատել մեծ տվյալների հետ, պատկերացնել հաշվարկների արդյունքները կամ փոխազդել հում չափումների հետ: Նմանատիպ բուրգ կարելի է ձեռք բերել ՝ համատեղելով Apache Solr- ը ինդեքսավորման համար և Kibana- ի պատառաքաղը, որը կոչվում է Banana ՝ մատուցման համար: Այս կույտը կոչվում է Մետաքս:

Տվյալների ինտերակտիվ աշխատանքի արտացոլման մեկ այլ տեխնոլոգիա է փաստաթղթերը: Նման նախագծերը հնարավորություն են տալիս տվյալների ինտերակտիվ հետազոտություն և արտացոլում այն ձևաչափով, որը հեշտ է կիսել և ներկայացնել տվյալները: Այս տեսակի ինտերֆեյսի հայտնի օրինակներն են Jupyter Notebook- ը և Apache Zeppelin- ը:

Մեծ տվյալների բառարան

Մեծ տվյալները լայն տերմին են տվյալների հավաքածուների համար, որոնք չեն կարող ճիշտ մշակվել սովորական համակարգիչներկամ գործիքներ `դրանց ծավալների, մուտքի արագության և բազմազանության պատճառով: Տերմինը նաև սովորաբար կիրառվում է նման տվյալների հետ աշխատելու տեխնոլոգիաների և ռազմավարությունների նկատմամբ:
Խմբաքանակի մշակումը հաշվարկային ռազմավարություն է, որը ներառում է տվյալների մշակումը տվյալների մեծ հավաքածուներում: Սովորաբար այս մեթոդը իդեալական է ոչ հրատապ տվյալների հետ գործ ունենալու համար:
Կլաստերային հաշվողականությունը բազմաթիվ մեքենաների ռեսուրսների համախմբման և առաջադրանքների կատարման համար դրանց ընդհանուր կարողությունների կառավարման պրակտիկա է: Սա պահանջում է կլաստերի կառավարման շերտ, որը կարգավորում է առանձին հանգույցների միջև հաղորդակցությունը:
Տվյալների լիճը համեմատաբար հում վիճակում հավաքված տվյալների մեծ պահեստ է: Այս տերմինը հաճախ օգտագործվում է չկառուցված և հաճախ փոփոխվող մեծ տվյալների համար:
Տվյալների արդյունահանումը լայն տերմին է մեծ տվյալների հավաքածուներում օրինաչափություններ գտնելու տարբեր պրակտիկայի համար: Սա փորձ է տվյալների զանգվածը կազմակերպել ավելի հասկանալի և համահունչ տեղեկատվական փաթեթի մեջ:
Տվյալների պահեստը մեծ, պատվիրված պահեստ է `վերլուծության և հաշվետվությունների համար: Ի տարբերություն տվյալների լճի, պահեստը բաղկացած է ձևաչափված և լավ դասավորված տվյալներից, որոնք ինտեգրված են այլ աղբյուրների հետ: Տվյալների պահեստները հաճախ կոչվում են մեծ տվյալների հետ կապված, բայց դրանք հաճախ տվյալների մշակման սովորական համակարգերի բաղադրիչներն են:
ETL (արդյունահանում, փոխակերպում և բեռնում) - տվյալների արդյունահանում, փոխակերպում և բեռնում: Այսպես է թվում հում տվյալների օգտագործման և պատրաստման գործընթացը: Դա կապված է տվյալների պահեստների հետ, սակայն այս գործընթացի բնութագրերը նույնպես հայտնաբերված են մեծ տվյալների համակարգերի խողովակաշարերում:
Hadoop- ը բաց կոդով Apache նախագիծ է մեծ տվյալների համար: Այն բաղկացած է բաշխված ֆայլային համակարգից, որը կոչվում է HDFS և կլաստեր և ռեսուրսների ժամանակացույց ՝ YARN անունով: Խմբաքանակի մշակման հնարավորությունները տրամադրվում են MapReduce հաշվիչ շարժիչով: Հաշվարկային և վերլուծական այլ համակարգեր կարող են գործարկվել MapReduce- ի հետ Hadoop- ի ժամանակակից տեղադրումներում:
Հիշողության մեջ հաշվարկը ռազմավարություն է, որը ներառում է բոլոր աշխատանքային տվյալների հավաքածուների տեղափոխումը կլաստերային հիշողության մեջ: Միջանկյալ հաշվարկները չեն գրվում սկավառակի վրա, դրանք պահվում են հիշողության մեջ: Սա համակարգերին տալիս է արագության հսկայական առավելություն I / O- ի հետ կապված համակարգերի նկատմամբ:
Մեքենայական ուսուցումը համակարգերի նախագծման ուսումնասիրություն և պրակտիկա է, որոնք կարող են սովորել, փոփոխել և կատարելագործվել ՝ դրան փոխանցված տվյալների հիման վրա: Սովորաբար դա նշանակում է կանխատեսող և վիճակագրական ալգորիթմների կիրառում:
Քարտի կրճատումը (չպետք է շփոթել Hadoop- ի MapReduce- ի հետ) հաշվարկային կլաստերի պլանավորման ալգորիթմ է: Գործընթացը ներառում է առաջադրանքի բաժանումը հանգույցների միջև և միջանկյալ արդյունքների ստացումը, յուրաքանչյուր փաթեթի համար խառնելը, այնուհետև մեկ արժեքի դուրսբերումը:
NoSQL- ը ավանդական հարաբերական մոդելից դուրս մշակված տվյալների շտեմարանների լայն տերմին է: NoSQL տվյալների բազաները հարմար են մեծ տվյալների համար իրենց ճկունության և բաշխված ճարտարապետության շնորհիվ:
Հոսքը տվյալների առանձին տարրերի հաշվարկման պրակտիկա է, երբ դրանք շարժվում են համակարգով: Սա հնարավորություն է տալիս իրական ժամանակում տվյալների վերլուծություն կատարել և հարմար է արագ գործառնությունների միջոցով անհետաձգելի գործարքների իրականացման համար:

Պիտակներ ՝

Կանխատեսվում էր, որ 2011 թվականին ստեղծված և վերարտադրված տվյալների ընդհանուր գլոբալ ծավալը կարող է կազմել մոտ 1,8 զետաբայթ (1,8 տրիլիոն գիգաբայթ) ՝ մոտ 9 անգամ ավելի, քան այն ստեղծվել էր 2006 թվականին:

Ավելի բարդ սահմանում

Այնուամենայնիվ, ` մեծ տվյալներ«ներառում է ավելին, քան պարզապես հսկայական տեղեկատվության վերլուծություն: Խնդիրն այն չէ, որ կազմակերպությունները ստեղծում են հսկայական քանակությամբ տվյալներ, այլ այն, որ դրանց մեծ մասը ներկայացվում է այնպիսի ձևաչափով, որը լավ չի համապատասխանի ավանդական կառուցված տվյալների բազայի ձևաչափին, ինչպիսիք են վեբ բլոգերը, տեսանյութերը, տեքստային փաստաթղթերը, մեքենայի ծածկագիրը կամ, օրինակ, , երկրատարածական տվյալներ .... Այս ամենը պահվում է բազմաթիվ տարբեր պահոցներում, երբեմն նույնիսկ կազմակերպությունից դուրս: Արդյունքում, կորպորացիաները կարող են օգտվել իրենց տվյալների հսկայական քանակից և չունեն անհրաժեշտ գործիքներ `այդ տվյալների միջև հարաբերություններ հաստատելու և դրանից բովանդակալից հետևություններ անելու համար: Սրան գումարեք այն փաստը, որ տվյալները այժմ ավելի ու ավելի հաճախ են թարմացվում, և դուք ստանում եք մի իրավիճակ, երբ տեղեկատվության վերլուծության ավանդական մեթոդները չեն կարող համընկնել անընդհատ թարմացվող տվյալների հսկայական ծավալների հետ, ինչը, ի վերջո, ճանապարհ է բացում տեխնոլոգիայի համար: մեծ տվյալներ.

Լավագույն սահմանում

Ըստ էության, հայեցակարգը մեծ տվյալներենթադրում է հսկայական ծավալի և բազմազան կազմի տեղեկատվության հետ աշխատելը, որը շատ հաճախ թարմացվում և տեղադրվում է տարբեր աղբյուրներում `աշխատանքի արդյունավետությունը բարձրացնելու, նոր ապրանքներ ստեղծելու և մրցունակությունը բարձրացնելու նպատակով: Forrester խորհրդատվական ընկերությունն ամփոփում է Մեծ տվյալներհամատեղել տեխնիկան և տեխնոլոգիաները, որոնք իմաստավորում են տվյալները օգտագործման ծայրահեղ հնարավորության սահմաններում »:

Որքա՞ն է տարբերությունը բիզնեսի հետախուզության և խոշոր տվյալների միջև:

Քրեյգ Բեյթին, Fujitsu Australia- ի մարքեթինգի գծով գլխավոր տնօրեն և գլխավոր տնօրեն, նշեց, որ բիզնեսի վերլուծությունը նկարագրված գործընթաց է `որոշակի ժամանակահատվածում բիզնեսի կողմից ձեռք բերված արդյունքների վերլուծության, մշակման արագության դեպքում: մեծ տվյալներթույլ է տալիս վերլուծությունը դարձնել կանխատեսող, ընդունակ ՝ առաջարկելու բիզնեսի առաջարկություններ ապագայի համար: Մեծ տվյալները նաև թույլ են տալիս վերլուծել տվյալների ավելի շատ տեսակներ ՝ համեմատած բիզնեսի հետախուզության գործիքների հետ, ինչը հնարավորություն է տալիս կենտրոնանալ ոչ միայն կառուցվածքային պահեստավորման վրա:

O "Reilly Radar" - ի Matt Slocum- ը կարծում է, որ չնայած մեծ տվյալներև բիզնես հետախուզությունն ունեն նույն նպատակը (հարցի պատասխաններ գտնելը), դրանք միմյանցից տարբերվում են երեք առումներով:

Մեծ տվյալները նախատեսված են ավելի շատ տեղեկատվություն մշակելու համար, քան բիզնես հետախուզությունը, և դա, իհարկե, համահունչ է մեծ տվյալների ավանդական սահմանմանը:
Մեծ տվյալները նախատեսված են ստացված և ավելի արագ փոխվող տեղեկատվության մշակման համար, ինչը նշանակում է խորը հետախուզություն և ինտերակտիվություն: Որոշ դեպքերում արդյունքները գեներացվում են ավելի արագ, քան վեբ էջի բեռնումը:
Մեծ տվյալները նախատեսված են չկառուցված տվյալների մշակման համար, որոնց օգտագործման եղանակները մենք սկսում ենք սովորել միայն այն բանից հետո, երբ մենք կարողացել ենք հաստատել դրա հավաքագրումն ու պահեստավորումը, և մեզ անհրաժեշտ են ալգորիթմներ և երկխոսության հնարավորություն `հեշտացնելու դրանցում առկա միտումների որոնումը: զանգվածներ:

Oracle- ի կողմից հրապարակված Oracle Information Architecture: Architect's Guide to Big Data white paper- ի համաձայն, մենք մեծապես տվյալների հետ աշխատելիս այլ կերպ ենք մոտենում տեղեկատվությանը, քան բիզնեսի վերլուծություն կատարելիս:

Մեծ տվյալների հետ աշխատելը նման չէ գործարար հետախուզության սովորական գործընթացին, որտեղ հայտնի արժեքների պարզ հավելումը տալիս է արդյունք. Օրինակ, վճարված հաշիվ -ապրանքագրերի տվյալների գումարը դառնում է տարվա վաճառքի ծավալը: Մեծ տվյալների հետ աշխատելիս արդյունքը ձեռք է բերվում այն հաջորդական մոդելավորման միջոցով մաքրելու գործընթացում. Նախ, առաջ է քաշվում վարկած, կառուցվում է վիճակագրական, տեսողական կամ իմաստաբանական մոդել, որի հիման վրա դրված է առաջ վարկածը ստուգվում է, այնուհետև առաջադրվում է հաջորդը: Այս գործընթացը պահանջում է, որ հետազոտողը կամ մեկնաբանի տեսողական արժեքները կամ կազմի գիտելիքների վրա հիմնված ինտերակտիվ հարցումներ, կամ մշակի հարմարվողական մեքենայական ուսուցման ալգորիթմներ, որոնք ունակ են հասնել ցանկալի արդյունքի: Ավելին, նման ալգորիթմի կյանքը կարող է բավականին կարճ լինել:

Մեծ տվյալների վերլուծության տեխնիկա

Տվյալների հավաքածուի վերլուծության շատ տարբեր մեթոդներ կան, որոնք հիմնված են վիճակագրությունից և համակարգչային գիտությունից փոխառված գործիքների վրա (օրինակ ՝ մեքենայական ուսուցում): Theանկը չի պնդում, որ ամբողջական է, բայց այն արտացոլում է ամենատարածված մոտեցումները տարբեր ոլորտներում: Միևնույն ժամանակ, պետք է հասկանալ, որ հետազոտողները շարունակում են աշխատել նոր մեթոդների ստեղծման և եղածների կատարելագործման ուղղությամբ: Բացի այդ, վերը թվարկված որոշ տեխնիկա պարտադիր չէ, որ կիրառելի լինեն բացառապես մեծ տվյալների համար և հաջողությամբ կարող են օգտագործվել փոքր զանգվածների համար (օրինակ ՝ A / B թեստավորում, ռեգրեսիայի վերլուծություն): Իհարկե, որքան զանգվածային և բազմազան լինի զանգվածը, այնքան ավելի ճշգրիտ և համապատասխան տվյալներ կարելի է ստանալ ելքից:

A / B թեստավորում... Տեխնիկա, որի դեպքում հսկիչ նմուշը մեկ առ մեկ համեմատվում է մյուսների հետ: Այսպիսով, հնարավոր է բացահայտել ցուցանիշների օպտիմալ համադրությունը `հասնելու, օրինակ, շուկայավարման առաջարկին սպառողի լավագույն արձագանքին: Մեծ տվյալներթույլ է տալիս իրականացնել հսկայական թվով կրկնություններ և դրանով իսկ ստանալ վիճակագրորեն հուսալի արդյունք:

Ասոցիացիայի կանոնների ուսուցում... Հարաբերությունների նույնականացման մի շարք տեխնիկա, այսինքն. ասոցիացիայի կանոններ ՝ մեծ տվյալների հավաքածուի փոփոխականների միջև: Օգտագործվում է տվյալների արդյունահանում.

Դասակարգում... Տեխնիկայի շարք, որը թույլ է տալիս կանխատեսել սպառողի վարքագիծը շուկայի որոշակի հատվածում (որոշումներ կայացնել գնումների, արտահոսքի, սպառման և այլնի վերաբերյալ): Օգտագործվում է տվյալների արդյունահանում.

Կլաստերի վերլուծություն... Օբյեկտների խմբերի դասակարգման վիճակագրական մեթոդ ՝ նախկինում անհայտ ընդհանուր հատկանիշների բացահայտմամբ: Օգտագործվում է տվյալների արդյունահանում.

Քրաուդսորսինգ... Մեծ թվով աղբյուրներից տվյալների հավաքագրման մեթոդաբանություն:

Տվյալների միաձուլում և տվյալների ինտեգրում... Տեխնիկայի շարք, որը թույլ է տալիս վերլուծել սոցիալական ցանցերի օգտվողների մեկնաբանությունները և դրանք համեմատել իրական ժամանակում վաճառքի արդյունքների հետ:

Տվյալների արդյունահանում... Մեթոդների շարք, որը թույլ է տալիս որոշել սպառողների այն կատեգորիաները, որոնք առավել ընկալունակ են գովազդվող ապրանքի կամ ծառայության համար, բացահայտել առավել հաջողակ աշխատակիցների բնութագրերը և կանխատեսել սպառողների վարքագծային մոդելը:

Անսամբլի ուսուցում... Այս մեթոդը օգտագործում է կանխատեսման մի շարք մոդելներ ՝ դրանով իսկ բարելավելով կանխատեսումների որակը:

Գենետիկական ալգորիթմներ... Այս տեխնիկայում հնարավոր լուծումները ներկայացվում են «քրոմոսոմների» տեսքով, որոնք կարող են համակցվել և փոփոխվել: Ինչպես բնական էվոլյուցիայի գործընթացում, ամենաուժեղը գոյատևում է:

Մեքենայական ուսուցում... Ինֆորմատիկայի ուղղությունը (պատմականորեն դրան տրվել է «արհեստական բանականություն» անվանումը), որը նպատակ ունի էմպիրիկ տվյալների վերլուծության հիման վրա ստեղծել ինքնուսուցման ալգորիթմներ:

Բնական լեզվի մշակում (NLP): Համակարգչային գիտությունից և լեզվաբանությունից փոխառված մարդու բնական լեզուն ճանաչելու տեխնիկայի մի շարք:

Networkանցի վերլուծություն... Networksանցերում հանգույցների միջև կապերի վերլուծության մի շարք տեխնիկա: Կիրառված սոցիալական ցանցերում ՝ այն թույլ է տալիս վերլուծել առանձին օգտվողների, ընկերությունների, համայնքների և այլոց հարաբերությունները:

Օպտիմալացում... Բարդ համակարգերի և գործընթացների վերամշակման թվային մեթոդների շարք `մեկ կամ մի քանի ցուցանիշներ բարելավելու համար: Աջակցում է ռազմավարական որոշումների կայացմանը, օրինակ ՝ շուկայում ներկայացված ապրանքային շարքի կազմը, ներդրումների վերլուծության անցկացումը և այլն:

Կաղապարի ճանաչում... Սպառողների վարքագծի մոդելների կանխատեսման համար ինքնասովորող տարրերով տեխնիկայի հավաքածու:

Կանխատեսող մոդելավորում... Մի շարք տեխնիկա, որոնք թույլ են տալիս ստեղծագործել մաթեմատիկական մոդելիրադարձությունների զարգացման կանխորոշված հավանական սցենար: Օրինակ ՝ CRM համակարգի տվյալների շտեմարանի վերլուծությունը հնարավոր պայմանների համար, որոնք կդրդեն բաժանորդներին փոխել իրենց մատակարարը:

Հետընթաց... Կախված փոփոխականի փոփոխության և մեկ կամ մի քանի անկախ փոփոխականների միջև օրինաչափությունների նույնականացման վիճակագրական մեթոդների շարք: Այն հաճախ օգտագործվում է կանխատեսումների և կանխատեսումների համար: Օգտագործվում է տվյալների հանքարդյունաբերության մեջ:

Entգացմունքների վերլուծություն... Սպառողական տրամադրությունների գնահատման մեթոդները հիմնված են անձի բնական լեզուն ճանաչելու տեխնոլոգիաների վրա: Դրանք թույլ են տալիս մեկուսացնել հետաքրքրության առարկայի հետ կապված տեղեկատվության հոսքի ընդհանուր հաղորդագրություններից (օրինակ ՝ սպառողական ապրանք): Հաջորդը, գնահատեք դատողության բևեռականությունը (դրական կամ բացասական), հուզականության աստիճանը և այլն:

Ազդանշանի մշակում... Ռադիոտեխնիկայից փոխառված տեխնիկայի մի շարք, որը հետապնդում է աղմուկի ֆոնին ազդանշանի ճանաչման և դրա հետագա վերլուծության նպատակը:

Տարածական վերլուծություն... Տարածական տվյալների վերլուծության մեթոդների շարք, մասամբ փոխառված վիճակագրությունից `տեղանքի տեղաբանություն, աշխարհագրական կոորդինատները, օբյեկտների երկրաչափություն: Աղբյուր մեծ տվյալներայս դեպքում աշխարհագրական տեղեկատվական համակարգերը (GIS) հաճախ են օգտագործվում:

Revolution Analytics (հիմնված մաթեմատիկական վիճակագրության R լեզվի վրա):

Այս ցանկում առանձնահատուկ հետաքրքրություն է ներկայացնում Apache Hadoop- ը ՝ բաց կոդով ծրագրակազմ, որը վերջին հինգ տարիների ընթացքում ապացուցված է որպես տվյալների անալիզատոր ֆոնդային բորսաների մեծամասնության կողմից: Հենց որ Yahoo- ն բացեց Hadoop ծածկագիրը բաց կոդով համայնքի համար, ՏՏ ոլորտում կար մի ամբողջ նոր Hadoop ապրանքային գիծ: Գրեթե բոլոր ժամանակակից վերլուծական գործիքները մեծ տվյալներգործիքներ տրամադրել Hadoop- ի հետ ինտեգրվելու համար: Նրանց մշակողները և՛ ստարտափներ են, և՛ համաշխարհային ճանաչված ընկերություններ:

Տվյալների կառավարման մեծ շուկաներ

Մեծ տվյալների հարթակները (BDP, Big Data Platform) ՝ որպես թվային համահունչության դեմ պայքարի միջոց

Վերլուծելու ունակություն մեծ տվյալներ, խոսակցական անվանումով Մեծ տվյալներ, ընկալվում է որպես օրհնություն և միանշանակ: Բայց արդյո՞ք դա իսկապես այդպես է: Ինչի՞ կարող է հանգեցնել տվյալների ահռելի կուտակումը: Ամենայն հավանականությամբ, սա այն է, ինչ ներքին հոգեբաններն անվանում են որպես մարդու նկատմամբ պաթոլոգիական կուտակում, սիլոգոմանիա կամ փոխաբերական իմաստով «Պլյուշկինի համախտանիշ»: Անգլերենում ամեն ինչ հավաքելու արատավոր կիրքը կոչվում է հորդինգ (անգլերեն պահոցից `« ֆոնդ »): Հոգեկան հիվանդությունների դասակարգման համաձայն, Հորդինգը դասակարգվում է որպես հոգեկան խանգարում: Թվային դարաշրջանում ավանդական նյութին ավելացվում է թվային (թվային կուտակում), որից կարող են տուժել ինչպես անհատները, այնպես էլ ամբողջ ձեռնարկություններն ու կազմակերպությունները ():

Համաշխարհային և ռուսական շուկա

Մեծ տվյալների լանդշաֆտ - խոշոր մատակարարներ

Հավաքագրման, մշակման, կառավարման և վերլուծության գործիքների նկատմամբ հետաքրքրություն մեծ տվյալներցույց տվեց գրեթե բոլոր առաջատար ՏՏ ընկերությունները, ինչը միանգամայն բնական է: Նախ, նրանք ուղղակիորեն բախվում են այս երևույթին սեփական բիզնեսում, և երկրորդ ՝ մեծ տվյալներբացել գերազանց հնարավորություններ շուկայի նոր խորշերի զարգացման և նոր հաճախորդների ներգրավման համար:

Շուկայում հայտնվել են բազմաթիվ ստարտափներ, որոնք բիզնես են իրականացնում հսկայական քանակությամբ տվյալների մշակման վրա: Նրանցից ոմանք օգտագործում են ամպային ենթակառուցվածքներ, որոնք տրամադրում են Amazon- ի նման խոշոր խաղացողները:

Մեծ արդյունաբերության տեսությունը և պրակտիկան արդյունաբերություններում

Theարգացման պատմություն

2017

TmaxSoft կանխատեսում. Մեծ տվյալների հաջորդ «ալիքը» կպահանջի DBMS- ի արդիականացում

Գործարարները գիտեն, որ իրենց կուտակած հսկայական տվյալները պարունակում են կարեւոր տեղեկություններիրենց բիզնեսի և հաճախորդների մասին: Եթե ընկերությունը կարողանա հաջողությամբ կիրառել այս տեղեկատվությունը, ապա այն զգալի առավելություն կունենա մրցակցության նկատմամբ, և կկարողանա առաջարկել ավելի լավ ապրանքներ և ծառայություններ, քան իրենցը: Այնուամենայնիվ, շատ կազմակերպություններ դեռ չեն կարողանում արդյունավետ օգտագործել մեծ տվյալներպայմանավորված այն հանգամանքով, որ իրենց ժառանգական ՏՏ ենթակառուցվածքը չի կարողանում ապահովել անհրաժեշտ պահեստային կարողություններ, տվյալների փոխանակման գործընթացներ, կոմունալ ծառայություններ և ծրագրեր, որոնք անհրաժեշտ են մեծ քանակությամբ չկառուցված տվյալների մշակման և վերլուծման համար `դրանցից արժեքավոր տեղեկություններ քաղելու համար, որոնք նշված են TmaxSoft- ում:

Բացի այդ, անընդհատ աճող տվյալների վերլուծության համար պահանջվող աճող մշակման հզորությունը կարող է զգալի ներդրումներ պահանջել կազմակերպության ՏՏ ենթակառուցվածքներում, ինչպես նաև սպասարկման լրացուցիչ ռեսուրսներ, որոնք կարող են օգտագործվել նոր ծրագրերի և ծառայությունների մշակման համար:

2015 թվականի փետրվարի 5 -ին Սպիտակ տունը հրապարակեց զեկույց, որը քննարկում էր, թե ինչպես են ընկերություններն օգտագործում « մեծ տվյալներ«Տարբեր գնորդների համար տարբեր գներ սահմանելը` պրակտիկա, որը հայտնի է որպես «գների խտրականություն» կամ «տարբերակված գնագոյացում» (անհատականացված գնագոյացում): Theեկույցը նկարագրում է «մեծ տվյալների» օգուտները ինչպես վաճառողների, այնպես էլ գնորդների համար, և դրա հեղինակները եզրակացնում են, որ մեծ տվյալների առաջացման և տարբեր գնագոյացման հետ կապված ծագած խնդրահարույց հարցերից շատերը կարող են լուծվել առկա հակահայկական գործողությունների շրջանակներում: խտրականության օրենքներ և օրենքներ, սպառողների իրավունքների պաշտպանություն:

Այս պահին զեկույցը նշում է, որ քիչ ապացույցներ կան այն մասին, թե ինչպես են ընկերություններն օգտագործում մեծ տվյալները անհատականացված շուկայավարման և տարբերակված գնագոյացման համատեքստում: Այս տեղեկատվությունը ցույց է տալիս, որ վաճառողները օգտագործում են գնագոյացման մեթոդներ, որոնք կարելի է բաժանել երեք կատեգորիայի.

պահանջարկի կորի ուսումնասիրություն;
Eringեկավարում և ժողովրդագրական տվյալների հիման վրա տարբերակված գնագոյացում; եւ
վարքագծային թիրախավորում և անհատականացված գներ:

Պահանջի կորի ուսումնասիրություն. Շուկայավարողները հաճախ փորձարկում են պահանջարկի և սպառողների վարքագծի հետ ՝ պատահականորեն բաժանելով հաճախորդներին գների երկու հնարավոր մակարդակներից մեկին: «Տեխնիկապես, այս փորձերը դիֆերենցիալ գնագոյացման մի ձև են, քանի որ դրանք հանգեցնում են տարբեր գների հաճախորդների համար, նույնիսկ եթե դրանք« ոչ խտրական »են այն առումով, որ բոլոր հաճախորդները հավասարապես ավելի բարձր գին« կխփեն »»:

Ղեկ. Դա սպառողներին ապրանքներ ներկայացնելու պրակտիկա է `հիմնված նրանց ժողովրդագրական խմբի վրա: Օրինակ, համակարգչային ընկերության կայքը կարող է առաջարկել նույն նոութբուքը: տարբեր տեսակներգնորդներ ՝ տարբեր գներով, որոնք սահմանվում են իրենց մասին իրենց տրամադրած տեղեկատվության հիման վրա (օրինակ ՝ կախված այն բանից, թե արդյոք այս օգտագործողը պետական մարմինների, գիտական կամ առևտրային հաստատությունների ներկայացուցիչ է, թե մասնավոր անձ) կամ նրանց աշխարհագրական դիրքի հիման վրա (օրինակ ՝ , որոշվում է IP- համակարգչի հասցեով):

Նպատակային վարքագծային շուկայավարում և անհատականացված գնագոյացումԱյս դեպքերում գնորդների անձնական տվյալները օգտագործվում են որոշակի ապրանքների նպատակային գովազդի և անհատականացված գնագոյացման համար: Օրինակ, առցանց գովազդատուները օգտագործում են հավաքվածը գովազդային ցանցերիսկ երրորդ կողմի cookie- ների միջոցով ՝ տվյալները ինտերնետում օգտագործողների գործունեության վերաբերյալ ՝ նպատակային գովազդային նյութեր ուղարկելու համար: Այս մոտեցումը, մի կողմից, հնարավորություն է տալիս սպառողներին ստանալ իրենց համար հետաքրքրող ապրանքների և ծառայությունների գովազդ: բժշկական և ֆինանսական խնդիրներով), որոնք հանդիպում են առանց իրենց համաձայնության:

Թեև նպատակաուղղված վարքային շուկայավարումը լայն տարածում ունի, առցանց միջավայրում անհատականացված գնագոյացման համեմատաբար քիչ ապացույցներ կան: Theեկույցը ենթադրում է, որ դա կարող է պայմանավորված լինել նրանով, որ դեռևս համապատասխան մեթոդներ են մշակվում, կամ այն փաստը, որ ընկերությունները չեն շտապում օգտագործել անհատական գնագոյացում (կամ նախընտրում են լռել դրա մասին) - գուցե սպառողների բացասական արձագանքներից վախենալու պատճառով: .

Եկույցի հեղինակները կարծում են, որ «առանձին սպառողի համար մեծ տվյալների օգտագործումը, անկասկած, կապված է ինչպես պոտենցիալ եկամուտների, այնպես էլ ռիսկերի հետ»: Ընդունելով, որ մեծ տվյալների օգտագործման թափանցիկության և խտրականության հետ կապված խնդիրներ կան, զեկույցը պնդում է, որ առկա խտրականության և սպառողների պաշտպանության առկա օրենքները բավարար են դրանք լուծելու համար: Այնուամենայնիվ, զեկույցը նաև շեշտում է «շարունակական մոնիտորինգի» անհրաժեշտությունը, երբ ընկերությունները գաղտնի տեղեկատվությունն օգտագործում են անթափանց կամ այն եղանակներով, որոնք չեն լուսաբանվում առկա կարգավորիչ դաշտով:

Այս զեկույցը Սպիտակ տան ջանքերի ընդլայնումն է `ուսումնասիրելու ինտերնետում մեծ տվյալների օգտագործումը և խտրական գները, և դրանց ազդեցությունը ամերիկացի սպառողների համար: Ավելի վաղ հաղորդվել էր, որ Սպիտակ տան մեծ տվյալների վերաբերյալ աշխատանքային խումբը հրապարակել է այս հարցի վերաբերյալ իր զեկույցը 2014 թվականի մայիսին: Առևտրի դաշնային հանձնաժողովը (FTC) նույնպես անդրադարձել է այս խնդիրներին 2014 թվականի սեպտեմբերին սեմինարի ընթացքում `խոշոր տվյալների օգտագործման հետ կապված խտրականության վերաբերյալ:

2014

Gartner- ը հերքում է Big Data- ի առասպելները

Gartner's Fall 2014 Policy Brief- ը թվարկում է մի շարք ընդհանուր առասպելներ Մեծ տվյալների վերաբերյալ CIO- ներում և հերքում դրանք:

Բոլորը մեզանից ավելի արագ են կիրառում Մեծ տվյալների մշակման համակարգեր

Մեծ տվյալների տեխնոլոգիաների նկատմամբ հետաքրքրությունը ռեկորդային բարձր է. Այս տարի Gartner- ի վերլուծաբանների կողմից հարցված կազմակերպությունների 73% -ն արդեն ներդրումներ է կատարում համապատասխան նախագծերում կամ պատրաստվում է դա անել: Բայց այս նախաձեռնությունների մեծ մասը դեռ նախնական փուլում է, և հարցվածների միայն 13% -ն է արդեն իրականացրել նման լուծումները: Ամենադժվարը պարզելն է, թե ինչպես մեծ եկամուտներից եկամուտ ստանալ ՝ որոշելով, թե որտեղից սկսել: Շատ կազմակերպություններ խրված են փորձնական փուլում, քանի որ չեն կարող կցվել նոր տեխնոլոգիակոնկրետ բիզնես գործընթացներին:

Մենք այնքան շատ տվյալներ ունենք, որ դրանցում փոքր սխալների մասին անհանգստանալու կարիք չկա:

Որոշ CIO- ներ կարծում են, որ տվյալների փոքր բացերը չեն ազդում մեծածավալ վերլուծությունների ընդհանուր արդյունքների վրա: Երբ շատ տվյալներ կան, յուրաքանչյուր առանձին սխալ իրոք ավելի քիչ է ազդում արդյունքի վրա, ասում են վերլուծաբանները, բայց սխալներն իրենք ավելի շատ են դառնում: Բացի այդ, վերլուծված տվյալների մեծ մասն արտաքին է, անհայտ կառուցվածքի կամ ծագման, ուստի սխալների հավանականությունը մեծանում է: Այսպիսով, Մեծ տվյալների աշխարհում որակը իրականում շատ ավելի կարևոր է:

Մեծ տվյալների տեխնոլոգիաները կվերացնեն տվյալների ինտեգրման անհրաժեշտությունը

Մեծ տվյալները խոստանում են ընթերցման ընթացքում տվյալների մշակման ունակություն մայրենի ձևաչափով: Ենթադրվում է, որ դա թույլ կտա վերլուծել նույն աղբյուրներից ստացված տեղեկատվությունը `օգտագործելով տվյալների բազմաթիվ մոդելներ: Շատերը կարծում են, որ դա վերջնական օգտագործողներին հնարավորություն կտա մեկնաբանել ցանկացած տվյալների հավաքածու, ինչպես իրենք են հարմար գտնում: Իրականում, օգտվողների մեծամասնությունը հաճախ կարիք ունի սխեմայի վրա հիմնված ավանդական մոտեցման, որտեղ տվյալները ձևակերպվում են համապատասխան կերպով և կան համաձայնություններ տեղեկատվության ամբողջականության մակարդակի և այն մասին, թե ինչպես դրանք պետք է առնչվեն օգտագործման գործին:

Անիմաստ է տվյալների պահեստների օգտագործումը բարդ վերլուծության համար

Տեղեկատվական կառավարման համակարգի շատ ադմինիստրատորներ կարծում են, որ տվյալների պահեստ ստեղծելու համար ժամանակ վատնելը իմաստ չունի, հաշվի առնելով, որ բարդ վերլուծական համակարգերն օգտագործում են տվյալների նոր տեսակներ: Փաստորեն, շատ բարդ վերլուծական համակարգեր օգտագործում են տվյալների պահեստից ստացված տեղեկատվությունը: Այլ դեպքերում, տվյալների նոր տեսակները լրացուցիչ պատրաստման կարիք ունեն մեծ տվյալների մշակման համակարգերում վերլուծության համար. դուք պետք է որոշումներ կայացնեք տվյալների համապատասխանության, համախմբման սկզբունքների և որակի անհրաժեշտ մակարդակի վերաբերյալ. նման պատրաստումը կարող է տեղի ունենալ պահեստից դուրս:

Տվյալների լճերը կփոխարինեն տվյալների պահեստներին

Իրականում, վաճառողները մոլորեցնում են հաճախորդներին ՝ տեղակայելով տվյալների լճերը որպես պահեստային փոխարինողներ կամ որպես անալիտիկ վերլուծական ենթակառուցվածք: Տվյալների հիմքում ընկած տվյալների տեխնոլոգիաները չունեն պահեստին բնորոշ գործառնական հասունություն և լայնություն: Հետևաբար, տվյալների կառավարման ղեկավարները պետք է սպասեն, մինչև լճերը հասնեն զարգացման նույն մակարդակին, ըստ Գարտների:

Ակցենտուրա. Մեծ տվյալների համակարգեր ներդրողների 92% -ը գոհ է արդյունքից

Մեծ տվյալների հիմնական առավելությունների շարքում հարցվողները նշել են.

«Որոնել եկամտի նոր աղբյուրներ» (56%),
«Հաճախորդների փորձի բարելավում» (51%),
«Նոր ապրանքներ և ծառայություններ» (50%) և
«Նոր հաճախորդների ներհոսքը և հինների հավատարմության պահպանումը» (47%):

Շատ ընկերություններ նոր տեխնոլոգիաներ ներդնելիս բախվել են ավանդական մարտահրավերների: 51% -ի համար խոչընդոտը եղել է անվտանգությունը, 47% -ի համար ՝ բյուջեն, 41% -ի համար ՝ անհրաժեշտ կադրերի բացակայությունը, իսկ 35% -ի համար ՝ առկա համակարգին ինտեգրվելու դժվարությունները: Հարցված գրեթե բոլոր ընկերությունները (մոտ 91%) նախատեսում են շուտով խնդիրը լուծել անձնակազմի սղությամբ և աշխատանքի ընդունել մեծ տվյալների մասնագետների:

Ընկերությունները լավատես են մեծ տվյալների տեխնոլոգիաների ապագայի վերաբերյալ: 89% -ը կարծում է, որ կփոխի բիզնեսը նույնքան, որքան ինտերնետը: Հարցվածների 79% -ը նշել է, որ խոշոր տվյալներ չկատարող ընկերությունները կկորցնեն իրենց մրցակցային առավելությունը:

Այնուամենայնիվ, հարցվողները համաձայն չէին, թե կոնկրետ ինչ պետք է համարել մեծ տվյալներ: Հարցվածների 65% -ը կարծում է, որ դա «մեծ տվյալների ֆայլեր» է, 60% -ը `« առաջադեմ վերլուծություն և վերլուծություն », իսկ 50% -ը` «տվյալների արտացոլման գործիքներից ստացված տվյալներ»:

Մադրիդը 14.7 միլիոն եվրո է ծախսում խոշոր տվյալների կառավարման վրա

2014 թվականի հուլիսին հայտնի դարձավ, որ Մադրիդը կօգտագործի մեծ տվյալների տեխնոլոգիաներ ՝ քաղաքային ենթակառուցվածքները կառավարելու համար: Նախագծի արժեքը 14,7 մլն եվրո է, իրականացվող լուծումների հիմքը կլինեն մեծ տվյալների վերլուծության և կառավարման տեխնոլոգիաները: Նրանց օգնությամբ Քաղաքային վարչակազմկկառավարի աշխատանքը յուրաքանչյուր մատուցողի հետ և համապատասխանաբար կվճարի ՝ կախված ծառայության մակարդակից:

Խոսքը վարչակազմի կապալառուների մասին է, ովքեր վերահսկում են փողոցների վիճակը, լուսավորությունը, ոռոգումը, կանաչ տարածքները, մաքրում և հեռացնում տարածքը, ինչպես նաև թափոնների վերամշակումը: Րագրի ընթացքում հատուկ նշանակված տեսուչների համար մշակվեցին քաղաքային ծառայությունների գործունեության 300 հիմնական ցուցանիշներ, որոնց հիման վրա օրական կիրականացվեն 1.5 հազար տարբեր ստուգումներ և չափումներ: Բացի այդ, քաղաքը կսկսի օգտագործել նորարարական տեխնոլոգիական հարթակ, որը կոչվում է Madrid iNTeligente (MiNT) ՝ Smarter Madrid:

2013

Փորձագետներ. Big Data Peak Fashion

Առանց բացառության, տվյալների կառավարման շուկայում բոլոր վաճառողներն այս պահին տեխնոլոգիաներ են մշակում Մեծ տվյալների կառավարման համար: Այս նոր տեխնոլոգիական միտումը ակտիվորեն քննարկվում է նաև մասնագիտական հանրության կողմից ՝ ինչպես մշակողների, այնպես էլ արդյունաբերության վերլուծաբանների և նման լուծումների պոտենցիալ սպառողների կողմից:

Ինչպես պարզել է Datashift- ը, 2013 թվականի հունվարի դրությամբ քննարկումների ալիք էր բարձրացել « մեծ տվյալներ«Գերազանցել է բոլոր հնարավոր պատկերացումները: Սոցիալական ցանցերում Big Data- ի հիշատակումների քանակը վերլուծելուց հետո Datashift- ը հաշվարկեց, որ 2012 թվականին այս տերմինը օգտագործվել է մոտ 2 միլիարդ անգամ ամբողջ աշխարհում մոտ 1 միլիոն տարբեր հեղինակների կողմից ստեղծված գրառումներում: Սա համարժեք է ժամում 260 հաղորդագրության, ժամում 3070 հիշատակումների գագաթնակետին:

Gartner. Յուրաքանչյուր երկրորդ CIO պատրաստ է ծախսել Big data- ի վրա

Big data տեխնոլոգիաներով և 2013 -ի առաջին ներդրումներով մի քանի տարի փորձելուց հետո նման լուծումների հարմարեցումը զգալիորեն կբարձրանա, կանխատեսում է Գարտները: Հետազոտողները հարցումներ են անցկացրել ամբողջ աշխարհում ՏՏ ոլորտի ղեկավարների կողմից և պարզել, որ հարցվածների 42% -ն արդեն ներդրումներ է կատարել Big data տեխնոլոգիաներում կամ նախատեսում է նման ներդրումներ կատարել հաջորդ տարվա ընթացքում (տվյալները ՝ 2013 թ. Մարտի դրությամբ):

Ընկերությունները ստիպված են գումար ծախսել մշակման տեխնոլոգիաների վրա մեծ տվյալներքանի որ տեղեկատվական դաշտը արագ փոխվում է, ես պահանջում եմ տեղեկատվության մշակման նոր մոտեցումներ: Շատ ընկերություններ արդեն հասկացել են, որ մեծ տվյալները կարևոր են, և դրա հետ աշխատելը թույլ է տալիս հասնել առավելությունների, որոնք անհասանելի են ՝ օգտագործելով ավանդական տեղեկատվության աղբյուրները և դրանց մշակման եղանակները: Բացի այդ, bigԼՄ -ներում «մեծ տվյալների» թեմայի անընդհատ չափազանցումը հետաքրքրություն է առաջացնում համապատասխան տեխնոլոգիաների նկատմամբ:

Gartner- ի փոխնախագահ Ֆրենկ Բյուդենդեյքը նույնիսկ ընկերություններին հորդորեց մեղմել իրենց եռանդը, քանի որ ոմանք անհանգստացած են, որ Big Data- ի ձեռքբերման հարցում հետ են մնում մրցակիցներից:

«Անհանգստանալու կարիք չկա, խոշոր տվյալների տեխնոլոգիաների վրա հիմնված գաղափարների իրականացման հնարավորությունները գործնականում անսպառ են», - ասաց նա:

Gartner- ը կանխատեսում է, որ մինչև 2015 թվականը Global 1000 ընկերությունների 20% -ը ռազմավարական ուղղվածություն կունենան «տեղեկատվական ենթակառուցվածքների» վրա:

Մեծ տվյալների մշակման տեխնոլոգիաների բերման նոր հնարավորությունների ակնկալիքով, շատ կազմակերպություններ արդեն կազմակերպում են տարբեր տեսակի տեղեկատվության հավաքման և պահպանման գործընթացը:

Կրթական և կառավարական կազմակերպությունների, ինչպես նաև արդյունաբերության ընկերությունների համար բիզնեսի փոխակերպման ամենամեծ ներուժը կայանում է այսպես կոչված մութ տվյալների և բառացիորեն «մութ տվյալների» հետ կուտակված տվյալների համադրման մեջ, վերջիններս ներառում են հաղորդագրություններ Էլ, մուլտիմեդիա և նման այլ բովանդակություն: Ըստ Գարտների, տվյալների մրցավազքում կհաղթեն նրանք, ովքեր սովորում են տիրապետել տեղեկատվության լայն աղբյուրների:

Cisco- ի հետազոտություն. Մեծ տվյալները կօգնեն մեծացնել ՏՏ բյուջեները

2013-ի գարնանային հետազոտության ընթացքում Cisco Connected World Technology Report- ը, որը 18 երկրներում անցկացրել է անկախ InsightExpress վերլուծական ընկերությունը, հետազոտվել է քոլեջի 1800 ուսանող և 18-30 տարեկան երիտասարդ մասնագետների նմանատիպ թիվ: Հարցումն անցկացվել է `ծրագրեր իրականացնելու ՏՏ բաժինների պատրաստվածության աստիճանը պարզելու համար Մեծ տվյալներև հասկանալ հարակից մարտահրավերները, տեխնոլոգիական բացերը և նման նախագծերի ռազմավարական արժեքը:

Ընկերությունների մեծ մասը հավաքում, գրանցում և վերլուծում է տվյալները: Այնուամենայնիվ, զեկույցում ասվում է, որ շատ ընկերություններ բախվում են բիզնեսի և տեղեկատվական տեխնոլոգիաների մի շարք բարդ մարտահրավերների `Մեծ տվյալների հետ կապված: Օրինակ, հարցվածների 60 տոկոսը խոստովանում է, որ Մեծ տվյալների լուծումները կարող են բարելավել որոշումների կայացման գործընթացները և բարձրացնել մրցունակությունը, սակայն միայն 28 տոկոսն է ասել, որ նրանք արդեն իսկ իրական ռազմավարական օգուտներ են ստանում կուտակված տեղեկատվությունից:

Հարցված ՏՏ ղեկավարների կեսից ավելին կարծում է, որ Big Data նախագծերը կնպաստեն իրենց կազմակերպություններում ՏՏ բյուջեի ավելացմանը, քանի որ տեխնոլոգիաների, անձնակազմի և մասնագիտական հմտությունների նկատմամբ պահանջների ավելացում կլինի: Միեւնույն ժամանակ, հարցվածների կեսից ավելին ակնկալում է, որ նման նախագծերն իրենց ընկերություններում ՏՏ բյուջեն կավելացնեն արդեն 2012 թ .: 57 տոկոսը վստահ է, որ Big Data- ն առաջիկա երեք տարիների ընթացքում կավելացնի իրենց բյուջեները:

Հարցվածների 81 տոկոսը նշել է, որ Big Data- ի բոլոր նախագծերը (կամ գոնե որոշները) կպահանջեն ամպային հաշվարկ: Այսպիսով, ամպային տեխնոլոգիաների տարածումը կարող է ազդել Մեծ տվյալների լուծումների բաշխման արագության և բիզնեսի համար այդ լուծումների արժեքի վրա:

Ընկերությունները հավաքում և օգտագործում են տարբեր տեսակների տվյալներ ՝ ինչպես կառուցվածքային, այնպես էլ չկառուցված: Ահա այն աղբյուրները, որոնցից հարցման մասնակիցները ստանում են իրենց տվյալները (Cisco Connected World Technology Report).

ՏԻՄ -երի գրեթե կեսը (48 տոկոսը) կանխատեսում են, որ իրենց ցանցերում բեռը կկրկնապատկվի առաջիկա երկու տարիների ընթացքում: (Սա հատկապես վերաբերում է Չինաստանին, որտեղ հարցվածների 68 տոկոսը նման կարծիք ունի, և Գերմանիան ՝ 60 տոկոսը): Հարցվածների 23 տոկոսն ակնկալում է, որ առաջիկա երկու տարվա ընթացքում ցանցի բեռնվածությունը եռապատկվելու է: Միևնույն ժամանակ, հարցվածների միայն 40 տոկոսն է պատրաստակամություն հայտնել ցանցային տրաֆիկի ծավալի պայթյունավտանգ աճի համար:

Հարցվածների 27 տոկոսը խոստովանել է, որ իրենց անհրաժեշտ են ավելի լավ ՏՏ քաղաքականություն և տեղեկատվական անվտանգության միջոցներ:

21 տոկոսին անհրաժեշտ է ավելի շատ թողունակություն:

Big Data- ը նոր հնարավորություններ է բացում ՏՏ բաժինների համար `արժեք ստեղծելու և ամուր հարաբերություններ հաստատելու գործարար ստորաբաժանումների հետ` թույլ տալով նրանց ավելացնել եկամուտները և ամրապնդել ընկերության ֆինանսական դիրքը: Մեծ տվյալների նախագծերը ՏՏ բաժինները դարձնում են ռազմավարական գործընկեր բիզնես միավորների համար:

Հարցվածների 73 տոկոսի կարծիքով, հենց ՏՏ բաժինն է դառնալու Big Data ռազմավարության հիմնական շարժիչ ուժը: Միևնույն ժամանակ, հարցվածները կարծում են, որ այս ռազմավարության իրականացման մեջ ներգրավված կլինեն նաև այլ գերատեսչություններ: Առաջին հերթին, դա վերաբերում է ֆինանսների (այն անվանել են հարցվածների 24 տոկոսը), հետազոտությունների և զարգացման (20 տոկոս), գործառնությունների (20 տոկոս), ճարտարագիտության (19 տոկոս), ինչպես նաև մարքեթինգի (15 տոկոս) և վաճառք (14 տոկոս):

Gartner. Մեծ տվյալների կառավարման համար անհրաժեշտ են միլիոնավոր նոր աշխատատեղեր

ՏՏ ոլորտի համաշխարհային ծախսերը մինչև 2013 թվականը կհասնեն 3,7 միլիարդ դոլարի, ինչը 3,8 տոկոսով ավելի է 2012 թվականի տեղեկատվական տեխնոլոգիաների վրա կատարվող ծախսերից (կանխատեսվում է մինչև տարեվերջ 3,6 միլիարդ դոլար): Հատված մեծ տվյալներ(մեծ տվյալները) կաճեն շատ ավելի արագ տեմպերով, համաձայն Gartner- ի զեկույցի:

Մինչև 2015 թվականը տեղեկատվական տեխնոլոգիաների ոլորտում կստեղծվի 4,4 միլիոն աշխատատեղ `մեծ տվյալների սպասարկման համար, որից 1,9 միլիոն աշխատատեղը կլինի: Ավելին, յուրաքանչյուր այդպիսի աշխատանք ենթադրում է ՏՏ ոլորտից դուրս երեք լրացուցիչ աշխատատեղերի ստեղծում, այնպես որ միայն Միացյալ Նահանգներում առաջիկա չորս տարում 6 միլիոն մարդ կաշխատի տեղեկատվական տնտեսությանն աջակցելու համար:

Ըստ Gartner- ի փորձագետների ՝ հիմնական խնդիրն այն է, որ արդյունաբերության մեջ դրա համար բավարար տաղանդ չկա. Եվ՛ մասնավոր, և՛ հանրային կրթական համակարգերը, օրինակ ՝ Միացյալ Նահանգներում, ի վիճակի չեն արդյունաբերությանը մատակարարել բավարար քանակությամբ որակավորված անձնակազմ: Այսպիսով, ՏՏ ոլորտում նշված նոր աշխատատեղերից երեքից միայն մեկը կապահովվի անձնակազմով:

Վերլուծաբանները կարծում են, որ որակյալ ՏՏ անձնակազմի մշակման դերը պետք է ստանձնեն ուղղակի այն ընկերությունները, որոնք նրանց խիստ կարիք ունեն, քանի որ նման աշխատակիցները նրանց համար դարպաս կդառնան ապագայի նոր տեղեկատվական տնտեսության համար:

2012

Առաջին կասկածամտությունը Մեծ տվյալների վերաբերյալ

Ovum- ի և Gartner- ի վերլուծաբանները դա առաջարկում են 2012 -ի գերժամանակակից թեմայի համար մեծ տվյալներգուցե ժամանակն է ազատել պատրանքը:

Այս պահին «Մեծ տվյալներ» տերմինը սովորաբար վերաբերում է սոցիալական լրատվամիջոցներից, սենսորների ցանցերից և այլ աղբյուրներից առցանց ստացվող տեղեկատվության անընդհատ աճող ծավալին, ինչպես նաև տվյալների մշակման և կարևոր բիզնեսի բացահայտման համար օգտագործվող գործիքների աճող շրջանակին: միտումները:

«Մեծ տվյալների գաղափարի շուրջ բարձրացված աղմուկի պատճառով (կամ չնայած դրան), արտադրողները 2012 -ին մեծ հույսով էին նայում այս միտմանը», - ասում է Ovum- ի վերլուծաբան Թոնի Բայերը:

Բայերն ասաց, որ DataSift- ն իրականացրել է մեծ տվյալների հիշատակումների հետահայաց վերլուծություն

Մեծ տվյալները (կամ Մեծ տվյալները) հսկայական քանակությամբ կառուցվածքային կամ չկառուցված տեղեկատվության հետ աշխատելու մեթոդների հավաքածու է: Մեծ տվյալների մասնագետները մշակում և վերլուծում են այն ՝ տեսողական, մարդընթեռնելի արդյունքներ ստանալու համար: Look at Me- ը զրուցեց մասնագետների հետ և պարզեց, թե ինչ իրավիճակ է Ռուսաստանում մեծ տվյալների մշակման հետ կապված, որտեղ և ինչն է ավելի լավ սովորել նրանց համար, ովքեր ցանկանում են աշխատել այս ոլորտում:

Ալեքսեյ Ռիվկինը `խոշոր տվյալների, հաճախորդների հետ հաղորդակցության և թվերի աշխարհի հիմնական ուղղությունների վերաբերյալ

Սովորել եմ Մոսկվայի էլեկտրոնային տեխնոլոգիաների ինստիտուտում: Հիմնական բանը, որ ինձ հաջողվեց այնտեղից հանել, ֆիզիկայի և մաթեմատիկայի հիմնարար գիտելիքներն էին: Ուսումնառությանս հետ միաժամանակ ես աշխատում էի ԳՀD կենտրոնում, որտեղ զբաղվում էի տվյալների անվտանգ փոխանցման համար աղմուկի իմունային կոդավորման ալգորիթմների մշակմամբ և ներդրմամբ: Բակալավրի աստիճան ավարտելուց հետո ընդունվեցի Բարձրագույն տնտեսագիտական դպրոցի բիզնես ինֆորմատիկայի մագիստրոսի աստիճան: Դրանից հետո ես ուզում էի աշխատել IBS- ում: Ինձ բախտ վիճակվեց, որ այն ժամանակ, կապված մեծ գումարծրագրեր, տեղի ունեցավ պրակտիկանտների լրացուցիչ հավաքագրում, և մի քանի հարցազրույցներից հետո ես սկսեցի աշխատել IBS- ում, այս ոլորտում ռուսական խոշորագույն ընկերություններից մեկում: Երեք տարվա ընթացքում ես պրակտիկայից անցել եմ ձեռնարկության լուծումների ճարտարապետի: Այժմ ես մշակում եմ ֆինանսական և հեռահաղորդակցության ոլորտների հաճախորդների ընկերությունների համար Մեծ տվյալների տեխնոլոգիաների փորձաքննությունը:

Գոյություն ունի երկու հիմնական մասնագիտացում այն մարդկանց համար, ովքեր ցանկանում են աշխատել մեծ տվյալների հետ ՝ վերլուծաբաններ և ՏՏ խորհրդատուներ, որոնք ստեղծում են տեխնոլոգիաներ մեծ տվյալների հետ աշխատելու համար: Բացի այդ, կարող եք խոսել նաև Big Data Analyst- ի մասնագիտության մասին, այն է ՝ այն մարդիկ, ովքեր անմիջականորեն աշխատում են տվյալների հետ ՝ հաճախորդի կայքում ՏՏ հարթակի հետ: Նախկինում նրանք սովորական վերլուծաբան-մաթեմատիկոսներ էին, ովքեր տիրապետում էին վիճակագրության և մաթեմատիկայի և օգտագործում էին վիճակագրական ծրագրեր `տվյալների վերլուծության խնդիրները լուծելու համար: Այսօր, բացի վիճակագրության և մաթեմատիկայի գիտելիքներից, պահանջվում է նաև տեխնոլոգիայի և տվյալների կյանքի ցիկլի մասին գիտելիքներ: Սա, իմ կարծիքով, տարբերությունն է ժամանակակից Տվյալների վերլուծաբանի և այն վերլուծաբանների միջև, ովքեր նախկինում էին:

Իմ մասնագիտությունը ՏՏ խորհրդատվությունն է, այսինքն ՝ ես գալիս եմ և հաճախորդներին առաջարկում ՏՏ տեխնոլոգիաների կիրառմամբ բիզնեսի խնդիրները լուծելու ուղիներ: Տարբեր փորձ ունեցող մարդիկ գալիս են խորհրդատվության, բայց այս մասնագիտության համար ամենակարևոր հատկանիշներն են հաճախորդի կարիքները հասկանալու ունակությունը, մարդկանց և կազմակերպություններին օգնելու ցանկությունը, լավ հաղորդակցման և թիմային հմտությունները (քանի որ դա միշտ աշխատում է հաճախորդի և թիմում), լավ վերլուծական հմտություններ: Ներքին մոտիվացիան շատ կարևոր է. Մենք աշխատում ենք մրցունակ միջավայրում, և հաճախորդը ակնկալում է անսովոր լուծումներ և աշխատանքի նկատմամբ հետաքրքրություն:

Իմ ժամանակի մեծ մասն անցնում է հաճախորդների հետ զրուցելուն, նրանց բիզնեսի կարիքների ձևակերպմանը և տեխնոլոգիայի առավել համապատասխան ճարտարապետության նախագծմանը: Ընտրության չափանիշներն այստեղ ունեն իրենց առանձնահատկությունը ֆունկցիոնալությունըև TCO (սեփականության ընդհանուր արժեքը), համակարգի համար ոչ ֆունկցիոնալ պահանջները շատ կարևոր են, առավել հաճախ դա արձագանքման ժամանակն է, տեղեկատվության մշակման ժամանակը: Հաճախորդին համոզելու համար մենք հաճախ օգտագործում ենք հայեցակարգի մոտեցման ապացույց. Մենք առաջարկում ենք տեխնոլոգիան անվճար «փորձարկել» ինչ -որ խնդրի, տվյալների նեղ փաթեթի վրա `համոզվելու, որ տեխնոլոգիան աշխատում է: Լուծումը պետք է հաճախորդի համար ստեղծի մրցակցային առավելություն `ստանալով լրացուցիչ առավելություններ (օրինակ` x- վաճառք, խաչաձև վաճառք) կամ լուծել բիզնեսի որևէ խնդիր, ասենք `նվազեցնել բարձր մակարդակվարկային խարդախություն.

Շատ ավելի հեշտ կլիներ, եթե հաճախորդները գային պատրաստի առաջադրանքով,բայց մինչ այժմ նրանք չեն հասկանում, որ հայտնվել է հեղափոխական տեխնոլոգիա, որը կարող է փոխել շուկան մի քանի տարի հետո

Ի՞նչ խնդիրների պետք է բախվեք: Շուկան դեռ պատրաստ չէ օգտագործել մեծ տվյալների տեխնոլոգիաները: Շատ ավելի հեշտ կլիներ, եթե հաճախորդները գային պատրաստի առաջադրանքով, բայց նրանք դեռ չգիտեին, որ հեղափոխական տեխնոլոգիա է հայտնվել, որը կարող է փոխել շուկան մի քանի տարի հետո: Ահա թե ինչու մենք, ըստ էության, աշխատում ենք ստարտափ ռեժիմում. Մենք ոչ միայն վաճառում ենք տեխնոլոգիաներ, այլև ամեն անգամ, երբ հաճախորդներին համոզում ենք, որ նրանք պետք է ներդրումներ կատարեն այս լուծումներում: Սա տեսլականների դիրքորոշումն է. Մենք հաճախորդներին ցույց ենք տալիս, թե ինչպես նրանք կարող են փոխել իրենց բիզնեսը տվյալների և ՏՏ -ի ներգրավմամբ: Մենք ստեղծում ենք այս նոր շուկան `Big Data- ի ոլորտում առևտրային ՏՏ խորհրդատվության շուկան:

Եթե մարդը ցանկանում է զբաղվել տվյալների վերլուծությամբ կամ ՏՏ խորհրդատվությամբ Big Data- ի ոլորտում, ապա առաջինը, որ կարևոր է, մաթեմատիկական կամ տեխնիկական կրթություն է `լավ մաթեմատիկական պատրաստվածությամբ: Օգտակար է նաև ծանոթանալ հատուկ տեխնոլոգիաներին, ինչպիսիք են SAS, Hadoop, R կամ IBM լուծումները: Բացի այդ, դուք պետք է ակտիվորեն հետաքրքրվեք Big Data- ի կիրառական խնդիրներով, օրինակ ՝ ինչպես դրանք կարող են օգտագործվել բանկում կամ ղեկավարությունում վարկավորման բարելավման համար կյանքի ցիկլհաճախորդ Այս և այլ գիտելիքներ կարելի է ձեռք բերել առկա աղբյուրներից ՝ օրինակ ՝ Coursera- ից և Big Data University- ից: Փենսիլվանիայի Ուորթոն համալսարանում գործում է նաև Հաճախորդների վերլուծության նախաձեռնություն, որտեղ տպագրվել են բազմաթիվ հետաքրքիր նյութեր:

Լուրջ խնդիր նրանց համար, ովքեր ցանկանում են աշխատել մեր ոլորտում, Big Data- ի մասին տեղեկատվության ակնհայտ բացակայությունն է: Դուք չեք կարող գնալ գրախանութ կամ որևէ կայք և ձեռք բերել, օրինակ, բանկերի մեծ տվյալների տեխնոլոգիաների բոլոր կիրառումների դեպքերի սպառիչ հավաքածու: Չկան նման տեղեկատու գրքեր: Տեղեկությունների մի մասը գրքերում է, մյուս մասը հավաքվում է կոնֆերանսներում, իսկ որոշներին մենք պետք է հասնենք ինքներս մեզ:

Մյուս խնդիրն այն է, որ թվերի աշխարհում վերլուծաբանները լավ են, բայց բիզնեսում նրանք միշտ չէ, որ իրենց հարմարավետ են զգում: Այս մարդիկ հաճախ ինտրովերտ են, դժվարանում են շփվել, և, հետևաբար, դժվարանում են հետազոտությունների արդյունքները համոզիչ կերպով փոխանցել հաճախորդներին: Այս հմտությունները զարգացնելու համար ես խորհուրդ կտայի այնպիսի գրքեր, ինչպիսիք են «Բուրգի սկզբունքը», «Խոսիր դիագրամների լեզուն»: Նրանք օգնում են զարգացնել ներկայացման հմտությունները, հակիրճ և հստակ արտահայտել ձեր մտքերը:

Բարձրագույն տնտեսագիտական դպրոցում սովորելու ընթացքում տարբեր գործերի առաջնություններին մասնակցելը ինձ շատ օգնեց: Դեպքերի առաջնությունները ուսանողների համար ինտելեկտուալ մրցումներ են `բիզնեսի խնդիրները ուսումնասիրելու և լուծումներ առաջարկելու համար: Դրանք երկու տեսակի են ՝ խորհրդատվական ընկերությունների գործերի առաջնություններ, օրինակ ՝ McKinsey, BCG, Accenture, ինչպես նաև անկախ գործերի առաջնություններ, ինչպիսիք են Changellenge- ը: Դրանց մասնակցելու ընթացքում ես սովորեցի տեսնել և որոշել դժվարին առաջադրանքներ- խնդրի նույնականացումից և դրա կառուցվածքից մինչև դրա լուծման առաջարկությունների պաշտպանություն:

Օլեգ Միխալսկին ռուսական շուկայում և մեծ տվյալների ոլորտում նոր արտադրանքի ստեղծման առանձնահատկությունները

Մինչև Acronis- ին միանալը, ես արդեն ներգրավված էի այլ ընկերություններում նոր արտադրանքի թողարկումներում: Դա միշտ հետաքրքիր է և միևնույն ժամանակ դժվար, ուստի ինձ անմիջապես հետաքրքրեց աշխատելու հնարավորությունը ամպային ծառայություններև պահեստային լուծումներ: Այս բնագավառում ՏՏ ոլորտում իմ նախկին բոլոր փորձը օգտակար եղավ, այդ թվում ՝ իմ I-Accelerator սկսնակ նախագիծը: Հիմնական ճարտարագիտությունից բացի բիզնես կրթություն (MBA) ունենալը նույնպես օգնեց:

Ռուսաստանում խոշոր ընկերությունները `բանկերը, բջջային օպերատորները և այլն, մեծ տվյալների վերլուծության կարիք ունեն, ուստի մեր երկրում հեռանկարներ կան նրանց համար, ովքեր ցանկանում են աշխատել այս ոլորտում: Իշտ է, շատ նախագծեր այժմ ինտեգրման փուլում են, այսինքն ՝ կատարված են արտաքին զարգացումների կամ բաց կոդով տեխնոլոգիաների հիման վրա: Նման նախագծերում սկզբունքորեն նոր մոտեցումներ և տեխնոլոգիաներ չեն ստեղծվում, այլ ավելի շուտ հարմարվում են առկա զարգացումները: Acronis- ում մենք գնացինք այլ ճանապարհով և, վերլուծելով առկա այլընտրանքները, որոշեցինք ներդրումներ կատարել մեր սեփական զարգացման մեջ ՝ ստեղծելով համակարգ անվտանգ պահեստավորումմեծ տվյալների համար, որը ինքնարժեքով չի զիջում, օրինակ ՝ Amazon S3- ին, բայց աշխատում է հուսալի և արդյունավետ և զգալիորեն փոքր մասշտաբով: Խոշոր ինտերնետային ընկերությունները նույնպես ունեն իրենց սեփական զարգացումները մեծ տվյալների վերաբերյալ, բայց դրանք ավելի շատ կենտրոնացած են ներքին կարիքների վրա, քան արտաքին հաճախորդների կարիքները բավարարելու վրա:

Կարևոր է հասկանալ այն միտումները և տնտեսական ուժերը, որոնք ազդում են մեծ տվյալների մշակման ոլորտի վրա: Դա անելու համար հարկավոր է շատ կարդալ, լսել ՏՏ ոլորտի հեղինակավոր փորձագետների ելույթները, հաճախել թեմատիկ գիտաժողովների: Այժմ գրեթե յուրաքանչյուր կոնֆերանս ունի «Մեծ տվյալների» բաժին, բայց նրանք բոլորը դրա մասին խոսում են այլ տեսանկյունից ՝ տեխնոլոգիայի, բիզնեսի կամ շուկայավարման առումով: Կարող եք գնալ նախագծային աշխատանքի կամ պրակտիկայի ընկերությունում, որն արդեն իրականացնում է այս թեմայով նախագծեր: Եթե վստահ եք ձեր կարողություններին, ապա դեռ ուշ չէ Big Data- ի ոլորտում նորաստեղծ կազմակերպում կազմակերպել:

Առանց շուկայի հետ մշտական շփմաննոր զարգացումը ռիսկի է ենթարկվում չպահանջվելու

Այնուամենայնիվ, երբ դուք պատասխանատու եք նոր արտադրանքի համար, շատ ժամանակ է ծախսվում շուկայի վերլուծության և պոտենցիալ հաճախորդների, գործընկերների, պրոֆեսիոնալ վերլուծաբանների հետ շփման վրա, ովքեր շատ բան գիտեն հաճախորդների և նրանց կարիքների մասին: Առանց շուկայի հետ մշտական կապի, նոր զարգացումը ենթակա է չպահանջվելու վտանգի: Միշտ շատ անորոշություններ կան. Դուք պետք է հասկանաք, թե ովքեր են լինելու առաջին օգտվողները (վաղ որդեգրողները), ինչն է ձեզ համար արժեքավոր և ինչպես այդ ժամանակ գրավել զանգվածային լսարան: Երկրորդ ամենակարևոր խնդիրն է ձևավորել և մշակողներին հաղորդել վերջնական արտադրանքի հստակ և ամբողջական տեսլական, որպեսզի նրանց դրդի աշխատել այնպիսի պայմաններում, երբ որոշ պահանջներ դեռ կարող են փոխվել, և առաջնահերթությունները կախված են առաջին հաճախորդների արձագանքներից: Հետևաբար, կարևոր խնդիր է կառավարել մի կողմից հաճախորդների և մյուս կողմից մշակողների սպասելիքները: Որպեսզի ոչ մեկը, ոչ մյուսը չկորցնեն հետաքրքրությունը և ավարտին հասցնեն նախագիծը: Առաջին հաջողված նախագծից հետո այն դառնում է ավելի հեշտ, և հիմնական մարտահրավերը կլինի նոր բիզնեսի համար աճի ճիշտ մոդելը գտնելը:

Մեծ տվյալներ- անգլերեն «Մեծ տվյալներ»: Տերմինը հայտնվեց որպես DBMS- ի այլընտրանք և դարձավ ՏՏ ենթակառուցվածքի հիմնական միտումներից մեկը, երբ արդյունաբերական հսկաների մեծ մասը `IBM, Microsoft, HP, Oracle և այլք, սկսեցին օգտագործել այս հայեցակարգը իրենց ռազմավարություններում: Մեծ տվյալները հասկացվում են որպես հսկայական (հարյուրավոր տերաբայթ) տվյալների զանգված, որոնք չեն կարող մշակվել ավանդական մեթոդներով. երբեմն - այս տվյալների մշակման գործիքներն ու մեթոդները:

Մեծ տվյալների աղբյուրների օրինակներ. RFID իրադարձություններ, հաղորդագրություններ սոցիալական ցանցերում, օդերևութաբանական վիճակագրություն, բջջային ցանցերի բաժանորդների գտնվելու վայրի մասին տեղեկատվություն բջջայինև տվյալներ աուդիո / վիդեո ձայնագրող սարքերից: Հետևաբար, «մեծ տվյալները» լայնորեն օգտագործվում են արտադրության, առողջապահության, կառավարության, ինտերնետային բիզնեսի մեջ, մասնավորապես `թիրախային լսարանը վերլուծելիս:

Բնութագրական

Մեծ տվյալների նշանները սահմանվում են որպես «երեք V». Volավալ - ծավալ (իսկապես մեծ); բազմազանություն - բազմազանություն, շատ; արագություն - արագություն (անհրաժեշտ է շատ արագ վերամշակում):

Մեծ տվյալները հաճախ չկառուցված են և պահանջում են հատուկ ալգորիթմներ `դրանք մշակելու համար: Մեծ տվյալների վերլուծության մեթոդները ներառում են.

(«Տվյալների արդյունահանում») - մոտեցումների ամբողջություն `թաքնված օգտակար գիտելիքների հայտնաբերման համար, որոնք հնարավոր չէ ձեռք բերել ստանդարտ մեթոդներով.
Քրաուդսորսինգ (ամբոխ - «ամբոխ», աղբյուրներ `որպես աղբյուր) - էական խնդիրների լուծում կամավոր կամավորների համատեղ ջանքերով, ովքեր պարտադիր աշխատանքային պայմանագրում և հարաբերություններում չեն, ՏՏ գործիքների միջոցով գործողությունների համակարգումը.
Տվյալների միաձուլում և ինտեգրում («տվյալների խառնում և ներդրում») - խորը վերլուծության շրջանակներում բազմաթիվ աղբյուրների միացման մեթոդների շարք;
Մեքենայական ուսուցում («մեքենայական ուսուցում») - արհեստական բանականության հետազոտության ենթաբաժին, որն ուսումնասիրում է վիճակագրության վերլուծության և հիմնական մոդելների հիման վրա կանխատեսումներ ստանալու մեթոդները.
օրինակի ճանաչում (օրինակ ՝ տեսախցիկի կամ տեսախցիկի տեսադաշտում դեմքի ճանաչում);
տարածական վերլուծություն. տոպոլոգիայի, երկրաչափության և աշխարհագրության օգտագործումը տվյալների կառուցման համար.
տվյալների վիզուալիզացիա - վերլուծական տեղեկատվության արտահոսք `նկարազարդումների և դիագրամների տեսքով` օգտագործելով ինտերակտիվ գործիքներ և անիմացիաներ `արդյունքները հետևելու և հետագա մոնիտորինգի համար հիմք ստեղծելու համար:

Տեղեկատվության պահպանումն ու վերլուծությունն իրականացվում են մեծ թվով բարձրակարգ սերվերների վրա: Հիմնական տեխնոլոգիան Hadoop- ն է ՝ բաց կոդով:

Քանի որ տեղեկատվության քանակը միայն ժամանակի ընթացքում կավելանա, դժվարությունը ոչ թե տվյալների ստացման մեջ է, այլ այն, թե ինչպես դա առավելագույն օգուտով մշակել: Ընդհանուր առմամբ, Մեծ տվյալների հետ աշխատելու գործընթացը ներառում է. Նույնիսկ առաջին փուլից առաջ կարևոր է հստակ սահմանել աշխատանքի նպատակը. Թե կոնկրետ ինչի համար են տվյալները, օրինակ ՝ ապրանքի թիրախային լսարանը որոշելու համար: Հակառակ դեպքում, շատ տեղեկություններ ստանալու ռիսկ կա ՝ չհասկանալով, թե կոնկրետ ինչպես կարելի է դրանք օգտագործել: