Suured mahud suurandmeid. Big Data: analüüs ja lahendused

Kas tead seda kuulsat nalja? Big Data on nagu seks enne 18:

  • kõik mõtlevad sellele;
  • kõik räägivad sellest;
  • kõik arvavad, et nende sõbrad teevad seda;
  • peaaegu keegi ei tee seda;
  • kes seda teeb, teeb seda halvasti;
  • kõik arvavad, et järgmine kord läheb paremini;
  • keegi ei võta turvameetmeid;
  • kellelgi on häbi tunnistada, et ta midagi ei tea;
  • kui kellelgi õnnestub, on sellest alati palju kära.

Aga olgem ausad, igasuguse haibi puhul käib alati kaasas tavaline uudishimu: mis kisa seal on ja kas seal on midagi tõeliselt olulist? Ühesõnaga jah, on olemas. Üksikasjad on allpool. Oleme teie jaoks valinud Big Data tehnoloogiate kõige hämmastavamad ja huvitavamad rakendused. See väike turuuuring selgete näidete põhjal seisab silmitsi lihtsa tõsiasjaga: tulevikku ei tule, te ei pea "veel n aastat ootama ja maagia saab reaalsuseks". Ei, see on juba saabunud, aga silmale on see veel nähtamatu ja seetõttu ei põleta singulaarsuse põlemine veel nii palju teatud punkti tööturul. Mine.

1 Kuidas suurandmete tehnoloogiaid rakendatakse seal, kus need tekkisid

Suured IT-ettevõtted on koht, kus andmeteadus on sündinud, seega on nende sisemine töö selles valdkonnas kõige huvitavam. Google'i kampaania, paradigma Map Reduce sünnikoht, mille ainus eesmärk on koolitada programmeerijaid masinõppetehnikate alal. Ja selles peitubki nende konkurentsieelis: pärast uute teadmiste omandamist rakendavad töötajad uusi meetodeid nendes Google’i projektides, kus nad pidevalt töötavad. Kujutage ette, kui suur on loetelu valdkondadest, milles kampaania võib revolutsiooni teha. Üks näide: kasutatakse närvivõrke.

Ettevõte rakendab masinõpet kõigis oma toodetes. Selle eeliseks on suure ökosüsteemi olemasolu, mis hõlmab kõiki igapäevaelus kasutatavaid digiseadmeid. See võimaldab Apple'il jõuda võimatule tasemele: kampaanial on rohkem kasutajaandmeid kui ühelgi teisel. Samas on privaatsuspoliitika väga karm: korporatsioon on alati uhkeldanud, et ei kasuta klientide andmeid reklaamieesmärkidel. Vastavalt sellele on kasutajateave krüpteeritud, nii et Apple'i advokaadid või isegi volitatud FBI ei saa seda lugeda. Autor leiad suurepärane ülevaade Apple'i arengud AI valdkonnas.

2 Big Data 4 rattal

Kaasaegne auto on teabehoidla: sinna koguneb kõik andmed juhi, keskkonna, ühendatud seadmete ja enda kohta. Varsti genereerib üks sellisesse võrku ühendatud sõiduk tunnis kuni 25 GB andmemahtu.

Sõidukite telemaatikat on autotootjad kasutanud juba aastaid, kuid nüüd tehakse lobitööd keerukama andmekogumismeetodi järele, mis kasutab täielikult ära suurandmeid. See tähendab, et tehnoloogia saab nüüd juhti halbade teeolude eest hoiatada, aktiveerides automaatselt mitteblokeeruva piduri- ja veojõukontrollisüsteemi.

Teised probleemid, sealhulgas BMW, kasutavad Big Data tehnoloogiat koos katseprototüüpide, sisseehitatud "veamälu" süsteemide ja klientide kaebustega, et tuvastada mudeli nõrkused tootmise alguses. Nüüd, selle asemel, et andmeid käsitsi hinnata, mis võtab kuid, rakendatakse nüüdisaegset algoritmi. Vigade ja tõrkeotsingu kulud vähenevad, võimaldades BMW-s kiiremat andmeanalüüsi töövoogusid.

Ekspertide hinnangul ulatub 2019. aastaks ühtse autode võrgustikuga ühendatud turu käive 130 miljardi dollarini. See ei ole üllatav, arvestades sõidukite lahutamatuks osaks olevate tehnoloogiate integreerimise tempot autotootjate poolt.

Big Data kasutamine aitab muuta masina turvalisemaks ja funktsionaalsemaks. Niisiis, Toyota, manustades infokommunikatsiooni moodulid (DCM) . See suurandmete jaoks kasutatav tööriist töötleb ja analüüsib DCM-i kogutud andmeid, et neist veelgi kasu saada.

3 Suurandmete rakendamine meditsiinis


Suurandmete tehnoloogiate rakendamine meditsiinivaldkonnas võimaldab arstidel haigust põhjalikumalt uurida ja valida konkreetse juhtumi jaoks tõhusa ravikuuri. Tänu teabe analüüsile on tervishoiutöötajatel lihtsam ennustada ägenemisi ja võtta ennetavaid meetmeid. Tulemuseks on täpsem diagnoos ja parem ravi.

Uus tehnika võimaldas vaadata patsientide probleeme teise nurga alt, mis tõi kaasa senitundmatute probleemiallikate avastamise. Näiteks on mõnel rassil geneetiliselt suurem eelsoodumus südamehaiguste tekkeks kui teiste etniliste rühmade esindajad. Nüüd, kui patsient kaebab teatud haiguse üle, võtavad arstid arvesse andmeid tema rassi liikmete kohta, kes kaebasid sama probleemi üle. Andmete kogumine ja analüüs võimaldab patsientide kohta palju rohkem teada saada: alates toidueelistusest ja elustiilist kuni DNA ja rakkude, kudede, organite metaboliitide geneetilise struktuurini. Näiteks Kansas City Pediatric Genomic Medicine Center kasutab patsiente ja analüüsib vähki põhjustavaid mutatsioone geneetilises koodis. Individuaalne lähenemine igale patsiendile, võttes arvesse tema DNA-d, tõstab ravi efektiivsuse kvalitatiivselt uuele tasemele.

Suurandmete kasutamise mõistmisel järgneb esimene ja väga oluline muutus meditsiinivaldkonnas. Kui patsient on ravil, võib haigla või muu tervishoiuasutus saada inimese kohta palju väärtuslikku teavet. Kogutud teavet kasutatakse haiguste kordumise ennustamiseks teatud täpsusega. Näiteks kui patsiendil on olnud insult, uurivad arstid teavet tserebrovaskulaarse õnnetuse toimumise aja kohta, analüüsivad eelnevate pretsedentide vahelist perioodi (kui neid on), pöörates erilist tähelepanu stressiolukordadele ja raskele füüsilisele koormusele patsiendi elus. Nendele andmetele tuginedes annavad haiglad patsiendile selge tegevusplaani, et vältida insuldi võimalust tulevikus.

Oma rolli mängivad ka kantavad seadmed, mis aitavad tuvastada terviseprobleeme ka siis, kui inimesel ei esine konkreetse haiguse ilmseid sümptomeid. Selle asemel, et hinnata patsiendi seisundit pika uuringute käigus, saab arst teha järeldusi fitnessjälgija või nutikella kogutud teabe põhjal.

Üks viimaseid näiteid on . Sel ajal, kui patsienti uuriti ravimi vahelejäämisest tingitud uue epilepsiahoo suhtes, avastasid arstid, et mehel on palju tõsisem terviserike. Probleemiks osutus kodade virvendus. Diagnoos pandi tänu sellele, et osakonna töötajad said ligipääsu patsiendi telefonile, nimelt tema fitnessjälgijaga seotud rakendusele. Diagnoosi määramisel osutusid võtmeteguriks avalduse andmed, sest uuringu hetkel mehel südamehäireid ei leitud.

See on vaid üks väheseid juhtumeid, mis näitab milleks kasutada suuri andmeid mängib tänapäeval meditsiinivaldkonnas nii olulist rolli.

4 Andmeanalüütika on juba jaemüügi keskmes

Kasutajapäringute ja sihtimise mõistmine on üks suuremaid ja enim avaldatud Big Data tööriistade rakendusvaldkondi. Big Data aitab analüüsida klientide harjumusi, et mõista paremini tarbijate vajadusi tulevikus. Ettevõtted soovivad laiendada traditsioonilist andmekogumit sotsiaalmeedia teabe ja brauseri otsinguajalooga, et kujundada võimalikult terviklik kliendipilt. Mõnikord otsustavad suured organisatsioonid luua globaalse eesmärgina oma ennustamismudeli.

Näiteks Target kauplusekett, kasutades sügavat andmeanalüüsi ja oma prognoosisüsteemi, saab määrata suure täpsusega -. Igale kliendile määratakse ID, mis omakorda on seotud krediitkaardi, nime või e-postiga. Identifikaator toimib omamoodi ostukorvina, kuhu salvestatakse info kõige kohta, mida inimene on kunagi ostnud. Võrgustiku spetsialistid leidsid, et sellel positsioonil olevad naised ostavad aktiivselt maitsestamata tooteid enne raseduse teist trimestrit ning esimese 20 nädala jooksul toetuvad kaltsiumi, tsingi ja magneesiumi toidulisanditele. Saadud andmete põhjal saadab Target klientidele lastetoodete kuponge. Lastele endile mõeldud kaupade allahindlusi “lahjendatakse” teiste toodete kupongidega, et hälli või mähkmete ostupakkumised liiga pealetükkivad ei näeks.

Isegi valitsusasutused on leidnud viisi, kuidas kasutada suurandmete tehnoloogiaid valimiskampaaniate optimeerimiseks. Mõned arvavad, et B. Obama võit USA presidendivalimistel 2012. aastal on tingitud tema analüütikute meeskonna suurepärasest tööst, kes töötles õigel viisil tohutuid andmeid.

5 Suured andmed korra ja korra valve kohta


Õiguskaitseorganid on viimastel aastatel välja mõelnud, kuidas ja millal suurandmeid kasutada. On üldteada tõsiasi, et Riiklik Julgeolekuagentuur kasutab suurandmete tehnoloogiaid terrorirünnakute ärahoidmiseks. Teised osakonnad kasutavad progressiivset metoodikat väiksemate kuritegude ärahoidmiseks.

Los Angelese politseijaoskond kasutab . See teeb seda, mida tavaliselt nimetatakse ennetavaks õiguskaitseks. Kuriteoteadete kasutamine teatud periood aja järgi määrab algoritm piirkonnad, kus õigusrikkumiste toimepanemise tõenäosus on suurim. Süsteem märgib sellised alad linnakaardile väikeste punaste ruutudega ja need andmed edastatakse koheselt patrulliautodele.

Chicago politseinikud kasutada suurandmete tehnoloogiaid veidi teistmoodi. Tuulelinna korrakaitsjatel on see samuti olemas, kuid selle eesmärk on visandada "riskiring", mis koosneb inimestest, kes võivad olla relvastatud rünnaku ohvrid või osalised. The New York Timesi andmetel määrab see algoritm inimesele haavatavuse hinde tema kriminaalse ajaloo (vahistamised ja tulistamistes osalemine, kuritegelikesse rühmitustesse kuulumine) põhjal. Süsteemi arendaja väidab, et kuigi süsteem uurib inimese kriminaalset minevikku, ei võta see arvesse sekundaarseid tegureid, nagu rass, sugu, etniline kuuluvus ja isiku asukoht.

6 Kuidas Big Data tehnoloogiad aitavad linnadel areneda


Veniami tegevjuht João Barros demonstreerib Wi-Fi-ruuterite jälgimiskaarti Porto linna bussides

Andmeanalüüsi kasutatakse ka linnade ja riikide elu mitme aspekti parandamiseks. Näiteks teades täpselt, kuidas ja millal Big Data tehnoloogiaid kasutada, saab transpordivoogusid optimeerida. Selleks võetakse arvesse autode online-liikumist, analüüsitakse sotsiaalmeediat ja meteoroloogilisi andmeid. Tänaseks on mitmed linnad võtnud juhtrolli andmeanalüütika kasutamisel transpordi infrastruktuuri ühendamisel teiste transpordiliikidega. kommunaalteenused tervikuks. See on targa linna kontseptsioon, kus bussid ootavad hilinevat rongi ja foorid suudavad liiklusummikuid ette näha, et ummikuid minimeerida.

Big Data tehnoloogiatele tuginedes kasutab Long Beachi linn "nutikaid" veemõõtjaid, mida kasutatakse ebaseadusliku kastmise piiramiseks. Varem kasutati neid kodumajapidamiste veetarbimise vähendamiseks (maksimaalne tulemus on vähenemine 80%). Värske vee säästmine on alati aktuaalne teema. Eriti kui osariigis on läbi aegade suurim põud.

Suurandmete kasutajate nimekirjaga liitusid Los Angelese linna transpordiministeeriumi esindajad. Ametkonnad kontrollivad liikluskaamerate anduritelt saadud andmete põhjal fooride tööd, mis omakorda võimaldab liiklust reguleerida. Arvutisüsteem juhib umbes 4 500 000 valgusfoori kogu linnas. Ametlikel andmetel aitas uus algoritm vähendada ummikuid 16%.

7 Turunduse ja müügi edenemise mootor


Turunduses võimaldavad Big Data tööriistad tuvastada, milliseid ideid on müügitsükli konkreetses etapis kõige tõhusam edendada. Andmeanalüüs määrab, kuidas investeeringud võivad parandada kliendisuhete juhtimist, milline strateegia tuleks valida konversioonimäärade suurendamiseks ja kuidas optimeerida kliendi elutsüklit. Pilveäris kasutatakse Big Data algoritme, et välja selgitada, kuidas minimeerida klientide hankimise kulusid ja pikendada kliendi elutsüklit.

Hinnastrateegiate diferentseerimine sõltuvalt kliendi süsteemisisesest tasemest on ehk peamine, milleks Big Datat turundusvaldkonnas kasutatakse. McKinsey leidis, et umbes 75% keskmise ettevõtte tulust pärineb põhitoodetest, millest 30% on valesti hinnatud. 1% hinnatõus toob kaasa 8,7% ärikasumi kasvu.

Forresteri uurimisrühm suutis kindlaks teha, et andmeanalüütika võimaldab turundajatel keskenduda sellele, kuidas muuta kliendisuhted edukamaks. Uurides kliendi arendamise suunda, saavad spetsialistid hinnata oma lojaalsuse taset, samuti pikendada elutsüklit konkreetse ettevõtte kontekstis.

Müügistrateegiate optimeerimine ja geoanalüütika abil uutele turgudele sisenemise etapid kajastuvad biofarmaatsiatööstuses. McKinsey andmetel kulutavad ravimifirmad administreerimisele ja müügile keskmiselt 20–30% oma kasumist. Kui ettevõtted muutuvad aktiivsemaks kasutada suuri andmeid kõige kuluefektiivsemate ja kiiremini kasvavate turgude väljaselgitamiseks kärbitakse kulusid kohe.

Andmeanalüütika on vahend, mille abil ettevõtted saavad oma äri põhiaspektidest täieliku ülevaate. Tulude suurendamine, kulude vähendamine ja käibekapitali vähendamine on kolm ülesannet, mida kaasaegne äri analüütiliste vahendite abil lahendada püüab.

Lõpuks ütleb 58% ühistest turukorraldustest, et suurandmete tehnoloogiate rakendamine on jälgitav Otsingumootori optimeerimine(SEO), e-posti ja mobiiliturundus, kus andmeanalüüs mängib turundusprogrammide koostamisel kõige olulisemat rolli. Ja ainult 4% vähem vastajaid on kindlad, et suurandmetel on paljude aastate jooksul kõigis turundusstrateegiates oluline roll.

8 Globaalne andmete analüüs

See pole vähem uudishimulik. Võimalik, et masinõpe on lõpuks ainus jõud, mis suudab säilitada õrna tasakaalu. Inimese mõju globaalsele soojenemisele tekitab endiselt palju poleemikat, mistõttu saavad täpse vastuse anda vaid usaldusväärsed, suurte andmemahtude analüüsil põhinevad ennustusmudelid. Lõppkokkuvõttes aitab heitkoguste vähendamine meid kõiki: kulutame vähem energiale.

Nüüd pole Big Data abstraktne mõiste, mis võib-olla paari aasta pärast rakendust leiab. See on täielikult töötav tehnoloogiate komplekt, mis võib olla kasulik peaaegu kõigis inimtegevuse valdkondades: alates meditsiinist ja avalikust korrast kuni turunduse ja müügini. Just algas suurandmete aktiivse integreerimise etapp meie igapäevaellu ja kes teab, milline on suurandmete roll mõne aasta pärast?

Suurandmed on lai mõiste uuenduslike strateegiate ja tehnoloogiate jaoks, mis on vajalikud suurtest andmekogumitest teabe kogumiseks, korraldamiseks ja töötlemiseks. Kuigi üksiku arvuti arvutusvõimsust või salvestusmahtu ületavate andmete käsitlemise probleem ei ole uus, on seda tüüpi andmetöötluse ulatus ja väärtus viimastel aastatel oluliselt laienenud.

Sellest artiklist leiate peamised mõisted, millega võite suurandmete uurimisel kokku puutuda. Samuti käsitletakse selles valdkonnas praegu kasutatavaid protsesse ja tehnoloogiaid.

Mis on suurandmed?

"Suurandmete" täpset määratlust on raske määratleda, kuna projektid, müüjad, praktikud ja ärispetsialistid kasutavad seda väga erineval viisil. Seda silmas pidades saab suurandmeid määratleda järgmiselt:

  • Suured andmestikud.
  • Arvutusstrateegiate ja -tehnoloogiate kategooria, mida kasutatakse suurte andmekogumite töötlemiseks.

Selles kontekstis tähendab "suur andmekogum" andmekogumit, mis on traditsiooniliste tööriistade või ühes arvutis töötlemiseks või salvestamiseks liiga suur. See tähendab, et suurte andmehulkade üldine skaala muutub pidevalt ja võib igal juhtumil oluliselt erineda.

Suured andmesüsteemid

Suurandmetega töötamise põhinõuded on samad, mis mis tahes muu andmekogumi puhul. Kuid tohutu ulatus, töötlemiskiirus ja andmeomadused, mis protsessi igas etapis kokku puutuvad, seavad tööriistaarenduses tõsiseid uusi väljakutseid. Enamiku suurandmesüsteemide eesmärk on mõista ja suhelda suurte heterogeensete andmetega viisil, mis tavapäraste meetodite abil poleks võimalik.

2001. aastal tutvustas Gartneri Doug Laney "suurandmete kolme vs-i", et kirjeldada mõningaid omadusi, mis muudavad suurandmete töötlemise muudest andmetöötlustüüpidest erinevaks:

  1. Maht (andmemaht).
  2. Kiirus (andmete kogumise ja töötlemise kiirus).
  3. Variety (mitmesugused töödeldud andmete tüübid).

Andmemaht

Töödeldava teabe erakordne ulatus aitab määratleda suurandmesüsteeme. Need andmekogumid võivad olla suurusjärgus suuremad kui traditsioonilised andmekogumid, mis nõuavad rohkem tähelepanu töötlemise ja salvestamise igas etapis.

Kuna nõuded ületavad ühe arvuti võimsust, tekib sageli probleem arvutirühmade ressursside koondamisel, jaotamisel ja koordineerimisel. Klastrite haldamine ja algoritmid, mis suudavad ülesandeid väiksemateks osadeks jagada, muutuvad selles valdkonnas üha olulisemaks.

Kogunemis- ja töötlemiskiirus

Teine omadus, mis eristab oluliselt suurandmeid teistest andmesüsteemidest, on info liikumise kiirus süsteemis. Andmed sisenevad süsteemi sageli mitmest allikast ja neid tuleb süsteemi hetkeseisu värskendamiseks reaalajas töödelda.

See rõhk on hetkelisel tagasisidet sundis paljusid praktikuid loobuma partiipõhisest lähenemisviisist ja eelistama reaalajas voogedastussüsteemi. Andmeid lisatakse, töödeldakse ja analüüsitakse pidevalt, et olla kursis uue teabe sissevooluga ja saada väärtuslikke andmeid varajases staadiumis, kui need on kõige asjakohasemad. Selleks on vaja tugevaid süsteeme, millel on väga kättesaadavad komponendid, et kaitsta andmekanalis esinevate rikete eest.

Erinevat tüüpi töödeldud andmed

Suurandmetel on palju ainulaadseid väljakutseid, mis on seotud töödeldavate allikate laia valiku ja nende suhtelise kvaliteediga.

Andmed võivad pärineda sisemistest süsteemidest, näiteks rakenduste ja serverite logidest, sotsiaalmeedia kanalitest ja muudest välistest API-dest, anduritest füüsilised seadmed ja muudest allikatest. Suurandmete süsteemide eesmärk on töödelda potentsiaalselt kasulikke andmeid, olenemata päritolust, ühendades kogu teabe ühtsesse süsteemi.

Meediumivormingud ja -tüübid võivad samuti oluliselt erineda. Meediumifailid (pildid, videod ja heli) kombineeritakse tekstifailide, struktureeritud logidega jne. Traditsioonilisemad andmetöötlussüsteemid eeldavad, et andmed sisestatakse konveierisse juba sildistatud, vormindatud ja organiseeritud kujul, kuid suurandmesüsteemid võtavad ja salvestavad tavaliselt andmeid, püüdes säilitada oma algset olekut. Ideaalis toimuvad töötlemata andmete kõik teisendused või modifikatsioonid mälus töötlemise ajal.

Muud omadused

Aja jooksul on üksikisikud ja organisatsioonid teinud ettepaneku laiendada algset "kolme V-d", kuigi need uuendused kirjeldavad pigem probleeme kui suurandmete omadusi.

  • Tõesus: allikate mitmekesisus ja töötlemise keerukus võivad tekitada probleeme andmete kvaliteedi (ja seega ka sellest tuleneva analüüsi kvaliteedi) hindamisel.
  • Variatiivsus (andmete muutlikkus): andmete muutmine toob kaasa suuri kvaliteedimuutusi. Madala kvaliteediga andmete tuvastamine, töötlemine või filtreerimine võib nõuda täiendavaid ressursse andmete kvaliteedi parandamiseks.
  • Väärtus: suurandmete lõppeesmärk on väärtus. Mõnikord on süsteemid ja protsessid väga keerulised, mistõttu on andmete kasutamine ja tegelike väärtuste eraldamine keeruline.

Suurandmete elutsükkel

Kuidas siis suurandmeid tegelikult käsitletakse? Rakendusviise on mitu, kuid strateegiate ja tarkvara vahel on ühiseid jooni.

  • Andmete sisestamine süsteemi
  • Andmete salvestamine salvestusruumi
  • Andmete arvutamine ja analüüs
  • Tulemuste visualiseerimine

Enne nende nelja töövookategooria üksikasjalikku vaatlemist räägime klasterarvutist, mis on oluline strateegia, mida kasutavad paljud suured andmetöötlustööriistad. Arvutusklastri seadistamine on elutsükli igal etapil kasutatava tehnoloogia selgroog.

Klasterarvutus

Suurandmete kvaliteedi tõttu üksikud arvutid ei sobi andmetöötluseks. Selleks sobivad paremini klastrid, mis saavad hakkama suurandmete salvestus- ja arvutusvajadustega.

Suurandmete klastrite tarkvara koondab paljude väikeste masinate ressursid, eesmärgiga pakkuda mitmeid eeliseid:

  • Ressursside ühendamine: suurte andmehulkade töötlemine nõuab palju protsessori- ja mäluressursse, samuti palju vaba salvestusruumi.
  • Kõrge kättesaadavus: klastrid võivad pakkuda erineva vastupidavuse ja saadavuse tasemeid, nii et juurdepääsu andmetele ja andmete töötlemist ei mõjuta riist- või tarkvararikked. See on eriti oluline reaalajas analüütika jaoks.
  • Skaleeritavus: klastrid toetavad kiiret horisontaalset skaleerimist (uute masinate lisamine klastrisse).

Klastris töötamiseks vajate tööriistu klastri liikmelisuse haldamiseks, ressursside jaotamise koordineerimiseks ja üksikute sõlmedega töö planeerimiseks. Klastri liikmelisust ja ressursside eraldamist saab hallata selliste programmidega nagu Hadoop YARN (Yet Another Resource Negotiator) või Apache Mesos.

Kokkupandav andmetöötlusklaster toimib sageli baasina, millega teine ​​suhtleb andmete töötlemisel. tarkvara. Arvutusklastris osalevad masinad on tavaliselt seotud ka hajutatud salvestushaldusega.

Andmete hankimine

Andmete sissevõtmine on töötlemata andmete süsteemi lisamise protsess. Selle toimingu keerukus sõltub suuresti andmeallikate vormingust ja kvaliteedist ning sellest, kuidas andmed vastavad töötlemise nõuetele.

Suurandmeid saate süsteemi lisada spetsiaalsete tööriistade abil. Sellised tehnoloogiad nagu Apache Sqoop võivad võtta olemasolevaid andmeid relatsiooniandmebaasidest ja lisada need suurandmete süsteemi. Võite kasutada ka Apache Flume ja Apache Chukwa – projekte, mis on loodud rakenduste ja serveri logide koondamiseks ja importimiseks. Sõnumivahendajaid nagu Apache Kafka saab kasutada liidesena erinevate andmegeneraatorite ja suurandmete süsteemi vahel. Sellised raamistikud nagu Gobblin saavad ühendada ja optimeerida kõigi torujuhtme lõpus olevate tööriistade väljundit.

Andmete sissevõtmise ajal tehakse tavaliselt analüüs, sorteerimine ja märgistamine. Seda protsessi nimetatakse mõnikord ETL-iks (extract, transform, load), mis tähendab ekstrakti, teisendust ja laadimist. Kuigi see termin viitab tavaliselt pärandsalvestusprotsessidele, kasutatakse seda mõnikord ka suurandmete süsteemide puhul. tüüpilised toimingud hõlmavad sissetulevate andmete muutmist vormindamiseks, kategoriseerimist ja märgistamist, andmete filtreerimist või vastavuse kontrollimist.

Ideaalis vormindatakse sissetulevad andmed minimaalselt.

Andmekogu

Pärast vastuvõtmist edastatakse andmed komponentidele, mis haldavad salvestusruumi.

Tavaliselt kasutatakse töötlemata andmete salvestamiseks hajutatud failisüsteeme. Sellised lahendused nagu Apache Hadoopi HDFS võimaldavad teil kirjutada suuri andmemahtusid klastri mitmesse sõlme. See süsteem pakub arvutusressurssidele juurdepääsu andmetele, saab laadida andmeid klastri RAM-i mälutoimingute jaoks ja käsitleda komponentide tõrkeid. HDFS-i asemel saab kasutada muid hajutatud failisüsteeme, sealhulgas Ceph ja GlusterFS.

Struktureeritumaks juurdepääsuks saab andmeid importida ka teistesse hajutatud süsteemidesse. Hajutatud andmebaasid, eriti NoSQL-i andmebaasid, sobivad selle rolli jaoks hästi, kuna saavad hakkama heterogeensete andmetega. Sõltuvalt sellest, kuidas soovite andmeid korraldada ja esitada, on palju erinevat tüüpi hajutatud andmebaase.

Andmete arvutamine ja analüüs

Kui andmed on saadaval, võib süsteem alustada töötlemist. Arvutustase on ehk süsteemi kõige vabam osa, kuna siinsed nõuded ja lähenemisviisid võivad olenevalt teabe tüübist oluliselt erineda. Andmeid töödeldakse sageli ümber kas ühe tööriistaga või erinevate vahenditega erinevat tüüpi andmete töötlemiseks.

Paketttöötlus on üks arvutusmeetodeid suurtes andmekogumites. See protsess hõlmab andmete jagamist väiksemateks tükkideks, iga tüki eraldi masinas töötlemise ajakava, andmete ümberkorraldamist vastavalt vahetulemused ning seejärel lõpptulemuse arvutamine ja kogumine. See strateegia kasutab Apache Hadoopi MapReduce'i. Paketttöötlus on kõige kasulikum, kui töötate väga suurte andmekogudega, mis nõuavad üsna vähe arvutusi.

Muud töökoormused nõuavad reaalajas töötlemist. Samas tuleb infot koheselt töödelda ja ette valmistada ning süsteem peab reageerima õigeaegselt uue info ilmnemisel. Üks viis reaalajas töötlemise rakendamiseks on töödelda pidevat andmevoogu, mis koosneb üksikud elemendid. Teine reaalajaprotsessorite ühine omadus on see, et nad arvutavad andmeid klastri mälus, mis väldib kettale kirjutamise vajadust.

Pakkumisel on Apache Storm, Apache Flink ja Apache Spark erinevaid viise reaalajas töötlemise teostused. Need paindlikud tehnoloogiad võimaldavad teil valida igaühe jaoks parima lähenemisviisi eraldi teema. Üldjuhul sobib reaalajas töötlemine kõige paremini väikeste andmete analüüsimiseks, mis muutuvad või kiiresti süsteemi lisanduvad.

Kõik need programmid on raamistikud. Siiski on suurandmete süsteemis andmete arvutamiseks või analüüsimiseks palju muid võimalusi. Need tööriistad ühendatakse sageli ülaltoodud raamistikega ja pakuvad täiendavaid liideseid aluskihtidega suhtlemiseks. Näiteks Apache Hive pakub Hadoopi jaoks andmelao liidest, Apache Pig pakub päringu liidest ja interaktsioone SQL-andmed varustatud Apache Drilli, Apache Impala, Apache Spark SQL-i ja Prestoga. Masinõpe kasutab Apache Sparki Apache SystemML-i, Apache Mahouti ja MLlib-i. Otsese analüütilise programmeerimise jaoks, mida andmeökosüsteem laialdaselt toetab, kasutatakse R ja Python.

Tulemuste visualiseerimine

Sageli on suundumuste või andmete aja jooksul toimunud muutuste äratundmine olulisem kui saadud väärtused. Andmete visualiseerimine on üks kõige kasulikumaid viise trendide tuvastamiseks ja suure hulga andmepunktide korraldamiseks.

Reaalajas töötlemist kasutatakse rakenduste ja serveri mõõdikute visualiseerimiseks. Andmed muutuvad sageli ja mõõdikute suured erinevused viitavad tavaliselt olulisele mõjule süsteemide või organisatsioonide tervisele. Selliseid projekte nagu Prometheus saab kasutada andmevoogude ja aegridade töötlemiseks ning selle teabe visualiseerimiseks.

Üks populaarne viis andmete visualiseerimiseks on elastne virn, varem tuntud kui ELK virn. Logstashi kasutatakse andmete kogumiseks, Elasticsearchi andmete indekseerimiseks ja Kibanat visualiseerimiseks. Elastne virn võib töötada suurte andmetega, visualiseerida arvutuste tulemusi või suhelda töötlemata mõõdikutega. Sarnase virna saab Apache Solri ühendamisel, et visualiseerimiseks indekseerida Kibana kahvlit nimega Banana. Sellist virna nimetatakse Siidiks.

Dokumendid on teine ​​​​interaktiivse andmetöö visualiseerimistehnoloogia. Need projektid võimaldavad andmete interaktiivset uurimist ja visualiseerimist vormingus, mida on lihtne jagada ja esitada. Seda tüüpi liideste populaarsed näited on Jupyter Notebook ja Apache Zeppelin.

Suurandmete sõnastik

  • Suurandmed on lai mõiste andmekogumite kohta, mida ei saa õigesti töödelda. tavalised arvutid või tööriistu nende mahu, tarnekiiruse ja mitmekesisuse tõttu. Seda terminit kasutatakse tavaliselt ka selliste andmete käsitlemise tehnoloogiate ja strateegiate kohta.
  • Paketttöötlus on arvutusstrateegia, mis hõlmab andmete töötlemist suurtes kogumites. See meetod on tavaliselt ideaalne mittekiireloomuliste andmete käsitlemiseks.
  • Kobarandmetöötlus on mitme masina ressursside ühendamise ja nende haldamise praktika ühised võimalusedülesannete täitmiseks. Selleks on vaja klastri halduskihti, mis haldab sidet üksikute sõlmede vahel.
  • Andmejärv on suhteliselt töötlemata kujul kogutud andmete suur hoidla. Seda terminit kasutatakse sageli struktureerimata ja sageli muutuvatele suurandmetele viitamiseks.
  • Andmekaeve on lai mõiste, mis tähistab suurtes andmekogumites mustrite leidmise erinevaid tavasid. See on katse korraldada andmete mass arusaadavamaks ja sidusamaks teabekogumiks.
  • Andmeladu on suur organiseeritud hoidla analüüsi ja aruandluse jaoks. Erinevalt andmejärvest koosneb ladu vormindatud ja hästi organiseeritud andmetest, mis on integreeritud muude allikatega. Andmeladudele viidatakse sageli seoses suurandmetega, kuid need on sageli tavapäraste andmetöötlussüsteemide komponendid.
  • ETL (extract, transform, and load) – andmete ekstraheerimine, teisendamine ja laadimine. Nii näeb välja algandmete hankimise ja kasutamiseks ettevalmistamise protsess. Seda seostatakse andmeladudega, kuid selle protsessi tunnuseid leidub ka suurandmete süsteemide torustikes.
  • Hadoop on avatud lähtekoodiga Apache projekt suurandmete jaoks. See koosneb hajutatud failisüsteemist nimega HDFS ning klastri ja ressursside planeerijast nimega YARN. Paketttöötluse võimalusi pakub arvutusmootor MapReduce. MapReduce'i abil saavad kaasaegsed Hadoopi juurutused käitada muid arvutus- ja analüüsisüsteeme.
  • Mälusisene arvutus on strateegia, mis hõlmab töötavate andmekogumite teisaldamist täielikult klastri mällu. Vahearvutusi kettale ei kirjutata, vaid need salvestatakse mällu. See annab süsteemidele tohutu kiiruseelise I/O-ühendusega süsteemide ees.
  • Masinõpe on õppimine ja praktika selliste süsteemide kujundamiseks, mis saavad neile edastatavate andmete põhjal õppida, häälestada ja täiustada. Tavaliselt tähendab see ennustavate ja statistiliste algoritmide rakendamist.
  • Kaardi vähendamine (mitte segi ajada Hadoopi MapReduce'iga) on arvutusklastri ajastamisalgoritm. Protsess hõlmab ülesande jagamist sõlmede vahel ja vahetulemuste saamist, segamist ja seejärel iga komplekti jaoks ühe väärtuse väljastamist.
  • NoSQL on lai mõiste andmebaaside jaoks, mis on loodud väljaspool traditsioonilist relatsioonimudelit. NoSQL-i andmebaasid sobivad oma paindlikkuse ja hajutatud arhitektuuri tõttu hästi suurandmete jaoks.
  • Voogesitus on üksikute andmeüksuste arvutamise tava, kui need süsteemis liiguvad. See võimaldab reaalajas andmeid analüüsida ja sobib kiirete mõõdikute abil ajakriitiliste tehingute töötlemiseks.
Sildid: ,

Prognoositi, et 2011. aastal loodud ja paljundatud andmete kogumaht võib olla umbes 1,8 zettabaiti (1,8 triljonit gigabaiti) – umbes 9 korda rohkem kui 2006. aastal loodi.

Keerulisem määratlus

Sellegipoolest` Suured andmed` hõlmavad enamat kui lihtsalt suure hulga teabe analüüsimist. Probleem pole mitte selles, et organisatsioonid loovad tohutuid andmemahtusid, vaid selles, et suurem osa neist esitatakse vormingus, mis ei sobi hästi traditsioonilise struktureeritud andmebaasivorminguga – need on veebilogid, videod, tekstidokumendid, masinkood või näiteks georuumilised andmed. Seda kõike hoitakse paljudes erinevates hoidlates, mõnikord isegi väljaspool organisatsiooni. Selle tulemusena saavad ettevõtted juurdepääsu suurele hulgale oma andmetele ja mitte vajalikud tööriistad luua nende andmete vahel seoseid ja teha nendest sisukaid järeldusi. Kui lisada sellele fakt, et andmeid uuendatakse nüüd üha sagedamini, tekib olukord, kus traditsioonilised meetodid teabe analüüs ei suuda sammu pidada tohutute pidevalt uuendatavate andmetega, mis lõppkokkuvõttes sillutab teed tehnoloogiale Suured andmed.

Parim definitsioon

Sisuliselt kontseptsioon Suured andmed hõlmab tööd tohutu mahu ja mitmekesise koostisega, väga sageli ajakohastatud ja erinevatest allikatest paikneva teabega, et tõsta töö efektiivsust, luua uusi tooteid ja tõsta konkurentsivõimet. Konsultatsioonifirma Forrester ütleb selle lühidalt: ` Suured andmed koondada tehnikaid ja tehnoloogiaid, mis eraldavad andmetest tähenduse praktilisuse äärmisel piiril.

Kui suur on erinevus äriteabe ja suurandmete vahel?

Fujitsu Austraalia turundus- ja tehnoloogiadirektor Craig Bathy juhtis tähelepanu sellele, et ärianalüüs on kirjeldav protsess, mille käigus analüüsitakse ettevõtte teatud aja jooksul saavutatud tulemusi, samal ajal kui töötlemiskiirust. Suured andmed võimaldab teil muuta analüüsi ennustavaks ja pakkuda ärisoovitusi tulevikuks. Suurandmete tehnoloogiad võimaldavad analüüsida ka rohkemat tüüpi andmeid kui ärianalüüsi tööriistu, mis võimaldab keskenduda mitte ainult struktureeritud salvestusele.

Matt Slocum O "Reilly Radarist usub, et kuigi Suured andmed ja ärianalüüsil on sama eesmärk (küsimusele vastuste leidmine), need erinevad üksteisest kolme aspekti poolest.

  • Suurandmed on mõeldud suuremate infohulkade töötlemiseks kui äriteave ja see loomulikult sobib suurandmete traditsioonilise definitsiooniga.
  • Suurandmed on loodud kiiremini ja kiiremini muutuva teabe töötlemiseks, mis tähendab sügavat uurimist ja interaktiivsust. Mõnel juhul genereeritakse tulemused kiiremini kui veebileht laaditakse.
  • Suurandmed on loodud käsitlema struktureerimata andmeid, mille kasutamist me alles hakkame uurima pärast seda, kui oleme suutnud need koguda ja salvestada, ning vajame algoritme ja dialoogi, et hõlbustada nendes massiivides sisalduvate suundumuste leidmist.

Oracle'i avaldatud valge raamatu Oracle Information Architecture: An Architect's Guide to Big Data valge paberi kohaselt läheneme teabele suurandmetega töötades erinevalt kui ärianalüüsi tehes.

Suurandmetega töötamine pole nagu tavaline ärianalüüsi protsess, kus lihtsalt teadaolevate väärtuste liitmine annab tulemuse: näiteks koos makstud arvete liitmisest saab aastaks müük. Suurandmetega töötamisel saadakse tulemus nende puhastamise käigus järjestikuse modelleerimisega: esiteks püstitatakse hüpotees, ehitatakse statistiline, visuaalne või semantiline mudel, mille alusel kontrollitakse püstitatud hüpoteesi õigsust. , ja siis esitatakse järgmine. See protsess nõuab, et uurija tõlgendaks visuaalseid tähendusi või teeks interaktiivseid teadmistepõhiseid päringuid või töötaks välja adaptiivsed "masinõppe" algoritmid, mis suudavad soovitud tulemuse anda. Pealegi võib sellise algoritmi eluiga olla üsna lühike.

Suurandmete analüüsimeetodid

Andmemassiivide analüüsimiseks on palju erinevaid meetodeid, mis põhinevad statistikast ja informaatikast laenatud tööriistadel (näiteks masinõpe). Loetelu ei pretendeeri täielikule, kuid kajastab kõige populaarsemaid lähenemisviise erinevates tööstusharudes. Samas tuleb mõista, et teadlased jätkavad tööd uute meetodite loomise ja olemasolevate täiustamise nimel. Lisaks ei pruugi mõned loetletud tehnikad olla rakendatavad ainult suurte andmete puhul ja neid saab edukalt kasutada väiksemate massiivide jaoks (nt A / B testimine, regressioonanalüüs). Muidugi, mida mahukamalt ja mitmekesisemalt massiivi analüüsitakse, seda täpsemaid ja asjakohasemaid andmeid on võimalik saada väljundis.

A/B testimine. Tehnika, mille käigus võrreldakse kontrollproovi kordamööda teistega. Seega on võimalik tuvastada optimaalne indikaatorite kombinatsioon, et saavutada näiteks tarbijate parim reaktsioon turunduspakkumisele. Suured andmed võimaldavad teha tohutul hulgal iteratsioone ja saada seega statistiliselt olulise tulemuse.

assotsiatsioonireeglite õppimine. Seoste tuvastamise tehnikate kogum, st. suurte andmemassiivide muutujate vahelise seose reeglid. Kasutatakse andmete kaevandamine.

klassifikatsioon. Tehnikakomplekt, mis võimaldab ennustada tarbija käitumist konkreetses turusegmendis (ostuotsused, ostuotsused, tarbimismaht jne). Kasutatakse andmete kaevandamine.

klastri analüüs. Statistiline meetod objektide rühmadesse klassifitseerimiseks, tuvastades ühised tunnused, mis pole eelnevalt teada. Kasutatakse andmete kaevandamine.

Crowdsourcing. Tehnika andmete kogumiseks paljudest allikatest.

Andmete liitmine ja andmete integreerimine. Tehnikakomplekt, mis võimaldab analüüsida sotsiaalvõrgustike kasutajate kommentaare ja võrrelda neid reaalajas müügitulemustega.

andmete kaevandamine. Tehnikakomplekt, mis võimaldab teil määrata reklaamitava toote või teenuse jaoks kõige vastuvõtlikumad tarbijakategooriad, tuvastada kõige edukamate töötajate omadused ja ennustada tarbijate käitumismudelit.

Ansambliõpe. See meetod kasutab palju ennustavaid mudeleid, mis parandab tehtud ennustuste kvaliteeti.

Geneetilised algoritmid. Selles tehnikas kujutatakse võimalikke lahendusi "kromosoomidena", mis võivad ühineda ja muteeruda. Nagu loomuliku evolutsiooni käigus, jääb ellu kõige vormikam inimene.

masinõpe. Arvutiteaduse suund (ajalooliselt on sellele omistatud nimetus `tehisintellekt`), mille eesmärk on luua empiiriliste andmete analüüsil põhinevaid iseõppivaid algoritme.

loomuliku keele töötlemine (NLP). Arvutiteadusest ja lingvistikast laenatud loomulike keeletuvastustehnikate komplekt.

võrgu analüüs. Tehnikakomplekt võrkude sõlmede vaheliste linkide analüüsimiseks. Seoses sotsiaalvõrgustikega võimaldab see analüüsida üksikute kasutajate, ettevõtete, kogukondade jne vahelisi suhteid.

Optimeerimine. Numbriliste meetodite kogum keerukate süsteemide ja protsesside ümberkujundamiseks ühe või mitme näitaja parandamiseks. Aitab teha strateegilisi otsuseid, näiteks turule toodud tootesarja koosseis, investeeringute analüüsi tegemine jne.

mustrituvastus. Iseõppimise elementidega tehnikate kogum tarbijate käitumismudeli ennustamiseks.

ennustav modelleerimine. Tehnikakomplekt, mis võimaldab teil luua matemaatiline mudel sündmuste arengu etteantud tõenäoline stsenaarium. Näiteks CRM-süsteemi andmebaasi analüüs võimalike tingimuste osas, mis sunnivad tellijaid teenusepakkujat vahetama.

regressioon. Statistiliste meetodite kogum sõltuva muutuja muutuse ja ühe või mitme sõltumatu muutuja vaheliste mustrite tuvastamiseks. Sageli kasutatakse ennustamiseks ja ennustamiseks. Kasutatakse andmekaevanduses.

tundeanalüüs. Tarbija sentimendi hindamise tehnikad põhinevad inimese loomuliku keele tuvastamise tehnoloogiatel. Need võimaldavad isoleerida huvipakkuva teemaga (näiteks tarbekaubaga) seotud sõnumid üldisest infovoost. Järgmisena hinnake hinnangu polaarsust (positiivne või negatiivne), emotsionaalsuse astet jne.

signaali töötlemine. Raadiotehnikast laenatud tehnikate kogum, mille eesmärk on signaali tuvastamine müra taustal ja selle edasine analüüs.

Ruumianalüüs. Ruumiandmete analüüsi tehnikate komplekt, mis on osaliselt laenatud statistikast - piirkonna topoloogia, geograafilised koordinaadid, objekti geomeetria. allikas Suured andmed sel juhul toimivad sageli geograafilised infosüsteemid (GIS).

  • Revolution Analytics (matemaatilise statistika R-keele alusel).

Selles loendis pakub erilist huvi Apache Hadoop, avatud lähtekoodiga tarkvara, mida enamik aktsiajälgijaid on viimase viie aasta jooksul andmeanalüsaatorina testinud. Niipea, kui Yahoo avas Hadoopi koodi avatud lähtekoodiga kogukonnale, tekkis IT-tööstuses kiiresti täiesti uus suund Hadoopil põhinevate toodete loomiseks. Peaaegu kõik kaasaegsed analüüsivahendid Suured andmed pakkuda integratsiooni Hadoopiga. Nende arendajad on nii idufirmad kui ka tuntud globaalsed ettevõtted.

Suurandmete halduslahenduste turud

Big Data Platforms (BDP, Big Data Platform) kui vahend digitaalse hordeerimise vastu võitlemiseks

Analüüsivõime Suured andmed, mida kõnekeeles nimetatakse Big Dataks, peetakse õnnistuseks ja seda üheselt. Aga kas see on tõesti nii? Milleni võib andmete ohjeldamatu kuhjumine kaasa tuua? Tõenäoliselt nimetavad kodumaised psühholoogid inimesega seoses patoloogiliseks kogunemiseks, süllogomaaniaks või piltlikult öeldes "Pljuškini sündroomiks". Inglise keeles nimetatakse tigedat kirge kõike koguda hordingiks (inglise keelest hoard - “reserv”). Psüühikahäirete klassifikatsiooni järgi liigitatakse hording psüühikahäireks. Digiajastul lisandub traditsioonilisele materjaliakordile digitaalne (Digital Hoarding), selle all võivad kannatada nii üksikisikud kui ka terved ettevõtted ja organisatsioonid ().

Maailma ja Venemaa turg

Suurandmete maastik – peamised pakkujad

Huvi kogumise, töötlemise, haldamise ja analüüsi tööriistade vastu Suured andmed näitasid peaaegu kõik juhtivad IT-firmad, mis on üsna loomulik. Esiteks kogevad nad seda nähtust otseselt oma ettevõttes ja teiseks, Suured andmed avavad suurepärased võimalused uute turuniššide arendamiseks ja uute klientide meelitamiseks.

Turule on ilmunud palju idufirmasid, kes tegelevad tohutute andmemahtude töötlemisega. Mõned neist kasutavad valmis pilveinfrastruktuuri, mida pakuvad suured tegijad nagu Amazon.

Suurandmete teooria ja praktika tööstusharudes

Arengu ajalugu

2017

TmaxSofti prognoos: järgmine suurandmete "laine" nõuab DBMS-i moderniseerimist

Ettevõtted teavad, et tohutul hulgal andmeid, mida nad koguvad, sisaldavad oluline teave oma äri ja klientide kohta. Kui ettevõte suudab seda teavet edukalt rakendada, on tal konkurentide ees märkimisväärne eelis ning ta suudab pakkuda omast paremaid tooteid ja teenuseid. Paljud organisatsioonid ei saa aga endiselt tõhusalt kasutada Suured andmed TmaxSoft märkis, et nende pärand IT-infrastruktuur ei suuda pakkuda vajalikku salvestusmahtu, andmevahetusprotsesse, utiliite ja rakendusi, mis on vajalikud suurte struktureerimata andmete massiivide töötlemiseks ja analüüsimiseks, märkis TmaxSoft.

Lisaks võib järjest suurenevate andmemahtude analüüsimiseks vajaliku töötlemisvõimsuse suurendamine nõuda märkimisväärseid investeeringuid organisatsiooni pärandi IT-infrastruktuuri, aga ka täiendavaid hooldusressursse, mida saaks kasutada uute rakenduste ja teenuste arendamiseks.

5. veebruaril 2015 avaldas Valge Maja aruande, milles käsitleti seda, kuidas ettevõtted kasutavad " Suured andmed erinevatele ostjatele erinevate hindade määramine – see on tava, mida nimetatakse "hinnadiskrimineerimiseks" või "diferentseeritud hinnakujunduseks" (personaliseeritud hinnakujundus). Aruandes kirjeldatakse "suurandmete" eeliseid nii müüjatele kui ka ostjatele ning jõutakse järeldusele, et paljusid suurandmete tulekuga ja erineva hinnakujundusega tõstatatud probleeme saab lahendada olemasolevate diskrimineerimisvastaste seaduste ja määrustega. Tarbijate õiguste kaitsmine .

Aruandes märgitakse, et praegu on ainult anekdootlikke tõendeid selle kohta, kuidas ettevõtted kasutavad suurandmeid individuaalse turunduse ja diferentseeritud hinnakujunduse kontekstis. See teave näitab, et müüjad kasutavad hinnakujundusmeetodeid, mida saab jagada kolme kategooriasse.

  • nõudluskõvera uurimine;
  • demograafilistel andmetel põhinev juhtimine ja diferentseeritud hinnakujundus; Ja
  • käitumuslik sihtturundus (käitumuslik sihtimine – käitumuslik sihtimine) ja individualiseeritud hinnakujundus.

Nõudluskõvera uurimine: Nõudluse mõistmiseks ja tarbijakäitumise uurimiseks viivad turundajad selles valdkonnas sageli läbi eksperimente, mille käigus määratakse klientidele juhuslikult üks kahest võimalikust hinnakategooriast. "Tehniliselt on need katsed erineva hinnakujunduse vorm, kuna nende tulemuseks on klientide jaoks erinevad hinnad, isegi kui need on "mittediskrimineerivad" selles mõttes, et kõigil klientidel on ühesugune võimalus kõrgemat hinda "lüüa".

Juhtimine: See on tava, kus tarbijatele tooteid esitletakse nende kuuluvuse alusel teatud demograafilisse rühma. Seega võib arvutiettevõtte veebisait pakkuda sama sülearvuti erinevad tüübid ostjad erinevate hindadega nende enda kohta esitatud teabe põhjal (näiteks olenevalt sellest, kas antud kasutaja valitsusasutuste, teadus- või kaubandusasutuste esindaja või üksikisik) või nende geograafilisest asukohast (näiteks arvuti IP-aadressi järgi).

Sihitud käitumuslik turundus ja kohandatud hinnakujundus: Nendel juhtudel kasutatakse ostjate isikuandmeid sihipäraseks reklaamiks ja teatud toodete individuaalseks hinnakujunduseks. Näiteks veebireklaamijad kasutavad kogutud reklaamivõrgustikud ja kolmandate osapoolte küpsiste kaudu andmeid kasutajate tegevuse kohta Internetis, et sihtida nende reklaammaterjale. See lähenemisviis võimaldab ühelt poolt tarbijatel saada neile huvipakkuvate kaupade ja teenuste reklaame, kuid see võib tekitada muret nendes tarbijates, kes ei soovi teatud tüüpi oma isikuandmeid (nt teavet veebilehtede külastamise kohta, mis on seotud meditsiini- ja finantsküsimused) kohtusid ilma nende nõusolekuta.

Kuigi suunatud käitumuslik turundus on laialt levinud, on veebikeskkonnas suhteliselt vähe tõendeid individualiseeritud hinnakujunduse kohta. Aruandes oletatakse, et see võib olla tingitud sellest, et meetodeid alles arendatakse või ettevõtted ei soovi individuaalset hinnakujundust kasutusele võtta (või eelistavad sellest vaikida), kartes tarbijate vastureaktsiooni.

Raporti autorid usuvad, et "üksiktarbija jaoks on suurandmete kasutamine kahtlemata seotud nii potentsiaalse tulu kui ka riskidega." Tunnistades, et suurandmete kasutamisel on läbipaistvuse ja diskrimineerimisega seotud probleeme, väidetakse raportis, et olemasolevad diskrimineerimisvastased ja tarbijakaitseseadused on nende lahendamiseks piisavad. Aruandes rõhutatakse aga ka vajadust pideva järelevalve järele, kus ettevõtted seda kasutavad konfidentsiaalne teave läbipaistmatul viisil või viisil, mida olemasolev reguleeriv raamistik ei hõlma.

See aruanne on jätk Valge Maja püüdlustele uurida "suurte andmete" kasutamist ja diskrimineerivat hinnakujundust Internetis ning sellest tulenevaid tagajärgi Ameerika tarbijatele. Varem teatati, et töögrupp Suurandmete Valge Maja avaldas selleteemalise aruande 2014. aasta mais. Föderaalne kaubanduskomisjon (FTC) käsitles neid küsimusi ka oma 2014. aasta septembris toimunud suurandmete kasutamisega seotud diskrimineerimise seminaril.

2014

Gartner demüstifitseerib suurandmed

Gartneri 2014. aasta sügise poliitikaülevaade loetleb ja lükkab ümber mitmed CIOde seas levinud suurandmete müüdid.

  • Kõik juurutavad suurandmete töötlemise süsteeme meist kiiremini

Huvi suurandmete tehnoloogiate vastu on kõigi aegade kõrgeim – 73% Gartneri analüütikute poolt sel aastal küsitletud organisatsioonidest juba investeerivad või plaanivad seda teha. Kuid enamik neist algatustest on alles väga algusjärgus ja ainult 13% küsitletutest on selliseid lahendusi juba rakendanud. Kõige raskem on välja mõelda, kuidas suurandmeid raha teenida, ja otsustada, kust alustada. Paljud organisatsioonid takerduvad katsefaasi, sest nad ei suuda siduda uus tehnoloogia konkreetsetele äriprotsessidele.

  • Meil on nii palju andmeid, et pole vaja karta nendes leiduvate pisivigade pärast.

Mõned infotehnoloogiajuhid usuvad, et väikesed vead andmetes ei mõjuta suurte mahtude analüüsi üldtulemusi. Kui andmeid on palju, siis iga viga eraldi mõjutab tulemust tõesti vähem, väidavad analüütikud, kuid vead ise muutuvad suuremaks. Lisaks on suurem osa analüüsitavatest andmetest välised, teadmata struktuuri või päritoluga, mistõttu vigade tõenäosus suureneb. Seega on Big Data maailmas kvaliteet tegelikult palju olulisem.

  • Suurandmete tehnoloogiad kaotavad andmete integreerimise vajaduse

Big Data lubab võimet töödelda andmeid nende algvormingus automaatse skeemi genereerimisega nende lugemise ajal. Arvatakse, et see võimaldab analüüsida samadest allikatest pärinevat teavet mitme andmemudeli abil. Paljud usuvad, et see võimaldab ka lõppkasutajatel tõlgendada mis tahes andmekogumit omal moel. Tegelikkuses soovib enamik kasutajaid sageli traditsioonilist valmis skeemi, kus andmed on õigesti vormindatud ja on kokku lepitud teabe terviklikkuse tasemes ja selles, kuidas see peaks seostuma kasutusjuhtumiga.

  • Andmeladusid ei ole mõtet keeruliseks analüüsiks kasutada

Paljud infohaldussüsteemide administraatorid leiavad, et andmelao loomisele pole mõtet aega kulutada, kuna keerukad analüütilised süsteemid kasutavad uut tüüpi andmeid. Tegelikult kasutavad paljud keerukad analüüsisüsteemid andmelaost pärinevat teavet. Muudel juhtudel tuleb Big Data töötlemissüsteemides analüüsimiseks täiendavalt ette valmistada uued andmetüübid; tuleb teha otsused andmete sobivuse, koondamise põhimõtete ja nõutava kvaliteeditaseme üle – selline ettevalmistus võib toimuda väljaspool ladu.

  • Andmelaod asendatakse andmejärvedega

Tegelikkuses eksitavad müüjad kliente, positsioneerides andmejärved salvestusruumi asenduseks või analüütilise infrastruktuuri kriitiliste elementidena. Andmejärvede aluseks olevatel tehnoloogiatel puudub andmeladudes leiduv funktsionaalsuse küpsus ja laius. Seetõttu peaksid andmete haldamise eest vastutavad juhid Gartneri sõnul ootama, kuni järved jõuavad samale arengutasemele.

Accenture: 92% suurandmesüsteemide juurutajatest on tulemusega rahul

Suurandmete peamiste eeliste hulgas nimetasid vastajad:

  • "otsima uusi sissetulekuallikaid" (56%),
  • "kliendikogemuse parandamine" (51%),
  • "uued tooted ja teenused" (50%) ja
  • "uute klientide juurdevool ja vanade klientide lojaalsuse säilitamine" (47%).

Uute tehnoloogiate juurutamisel on paljud ettevõtted seisnud silmitsi traditsiooniliste probleemidega. 51% jaoks oli komistuskiviks turvalisus, 47% jaoks eelarve, 41% jaoks vajaliku personali puudumine ja 35% raskused integreerumisel. olemasolev süsteem. Peaaegu kõik küsitletud ettevõtted (umbes 91%) plaanivad peagi lahendada tööjõupuuduse probleemi ja palgata suurandmete spetsialiste.

Ettevõtted on suurandmete tehnoloogiate tuleviku suhtes optimistlikud. 89% usub, et nad muudavad äri sama palju kui Internet. 79% vastanutest märkis, et ettevõtted, kes suurandmetega ei tegele, kaotavad oma konkurentsieelise.

Vastajad jäid aga eriarvamusele, mida täpselt suurandmeteks pidada. 65% vastajatest usub, et need on "suured andmefailid", 60% on kindlad, et see on "täiustatud analüüs ja analüüs" ja 50% et see on "andmete visualiseerimise tööriistad".

Madrid kulutab suurandmete haldamisele 14,7 miljonit eurot

2014. aasta juulis sai teatavaks, et Madrid hakkab linnataristu haldamiseks kasutama suurandmete tehnoloogiaid. Projekti maksumus on 14,7 miljonit eurot ning elluviidavad lahendused põhinevad suurandmete analüüsi ja haldamise tehnoloogiatel. Nende abiga Linnavalitsus juhib tööd iga teenusepakkujaga ja maksab vastavalt teenuse tasemest olenevalt.

Jutt on administratsiooni töövõtjatest, kes jälgivad tänavate, valgustuse, kastmise, haljasalade seisukorda, koristavad territooriumi ja veavad ära, samuti töötlevad prügi. Projekti käigus on spetsiaalselt määratud inspektoritele välja töötatud 300 linnateenuste põhinäitajat, mille alusel viiakse igapäevaselt läbi 1,5 tuhat erinevat kontrolli ja mõõtmist. Lisaks hakkab linn kasutama uuenduslikku tehnoloogilist platvormi nimega Madrid iNTeligente (MiNT) – Smarter Madrid.

2013

Eksperdid: Big Data moe tipphetk

Eranditult töötavad kõik andmehaldusturu müüjad praegu välja suurandmete haldamise tehnoloogiaid. Seda uut tehnoloogilist suundumust arutab aktiivselt ka professionaalne ringkond, nii arendajad ja tööstusanalüütikud kui ka selliste lahenduste potentsiaalsed tarbijad.

Nagu Datashift teada sai, oli 2013. aasta jaanuari seisuga arutelulaine " Suured andmed"ületas kõik mõeldavad mõõtmed. Pärast sotsiaalvõrgustikes Big Data mainimiste arvu analüüsimist arvutas Datashift välja, et 2012. aastal kasutati seda terminit umbes 2 miljardit korda postitustes, mille on loonud umbes 1 miljon erinevat autorit üle maailma. See võrdub 260 postitusega tunnis, tipptasemel 3070 mainimist tunnis.

Gartner: iga teine ​​CIO on valmis suurandmetele raha kulutama

Pärast mitut aastat kestnud eksperimente Big data tehnoloogiatega ja 2013. aasta esimesi juurutamist suureneb selliste lahenduste kohandamine oluliselt, ennustab Gartner. Uurijad küsitlesid IT-juhte üle maailma ja leidsid, et 42% küsitletutest on juba investeerinud suurandmete tehnoloogiatesse või plaanivad selliseid investeeringuid teha järgmise aasta jooksul (2013. aasta märtsi seisuga).

Ettevõtted on sunnitud kulutama raha töötlemistehnoloogiatele Suured andmed Kuna infomaastik muutub kiiresti, vajan infotöötluses uusi lähenemisi. Paljud ettevõtted on juba aru saanud, et suurandmed on kriitilise tähtsusega ning nendega töötamine võimaldab saavutada kasu, mida traditsiooniliste teabeallikate ja nende töötlemise meetodite abil ei saa. Lisaks õhutab meedias "suurandmete" teema pidev liialdamine huvi asjakohaste tehnoloogiate vastu.

Gartneri asepresident Frank Buytendijk kutsus isegi ettevõtteid üles oma entusiasmi mõõdukaks muutma, kuna mõned on mures, et nad jäävad suurandmete arendamisel konkurentidest maha.

"Muretsema ei pea, võimalused suurandmete tehnoloogiatel põhinevate ideede realiseerimiseks on praktiliselt piiramatud," sõnas ta.

Gartner ennustab, et 2015. aastaks on 20% Global 1000 ettevõtetest strateegiliselt keskendunud "teabe infrastruktuurile".

Suure andmetöötlustehnoloogiaga kaasnevate uute võimaluste ootuses korraldavad paljud organisatsioonid juba praegu erinevat laadi teabe kogumise ja säilitamise protsessi.

Haridus- ja valitsusasutuste, aga ka tööstuse ettevõtete jaoks peitub suurim potentsiaal ettevõtte ümberkujundamiseks kogutud andmete kombineerimisel nn tumedate andmetega (sõna otseses mõttes - "tumedad andmed"), viimane hõlmab sõnumeid. Meil, multimeedia ja muu sarnane sisu. Gartneri sõnul võidavad andmejooksu need, kes õpivad käsitlema väga erinevaid teabeallikaid.

Cisco küsitlus: suurandmed aitavad suurendada IT-eelarveid

Cisco Connected World Technology Report (kevad 2013), mille viis läbi 18 riigis sõltumatu analüütikute firma InsightExpress, küsitles 1800 kolledži üliõpilast ja sama palju noori spetsialiste vanuses 18–30 aastat. Küsitlus viidi läbi IT-osakondade valmisoleku taseme väljaselgitamiseks projektide elluviimiseks Suured andmed ning omandada arusaam selliste projektide seotud väljakutsetest, tehnoloogilistest puudustest ja strateegilisest väärtusest.

Enamik ettevõtteid kogub, salvestab ja analüüsib andmeid. Aruande kohaselt seisavad paljud ettevõtted aga seoses suurandmetega silmitsi mitmesuguste keerukate äri- ja infotehnoloogiliste väljakutsetega. Näiteks 60 protsenti küsitletutest tunnistab, et Big Data lahendused võivad parandada otsustusprotsesse ja tõsta konkurentsivõimet, kuid vaid 28 protsenti ütles, et saavad kogunenud infost juba reaalset strateegilist kasu.

Rohkem kui pooled küsitletud CIO-dest usuvad, et suurandmete projektid aitavad suurendada nende organisatsioonide IT-eelarveid, kuna suurenevad nõudmised tehnoloogiale, töötajatele ja professionaalsetele oskustele. Samas eeldab üle poole vastanutest, et sellised projektid suurendavad nende ettevõtete IT-eelarveid juba 2012. aastal. 57 protsenti on kindlad, et Big Data suurendavad järgmise kolme aasta eelarvet.

81 protsenti vastanutest ütles, et kõik (või vähemalt mõned) suurandmete projektid nõuavad pilvandmetöötluse kasutamist. Nii et levik pilvetehnoloogiad võib mõjutada Big Data lahenduste levitamise kiirust ja nende lahenduste väärtust äritegevusele.

Ettevõtted koguvad ja kasutavad andmeid kõige enam erinevad tüübid nii struktureeritud kui ka struktureerimata. Siin on allikad, kust uuringus osalejad andmeid saavad (Cisco Connected World Technology Report):

Ligi pooled (48 protsenti) IT-juhtidest ennustavad, et nende võrkude koormus kahekordistub järgmise kahe aasta jooksul. (See kehtib eriti Hiinas, kus 68 protsenti küsitletutest on sellel seisukohal, ja Saksamaal 60 protsenti.) 23 protsenti vastanutest eeldab, et võrguliiklus kolmekordistub järgmise kahe aasta jooksul. Samal ajal teatas vaid 40 protsenti vastanutest, et on valmis võrguliikluse plahvatuslikuks kasvuks.

27 protsenti küsitletutest tunnistas, et nad vajavad paremaid IT-poliitikaid ja infoturbemeetmeid.

21 protsenti vajab rohkem ribalaiust.

Big Data avab IT-osakondadele uued võimalused väärtuse loomiseks ja äriüksustega tihedate suhete loomiseks, et suurendada tulusid ja tugevdada ettevõtte kasumit. Big Data projektid muudavad IT-osakonnad äriosakondade strateegiliseks partneriks.

73 protsendi vastanute hinnangul saab just IT-osakond Big Data strateegia elluviimise peamiseks mootoriks. Samas usuvad vastajad, et selle strateegia elluviimisse kaasatakse ka teisi osakondi. Esiteks puudutab see finantsosakonda (nimetas 24 protsenti vastanutest), teadus- ja arendusosakonda (20 protsenti), operatiivosakonda (20 protsenti), inseneriteadusi (19 protsenti), aga ka turundust (15 protsenti) ja müüki ( 14 protsenti).

Gartner: Suurandmete haldamiseks on vaja miljoneid uusi töökohti

Ülemaailmsed IT-kulutused ulatuvad 2013. aastaks 3,7 miljardi dollarini, mis on 3,8% rohkem kui 2012. aasta IT-kulutused (aasta lõpu prognoos on 3,6 miljardit dollarit). Segment Suured andmed(suurandmed) arenevad Gartneri aruande kohaselt palju kiiremini.

2015. aastaks valdkonnas 4,4 miljonit töökohta infotehnoloogiad luuakse suurandmete teenindamiseks, millest 1,9 miljonit töökohta on . Veelgi enam, iga selline töökoht loob kolm täiendavat mitte-IT töökohta, nii et ainuüksi USA-s töötab järgmise nelja aasta jooksul infomajanduse toetamise nimel 6 miljonit inimest.

Gartneri ekspertide hinnangul on põhiprobleem selles, et tööstuses pole selleks piisavalt talente: nii era- kui ka riiklikud haridussüsteemid näiteks USA-s ei suuda varustada tööstust piisava hulga kvalifitseeritud tööjõuga. . Nii nimetatud uutest IT-alastest töökohtadest tagatakse personaliga vaid üks kolmest.

Analüütikud leiavad, et kvalifitseeritud IT-personali kasvatamise rolli peaksid võtma otse ettevõtted, kes seda hädasti vajavad, sest sellistest töötajatest saab neile pääs uude tuleviku infomajandusse.

2012

Esimene skeptitsism suurandmete suhtes

Ovumi ja Gartneri analüütikud soovitavad trendika teema jaoks 2012. aastal Suured andmed võib-olla on aeg illusioonidest lahti lasta.

Mõiste "suured andmed" viitab praegu tavaliselt sotsiaalmeediast, andurite võrkudest ja muudest allikatest võrku tulevale pidevalt kasvavale teabemahule, samuti kasvavale hulgale tööriistadele, mida kasutatakse andmete töötlemiseks ja nende põhjal olulise äri tuvastamiseks. - suundumused.

"Suurandmete idee ümber käiva hüppe tõttu (või vaatamata sellele) vaatasid tootjad 2012. aastal seda suundumust suure lootusega," ütles Ovumi analüütik Tony Bayer.

Bayer ütles, et DataSift viis aastal läbi suurandmete viidete retrospektiivse analüüsi

Suurandmed (või suurandmed) on meetodite kogum suure hulga struktureeritud või struktureerimata teabega töötamiseks. Suurandmete spetsialistid tegelevad nende töötlemise ja analüüsiga, et saada visuaalseid, inimesele tajutavaid tulemusi. Look At Me vestles professionaalidega ja uuris, kuidas on lood suurandmete töötlemisega Venemaal, kus ja mida on parem õppida neil, kes soovivad sellel alal töötada.

Aleksei Ryvkin suurandmete valdkonna põhisuundadest, klientidega suhtlemisest ja numbrimaailmast

Õppisin Moskva Instituudis elektroonikatehnika. Peamine, mis mul sealt välja õnnestus saada, olid füüsika ja matemaatika põhiteadmised. Samaaegselt õpingutega töötasin teadus- ja arenduskeskuses, kus tegelesin turvalise andmeedastuse veaparanduste kodeerimisalgoritmide väljatöötamise ja juurutamisega. Pärast bakalaureuseõppe lõpetamist astusin Kõrgemasse Majanduskooli äriinformaatika magistriõppesse. Pärast seda tahtsin IBS-is töötada. Mul vedas, et tol ajal tänu suur summa projektides toimus täiendav praktikantide värbamine ning pärast mitmeid intervjuusid asusin tööle ühes suurimas IBS-is. Venemaa ettevõtted see piirkond. Kolme aastaga sain praktikandist ettevõttelahenduste arhitektiks. Nüüd arendan suurandmete tehnoloogiate ekspertteadmisi finants- ja telekommunikatsioonisektori kliendiettevõtetele.

Inimestele, kes soovivad suurandmetega töötada, on kaks peamist eriala: analüütikud ja IT-konsultandid, kes loovad tehnoloogiaid suurandmetega töötamiseks. Lisaks saab kliendi IT-platvormiga rääkida ka Big Data Analyst’i ehk otseselt andmetega töötavatest inimestest. Varem olid need tavalised matemaatikaanalüütikud, kes teadsid statistikat ja matemaatikat ning lahendasid statistikatarkvara abil andmeanalüüsi ülesandeid. Tänapäeval nõutakse lisaks statistika- ja matemaatikateadmistele ka arusaamist tehnoloogiast ja andmete elutsüklist. See on minu arvates erinevus tänapäevase andmeanalüütiku ja nende analüütikute vahel, kes olid varem.

Minu erialaks on IT-alane nõustamine ehk mõtlen välja ja pakun klientidele võimalusi äriprobleemide lahendamiseks IT-tehnoloogiate abil. Nõustamisele tulevad erineva kogemusega inimesed, kuid selle eriala puhul on kõige olulisemad omadused oskus mõista kliendi vajadusi, soov aidata inimesi ja organisatsioone, hea suhtlemis- ja meeskonnaoskus (kuna see on alati töö kliendiga ja meeskonnas), hea analüüsivõime. Väga oluline on sisemine motivatsioon: töötame konkurentsitihedas keskkonnas ning klient ootab ebatavalisi lahendusi ja tööhuvi.

Suurem osa minu ajast kulub klientidega suhtlemisele, nende ärivajaduste vormistamisele ja kõige sobivama tehnoloogiaarhitektuuri väljatöötamisele. Valikukriteeriumidel on siin oma eripära: lisaks funktsionaalsust ja TCO (Total cost of ownership – kogu omamise kulu), on väga olulised mittefunktsionaalsed nõuded süsteemile, enamasti on selleks reaktsiooniaeg, infotöötlusaeg. Kliendi veenmiseks kasutame sageli kontseptsiooni tõestamise meetodit - pakume tehnoloogiat tasuta “testida” mõnel ülesandel, kitsa andmehulga peal, et veenduda tehnoloogia toimimises. Lahendus peaks looma kliendile konkurentsieelise, saades lisahüvesid (näiteks x-sell , ristmüük) või lahendama mõne äriprobleemi, näiteks vähendama kõrge tase laenupettus.

Oleks palju lihtsam, kui kliendid tuleksid valmis ülesandega, kuid kuni nad mõistavad, et on olemas revolutsiooniline tehnoloogia, mis võib paari aastaga turgu muuta

Milliste probleemidega peate silmitsi seisma? Turg ei ole veel suurandmete tehnoloogiate kasutamiseks valmis. Oleks palju lihtsam, kui kliendid tuleksid valmis ülesandega, kuid seni pole aru saadud, et on ilmunud revolutsiooniline tehnoloogia, mis võib paari aastaga turgu muuta. Seetõttu töötamegi tegelikult käivitusrežiimis – me ei müü ainult tehnoloogiaid, vaid veename kliente iga kord, et nad peavad nendesse lahendustesse investeerima. See on selline visionääride positsioon – näitame klientidele, kuidas nad saavad andmete ja IT kaasamisega oma äri muuta. Loome seda uut turgu – suurandmete valdkonna kommerts-IT-konsultatsioonide turgu.

Kui inimene soovib tegeleda suurandmete valdkonna andmeanalüüsi või IT-alase nõustamisega, siis esimese asjana on oluline hea matemaatilise taustaga matemaatika- või tehniline haridus. Samuti on kasulik omandada spetsiifilisi tehnoloogiaid, näiteks SAS-i, Hadoopi, R-keele või IBM-i lahendusi. Lisaks peate olema aktiivselt huvitatud suurandmete rakendusülesannetest – näiteks sellest, kuidas neid saab kasutada pangas või juhtkonnas krediidiskoori parandamiseks. eluring klient. Seda ja muid teadmisi saab saadaolevatest allikatest: näiteks Coursera ja Big Data University. Pennsylvania Whartoni ülikoolis on ka kliendianalüüsi algatus, kus on avaldatud palju huvitavat materjali.

Tõsiseks probleemiks nende jaoks, kes soovivad meie valdkonnas töötada, on selge infopuudus Big Data kohta. Te ei saa minna raamatupoodi või mõnele veebisaidile ja hankida näiteks ammendavat juhtumite kogumit kõigi suurandmete tehnoloogiate rakenduste kohta pankades. Selliseid juhendeid pole. Osa infost leiab raamatutest, osa kogutakse konverentsidel ja osa pead ise nuputama.

Teine probleem on see, et analüütikutel on numbrite maailmas mugav olla, kuid äris pole neil alati mugav. Need inimesed on sageli introvertsed, neil on raskusi suhtlemisega ja seetõttu on neil raske uurimistulemusi klientidele veenvalt edastada. Nende oskuste arendamiseks soovitaksin selliseid raamatuid nagu The Pyramid Principle, Speak the Language of Diagrams. Need aitavad arendada esinemisoskust, lühidalt ja selgelt väljendada oma mõtteid.

See aitas mind palju kaasa erinevatel juhtumimeistrivõistlustel osalemine Kõrgemas Majanduskoolis õppides. Case-meistrivõistlused on õpilaste intellektuaalsed võistlused, kus tuleb uurida äriprobleeme ja pakkuda neile lahendusi. Neid on kahes vormis: konsultatsioonifirmade juhtumite meistrivõistlused, nagu McKinsey, BCG, Accenture, ja sõltumatud juhtumite meistrivõistlused, nagu Changellenge. Nendes osaledes õppisin nägema ja otsustama väljakutseid pakkuvad ülesanded- alates probleemi tuvastamisest ja struktureerimisest kuni soovituste kaitsmiseni selle lahendamiseks.

Oleg Mihhalsky Venemaa turust ja suurandmete valdkonna uue toote loomise spetsiifikast

Enne Acronisega liitumist tegelesin juba uute toodete turule toomisega teistes ettevõtetes. Alati on huvitav ja raske ühtaegu, nii et tekkis kohe huvi ka võimalusest edasi töötada pilveteenused ja ladustamislahendused. Selles vallas tuli kasuks kogu mu varasem IT-valdkonna kogemus, sealhulgas minu enda startup projekt I-akcelerator . See aitas kaasa ka ärihariduse (MBA) omamisele lisaks inseneri algtasemele.

Venemaal suured ettevõtted - pangad, mobiilsideoperaatorid jne - suurandmete analüüsi vajadus on olemas, seega on meie riigis väljavaateid neil, kes soovivad sellel alal töötada. Tõsi, paljud projektid on nüüd integratsioonid, st tehtud välismaiste arenduste või avatud lähtekoodiga tehnoloogiate põhjal. Sellistes projektides ei looda põhimõtteliselt uusi lähenemisi ja tehnoloogiaid, vaid pigem kohandatakse olemasolevaid arendusi. Acronis läksime teist teed ja pärast olemasolevate alternatiivide analüüsi otsustasime investeerida enda arengusse, luues selle tulemusel süsteemi turvaline ladustamine suurandmete jaoks, mis ei jää hinna poolest alla näiteks Amazon S3-le, kuid töötab usaldusväärselt ja tõhusalt ning palju väiksemas mahus. Ka suurtel Interneti-ettevõtetel on suurandmete osas oma arendused, kuid nad on rohkem keskendunud sisemistele vajadustele kui väliste klientide vajaduste rahuldamisele.

Oluline on mõista trende ja majanduslikke jõude, mis suurandmete töötlemise valdkonda mõjutavad. Selleks peate palju lugema, kuulama IT-valdkonna mainekate ekspertide kõnesid, osalema temaatilistel konverentsidel. Nüüd on peaaegu igal konverentsil Big Data rubriik, kuid kõik räägivad sellest erineva nurga alt: tehnoloogia, äri või turunduse vaatenurgast. Võite minna projektitööle või praktikale ettevõttesse, kus on juba sellel teemal projekte. Kui oled oma võimetes kindel, siis pole veel hilja korraldada startup Big Data valdkonnas.

Ilma pideva turuga kontaktita uus arendus oht jääda taotlemata

Tõsi, kui vastutad uue toote eest, kulub palju aega turuanalüüsile ja suhtlemisele potentsiaalsete klientide, partnerite, professionaalsete analüütikutega, kes teavad klientidest ja nende vajadustest palju. Ilma pideva turuga kontaktita on oht, et uusarendus jääb kasutamata. Alati on palju ebakindlust: peate mõistma, kellest saavad esimesed kasutajad (varased kasutajad), mis on teil nende jaoks väärtuslik ja kuidas seejärel massilist vaatajaskonda meelitada. Teiseks kõige olulisemaks ülesandeks on kujundada ja edastada arendajatele selge ja terviklik visioon lõpptootest, et motiveerida neid töötama sellistes tingimustes, mil mõned nõuded võivad veel muutuda ning prioriteedid sõltuvad esimeste klientide tagasisidest. Seetõttu on oluline ülesanne hallata ühelt poolt klientide ja teiselt poolt arendajate ootusi. Et kumbki ei kaotaks huvi ega viiks projekti lõpuni. Pärast esimest edukat projekti läheb lihtsamaks ja peamiseks ülesandeks jääb uuele ettevõttele õige kasvumudeli leidmine.

Suured andmed- Inglise. "Suured andmed". Termin ilmus alternatiivina DBMS-ile ja sai üheks peamiseks IT-infrastruktuuri suundumuseks, kui enamik tööstuse hiiglasi – IBM, Microsoft, HP, Oracle ja teised – hakkasid seda kontseptsiooni oma strateegiates kasutama. Suurandmeid mõistetakse tohutu (sadade terabaitide) andmemassiivina, mida ei saa traditsioonilisel viisil töödelda; mõnikord - tööriistad ja meetodid nende andmete töötlemiseks.

Näited suurandmete allikatest: RFID sündmused, sõnumid sotsiaalvõrgustikes, meteoroloogiline statistika, teave mobiilsidevõrkude abonentide asukoha kohta mobiilside ja andmed heli-/videosalvestusseadmetest. Seetõttu kasutatakse "suurandmeid" laialdaselt tootmises, tervishoius, avalikus halduses, internetiäris – eelkõige sihtrühma analüüsimisel.

Iseloomulik

Suurandmete märgid on määratletud kui "kolm Vs": maht – maht (tõesti suur); sort - heterogeensus, komplekt; kiirus - kiirus (vajab väga kiiret töötlemist).

Suurandmed on enamasti struktureerimata ja nende töötlemiseks on vaja spetsiaalseid algoritme. Suurandmete analüüsimeetodid hõlmavad järgmist:

  • ("andmekaeve") - lähenemisviiside kogum varjatud kasulike teadmiste avastamiseks, mida ei ole võimalik saada standardmeetoditega;
  • Crowdsourcing (hulk - "rahvahulk", hankimine - allikana kasutamine) - oluliste ülesannete lahendamine vabatahtlike ühiste jõupingutustega, kes ei ole siduva töölepingu ja -suhetega, tegevuste koordineerimine IT-vahendite abil;
  • Data Fusion & Integration ("andmete segamine ja ühendamine") – meetodite kogum mitme allika ühendamiseks süvaanalüüsi osana;
  • Masinaõpe (“masinõpe”) on tehisintellekti uurimise alajaotus, mis uurib statistilise analüüsi kasutamise ja põhimudelitel põhinevate prognooside saamise meetodeid;
  • mustrituvastus (näiteks näotuvastus kaamera või videokaamera pildiotsijas);
  • ruumianalüüs – topoloogia, geomeetria ja geograafia kasutamine andmete koostamiseks;
  • andmete visualiseerimine – väljund analüütiline teave illustratsioonide ja diagrammide kujul koos interaktiivsete tööriistade ja animatsioonidega, et jälgida tulemusi ja luua alus edasiseks jälgimiseks.

Teabe säilitamine ja analüüs viiakse läbi suurel hulgal suure jõudlusega serverid. Võtmetehnoloogia on Hadoop, mis on avatud lähtekoodiga.

Kuna teabe hulk aja jooksul ainult suureneb, ei seisne raskus mitte andmete hankimises, vaid selles, kuidas neid maksimaalselt kasulikult töödelda. Üldiselt hõlmab suurandmetega töötamise protsess: teabe kogumist, selle struktureerimist, arusaamade ja kontekstide loomist ning tegevussoovituste väljatöötamist. Juba enne esimest etappi on oluline selgelt määratleda töö eesmärk: milleks täpselt andmeid vaja on, näiteks toote sihtrühma määramiseks. Vastasel juhul on oht saada palju teavet, ilma et mõistaksite, kuidas neid täpselt kasutada saab.