Veľké dáta veľké dáta. Big Data: analytika a riešenia

Poznáte tento známy vtip? Big Data sú ako sex do 18 rokov:

každý o tom premýšľa;
každý o tom hovorí;
každý si myslí, že to robia jeho priatelia;
takmer nikto to nerobí;
ten, kto to robí, to robí zle;
každý si myslí, že nabudúce to dopadne lepšie;
nikto neprijíma bezpečnostné opatrenia;
každý sa hanbí priznať, že niečo nevie;
ak sa to niekomu podarí, vždy to narobí veľký hluk.

Buďme však úprimní, pri každom humbuku bude vždy bežná zvedavosť: aký rozruch a je tam niečo skutočne dôležité? Stručne povedané, existuje. Podrobnosti sú uvedené nižšie. Vybrali sme pre vás tie najúžasnejšie a najzaujímavejšie aplikácie technológií Big Data. Tento malý prieskum trhu na jasných príkladoch stojí pred jednoduchým faktom: budúcnosť neprichádza, nie je potrebné „čakať ďalších n rokov a kúzlo sa stane realitou“. Nie, už to prišlo, ale stále je to očiam nepostrehnuteľné, a preto spekanie singularity ešte toľko nespáli známy bod trhu práce. Choď.

1 Ako sa technológie veľkých dát uplatňujú tam, odkiaľ pochádzajú

Veľké IT spoločnosti sú miestom, kde sa zrodila dátová veda, takže ich vnútornosti sú v tejto oblasti najzaujímavejšie. Kampaň Google, ktorá je sídlom paradigmy Map Reduce, ktorej jediným cieľom je vzdelávať svojich programátorov v technológiách strojového učenia. A to je ich konkurenčná výhoda: po získaní nových znalostí budú zamestnanci implementovať nové metódy v tých projektoch Google, kde neustále pracujú. Predstavte si obrovský zoznam oblastí, v ktorých môže kampaň znamenať revolúciu. Jeden príklad: používajú sa neurónové siete.

Spoločnosť taktiež implementuje strojové učenie do všetkých svojich produktov. Jeho výhodou je prítomnosť veľkého ekosystému, ktorý zahŕňa všetky digitálne zariadenia používané v každodennom živote. To umožňuje spoločnosti Apple dosiahnuť nemožnú úroveň: kampaň má toľko údajov o používateľoch ako ostatné. Zásady ochrany osobných údajov sú zároveň veľmi prísne: spoločnosť sa vždy chválila, že údaje o zákazníkoch nepoužíva na reklamné účely. Informácie o používateľoch sú preto šifrované, aby ich nemohli prečítať právnici spoločnosti Apple alebo dokonca FBI so zárukou. Tým, že nájdete veľký prehľad Vývoj AI spoločnosti Apple.

2 Big Data na 4 kolesách

Moderné auto je akumulátor informácií: zhromažďuje všetky údaje o vodičovi, životnom prostredí, pripojených zariadeniach a o sebe. Čoskoro jedno vozidlo, ktoré je pripojené k sieti, ako je táto, bude generovať až 25 GB dát za hodinu.

Dopravní telematici výrobcovia automobilov používajú už mnoho rokov, ale lobuje sa za sofistikovanejšiu metódu zberu údajov, ktorá naplno využíva výhody veľkých dát. To znamená, že technológia môže teraz upozorniť vodiča na zlý stav vozovky automatickou aktiváciou protiblokovacích brzdových a protišmykových systémov.

Ďalšími problémami, vrátane spoločnosti BMW, je využitie technológie Big Data v kombinácii s informáciami získanými z testovacích prototypov, systému pamäte chýb vo vozidle a sťažností zákazníkov na identifikáciu slabých stránok modelu v ranej fáze výroby. Namiesto manuálneho vyhodnocovania údajov, ktoré trvá mesiace, sa teraz používa moderný algoritmus. Znižujú sa chyby a náklady na opravu, čo urýchľuje pracovné toky informačnej analýzy v BMW.

Podľa odborných odhadov dosiahne trhový obrat spojených automobilov do roku 2019 130 miliárd dolárov. To nie je prekvapujúce vzhľadom na tempo integrácie výrobcov automobilov k technológiám, ktoré sú neoddeliteľnou súčasťou vozidla.

Použitie veľkých dát pomáha zaistiť, aby bol stroj bezpečnejší a funkčnejší. Takže Toyota vložením informačných komunikačných modulov (DCM). Tento nástroj, ktorý sa používa pre veľké údaje, spracováva a analyzuje údaje zozbierané službou DCM, aby z nich mal ďalší prospech.

3 Aplikácia veľkých dát v medicíne

Implementácia technológií Big Data v lekárskej oblasti umožňuje lekárom dôkladnejšie študovať chorobu a zvoliť účinný priebeh liečby pre konkrétny prípad. Vďaka analýze informácií je pre zdravotníckych pracovníkov jednoduchšie predpovedať relaps a prijímať preventívne opatrenia. Výsledkom je presnejšia diagnostika a zdokonalená liečba.

Nová technika umožnila pozrieť sa na problémy pacientov z inej perspektívy, čo viedlo k objaveniu predtým neznámych zdrojov problému. Niektoré rasy sú napríklad geneticky náchylnejšie na srdcové choroby ako iné etnické skupiny. Teraz, keď sa pacient sťažuje na určitú chorobu, lekári zohľadnia údaje o príslušníkoch jeho rasy, ktorí sa sťažovali na rovnaký problém. Zhromažďovanie a analýza údajov vám umožňuje dozvedieť sa oveľa viac o pacientoch: od preferencií stravovania a životného štýlu až po genetickú štruktúru DNA a metabolitov buniek, tkanív, orgánov. Napríklad Centrum pre detskú genomickú medicínu v Kansas City používa pacientov a analýzy na mutácie v genetickom kóde, ktoré spôsobujú rakovinu. Individuálny prístup ku každému pacientovi s prihliadnutím na jeho DNA zvýši účinnosť liečby na kvalitatívne novú úroveň.

Pochopenie toho, ako sa big data používajú, je prvou a najdôležitejšou zmenou v oblasti medicíny. Keď sa pacient podrobuje liečbe, nemocnica alebo iné zdravotnícke zariadenie môže o ňom získať veľa zmysluplných informácií. Zhromaždené informácie slúžia na predpovedanie recidívy choroby s určitým stupňom presnosti. Ak napríklad pacient prekonal mozgovú príhodu, lekári preštudujú informácie o čase cievnej mozgovej príhody, analyzujú prechodné obdobie medzi predchádzajúcimi precedensmi (ak nejaké existujú), pričom venujú osobitnú pozornosť stresovým situáciám a ťažkej fyzickej aktivite v živote pacienta. Na základe týchto údajov nemocnice poskytnú pacientovi jasný akčný plán, ktorý má v budúcnosti zabrániť vzniku mozgovej príhody.

Nositeľné zariadenia tiež prispievajú k identifikácii zdravotných problémov, aj keď človek nemá zjavné príznaky konkrétnej choroby. Namiesto toho, aby lekár hodnotil stav pacienta dlhým priebehom vyšetrení, môže vyvodiť závery na základe informácií zhromaždených fitness trackerom alebo inteligentnými hodinkami.

Jedným z najnovších príkladov je. Kým pacientku kvôli zmeškaným liekom vyšetrovali kvôli novému záchvatu, lekári zistili, že muž má oveľa vážnejší zdravotný problém. Ukázalo sa, že týmto problémom je fibrilácia predsiení. Diagnóza bola stanovená vďaka tomu, že zamestnanci oddelenia získali prístup k pacientovmu telefónu, a to k aplikácii spárovanej s jeho fitness trackerom. Údaje z aplikácie sa ukázali ako kľúčový faktor pri určovaní diagnózy, pretože v čase vyšetrenia muž nemal žiadne srdcové abnormality.

Toto je len jeden z mála prípadov, ktoré to ukazujú prečo používať Big Data v lekárskej oblasti dnes zohráva takú významnú úlohu.

4 Analýza údajov sa už stala chrbticou maloobchodu

Pochopenie dopytov používateľov a zacielenie je jednou z najväčších a najpoužívanejších oblastí použitia nástrojov veľkých dát. Big Data vám pomáha analyzovať návyky zákazníkov, aby ste v budúcnosti lepšie porozumeli potrebám spotrebiteľov. Spoločnosti sa snažia rozšíriť tradičnú množinu údajov o históriu vyhľadávania na sociálnych sieťach a prehliadačoch, aby vytvorili čo najpodrobnejší obraz zákazníkov. Veľké organizácie sa niekedy rozhodnú vytvoriť si vlastný prediktívny model ako globálny cieľ.

Cieľový reťazec sa napríklad pomocou hĺbkovej analýzy údajov a vlastného systému predpovedí podarí určiť s vysokou presnosťou -. Každý klient má pridelené ID, ktoré je zase viazané na kreditnú kartu, meno alebo e -mail. Identifikátor slúži ako druh nákupného košíka, kde sú uložené informácie o všetkom, čo si človek kedy kúpil. Odborníci na sieť zistili, že ženy v pozícii aktívne získavajú neochutené výrobky pred druhým trimestrom tehotenstva a počas prvých 20 týždňov sa spoliehajú na doplnky vápnika, zinku a horčíka. Na základe prijatých údajov spoločnosť Target zasiela zákazníkom kupóny na výrobky pre deti. Rovnaké zľavy na tovar pre deti sú „zriedené“ kupónmi na ďalšie produkty, aby ponuky na kúpu postieľky alebo plienok nepôsobili príliš rušivo.

Dokonca aj vládne rezorty našli spôsob, ako využiť technológie Big Data na optimalizáciu predvolebných kampaní. Niektorí veria, že za víťazstvom Baracka Obamu v amerických prezidentských voľbách v roku 2012 bola vynikajúca práca jeho tímu analytikov, ktorý správnym spôsobom spracoval obrovské množstvo údajov.

5 Veľké údaje o stráži zákona a poriadku

Orgány činné v trestnom konaní za posledných niekoľko rokov zistili, ako a kedy používať veľké údaje. Je všeobecne známe, že Národná bezpečnostná agentúra používa technológiu Big Data na prevenciu teroristických útokov. Ostatné agentúry používajú progresívnu metodiku na predchádzanie menším zločinom.

Policajné oddelenie v Los Angeles sa hlási. Podieľa sa na tom, čo sa bežne nazýva proaktívne vymáhanie práva. Algoritmus pomocou správ o zločine za konkrétne časové obdobie identifikuje oblasti, v ktorých je pravdepodobnosť spáchania zločinov najväčšia. Systém označí takéto oblasti na mape mesta malými červenými štvorčekmi a tieto údaje sa okamžite prenesú do hliadkových áut.

Policajti chicago používať technológie veľkých dát trochu iným spôsobom. Vymáhanie práva City of Winds má to isté, ale jeho cieľom je vymedziť „kruh rizika“ ľudí, ktorí môžu byť obeťami alebo účastníkmi ozbrojeného útoku. Podľa denníka The New York Times tento algoritmus prisudzuje osobe zraniteľnosť na základe jej kriminálnej histórie (zatýkanie a účasť na streľbách, patriaca do zločineckých gangov). Vývojár systému zaisťuje, že zatiaľ čo systém študuje kriminálnu históriu jednotlivca, neberie do úvahy sekundárne faktory, ako sú rasa, pohlavie, etnikum a poloha osoby.

6 Ako technológie veľkých dát pomáhajú mestám rozvíjať sa

Generálny riaditeľ spoločnosti Veniam João Barros predvádza mapu sledovania smerovačov Wi-Fi v autobusoch Porto

Analýza údajov sa používa aj na zlepšenie mnohých aspektov fungovania miest a krajín. Ak napríklad presne viete, ako a kedy používať technológie veľkých dát, môžete optimalizovať transportné toky. Za týmto účelom sa berie do úvahy online pohyb vozidiel, analyzujú sa sociálne médiá a meteorologické údaje. Dnes mnohé mestá pristúpili k využívaniu analýzy údajov na integráciu dopravnej infraštruktúry s inými druhmi verejných služieb do uceleného celku. Ide o koncept inteligentného mesta, v ktorom autobusy čakajú na neskorý vlak a semafory sú schopné predvídať zápchy, aby sa zápchy minimalizovali.

Long Beach používa technológie Big Data na prevádzku inteligentných vodomerov, ktoré sa používajú na obmedzenie nezákonného zavlažovania. Predtým sa používali na zníženie spotreby vody v súkromných domácnostiach (maximálnym výsledkom je zníženie o 80%). Šetrenie sladkej vody je vždy aktuálnym problémom. Zvlášť, keď štát zažíva najhoršie sucho, aké kedy bolo zaznamenané.

Zástupcovia losangelského ministerstva dopravy sa pripojili k zoznamu tých, ktorí používajú Big Data. Na základe údajov získaných zo senzorov dopravných kamier úrady monitorujú prevádzku semaforov, čo zase umožňuje regulovať dopravu. Pod kontrolou počítačového systému je v celom meste asi 4 500 000 semaforov. Podľa oficiálnych údajov nový algoritmus pomohol znížiť preťaženie o 16%.

7 Motor pokroku v marketingu a predaji

V marketingu vám nástroje veľkých dát umožňujú identifikovať, ktoré nápady sú v konkrétnej fáze predajného cyklu najefektívnejšie. Analýza údajov identifikuje, ako môžu investície zlepšiť riadenie vzťahov so zákazníkmi, akú stratégiu zvoliť na zvýšenie konverzného pomeru a ako optimalizovať životný cyklus zákazníka. V cloudovom obchode sa algoritmy veľkých dát používajú na zistenie, ako minimalizovať náklady na získanie zákazníka a predĺžiť jeho životný cyklus.

Diferenciácia cenových stratégií v závislosti od vnútrosystémovej úrovne klienta je možno hlavnou vecou, na ktorú sa Big Data používajú v oblasti marketingu. Spoločnosť McKinsey zistila, že asi 75% tržieb priemernej firmy pochádza zo základných produktov, z ktorých 30% má nesprávne ceny. Zvýšenie ceny o 1% znamená zvýšenie prevádzkového zisku o 8,7%.

Výskumný tím spoločnosti Forrester zistil, že analýza údajov umožňuje obchodníkom zamerať sa na to, ako zlepšiť vzťahy so zákazníkmi. Špecialisti môžu prostredníctvom skúmania smeru vývoja zákazníkov zhodnotiť úroveň ich lojality a predĺžiť životný cyklus v kontexte konkrétnej spoločnosti.

Optimalizácia predajných stratégií a krokov na vstup na nové trhy pomocou geoanalýzy sa odráža v biofarmaceutickom priemysle. Podľa McKinseyho farmaceutické spoločnosti vynakladajú v priemere 20 až 30% svojich ziskov na administratívu a predaj. Ak začnú firmy aktívnejšie používať Big Data Aby sa identifikovali najziskovejšie a najrýchlejšie rastúce trhy, náklady sa okamžite znížia.

Analýza údajov je prostriedkom, ktorý umožňuje spoločnostiam úplne porozumieť kľúčovým aspektom ich podnikania. Zvýšenie tržieb, zníženie nákladov a zníženie pracovného kapitálu sú tri výzvy, ktoré sa moderné podniky pokúšajú vyriešiť pomocou analytických nástrojov.

Nakoniec, 58% CMO tvrdí, že implementáciu technológií Big Data je možné vysledovať v optimalizácii pre vyhľadávače (SEO), e-maile a mobilnom marketingu, kde analýza údajov zohráva najdôležitejšiu úlohu pri tvorbe marketingových programov. A iba o 4% menej respondentov je presvedčených, že Big Data budú hrať mnoho rokov významnú úlohu vo všetkých marketingových stratégiách.

8 Analýza údajov v planetárnom meradle

Nemenej zvedavé je. Je možné, že strojové učenie bude v konečnom dôsledku jedinou silou schopnou udržať krehkú rovnováhu. Téma vplyvu človeka na globálne otepľovanie je stále predmetom mnohých kontroverzií, takže presnú odpoveď môžu poskytnúť iba spoľahlivé prediktívne modely založené na analýze veľkého množstva údajov. V konečnom dôsledku zníženie emisií pomôže aj nám všetkým: minieme menej energie.

Big Data teraz nie sú abstraktným konceptom, ktorý môže nájsť uplatnenie o niekoľko rokov. Ide o dokonale fungujúci súbor technológií, ktoré môžu byť užitočné takmer vo všetkých oblastiach ľudskej činnosti: od medicíny a presadzovania práva až po marketing a predaj. Fáza aktívnej integrácie veľkých dát do nášho každodenného života sa práve začala a kto vie, aká bude úloha veľkých dát o niekoľko rokov?

Big data sú široký pojem pre nekonvenčné stratégie a technológie potrebné na zhromažďovanie, organizovanie a spracovanie informácií z veľkých súborov údajov. Aj keď problém narábania s údajmi, ktoré presahujú výpočtový výkon alebo úložnú kapacitu jedného počítača, nie je nový, rozsah a hodnota tohto druhu výpočtovej techniky sa v posledných rokoch výrazne rozšírili.

V tomto článku nájdete základné pojmy, s ktorými sa môžete stretnúť pri skúmaní veľkých dát. Tiež pojednáva o niektorých procesoch a technológiách, ktoré sa v tejto oblasti v súčasnosti používajú.

Čo sú to Big Data?

Presnú definíciu veľkých dát je ťažké formulovať, pretože projekty, dodávatelia, odborníci z praxe a obchodní odborníci ju používajú veľmi odlišnými spôsobmi. Vzhľadom na to je možné veľké údaje definovať ako:

Veľké súbory údajov.
Kategória výpočtových stratégií a technológií, ktoré sa používajú na spracovanie veľkých množín údajov.

V tomto kontexte „veľká množina údajov“ znamená množinu údajov, ktorá je príliš veľká na to, aby sa dala spracovať alebo uložiť pomocou tradičných nástrojov alebo na jednom počítači. To znamená, že celkový rozsah veľkých súborov údajov sa neustále mení a môže sa výrazne líšiť od prípadu k prípadu.

Veľké dátové systémy

Základné požiadavky na prácu s veľkými dátami sú rovnaké ako pre akýkoľvek iný súbor údajov. Obrovský rozsah, rýchlosť spracovania a charakteristiky údajov, s ktorými sa stretávame v každej fáze procesu, však predstavujú veľké nové výzvy v oblasti navrhovania nástrojov. Cieľom väčšiny veľkých dátových systémov je porozumieť veľkému množstvu heterogénnych údajov a komunikovať s nimi, čo by pri bežných metódach nebolo možné.

V roku 2001 Doug Laney spoločnosti Gartner predstavil „Tri Vs veľkých dát“ na popísanie niektorých charakteristík, ktoré odlišujú spracovanie veľkých dát od iných typov spracovania dát:

Volume (objem dát).
Rýchlosť (rýchlosť zhromažďovania a spracovania údajov).
Rozmanitosť (rozmanitosť typov spracovávaných údajov).

Objem dát

Samotný rozsah spracovávaných informácií pomáha definovať systémy veľkých dát. Tieto súbory údajov môžu byť rádovo väčšie ako tradičné súbory údajov a vyžadujú si väčšiu pozornosť v každej fáze spracovania a skladovania.

Pretože požiadavky presahujú možnosti jedného počítača, je často ťažké kombinovať, alokovať a koordinovať zdroje z počítačových skupín. Klastrová kontrola a algoritmy schopné rozdeľovať úlohy na menšie časti sú v tejto oblasti stále dôležitejšie.

Akumulácia a rýchlosť spracovania

Druhou charakteristikou, ktorá výrazne odlišuje veľké dáta od ostatných dátových systémov, je rýchlosť, ktorou sa informácie pohybujú systémom. Dáta často prichádzajú do systému z viacerých zdrojov a musia byť spracované v reálnom čase, aby sa aktualizoval aktuálny stav systému.

Toto zameranie na okamžité spätnú väzbu prinútil mnohých praktizujúcich opustiť dávkovo orientovaný prístup a rozhodnúť sa pre streamingový systém v reálnom čase. Údaje sa neustále dopĺňajú, spracúvajú a analyzujú, aby držali krok s prílevom nových informácií a získali cenné údaje v počiatočnom štádiu, keď sú najrelevantnejšie. To vyžaduje spoľahlivé systémy s vysoko dostupnými komponentmi na ochranu pred poruchami pozdĺž dátového kanála.

Rozmanitosť typov spracovávaných údajov

Existuje veľké množstvo jedinečných výziev vo veľkých dátach týkajúcich sa širokého spektra spracovaných zdrojov a ich relatívnej kvality.

Údaje môžu pochádzať z interných systémov, ako sú protokoly aplikácií a serverov, z kanálov sociálnych médií a iných externých rozhraní API, zo senzorov fyzické zariadenia a z iných zdrojov. Cieľom systémov veľkých údajov je spracovať potenciálne užitočné údaje bez ohľadu na pôvod kombináciou všetkých informácií do jedného systému.

Formáty a typy médií sa môžu tiež značne líšiť. Médiá (obrázky, video a zvuk) sú kombinované s textovými súbormi, štruktúrovanými protokolmi a podobne. Tradičnejšie systémy na spracovanie údajov očakávajú, že údaje sa do kanála dostanú už označené, naformátované a usporiadané, ale systémy veľkých údajov údaje zvyčajne prijímajú a ukladajú snahou udržať ich pôvodný stav. V ideálnom prípade všetky transformácie alebo zmeny nespracovaných údajov nastanú v pamäti počas spracovania.

Ďalšie vlastnosti

Experti a organizácie postupom času navrhli rozšírenie pôvodných troch V, aj keď tieto inovácie skôr popisujú problémy než charakteristiky veľkých dát.

Vernosť: Rôznorodosť zdrojov a zložitosť spracovania môžu viesť k problémom pri hodnotení kvality údajov (a teda aj kvality výslednej analýzy).
Variabilita: Zmena údajov má za následok rozsiahle zmeny kvality. Identifikácia, spracovanie alebo filtrovanie údajov nízkej kvality môže vyžadovať ďalšie zdroje, ktoré môžu zlepšiť kvalitu údajov.
Hodnota: Konečným cieľom veľkých dát je hodnota. Niekedy sú systémy a procesy veľmi zložité, takže je ťažké použiť údaje a extrahovať skutočné hodnoty.

Životný cyklus veľkých dát

Ako sa teda vlastne spracovávajú veľké dáta? Existuje niekoľko rôznych prístupov k implementácii, existujú však podobnosti v stratégiách a softvéri.

Zadávanie údajov do systému
Ukladanie údajov do úložiska
Výpočet a analýza údajov
Vizualizácia výsledkov

Predtým, ako sa ponoríme do týchto štyroch kategórií pracovných tokov, porozprávajme sa o klastrovom výpočte, dôležitej stratégii, ktorú používa mnoho nástrojov veľkých dát. Vytvorenie výpočtového klastra je chrbticou technológie používanej v každej fáze životného cyklu.

Klastrové výpočty

Vzhľadom na kvalitu veľkých dát nie sú jednotlivé počítače vhodné na spracovanie údajov. Klastre sú na to vhodnejšie, pretože sa dokážu vyrovnať s požiadavkami na ukladanie a výpočty veľkých dát.

Softvér na zhromažďovanie veľkých dát agreguje zdroje mnohých malých strojov s cieľom poskytnúť množstvo výhod:

Zdieľanie zdrojov: Spracovanie veľkých množín údajov vyžaduje veľké množstvo zdrojov procesora a pamäte, ako aj veľa dostupného úložného priestoru.
Vysoká dostupnosť: Klastre môžu poskytovať rôzne úrovne odolnosti voči chybám a dostupnosti, takže zlyhania hardvéru alebo softvéru neovplyvnia prístup k údajom a ich spracovanie. Toto je obzvlášť dôležité pre analytiku v reálnom čase.
Škálovateľnosť: Klastre podporujú rýchle škálovanie (pridávanie nových počítačov do klastra).

Práca v klastri vyžaduje nástroje na správu členstva v klastri, koordináciu prideľovania zdrojov a plánovanie práce s jednotlivými uzlami. Členstvo v klastri a prideľovanie zdrojov je možné zvládnuť pomocou programov ako Hadoop YARN (Yet Another Resource Negotiator) alebo Apache Mesos.

Prefabrikovaný výpočtový klaster často slúži ako základ, s ktorým iný interaguje pri spracovaní údajov. softvér... Počítače zúčastnené na výpočtovom klastri sú tiež obvykle spojené so správou distribuovaného úložného systému.

Získavajú sa údaje

Prijímanie údajov je proces pridávania nespracovaných údajov do systému. Zložitosť tejto operácie do značnej miery závisí od formátu a kvality zdrojov údajov a od toho, ako dobre údaje spĺňajú požiadavky na spracovanie.

Veľké údaje môžete do systému pridávať pomocou špeciálnych nástrojov. Technológie ako Apache Sqoop môžu preberať existujúce údaje z relačných databáz a pridávať ich do systému veľkých dát. Môžete tiež použiť projekty Apache Flume a Apache Chukwa - na agregáciu a import protokolov aplikácií a serverov. Sprostredkovateľov správ, ako napríklad Apache Kafka, je možné použiť ako rozhranie medzi rôznymi generátormi údajov a systémom veľkých dát. Rámce ako Gobblin môžu kombinovať a optimalizovať výstup všetkých nástrojov na konci potrubia.

Analýza, triedenie a označovanie sa zvyčajne vykonáva počas zberu údajov. Tento proces sa niekedy nazýva ETL (extrahovať, transformovať, načítať), čo znamená extrahovať, transformovať a načítať. Aj keď sa tento termín zvyčajne vzťahuje na staršie procesy ukladania, niekedy sa používa aj vo veľkých dátových systémoch. Medzi typické operácie patrí úprava prichádzajúcich údajov na formátovanie, kategorizáciu a označovanie, filtrovanie alebo overovanie súladu údajov.

V ideálnom prípade prichádzajúce údaje prechádzajú minimálnym formátovaním.

Úložisko dát

Po prijatí sú údaje odoslané ďalej komponentom, ktoré spravujú obchod.

Distribuované súborové systémy sa zvyčajne používajú na ukladanie nespracovaných údajov. Riešenia, ako napríklad HDFS od Apache Hadoop, umožňujú zapisovať veľké množstvo údajov do viacerých uzlov v klastri. Tento systém poskytuje výpočtovým zdrojom prístup k údajom, môže načítavať údaje do klastrovej pamäte RAM na operácie s pamäťou a spracovávať zlyhania komponentov. Namiesto systému HDFS je možné použiť aj iné distribuované súborové systémy, vrátane systémov Ceph a GlusterFS.

Dáta je možné importovať aj do iných distribuovaných systémov pre štruktúrovanejší prístup. Distribuované databázy, najmä databázy NoSQL, sú na túto úlohu vhodné, pretože môžu pracovať s heterogénnymi údajmi. Existuje mnoho rôznych typov distribuovaných databáz, výber závisí od toho, ako chcete svoje údaje organizovať a prezentovať.

Výpočet a analýza údajov

Akonáhle sú údaje k dispozícii, systém môže začať spracovávať. Výpočtová vrstva je možno najslobodnejšou časťou systému, pretože požiadavky a prístupy sa tu môžu výrazne líšiť v závislosti od typu informácií. Údaje sa často opätovne spracúvajú buď pomocou jedného nástroja, alebo pomocou celého radu nástrojov na spracovanie rôznych typov údajov.

Dávkové spracovanie je jednou z metód výpočtu veľkých množín údajov. Tento proces zahŕňa rozdelenie údajov na menšie časti, naplánovanie spracovania každého kusu na samostatnom počítači a usporiadanie údajov na základe priebežné výsledky a potom výpočet a zhromaždenie konečného výsledku. Túto stratégiu používa MapReduce od Apache Hadoop. Dávkové spracovanie je najužitočnejšie pri práci s veľmi veľkými množinami údajov, ktoré vyžadujú veľa výpočtov.

Ostatné úlohy vyžadujú spracovanie v reálnom čase. V takom prípade by mali byť informácie ihneď spracované a pripravené a systém by mal včas reagovať, keď budú k dispozícii nové informácie. Jednou zo spôsobov, ako implementovať spracovanie v reálnom čase, je spracovať nepretržitý prúd údajov, ktorý pozostáva z jednotlivé prvky... Ďalšou bežnou charakteristikou procesorov v reálnom čase je výpočet údajov v klastrovej pamäti, ktorý eliminuje potrebu zápisu na disk.

Ponuka Apache Storm, Apache Flink a Apache Spark rôzne cesty implementácia spracovania v reálnom čase. Tieto flexibilné technológie vám umožňujú zvoliť pre každú z nich najlepší prístup samostatný problém... Vo všeobecnosti je spracovanie v reálnom čase najvhodnejšie na analýzu malých údajov, ktoré sa menia alebo sa rýchlo pridávajú do systému.

Všetky tieto programy sú rámcami. Existuje však mnoho ďalších spôsobov, ako vypočítať alebo analyzovať údaje v systéme veľkých dát. Tieto nástroje sa často pripájajú k vyššie uvedeným rámcom a poskytujú ďalšie rozhrania na interakciu so základnými vrstvami. Napríklad Apache Hive poskytuje rozhranie dátového skladu pre Hadoop, Apache Pig poskytuje rozhranie dotazov a interakcie s Údaje SQL dodávaný s Apache Drill, Apache Impala, Apache Spark SQL a Presto. Strojové učenie používa Apache SystemML, Apache Mahout a MLlib od Apache Spark. Na priame analytické programovanie, ktoré je v dátovom ekosystéme široko podporované, sa používajú R a Python.

Vizualizácia výsledkov

Rozpoznanie trendov alebo zmien v údajoch v čase je často dôležitejšie ako získané hodnoty. Vizualizácia údajov je jedným z najužitočnejších spôsobov identifikácie trendov a organizácie veľkého počtu dátových bodov.

Na vizualizáciu metrík aplikácie a servera sa používa spracovanie v reálnom čase. Údaje sa často menia a veľké rozpätia v metrikách zvyčajne naznačujú významný vplyv na zdravie systémov alebo organizácií. Projekty ako Prometheus je možné použiť na spracovanie a vizualizáciu tokov údajov a časových radov.

Jeden z populárnych spôsobov vizualizácie údajov je elastický zásobník, predtým známy ako zásobník ELK. Logstash sa používa na zhromažďovanie údajov, Elasticsearch na indexovanie údajov a Kibana na vizualizáciu. Elastický zásobník môže pracovať s veľkými údajmi, vizualizovať výsledky výpočtov alebo pracovať s nespracovanými metrikami. Podobný zásobník je možné získať kombináciou Apache Solr na indexovanie s vidličkou Kibana s názvom Banana na vykresľovanie. Tento stoh sa nazýva hodváb.

Ďalšou vizualizačnou technológiou pre interaktívnu prácu s údajmi sú dokumenty. Takéto projekty umožňujú interaktívne skúmanie a vizualizáciu údajov vo formáte, ktorý je možné ľahko zdieľať a prezentovať. Populárnymi príkladmi tohto typu rozhrania sú Jupyter Notebook a Apache Zeppelin.

Glosár veľkých dát

Veľké údaje sú široký termín pre súbory údajov, ktoré nemožno správne spracovať konvenčné počítače alebo nástrojov z dôvodu ich objemu, rýchlosti vstupu a rozmanitosti. Tento termín sa tiež bežne používa pre technológie a stratégie na prácu s takýmito údajmi.
Dávkové spracovanie je výpočtová stratégia, ktorá zahŕňa spracovanie údajov vo veľkých množinách údajov. Obvykle je táto metóda ideálna na spracovanie údajov, ktoré nie sú naliehavé.
Klastrované výpočty sú praxou zhromažďovania zdrojov viacerých počítačov a správy ich zdieľaných schopností na dokončenie úloh. To vyžaduje vrstvu správy klastrov, ktorá zvláda komunikáciu medzi jednotlivými uzlami.
Dátové jazero je veľké úložisko zozbieraných údajov v relatívne surovom stave. Tento termín sa často používa na označenie neštruktúrovaných a často sa meniacich veľkých dát.
Dolovanie údajov je široký termín pre rôzne postupy hľadania vzorov vo veľkých množinách údajov. Ide o pokus usporiadať množstvo údajov do zrozumiteľnejšieho a ucelenejšieho súboru informácií.
Dátový sklad je veľké usporiadané úložisko na analýzu a podávanie správ. Na rozdiel od dátového jazera sklad pozostáva z formátovaných a usporiadaných údajov, ktoré sú integrované s inými zdrojmi. Dátové sklady sa často označujú vo vzťahu k veľkým údajom, ale často sú súčasťou konvenčných systémov na spracovanie údajov.
ETL (výpis, transformácia a načítanie) - extrakcia, transformácia a načítanie údajov. Takto vyzerá proces získavania a prípravy surových údajov na použitie. Súvisí to s dátovými skladmi, ale charakteristiky tohto procesu sa nachádzajú aj v potrubiach veľkých dátových systémov.
Hadoop je open source projekt Apache pre veľké dáta. Skladá sa z distribuovaného súborového systému s názvom HDFS a plánovača klastrov a zdrojov s názvom YARN. Možnosti dávkového spracovania poskytuje výpočtový engine MapReduce. V modernom nasadení Hadoop môžu s MapReduce bežať aj iné počítačové a analytické systémy.
Výpočet v pamäti je stratégia, ktorá zahŕňa presun všetkých pracovných množín údajov do pamäte klastra. Stredné výpočty sa nezapisujú na disk, namiesto toho sa ukladajú do pamäte. To dáva systémom obrovskú výhodu v rýchlosti oproti systémom súvisiacim s I / O.
Strojové učenie je štúdium a prax navrhovania systémov, ktoré sa môžu učiť, upravovať a zlepšovať na základe údajov, ktoré sú mu odovzdané. Obvykle to znamená implementáciu prediktívnych a štatistických algoritmov.
Redukcia mapy (nezamieňať s Hadoop's MapReduce) je algoritmus na plánovanie počítačového klastra. Proces zahŕňa rozdelenie úlohy medzi uzly a získanie priebežných výsledkov, zamiešanie a potom výstup jednej hodnoty pre každú sadu.
NoSQL je široký termín pre databázy vyvinuté mimo tradičného relačného modelu. Databázy NoSQL sú vďaka svojej flexibilite a distribuovanej architektúre vhodné pre veľké údaje.
Streaming je postup výpočtu jednotlivých položiek údajov pri ich prechode systémom. To umožňuje analýzu údajov v reálnom čase a je vhodné na spracovanie urgentných transakcií pomocou vysokorýchlostných metrík.

Tagy :,

Predpovedalo sa, že celkový globálny objem vytvorených a replikovaných údajov v roku 2011 by mohol byť asi 1,8 zettabajtov (1,8 bilióna gigabajtov) - asi 9 -krát viac, ako bol vytvorený v roku 2006.

Zložitejšia definícia

Avšak ` veľké dáta„zahŕňajú viac než len analýzu veľkého množstva informácií. Problém nie je v tom, že by organizácie vytvárali obrovské množstvo dát, ale že väčšina z nich je prezentovaná vo formáte, ktorý dobre nezodpovedá tradičnému formátu štruktúrovanej databázy, ako sú webové blogy, videá, textové dokumenty, strojový kód, alebo napríklad geopriestorové údaje .... To všetko je uložené v mnohých rôznych úložiskách, niekedy dokonca aj mimo organizácie. V dôsledku toho môžu mať korporácie prístup k obrovskému množstvu svojich údajov a chýbajú im potrebné nástroje na nadväzovanie vzťahov medzi týmito údajmi a vyvodzovanie z nich zmysluplných záverov. Keď k tomu pripočítate fakt, že údaje sa v súčasnosti aktualizujú čoraz častejšie, dostanete sa do situácie, v ktorej tradičné metódy informačnej analýzy nedokážu držať krok s veľkým objemom neustále aktualizovaných údajov, čo v konečnom dôsledku otvára cestu technológiám. veľké dáta.

Najlepšia definícia

V podstate koncept veľké dáta znamená pracovať s informáciami veľkého objemu a rôznorodého zloženia, veľmi často aktualizovanými a umiestnenými v rôznych zdrojoch s cieľom zvýšiť efektivitu práce, vytvárať nové produkty a zvyšovať konkurencieschopnosť. Poradenská spoločnosť Forrester sumarizuje: ` Veľké dáta kombinovať techniky a technológie, ktoré majú zmysel pre údaje na extrémnej hranici použiteľnosti. “

Aký veľký je rozdiel medzi business intelligence a big data?

Craig Batey, marketingový riaditeľ a technologický riaditeľ, Fujitsu Australia, poukázal na to, že obchodná analýza je popisný proces analýzy výsledkov dosiahnutých podnikom za určité časové obdobie pri rýchlosti spracovania. veľké dáta vám umožňuje urobiť analýzu prediktívnou a schopnou ponúknuť obchodné odporúčania do budúcnosti. Veľké údaje vám tiež umožňujú analyzovať viac typov údajov ako nástroje pre obchodnú inteligenciu, čo vám umožňuje zamerať sa na viac než len na štruktúrované úložisko.

Matt Slocum z O „Reilly Radar verí, že aj keď veľké dáta a business intelligence majú rovnaký cieľ (hľadanie odpovedí na otázku), navzájom sa líšia v troch aspektoch.

Big data sú navrhnuté tak, aby zvládli viac informácií ako business intelligence, a to je, samozrejme, v súlade s tradičnou definíciou veľkých dát.
Veľké údaje sú navrhnuté tak, aby rýchlejšie spracovávali prijaté a meniace sa informácie, čo znamená hlboké skúmanie a interaktivitu. V niektorých prípadoch sú výsledky generované rýchlejšie, ako sa načítava webová stránka.
Veľké údaje sú navrhnuté tak, aby pracovali s neštruktúrovanými údajmi, ktorých spôsoby začíname skúmať až potom, ako ich budeme môcť zhromažďovať a uchovávať, a potrebujeme algoritmy a schopnosť dialógu na uľahčenie hľadania trendov obsiahnutých v týchto poliach.

Podľa bieleho dokumentu Oracle Information Architecture: An Architect's Guide to Big Data publikovaného spoločnosťou Oracle pristupujeme k informáciám pri práci s veľkými dátami inak, ako keď robíme obchodnú analýzu.

Práca s veľkými dátami nie je ako bežný proces business intelligence, kde jednoduchým sčítaním známych hodnôt vznikne výsledok: napríklad súčet údajov o zaplatených faktúrach sa stane objemom predaja za rok. Pri práci s veľkými údajmi sa výsledok získa v procese čistenia pomocou sekvenčného modelovania: po prvé sa predloží hypotéza, zostaví sa štatistický, vizuálny alebo sémantický model, na základe ktorého je správnosť navrhovanej hypotézy začiarknuté a potom sa predloží ďalší. Tento proces vyžaduje, aby výskumník buď interpretoval vizuálne hodnoty, alebo písal interaktívne otázky na základe znalostí, alebo vyvinul adaptívne algoritmy strojového učenia schopné dosiahnuť požadovaný výsledok. Životnosť takéhoto algoritmu môže byť navyše pomerne krátka.

Techniky analýzy veľkých dát

Existuje mnoho rôznych metód na analýzu súborov údajov, ktoré sú založené na nástrojoch požičaných zo štatistiky a počítačovej vedy (napríklad strojové učenie). Zoznam netvrdí, že je úplný, ale odráža najobľúbenejšie prístupy v rôznych odvetviach. Zároveň by malo byť zrejmé, že vedci naďalej pracujú na vytváraní nových techník a zlepšovaní existujúcich. Navyše niektoré z vyššie uvedených metód nie sú nevyhnutne použiteľné výlučne na veľké údaje a dajú sa úspešne použiť na menšie polia (napríklad testovanie A / B, regresná analýza). Samozrejme, čím objemnejšie a rozmanitejšie je pole analyzované, tým presnejšie a relevantnejšie údaje je možné na výstupe získať.

A / B testovanie... Technika, v ktorej sa kontrolná vzorka porovnáva jedna po druhej s ostatnými. Je teda možné identifikovať optimálnu kombináciu ukazovateľov, aby sa dosiahla napríklad najlepšia reakcia spotrebiteľa na marketingový návrh. Veľké dáta vám umožní vykonať obrovské množstvo iterácií a získať tak štatisticky spoľahlivý výsledok.

Učenie sa o pravidlách asociácie... Súbor techník identifikácie vzťahov, t.j. asociačné pravidlá, medzi premennými vo veľkých množinách údajov. Použité v dolovanie údajov.

Klasifikácia... Súbor techník, ktoré vám umožňujú predpovedať správanie spotrebiteľa v konkrétnom segmente trhu (rozhodovanie o nákupe, odlive, spotrebe atď.). Použité v dolovanie údajov.

Klastrová analýza... Štatistická metóda klasifikácie predmetov do skupín identifikáciou predtým neznámych spoločných znakov. Použité v dolovanie údajov.

Crowdsourcing... Metodika zberu údajov z veľkého počtu zdrojov.

Fúzia údajov a integrácia údajov... Sada techník, ktorá vám umožňuje analyzovať pripomienky používateľov sociálnych sietí a porovnávať ich s výsledkami predaja v reálnom čase.

Dolovanie dát... Súbor metód, ktoré vám umožňujú určiť kategórie spotrebiteľov, ktorí sú najvhodnejší pre propagovaný produkt alebo službu, identifikovať charakteristiky najúspešnejších zamestnancov a predpovedať model správania spotrebiteľov.

Učenie súboru... Táto metóda používa rôzne prediktívne modely, čím zlepšuje kvalitu predpovedí.

Genetické algoritmy... Pri tejto technike sú možné riešenia predstavené vo forme „chromozómov“, ktoré sa môžu kombinovať a mutovať. Ako v procese prirodzenej evolúcie, najschopnejší prežije.

Strojové učenie... Smer v informatike (historicky mu bol priradený názov „umelá inteligencia“), ktorého cieľom je vytvoriť algoritmy samoučenia založené na analýze empirických údajov.

Spracovanie prirodzeného jazyka (NLP). Súbor techník rozpoznávania prirodzeného jazyka osoby požičanej z informatiky a lingvistiky.

Analýza siete... Sada techník na analýzu spojení medzi uzlami v sieťach. Aplikuje sa na sociálne siete a umožňuje vám analyzovať vzťah medzi jednotlivými používateľmi, spoločnosťami, komunitami atď.

Optimalizácia... Súbor numerických metód na redizajn komplexných systémov a procesov na zlepšenie jednej alebo viacerých metrík. Pomáha pri strategických rozhodnutiach, napríklad v zložení produktového radu uvedeného na trh, pri investičnej analýze atď.

Rozpoznávanie vzorov... Súbor techník s prvkami samoučenia na predpovedanie vzorcov spotrebiteľského správania.

Prediktívne modelovanie... Sada techník, ktoré vám umožňujú vytvárať matematický model vopred určený pravdepodobný scenár vývoja udalostí. Napríklad analyzovanie databázy systému CRM na možné podmienky, ktoré prinútia predplatiteľov zmeniť svojho poskytovateľa.

Regresia... Súbor štatistických metód na identifikáciu vzorcov medzi zmenou závislej premennej a jednou alebo viacerými nezávislými premennými. Často sa používa na predpovedanie a predpovede. Používa sa pri dolovaní údajov.

Analýza sentimentu... Metódy hodnotenia sentimentu spotrebiteľov sú založené na technológiách na rozpoznávanie prirodzeného jazyka osoby. Umožňujú vám izolovať sa od všeobecných správ o toku informácií týkajúcich sa predmetu záujmu (napríklad spotrebný výrobok). Ďalej posúdte polaritu úsudku (kladného alebo záporného), stupeň emocionality a podobne.

Spracovanie signálu... Sada techník požičaných z rádiového inžinierstva, ktorá sleduje cieľ rozpoznania signálu na pozadí šumu a jeho ďalšiu analýzu.

Priestorová analýza... Súbor metód na analýzu priestorových údajov, čiastočne požičaných zo štatistiky - topológie terénu, geografické súradnice, geometria predmetov. Zdroj veľké dáta v tomto prípade sa často používajú geografické informačné systémy (GIS).

Revolution Analytics (založená na jazyku R pre matematickú štatistiku).

Zvlášť zaujímavý na tomto zozname je Apache Hadoop, softvér s otvoreným zdrojovým kódom, ktorý bol za posledných päť rokov vyskúšaný a testovaný ako analyzátor údajov väčšinou sledovačov akcií. Hneď ako Yahoo otvorilo kód Hadoop komunite open source, v IT priemysle sa okamžite objavila úplne nová produktová rada Hadoop. Takmer všetky moderné analytické nástroje veľké dáta poskytnúť nástroje na integráciu s Hadoop. Ich vývojári sú startupy aj známe globálne spoločnosti.

Trhy pre riešenia na správu veľkých dát

Platformy veľkých dát (BDP, Big Data Platform) ako prostriedok boja proti digitálnym akordom

Schopnosť analyzovať veľké dáta, hovorovo nazývaný Big Data, je vnímaný ako požehnanie a jednoznačne. Je to však skutočne tak? K čomu môže viesť nekontrolované hromadenie údajov? S najväčšou pravdepodobnosťou to, čo domáci psychológovia označujú ako patologické hromadenie osoby, syllogománia alebo obrazne „Plyushkinov syndróm“. V angličtine sa začarovaná vášeň zbierať všetko nazýva hording (z anglického pokladu - „stock“). Podľa klasifikácie duševných chorôb je Hording zaradený medzi duševné poruchy. V digitálnej ére sa k tradičnému materiálovému akordingu pridáva aj digitálny (Digital Hoarding), čím môžu trpieť jednotlivci i celé podniky a organizácie ().

Svetový a ruský trh

Big data na šírku - hlavní dodávatelia

Záujem o nástroje na zber, spracovanie, správu a analýzu veľké dáta ukázal takmer všetky popredné IT spoločnosti, čo je celkom prirodzené. Po prvé, priamo čelia tomuto javu vo svojom vlastnom podnikaní, a po druhé, veľké dáta otvoriť vynikajúce príležitosti pre rozvoj nových medzier na trhu a prilákanie nových zákazníkov.

Na trhu sa objavilo mnoho startupov, ktoré podnikajú so spracovaním obrovského množstva dát. Niektoré z nich používajú štandardnú cloudovú infraštruktúru, ktorú poskytujú hlavní hráči ako Amazon.

Teória a prax veľkých dát v odvetviach

História vývoja

2017

Predpoveď TmaxSoft: ďalšia „vlna“ veľkých dát si vyžiada modernizáciu systému DBMS

Podniky vedia, že obrovské množstvo údajov, ktoré nazhromaždili, obsahuje dôležitá informácia o ich podnikaní a zákazníkoch. Ak spoločnosť dokáže úspešne uplatniť tieto informácie, bude mať značnú výhodu oproti konkurencii a bude schopná ponúkať lepšie produkty a služby ako tie svoje. Mnoho organizácií však stále nedokáže efektívne využívať veľké dáta vzhľadom na skutočnosť, že ich stará IT infraštruktúra nie je schopná poskytnúť potrebnú úložnú kapacitu, procesy výmeny údajov, obslužné programy a aplikácie potrebné na spracovanie a analýzu veľkého množstva neštruktúrovaných údajov na získanie cenných informácií z nich uvedených v TmaxSoft.

Zvýšený výpočtový výkon potrebný na analýzu stále sa zvyšujúceho množstva údajov môže navyše vyžadovať značné investície do staršej IT infraštruktúry organizácie, ako aj dodatočné zdroje na údržbu, ktoré by bolo možné použiť na vývoj nových aplikácií a služieb.

5. februára 2015 vydal Biely dom správu, v ktorej sa diskutovalo o tom, ako spoločnosti používajú „ veľké dáta„Nastaviť rôzne ceny pre rôznych kupujúcich - postup známy ako„ cenová diskriminácia “alebo„ diferencované určovanie cien “(prispôsobené určovanie cien). Správa popisuje výhody „veľkých dát“ pre predávajúcich aj kupujúcich a jej autori dospeli k záveru, že mnohé z problémových problémov, ktoré vyvstali v súvislosti so vznikom veľkých dát a diferenciálneho oceňovania, je možné vyriešiť v rámci existujúcich anti- diskriminačné zákony a zákony.ochrana práv spotrebiteľa.

V súčasnej dobe správa uvádza, že existuje len málo dôkazov o tom, ako spoločnosti používajú veľké údaje v kontexte personalizovaného marketingu a diferencovaného oceňovania. Tieto informácie ukazujú, že predajcovia používajú cenové metódy, ktoré je možné rozdeliť do troch kategórií:

štúdium krivky dopytu;
Riadenie a diferencované stanovovanie cien na základe demografických údajov; a
behaviorálne zacielenie a individualizované ceny.

Skúmanie krivky dopytu: Obchodníci často experimentujú s dopytom a správaním spotrebiteľov tým, že náhodne priradia zákazníkov k jednej z dvoch možných cenových úrovní. „Technicky sú tieto experimenty formou diferenciálnych cien, pretože vedú k rôznym cenám pre zákazníkov, aj keď sú„ nediskriminačné “v tom zmysle, že všetci zákazníci rovnako pravdepodobne„ dosiahnu “vyššiu cenu.“

Riadenie: Jedná sa o postup prezentácie výrobkov spotrebiteľom na základe ich demografickej skupiny. Rovnaký prenosný počítač môže ponúkať napríklad webová stránka počítačovej spoločnosti. odlišné typy kupujúci za rôzne ceny stanovené na základe informácií, ktoré o sebe poskytujú (napríklad v závislosti od toho, či je používateľ zástupcom vládnych agentúr, vedeckých alebo obchodných inštitúcií alebo súkromnej osoby) alebo od ich geografickej polohy (napríklad určené IP adresou počítača).

Cielený behaviorálny marketing a prispôsobené ceny: V týchto prípadoch sa osobné údaje kupujúcich používajú na cielenú reklamu a prispôsobené stanovovanie cien určitých produktov. Online inzerenti napríklad používajú zhromaždené reklamné siete a prostredníctvom súborov cookie tretích strán údaje o aktivite používateľov na internete za účelom zasielania cielených reklamných materiálov. Tento prístup na jednej strane umožňuje spotrebiteľom prijímať inzeráty na tovary a služby, ktoré ich zaujímajú (s lekárskymi a finančnými problémami) a s ktorými sa stretli bez ich súhlasu.

Hoci je cielený behaviorálny marketing rozšírený, v online prostredí existuje relatívne málo dôkazov o prispôsobení cien. Správa naznačuje, že to môže byť spôsobené tým, že sa stále vyvíjajú vhodné metódy, alebo skutočnosťou, že spoločnosti sa s používaním individuálnych cien neponáhľajú (alebo o nich radšej mlčia) - možno zo strachu z negatívnej reakcie spotrebiteľov .

Autori správy sa domnievajú, že „pre individuálneho spotrebiteľa je používanie veľkých dát nepochybne spojené s potenciálnymi výnosmi aj rizikami“. Správa uznáva, že pri využívaní veľkých dát existujú problémy s transparentnosťou a diskrimináciou, ale tvrdí, že existujúce antidiskriminačné zákony a zákony na ochranu spotrebiteľa sú na ich riešenie dostatočné. Správa však tiež zdôrazňuje potrebu „priebežného monitorovania“, keď spoločnosti používajú dôverné informácie nepriehľadným spôsobom alebo spôsobmi, ktoré nie sú zahrnuté v existujúcom regulačnom rámci.

Táto správa je rozšírením úsilia Bieleho domu preskúmať používanie veľkých dát a diskriminačné ceny na internete a ich dôsledky na amerických spotrebiteľov. Predtým bolo hlásené, že pracovná skupina Bieleho domu pre veľké dáta zverejnila svoju správu o tejto záležitosti v máji 2014. Federálna obchodná komisia (FTC) sa týmto problémom zaoberala aj počas svojho seminára o septembri 2014 o diskriminácii vo vzťahu k využívaniu veľkých dát.

2014

Spoločnosť Gartner búra mýty o veľkých údajoch

Stručný prehľad zásad spoločnosti Gartner na jeseň 2014 uvádza zoznam bežných mýtov o veľkých údajoch medzi CIO a vyvracia ich.

Každý implementuje systémy spracovania veľkých dát rýchlejšie ako my

Záujem o technológie veľkých dát je rekordne vysoký: 73% organizácií, ktorých sa tento rok zúčastnili analytici spoločnosti Gartner, už investuje do súvisiacich projektov alebo sa chystá. Väčšina týchto iniciatív je však ešte len v počiatočných fázach a iba 13% opýtaných už takéto riešenia implementovalo. Najťažšie je zistiť, ako generovať príjem z veľkých dát, a rozhodnúť sa, kde začať. Mnoho organizácií uviazlo v pilotnej fáze, pretože sa nevedia pripojiť Nová technológia na konkrétne obchodné procesy.

Máme toľko údajov, že sa netreba obávať malých chýb v nich.

Niektorí CIO sa domnievajú, že malé medzery v údajoch neovplyvňujú celkové výsledky veľkého objemu analýz. Keď je k dispozícii veľa údajov, každá jednotlivá chyba skutočne ovplyvní výsledok menej, hovoria analytici, ale samotné chyby sú čoraz početnejšie. Navyše väčšina analyzovaných údajov je externých, neznámej štruktúry alebo pôvodu, takže pravdepodobnosť chýb sa zvyšuje. Vo svete veľkých dát je teda kvalita oveľa dôležitejšia.

Technológie veľkých dát eliminujú potrebu integrácie údajov

Big Data sľubuje schopnosť spracovávať údaje v pôvodnom formáte s automatickým generovaním schém počas ich čítania. Verí sa, že to umožní analýzu informácií z rovnakých zdrojov pomocou viacerých dátových modelov. Mnohí veria, že to tiež umožní koncovým používateľom interpretovať akúkoľvek množinu údajov, ako uznajú za vhodné. V skutočnosti väčšina používateľov často potrebuje tradičný prístup založený na schéme, kde sú údaje vhodne formátované a existujú dohody o úrovni integrity informácií a o tom, ako by mali súvisieť s prípadom použitia.

Nemá zmysel používať dátové sklady na komplexnú analýzu

Mnoho správcov systému správy informácií sa domnieva, že nemá zmysel strácať čas vytváraním dátového skladu, pretože komplexné analytické systémy používajú nové typy údajov. V skutočnosti mnoho komplexných analytických systémov používa informácie z dátového skladu. V ostatných prípadoch je potrebné nové typy údajov dodatočne pripraviť na analýzu v systémoch spracovania veľkých dát; musíte sa rozhodnúť o vhodnosti údajov, zásadách agregácie a požadovanej úrovni kvality - takáto príprava môže prebiehať mimo skladu.

Dátové jazierka nahradia dátové sklady

V skutočnosti predajcovia uvádzajú zákazníkov do omylu tým, že dátové jazerá umiestňujú ako náhrady úložísk alebo ako kritickú analytickú infraštruktúru. Základným technológiám dátového jazera chýba zrelosť a šírka funkcionality, ktorá je vlastná úložisku. Vedúci pracovníci v oblasti správy údajov by preto podľa Gartnera mali počkať, kým jazerá nedosiahnu rovnakú úroveň rozvoja.

Accenture: 92% tých, ktorí implementovali veľké dátové systémy, je s výsledkom spokojných

Medzi hlavné výhody veľkých dát respondenti uviedli:

„Hľadanie nových zdrojov príjmu“ (56%),
„Zlepšenie zákazníckej skúsenosti“ (51%),
„Nové produkty a služby“ (50%) a
„Príliv nových zákazníkov a udržanie lojality starých“ (47%).

Mnoho spoločností čelilo pri zavádzaní nových technológií tradičným výzvam. U 51% bola kameňom úrazu bezpečnosť, u 47% - rozpočet, u 41% - nedostatok potrebného personálu a u 35% - problémy s integráciou do existujúceho systému. Takmer všetky skúmané spoločnosti (asi 91%) plánujú čoskoro vyriešiť problém s nedostatkom personálu a najať big data špecialistov.

Spoločnosti sú optimistické ohľadom budúcnosti veľkých dátových technológií. 89% verí, že zmení podnikanie rovnako ako internet. 79% respondentov uviedlo, že spoločnosti, ktoré nerobia veľké dáta, stratia konkurenčnú výhodu.

Respondenti sa však nezhodli v tom, čo presne treba považovať za big data. 65% respondentov sa domnieva, že ide o „veľké dátové súbory“, 60% verí, že ide o „pokročilú analýzu a analýzu“ a 50% verí, že ide o „údaje z vizualizačných nástrojov“.

Madrid vynakladá 14,7 milióna eur na správu veľkých dát

V júli 2014 sa ukázalo, že Madrid bude na správu mestskej infraštruktúry používať technológie veľkých dát. Náklady na projekt - 14,7 milióna eur, základom implementovaných riešení budú technológie na analýzu a správu veľkých dát. S ich pomocou Správa mesta bude riadiť prácu s každým poskytovateľom služieb a primerane platiť v závislosti od úrovne služby.

Reč je o dodávateľoch správy, ktorí monitorujú stav ulíc, osvetlenie, závlahy, zelené plochy, upratujú územie a odstraňujú, ako aj recyklujú odpad. Počas projektu bolo pre špeciálne určených inšpektorov vyvinutých 300 kľúčových ukazovateľov výkonnosti mestských služieb, na základe ktorých sa denne vykoná 1,5 tisíc rôznych kontrol a meraní. Okrem toho začne mesto využívať inovatívnu technologickú platformu s názvom Madrid iNTeligente (MiNT) - Smarter Madrid.

2013

Odborníci: Big Data Peak Fashion

Bez výnimky v súčasnosti všetci dodávatelia na trhu so správou údajov vyvíjajú technológie pre správu veľkých dát. O tomto novom technologickom trende aktívne diskutuje aj odborná komunita, vývojári aj priemyselní analytici a potenciálni spotrebitelia takýchto riešení.

Ako zistil Datashift, v januári 2013 prebehla vlna diskusií o „ veľké dáta„Prekročil všetky mysliteľné rozmery. Po analýze počtu zmienok o veľkých údajoch v sociálnych sieťach spoločnosť Datashift vypočítala, že v roku 2012 bol tento výraz použitý asi 2 miliardy krát v príspevkoch, ktoré vytvoril asi 1 milión rôznych autorov z celého sveta. To je ekvivalent 260 príspevkov za hodinu, pričom vrchol je 3070 zmienok za hodinu.

Gartner: Každý druhý CIO je pripravený minúť na veľké dáta

Po niekoľkých rokoch experimentovania s technológiami Big data a prvých implementácií v roku 2013 sa adaptácia takýchto riešení výrazne zvýši, predpovedá spoločnosť Gartner. Vedci skúmali lídrov v oblasti IT na celom svete a zistili, že 42% respondentov už investovalo do technológií veľkých dát alebo plánuje tieto investície uskutočniť v priebehu budúceho roka (údaje k marcu 2013).

Spoločnosti sú nútené míňať peniaze na technológie spracovania veľké dáta keďže sa informačné prostredie rýchlo mení, vyžadujem nové prístupy k spracovaniu informácií. Mnoho spoločností si už uvedomilo, že veľké dáta sú kritické a práca s nimi vám umožňuje dosiahnuť výhody, ktoré nie sú k dispozícii, pomocou tradičných zdrojov informácií a metód ich spracovania. Neustále preháňanie témy „veľkých dát“ v médiách navyše podnecuje záujem o relevantné technológie.

Frank Buytendijk, viceprezident spoločnosti Gartner, dokonca vyzval spoločnosti, aby zmiernili svoj zápal, pretože niektoré sa obávajú, že v akvizícii veľkých dát zaostávajú za konkurenciou.

"Nie je potrebné sa obávať, možnosti implementácie myšlienok založených na technológiách veľkých dát sú prakticky nekonečné," povedal.

Gartner predpovedá, že do roku 2015 sa 20% z 1 000 spoločností z celého sveta bude strategicky zameriavať na „informačnú infraštruktúru“.

V očakávaní nových príležitostí, ktoré technológie spracovania veľkých dát prinesú, mnohé organizácie už organizujú proces zberu a ukladania rôznych druhov informácií.

Pokiaľ ide o vzdelávacie a vládne organizácie, ako aj spoločnosti v tomto odvetví, najväčší potenciál transformácie podnikania spočíva v kombinácii nahromadených údajov s takzvanými tmavými údajmi (doslova - „tmavé údaje“), ktoré obsahujú správy E -mail, multimédiá a ďalší podobný obsah. Podľa Gartnera vyhrajú dátové preteky práve tí, ktorí sa naučia narábať so širokou škálou informačných zdrojov.

Prieskum Cisco: Big Data pomôže zvýšiť rozpočet na IT

V prieskume z jari 2013 bola skúmaná správa Cisco Connected World Technology Report, ktorú v 18 krajinách realizovala nezávislá analytická spoločnosť InsightExpress, 1 800 vysokoškolákov a podobný počet mladých profesionálov vo veku 18 až 30 rokov. Prieskum sa uskutočnil s cieľom zistiť mieru pripravenosti oddelení IT na implementáciu projektov Veľké dáta a porozumieť súvisiacim výzvam, technologickým medzerám a strategickej hodnote týchto projektov.

Väčšina spoločností zhromažďuje, zaznamenáva a analyzuje údaje. V správe sa však uvádza, že mnoho spoločností čelí v súvislosti s veľkými údajmi radu komplexných výziev v oblasti podnikania a informačných technológií. Napríklad 60 percent opýtaných pripúšťa, že riešenia veľkých dát môžu zlepšiť rozhodovacie procesy a zvýšiť konkurencieschopnosť, ale iba 28 percent uviedlo, že zo zhromaždených informácií už získavajú skutočné strategické výhody.

Viac ako polovica opýtaných vedúcich pracovníkov v oblasti IT verí, že projekty veľkých dát pomôžu zvýšiť rozpočty IT v ich organizáciách, pretože sa zvýšia požiadavky na technológie, personál a profesionálne schopnosti. Viac ako polovica respondentov zároveň očakáva, že takéto projekty zvýšia rozpočty IT v ich spoločnostiach už v roku 2012. 57 percent je presvedčených, že Big Data v priebehu nasledujúcich troch rokov zvýšia svoje rozpočty.

81 percent respondentov uviedlo, že všetky (alebo aspoň niektoré) projekty veľkých dát budú vyžadovať cloud computing. Šírenie cloudových technológií teda môže ovplyvniť rýchlosť distribúcie riešení Big Data a hodnotu týchto riešení pre podnik.

Spoločnosti zhromažďujú a používajú najrozmanitejšie typy údajov, štruktúrované aj neštruktúrované. Tu sú zdroje, z ktorých účastníci prieskumu získavajú svoje údaje (Cisco Connected World Technology Report):

Takmer polovica (48 percent) CIO predpovedá, že sa zaťaženie ich sietí v priebehu nasledujúcich dvoch rokov zdvojnásobí. (To platí najmä v Číne, kde tento názor zastáva 68 percent opýtaných, a v Nemecku 60 percent.) 23 percent respondentov očakáva, že sa zaťaženie siete počas nasledujúcich dvoch rokov strojnásobí. Iba 40 percent respondentov zároveň deklarovalo svoju pripravenosť na explozívny nárast objemu sieťovej prevádzky.

27 percent opýtaných sa priznalo, že potrebujú lepšie IT politiky a opatrenia informačnej bezpečnosti.

21 percent potrebuje väčšiu šírku pásma.

Big Data otvára IT oddeleniam nové príležitosti pre budovanie hodnoty a vytváranie silných vzťahov s obchodnými jednotkami, čo im umožňuje zvýšiť výnosy a posilniť finančnú pozíciu spoločnosti. Projekty veľkých dát robia z oddelení IT strategického partnera pre obchodné jednotky.

Podľa 73 percent respondentov je to práve IT oddelenie, ktoré sa stane hlavnou hybnou silou stratégie veľkých dát. Respondenti zároveň veria, že do implementácie tejto stratégie budú zapojené aj ďalšie oddelenia. V prvom rade sa to týka rezortov financií (pomenovalo ho 24 percent respondentov), výskumu a vývoja (20 percent), prevádzky (20 percent), strojárstva (19 percent), ako aj marketingu (15 percent) a tržby (14 percent).

Gartner: Na správu veľkých dát sú potrebné milióny nových pracovných miest

Svetové výdavky na IT dosiahnu do roku 2013 3,7 miliardy dolárov, čo je o 3,8% viac ako výdavky na informačné technológie v roku 2012 (prognóza na koniec roka je 3,6 miliardy dolárov). Segment veľké dáta(big data) budú podľa správy spoločnosti Gartner rásť oveľa rýchlejším tempom.

Do roku 2015 bude vytvorených 4,4 milióna pracovných miest v oblasti informačných technológií, ktoré budú slúžiť veľkým dátam, z toho 1,9 milióna pracovných miest. Každé také pracovné miesto bude navyše znamenať vytvorenie troch ďalších pracovných miest mimo IT sektora, takže iba v USA bude v nasledujúcich štyroch rokoch 6 miliónov ľudí pracovať na podpore informačnej ekonomiky.

Podľa expertov spoločnosti Gartner je hlavným problémom to, že v priemysle na to nie je dostatok talentov: súkromné ani verejné vzdelávacie systémy, napríklad v USA, nie sú schopné dodať priemyslu dostatočný počet kvalifikovaných personál. Takže zo spomínaných nových pracovných miest v IT bude len jeden z týchto troch zabezpečený personálne.

Analytici sa domnievajú, že úlohu kultivácie kvalifikovaného personálu IT by mali prevziať priamo spoločnosti, ktoré ich nevyhnutne potrebujú, pretože títo zamestnanci sa pre nich stanú vstupnou bránou do novej informačnej ekonomiky budúcnosti.

2012

Prvá skepsa voči Big Data

Analytici z Ovum a Gartner naznačujú, že ide o trendovú tému roku 2012 veľké dáta možno je čas uvoľniť ilúziu.

Pojem „veľké dáta“ v tejto dobe zvyčajne označuje stále rastúci objem informácií prichádzajúcich online zo sociálnych médií, zo sietí senzorov a iných zdrojov, ako aj z rastúceho spektra nástrojov používaných na spracovanie údajov a identifikáciu dôležitých spoločností - trendy.

"Vzhľadom na humbuk (alebo napriek tomu) kvôli myšlienke veľkých dát sa výrobcovia v roku 2012 pozerali na tento trend s veľkou nádejou," povedal Tony Bayer, analytik spoločnosti Ovum.

Bayer uviedol, že DataSift vykonal retrospektívnu analýzu zmienok o veľkých údajoch v roku

Big data (alebo Big Data) je súbor metód na prácu s veľkým množstvom štruktúrovaných alebo neštruktúrovaných informácií. Špecialisti na veľké dáta ich spracúvajú a analyzujú, aby získali vizuálne, čitateľné výsledky. Look At Me hovoril s profesionálmi a zistil, aká je situácia v oblasti spracovania veľkých dát v Rusku, kde a čo je lepšie pre tých, ktorí chcú pracovať v tejto oblasti, aby sa učili.

Alexey Ryvkin o hlavných smeroch v oblasti veľkých dát, komunikácie so zákazníkmi a sveta čísel

Študoval som na Moskovskom inštitúte elektronickej technológie. Hlavná vec, ktorú som odtiaľ dokázal dostať, boli základné znalosti z fyziky a matematiky. Súčasne so štúdiom som pracoval v centre výskumu a vývoja, kde som sa zaoberal vývojom a implementáciou algoritmov kódovania odolných voči hluku pre bezpečný prenos údajov. Po ukončení bakalárskeho štúdia som vstúpil na magisterský titul z obchodnej informatiky na Vyššiu ekonomickú školu. Potom som chcel pracovať v IBS. Mal som šťastie, že v tej dobe kvôli veľké množstvo projektov, došlo k dodatočnému náboru stážistov a po niekoľkých rozhovoroch som začal pracovať pre IBS, jednu z najväčších ruských spoločností v tejto oblasti. Za tri roky som prešiel od stážistu k architektovi podnikových riešení. Teraz rozvíjam odborné znalosti o technológiách Big Data pre zákaznícke spoločnosti z finančného a telekomunikačného sektora.

Pre ľudí, ktorí chcú pracovať s veľkými dátami, existujú dve hlavné špecializácie: analytici a IT konzultanti, ktorí vytvárajú technológie pre prácu s veľkými dátami. Okrem toho sa môžete s IT platformou zákazníka rozprávať aj o profesii Big Data Analyst, teda o ľuďoch, ktorí priamo pracujú s dátami. Predtým to boli obyčajní analytici-matematici, ktorí ovládali štatistiku a matematiku a používali štatistický softvér na riešenie problémov s analýzou údajov. Dnes je okrem znalosti štatistiky a matematiky potrebné aj porozumenie technológiám a životnému cyklu dát. Toto je podľa mňa rozdiel medzi moderným analytikom údajov a tými analytikmi, ktorí boli predtým.

Mojou špecializáciou je IT poradenstvo, to znamená, že vymýšľam a ponúkam zákazníkom spôsoby, ako riešiť obchodné problémy pomocou IT technológií. K poradenstvu prichádzajú ľudia s rôznymi skúsenosťami, ale najdôležitejšími vlastnosťami tejto profesie sú schopnosť porozumieť potrebám klienta, túžba pomôcť ľuďom a organizáciám, dobré komunikačné a tímové schopnosti (pretože to je vždy práca s klientom a v tíme), dobré analytické schopnosti. Vnútorná motivácia je veľmi dôležitá: pracujeme v konkurenčnom prostredí a zákazník očakáva neobvyklé riešenia a záujem o prácu.

Väčšinu svojho času trávim rozhovormi so zákazníkmi, formalizovaním ich obchodných potrieb a pomáhaním navrhnúť najvhodnejšiu technologickú architektúru. Kritériá výberu tu majú svoju vlastnú zvláštnosť: okrem funkčnosť a TCO (Total cost of ownership), nefunkčné požiadavky na systém sú veľmi dôležité, najčastejšie je to doba odozvy, čas spracovania informácií. Aby sme presvedčili zákazníka, často používame prístup založený na dôkaze koncepcie - ponúkame vám „bezplatné“ testovanie technológie pri niektorých úlohách, na úzkom súbore údajov, aby sme sa presvedčili, že technológia funguje. Riešenie by malo pre zákazníka vytvoriť konkurenčnú výhodu získaním ďalších výhod (napríklad x-sell, cross-sell) alebo vyriešiť nejaký problém v obchode, povedzme, obmedziť vysoký stupeňúverový podvod.

Bolo by oveľa jednoduchšie, keby klienti prišli s hotovou úlohou, ale zatiaľ nechápu, že sa objavila revolučná technológia, ktorá môže o niekoľko rokov zmeniť trh

S akými problémami sa musíte stretnúť? Trh ešte nie je pripravený používať technológie veľkých dát. Bolo by oveľa jednoduchšie, keby zákazníci prišli s hotovou úlohou, ale ešte si neuvedomujú, že sa objavila revolučná technológia, ktorá môže o niekoľko rokov zmeniť trh. Preto v skutočnosti pracujeme v režime spustenia - nepredávame len technológie, ale vždy, keď presvedčíme klientov, že do týchto riešení musia investovať. Toto je pozícia vizionárov - zákazníkom ukazujeme, ako môžu pomocou zapojenia dát a IT zmeniť svoje podnikanie. Vytvárame tento nový trh - trh pre komerčné IT poradenstvo v oblasti veľkých dát.

Ak sa chce človek zaoberať analýzou dát alebo IT poradenstvom v oblasti veľkých dát, potom prvé, čo je dôležité, je matematické alebo technické vzdelanie s dobrým matematickým vzdelaním. Je tiež užitočné zoznámiť sa s konkrétnymi technológiami, ako sú riešenia SAS, Hadoop, R alebo IBM. Okrem toho sa musíte aktívne zaujímať o aplikované problémy v súvislosti s údajmi Big Data - napríklad o to, ako ich je možné použiť na zlepšenie hodnotenia kreditov v banke alebo manažmente. životný cyklus zákazník. Tieto a ďalšie znalosti je možné získať z dostupných zdrojov: napríklad Coursera a Big Data University. Existuje aj iniciatíva Customer Analytics Initiative na Wharton University v Pensylvánii, kde bolo publikovaných veľa zaujímavých materiálov.

Vážnym problémom pre tých, ktorí chcú pracovať v našom odbore, je očividný nedostatok informácií o Big Data. Nemôžete ísť do kníhkupectva alebo na nejaký web a získať napríklad vyčerpávajúci súbor prípadov pre všetky aplikácie technológií Big Data v bankách. Neexistujú žiadne také referenčné knihy. Časť informácií je v knihách, iná časť je zhromaždená na konferenciách a k niektorým sa musíme dostať sami.

Ďalším problémom je, že analytici sú vo svete čísiel v poriadku, ale nie vždy sa v obchode dobre vyznajú. Títo ľudia sú často introvertní, majú problémy s komunikáciou, a preto majú problém presvedčivo komunikovať výsledky výskumu klientom. Na rozvoj týchto schopností by som odporučil knihy ako Princíp pyramídy, Hovorte jazykom diagramov. Pomáhajú rozvíjať prezentačné schopnosti, stručne a jasne vyjadriť vaše myšlienky.

Účasť na rôznych prípadových majstrovstvách počas štúdia na Vysokej škole ekonomickej mi veľmi pomohla. Prípadové majstrovstvá sú intelektuálne súťaže pre študentov, ktorí študujú obchodné problémy a navrhujú riešenia. Dodávajú sa v dvoch variantoch: prípadové majstrovstvá pre poradenské firmy ako McKinsey, BCG, Accenture a nezávislé prípadové majstrovstvá ako Changellenge. Počas svojej účasti na nich som sa naučil vidieť a rozhodovať sa náročné úlohy- od identifikácie problému a jeho štruktúrovania až po ochranu odporúčaní na jeho riešenie.

Oleg Mikhalskiy na ruskom trhu a špecifiká vytvorenia nového produktu v oblasti veľkých dát

Pred nástupom do spoločnosti Acronis som sa už podieľal na uvádzaní nových produktov na trh v iných spoločnostiach. Vždy je to zaujímavé a náročné zároveň, preto ma hneď zaujala možnosť zapracovať cloudové služby a skladovacie riešenia. V tejto oblasti mi prišli vhod všetky moje predchádzajúce skúsenosti v IT odvetví, vrátane vlastného startup projektu I-accelerator. Pomohlo aj obchodné vzdelanie (MBA) okrem základného inžinierstva.

V Rusku majú veľké spoločnosti - banky, mobilní operátori atď. - potrebu analýzy veľkých dát, takže v našej krajine existujú perspektívy pre tých, ktorí chcú pracovať v tejto oblasti. Je pravda, že mnoho projektov je v súčasnosti integráciou, to znamená, že sú vyrobené na základe zahraničného vývoja alebo technológií s otvoreným zdrojovým kódom. Pri takýchto projektoch sa nevytvárajú zásadne nové prístupy a technológie, ale skôr sa prispôsobuje existujúci vývoj. V Acronis sme išli inou cestou a po analýze dostupných alternatív sme sa rozhodli investovať do vlastného rozvoja a výsledkom bol systém bezpečné skladovanie pre veľké dáta, ktoré nie sú nákladovo nižšie ako napríklad Amazon S3, ale fungujú spoľahlivo a efektívne a vo výrazne menšom rozsahu. Veľké internetové spoločnosti majú tiež svoj vlastný vývoj v oblasti veľkých dát, ale viac sa zameriavajú na interné potreby než na uspokojovanie potrieb externých zákazníkov.

Je dôležité porozumieť trendom a ekonomickým silám, ktoré ovplyvňujú oblasť spracovania veľkých dát. Aby ste to urobili, musíte veľa čítať, počúvať prejavy autoritatívnych odborníkov v oblasti IT, zúčastňovať sa tematických konferencií. Teraz má takmer každá konferencia sekciu o veľkých údajoch, ale všetci o nej hovoria z iného uhla: z hľadiska technológie, obchodu alebo marketingu. Môžete ísť na projektovú prácu alebo na stáž do spoločnosti, ktorá už projekty na túto tému realizuje. Ak ste si istí svojimi schopnosťami, nie je neskoro zorganizovať startup v oblasti veľkých dát.

Bez neustáleho kontaktu s trhom novému vývoju hrozí, že bude neuplatnený

Keď ste však zodpovední za nový produkt, veľa času strávite analýzou trhu a komunikáciou s potenciálnymi klientmi, partnermi, profesionálnymi analytikmi, ktorí veľa vedia o klientoch a ich potrebách. Bez neustáleho kontaktu s trhom hrozí novému vývoju, že bude neuplatnený. Vždy existuje veľa neistôt: musíte pochopiť, kto budú prvými používateľmi (prvými užívateľmi), čo pre nich máte cenné a ako potom pritiahnuť masové publikum. Druhou najdôležitejšou úlohou je vytvoriť a sprostredkovať vývojárom jasnú a holistickú víziu konečného produktu, aby ich motivoval pracovať v takých podmienkach, keď sa niektoré požiadavky môžu ešte zmeniť a priority závisia od spätnej väzby od prvých zákazníkov. Preto je dôležitou úlohou zvládnuť očakávania zákazníkov na jednej strane a vývojárov na strane druhej. Aby ani jeden, ani druhý nestratili záujem a dotiahli projekt do konca. Po prvom úspešnom projekte je to jednoduchšie a hlavnou výzvou bude nájsť správny model rastu pre nové podnikanie.

Veľké dáta- Angličtina. "Veľké dáta". Termín sa objavil ako alternatíva k DBMS a stal sa jedným z hlavných trendov v IT infraštruktúre, keď väčšina priemyselných gigantov - IBM, Microsoft, HP, Oracle a ďalší začali používať tento koncept vo svojich stratégiách. Big Data sa chápe ako obrovské (stovky terabajtov) dátové pole, ktoré nie je možné spracovať tradičnými metódami; niekedy - nástroje a metódy na spracovanie týchto údajov.

Príklady zdrojov veľkých dát: udalosti RFID, správy v sociálnych sieťach, meteorologické štatistiky, informácie o polohe predplatiteľov mobilných sietí bunková komunikácia a údaje zo zariadení na záznam zvuku / videa. „Big data“ sa preto široko používajú vo výrobe, zdravotníctve, vláde, internetovom obchode - najmä pri analýze cieľového publika.

Charakteristické

Značky veľkých dát sú definované ako „tri V“: Objem - objem (skutočne veľký); rozmanitosť - rozmanitosť, veľa; velocity - rýchlosť (je potrebné veľmi rýchle spracovanie).

Veľké údaje sú často neštruktúrované a vyžadujú špeciálne algoritmy na ich spracovanie. Metódy analýzy veľkých dát zahŕňajú:

(„Dolovanie údajov“) - súbor prístupov na objavovanie skrytých užitočných znalostí, ktoré nemožno získať štandardnými metódami;
Crowdsourcing (dav - „dav“, sourcing - použitie ako zdroj) - riešenie významných problémov spoločným úsilím dobrovoľníkov, ktorí nie sú v povinnej pracovnej zmluve a vzťahoch, koordináciou aktivít pomocou nástrojov IT;
Fúzia a integrácia údajov („miešanie a vkladanie údajov“) - súbor metód na prepojenie viacerých zdrojov v rámci hĺbkovej analýzy;
Machine Learning („strojové učenie“) - podsekcia výskumu umelej inteligencie, ktorá študuje metódy využívania analýzy štatistík a získavania predpovedí na základe základných modelov;
rozpoznávanie vzorov (napríklad rozpoznávanie tváre v hľadáčiku fotoaparátu alebo videokamery);
priestorová analýza - využitie topológie, geometrie a geografie na vytváranie údajov;
vizualizácia údajov - výstup analytických informácií vo forme ilustrácií a diagramov pomocou interaktívnych nástrojov a animácií na sledovanie výsledkov a vybudovanie základov pre ďalšie monitorovanie.

Ukladanie a analýza informácií sa vykonáva na veľkom počte vysoko výkonných serverov. Kľúčovou technológiou je Hadoop, open source.

Keďže množstvo informácií sa bude časom len zvyšovať, problém nie je získať údaje, ale ako ich spracovať s maximálnym prínosom. Proces práce s veľkými dátami vo všeobecnosti zahŕňa: zhromažďovanie informácií, ich štruktúrovanie, vytváranie prehľadov a súvislostí, vytváranie odporúčaní pre opatrenia. Už pred prvou fázou je dôležité jasne definovať účel práce: na čo presne slúžia údaje, napríklad na definovanie cieľového publika produktu. V opačnom prípade existuje riziko získania veľkého množstva informácií bez toho, aby ste pochopili, ako presne ich možno použiť.