Velká data velká data. Velká data: analytika a řešení

Znáte tento slavný vtip? Big Data jsou jako sex do 18 let:

každý o tom přemýšlí;
všichni o tom mluví;
každý si myslí, že to dělají jejich přátelé;
téměř nikdo to nedělá;
ten, kdo to dělá, to dělá špatně;
všichni si myslí, že to bude příště lepší;
nikdo nepřijímá bezpečnostní opatření;
každý se stydí přiznat, že něco neví;
když se to někomu povede, vždycky to nadělá velký rámus.

Ale buďme upřímní, s jakýmkoli humbukem kolem bude vždy obvyklá zvědavost: jaký druh povyku a je tam něco opravdu důležitého? Zkrátka ano, existuje. Podrobnosti jsou uvedeny níže. Vybrali jsme pro vás ty nejúžasnější a nejzajímavější aplikace technologií Big Data. Tento malý průzkum trhu na jasných příkladech konfrontuje prostý fakt: budoucnost nepřichází, není třeba „čekat dalších n let a kouzlo se stane skutečností“. Ne, už to přišlo, ale je to ještě okem nepostřehnutelné, a proto spékání singularity ještě tolik nepálí známý bod trhu práce. Jít.

1 Jak se technologie Big Data používají tam, kde vznikly

Velké IT společnosti jsou místem, kde se datová věda zrodila, takže jejich vnitřnosti jsou v této oblasti nejzajímavější. Kampaň Google, která je domovem paradigmatu Map Reduce, má jediný účel – vzdělávat své programátory v technologiích strojového učení. A právě v tom spočívá jejich konkurenční výhoda: zaměstnanci po získání nových znalostí zavedou nové metody do těch projektů Google, kde neustále pracují. Představte si ten obrovský seznam oblastí, ve kterých může kampaň způsobit revoluci. Jeden příklad: používají se neuronové sítě.

Společnost také implementuje strojové učení do všech svých produktů. Jeho výhodou je přítomnost velkého ekosystému, který zahrnuje všechna digitální zařízení používaná v každodenním životě. To Applu umožňuje dosáhnout nemožné úrovně: kampaň má tolik uživatelských dat jako kterákoli jiná. Zásady ochrany osobních údajů jsou přitom velmi přísné: korporace se vždy chlubila tím, že nepoužívá zákaznická data pro reklamní účely. V souladu s tím jsou informace o uživateli zašifrovány, takže právníci společnosti Apple nebo dokonce FBI se zatykačem je nemohou přečíst. Tím, že najdete skvělý přehled Vývoj AI společnosti Apple.

2 Velká data na 4 kolech

Moderní automobil je akumulátorem informací: shromažďuje všechna data o řidiči, životním prostředí, připojených zařízeních i o sobě samém. Brzy jedno vozidlo, které je připojeno k síti, jako je toto, vygeneruje až 25 GB dat za hodinu.

Dopravní telematiku používají výrobci automobilů již mnoho let, ale lobbuje za sofistikovanější metodu sběru dat, která plně využívá Big Data. To znamená, že technologie nyní může řidiče upozornit na špatný stav vozovky automatickou aktivací protiblokovacího brzdového systému a protiskluzových systémů.

Další koncerny, včetně BMW, využívají technologii Big Data v kombinaci s informacemi získanými z testovacích prototypů, paměti chyb v autě a stížností zákazníků k identifikaci slabin modelu v rané fázi výroby. Nyní se namísto ručního vyhodnocování dat, které trvá měsíce, používá moderní algoritmus. Chyby a náklady na odstraňování problémů jsou sníženy, což urychluje pracovní toky analýzy informací v BMW.

Podle odborných odhadů dosáhne tržní obrat propojených vozů do roku 2019 130 miliard dolarů, což není překvapivé vzhledem k tempu integrace technologií, které jsou nedílnou součástí vozidla, ze strany automobilek.

Použití Big Data pomáhá zvýšit bezpečnost a funkčnost stroje. Například Toyota zabudováním informačních komunikačních modulů (DCM). Tento nástroj, který se používá pro velká data, zpracovává a analyzuje data shromážděná službou DCM, aby z nich mohl dále těžit.

3 Aplikace velkých dat v medicíně

Implementace technologií Big Data v lékařské oblasti umožňuje lékařům důkladněji studovat onemocnění a zvolit efektivní postup léčby pro konkrétní případ. Díky analýze informací je pro poskytovatele zdravotní péče snazší předvídat relaps a přijímat preventivní opatření. Výsledkem je přesnější diagnóza a lepší léčba.

Nová technika umožnila podívat se na problémy pacientů z jiného úhlu, což vedlo k odhalení dříve neznámých zdrojů problému. Některé rasy jsou například geneticky náchylnější k onemocnění srdce než jiné etnické skupiny. Nyní, když si pacient stěžuje na určitou nemoc, lékaři berou v úvahu údaje o příslušnících jeho rasy, kteří si stěžovali na stejný problém. Sběr a analýza dat vám umožní dozvědět se mnohem více o pacientech: od potravinových preferencí a životního stylu až po genetickou strukturu DNA a metabolitů buněk, tkání, orgánů. Například Centrum pro dětskou genomickou medicínu v Kansas City využívá pacienty a analyzuje mutace v genetickém kódu, které způsobují rakovinu. Individuální přístup ke každému pacientovi s přihlédnutím k jeho DNA pozvedne efektivitu léčby na kvalitativně novou úroveň.

Pochopení toho, jak se Big Data používají, je první a nejdůležitější změnou v lékařské oblasti. Když pacient podstupuje léčbu, nemocnice nebo jiné zdravotnické zařízení může o něm získat mnoho smysluplných informací. Shromážděné informace se používají k předpovídání recidivy onemocnění s určitou mírou přesnosti. Pokud například pacient utrpěl mrtvici, lékaři studují informace o době cévní mozkové příhody, analyzují přechodné období mezi předchozími precedenty (pokud existují), přičemž zvláštní pozornost věnují stresovým situacím a těžké fyzické aktivitě v životě pacienta. Na základě těchto údajů dávají nemocnice pacientovi jasný plán opatření, aby v budoucnu zabránily možnosti mrtvice.

Nositelná zařízení také hrají roli při identifikaci zdravotních problémů, i když člověk nemá zjevné příznaky konkrétní nemoci. Namísto hodnocení stavu pacienta pomocí dlouhého průběhu vyšetření může lékař vyvodit závěry na základě informací shromážděných fitness trackerem nebo chytrými hodinkami.

Jedním z nejnovějších příkladů je. Zatímco byl pacient vyšetřován na nový záchvat kvůli vynechaným lékům, lékaři zjistili, že muž má mnohem vážnější zdravotní problém. Tento problém se ukázal jako fibrilace síní. K diagnóze došlo díky tomu, že pracovníci oddělení získali přístup k telefonu pacienta, a to k aplikaci spárované s jeho fitness trackerem. Údaje z aplikace se ukázaly jako klíčový faktor pro stanovení diagnózy, protože v době vyšetření muž neměl žádné srdeční abnormality.

To je jen jeden z mála případů, který to ukazuje proč používat velká data v lékařské oblasti dnes hraje tak významnou roli.

4 Analýza dat se již stala páteří maloobchodu

Pochopení uživatelských dotazů a cílení je jednou z největších a nejvíce propagovaných oblastí použití nástrojů Big Data. Big Data pomáhají analyzovat zvyky zákazníků s cílem lépe porozumět potřebám spotřebitelů v budoucnu. Společnosti se snaží rozšířit tradiční datovou sadu o sociální média a historii vyhledávání v prohlížeči, aby si vytvořily co nejúplnější představu o zákazníkovi. Někdy se velké organizace rozhodnou vytvořit svůj vlastní prediktivní model jako globální cíl.

Například obchody řetězce Target s pomocí hloubkové analýzy dat a vlastního prognostického systému zvládnou určit s vysokou přesností -. Každému klientovi je přiděleno ID, které je zase vázáno na kreditní kartu, jméno nebo e-mail. Identifikátor slouží jako jakýsi nákupní košík, kde se ukládají informace o všem, co kdy člověk nakoupil. Specialisté sítě zjistili, že ženy v pozici aktivně nakupují neochucené produkty před druhým trimestrem těhotenství a během prvních 20 týdnů se opírají o doplňky vápníku, zinku a hořčíku. Na základě obdržených dat Target zasílá zákazníkům kupony na dětské produkty. Úplně stejné slevy na zboží pro děti jsou „ředěné“ kupony na další produkty, aby nabídky na nákup postýlky či plen nepůsobily příliš vlezle.

Dokonce i vládní ministerstva našla způsob, jak využít technologie Big Data k optimalizaci volebních kampaní. Někteří se domnívají, že vítězství Baracka Obamy v prezidentských volbách v USA v roce 2012 bylo způsobeno vynikající prací jeho týmu analytiků, kteří zpracovali obrovské množství dat správným způsobem.

5 Velká data o ochraně zákona a pořádku

Během několika posledních let orgány činné v trestním řízení zjistily, jak a kdy používat velká data. Je všeobecně známo, že Národní bezpečnostní agentura používá technologii Big Data k prevenci teroristických útoků. Jiné agentury používají progresivní metodologii k prevenci menších trestných činů.

Los Angeles Police Department žádá. Podílí se na tom, čemu se běžně říká proaktivní vymáhání práva. Použití oznámení o trestné činnosti pro určitá doba Algoritmus identifikuje oblasti, kde je největší pravděpodobnost spáchání trestných činů. Systém takové oblasti označí na mapě města malými červenými čtverečky a tato data jsou okamžitě předávána hlídkovým vozům.

Policajti v Chicagu využívat technologie Big Data trochu jiným způsobem. Policie City of Winds má totéž, ale jeho cílem je vymezit „rizikový kruh“ lidí, kteří mohou být obětí nebo účastníky ozbrojeného útoku. Podle The New York Times tento algoritmus přiděluje osobě hodnocení zranitelnosti na základě její kriminální historie (zatčení a účast na přestřelkách, příslušnost ke zločineckým gangům). Vývojář systému ujišťuje, že systém sice studuje kriminální minulost jednotlivce, ale nezohledňuje sekundární faktory, jako je rasa, pohlaví, etnická příslušnost a umístění osoby.

6 Jak technologie Big Data pomáhají městům rozvíjet se

CEO společnosti Veniam João Barros demonstruje sledovací mapu Wi-Fi routerů v autobusech Porto

Analýza dat se také používá ke zlepšení řady aspektů fungování měst a zemí. Pokud například přesně víte, jak a kdy používat technologie Big Data, můžete optimalizovat přepravní toky. K tomu se bere v úvahu online pohyb vozidel, analyzují se sociální média a meteorologická data. Dnes se řada měst pustila do využívání analýzy dat k integraci dopravní infrastruktury s jinými typy utility do jediného celku. Jde o koncept chytrého města, ve kterém autobusy čekají na zpožděný vlak a semafory dokážou předvídat dopravní zácpy s cílem minimalizovat zácpy.

Long Beach využívá technologie Big Data k provozu chytrých vodoměrů, které se používají k omezení nelegálního zavlažování. Dříve byly používány ke snížení spotřeby vody soukromými domácnostmi (maximálním výsledkem je snížení o 80 %). Úspora pitné vody je vždy aktuální téma. Zvlášť když stát zažívá nejhorší sucho, jaké kdy bylo zaznamenáno.

Zástupci losangeleského ministerstva dopravy se připojili k seznamu těch, kteří využívají Big Data. Na základě dat získaných ze senzorů dopravních kamer úřady monitorují provoz semaforů, což zase umožňuje regulovat provoz. Pod kontrolou počítačového systému je po celém městě asi 4 500 000 semaforů. Podle oficiálních údajů pomohl nový algoritmus snížit přetížení o 16 %.

7 Motor pokroku v marketingu a prodeji

V marketingu vám nástroje Big Data umožňují identifikovat, které nápady jsou v konkrétní fázi prodejního cyklu nejúčinnější. Analýza dat identifikuje, jak mohou investice zlepšit řízení vztahů se zákazníky, jakou strategii zvolit pro zvýšení míry konverze a jak optimalizovat životní cyklus zákazníka. V cloudovém byznysu se algoritmy Big Data používají ke zjištění, jak minimalizovat náklady na získávání zákazníků a prodloužit životní cyklus zákazníka.

Diferenciace cenových strategií v závislosti na vnitrosystémové úrovni klienta je snad tím hlavním, k čemu se Big Data v oblasti marketingu využívají. McKinsey zjistil, že asi 75 % příjmů průměrné firmy pochází ze základních produktů, z nichž 30 % je oceněno nesprávně. Růst ceny o 1 % znamená nárůst provozního zisku o 8,7 %.

Výzkumný tým společnosti Forrester zjistil, že analýza dat umožňuje obchodníkům zaměřit se na to, jak zlepšit vztahy se zákazníky. Zkoumáním směru vývoje zákazníků mohou specialisté posoudit úroveň jejich loajality a také prodloužit životní cyklus v kontextu konkrétní společnosti.

Optimalizace prodejních strategií a kroků ke vstupu na nové trhy pomocí geoanalýzy se odráží v biofarmaceutickém průmyslu. Podle McKinsey utrácejí farmaceutické společnosti v průměru 20 až 30 % svých zisků na administrativu a prodej. Pokud podniky začnou aktivněji používat velká data k identifikaci nejziskovějších a nejrychleji rostoucích trhů budou náklady okamžitě sníženy.

Analýza dat je pro společnosti prostředkem k úplnému pochopení klíčových aspektů jejich podnikání. Zvýšení výnosů, snížení nákladů a snížení pracovního kapitálu jsou tři výzvy, které se moderní podnikání snaží vyřešit pomocí analytických nástrojů.

Konečně 58 % CMO tvrdí, že implementaci technologií Big Data lze vysledovat optimalizace pro vyhledávače(SEO), e-mailový a mobilní marketing, kde analýza dat hraje nejvýznamnější roli při utváření marketingových programů. A jen o 4 % méně respondentů je přesvědčeno, že Big Data budou v průběhu let hrát významnou roli ve všech marketingových strategiích.

8 Analýza dat v planetárním měřítku

Neméně kuriózní je. Je možné, že strojové učení bude nakonec jedinou silou schopnou udržet křehkou rovnováhu. Téma lidského vlivu na globální oteplování je stále předmětem mnoha kontroverzí, takže přesnou odpověď mohou poskytnout pouze spolehlivé prediktivní modely založené na analýze velkého množství dat. Snížení emisí nakonec pomůže i nám všem: utratíme méně za energii.

Big Data nyní nejsou abstraktním pojmem, který by mohl najít své uplatnění za pár let. Jedná se o dokonale fungující soubor technologií, které mohou být užitečné téměř ve všech sférách lidské činnosti: od medicíny a policie až po marketing a prodej. Etapa aktivní integrace Big Data do našeho každodenního života právě začala a kdo ví, jaká bude role Big Data za pár let?

Velká data jsou široký pojem pro nekonvenční strategie a technologie potřebné ke sběru, organizaci a zpracování informací z velkých datových sad. Zatímco problém nakládání s daty, která překračují výpočetní výkon nebo kapacitu úložiště jednoho počítače, není nový, rozsah a hodnota tohoto typu výpočetní techniky se v posledních letech výrazně rozšířily.

V tomto článku najdete základní pojmy, se kterými se můžete při zkoumání velkých dat setkat. Pojednává také o některých procesech a technologiích, které se v současnosti v této oblasti používají.

Co jsou velká data?

Přesnou definici velkých dat je obtížné formulovat, protože projekty, prodejci, praktici a obchodní profesionálové je používají velmi odlišnými způsoby. S ohledem na to lze velká data definovat jako:

Velké datové sady.
Kategorie výpočetních strategií a technologií, které se používají ke zpracování velkých datových sad.

V této souvislosti se „velkým souborem dat“ rozumí soubor dat, který je příliš velký na to, aby jej bylo možné zpracovat nebo uložit pomocí tradičních nástrojů nebo na jediném počítači. To znamená, že celkový rozsah velkých datových sad se neustále mění a může se případ od případu výrazně lišit.

Velké datové systémy

Základní požadavky pro práci s velkými daty jsou stejné jako u jakékoli jiné datové sady. Masivní rozsah, rychlost zpracování a vlastnosti dat, se kterými se setkáváme v každé fázi procesu, však představují hlavní nové výzvy v návrhu nástrojů. Cílem většiny systémů velkých dat je porozumět velkému množství heterogenních dat a vztahovat se k nim, což by konvenčními metodami nebylo možné.

V roce 2001 představil Doug Laney ze společnosti Gartner „Tři vs velkých dat“, aby popsal některé charakteristiky, které odlišují zpracování velkých dat od jiných typů zpracování dat:

Objem (objem dat).
Rychlost (rychlost akumulace a zpracování dat).
Různorodost (různost typů zpracovávaných dat).

Objem dat

Naprostý rozsah zpracovávaných informací pomáhá definovat systémy velkých dat. Tyto datové sady mohou být řádově větší než tradiční datové sady a vyžadují více pozornosti v každé fázi zpracování a ukládání.

Protože požadavky přesahují možnosti jednoho počítače, je často obtížné kombinovat, přidělovat a koordinovat zdroje ze skupin počítačů. Řízení clusterů a algoritmy schopné rozdělit úkoly na menší části jsou v této oblasti stále důležitější.

Rychlost akumulace a zpracování

Druhou vlastností, která výrazně odlišuje velká data od jiných datových systémů, je rychlost, jakou se informace systémem pohybují. Data často přicházejí do systému z více zdrojů a musí být zpracována v reálném čase, aby se aktualizoval aktuální stav systému.

Toto zaměření na okamžité zpětná vazba donutil mnoho odborníků opustit dávkově orientovaný přístup a zvolit systém streamování v reálném čase. Data se neustále přidávají, zpracovávají a analyzují, abychom udrželi krok s přílivem nových informací a získali cenná data v rané fázi, kdy jsou nejrelevantnější. To vyžaduje spolehlivé systémy s vysoce dostupnými součástmi pro ochranu proti selhání podél datového potrubí.

Různorodost typů zpracovávaných dat

V oblasti velkých dat existuje mnoho jedinečných výzev souvisejících s širokou škálou zpracovaných zdrojů a jejich relativní kvalitou.

Data mohou pocházet z interních systémů, jako jsou protokoly aplikací a serverů, z kanálů sociálních médií a dalších externích rozhraní API, ze senzorů fyzická zařízení a z jiných zdrojů. Účelem systémů velkých dat je zpracovávat potenciálně užitečná data bez ohledu na jejich původ spojením všech informací do jediného systému.

Formáty a typy médií se také mohou značně lišit. Mediální soubory (obrázky, video a zvuk) jsou kombinovány s textovými soubory, strukturovanými protokoly atd. Tradičnější systémy zpracování dat očekávají, že data vstupují do kanálu již označená, zformátovaná a uspořádaná, ale systémy velkých dat obvykle přijímají a ukládají data pokusem zachovat jejich původní stav. V ideálním případě dojde k jakýmkoli transformacím nebo změnám nezpracovaných dat v paměti během zpracování.

Další vlastnosti

V průběhu času odborníci a organizace navrhli rozšíření původních Three V, ačkoli tyto inovace spíše popisují problémy než charakteristiky velkých dat.

Pravdivost: Různorodost zdrojů a složitost zpracování může vést k problémům při posuzování kvality dat (a tedy i kvality výsledné analýzy).
Variabilita: Změna dat má za následek rozsáhlé změny v kvalitě. Identifikace, zpracování nebo filtrování dat nízké kvality může vyžadovat další zdroje, které mohou zlepšit kvalitu dat.
Hodnota: Konečným cílem velkých dat je hodnota. Někdy jsou systémy a procesy velmi složité, takže je obtížné používat data a extrahovat skutečné hodnoty.

Životní cyklus velkých dat

Jak se tedy velká data vlastně zpracovávají? Existuje několik různých přístupů k implementaci, ale existují podobnosti ve strategiích a softwaru.

Zadávání dat do systému
Ukládání dat do úložiště
Výpočet a analýza dat
Vizualizace výsledků

Než se ponoříme hluboko do těchto čtyř kategorií pracovních postupů, promluvme si o clusterovém počítání, důležité strategii používané mnoha nástroji pro velká data. Nastavení výpočetního clusteru je páteří technologie používané v každé fázi životního cyklu.

Cluster computing

Kvůli kvalitě velkých dat samostatné počítače nevhodné pro zpracování dat. Clustery jsou k tomu vhodnější, protože si dokážou poradit s úložnými a výpočetními potřebami velkých dat.

Software pro klastrování velkých dat agreguje zdroje mnoha malých strojů s cílem poskytnout řadu výhod:

Sdružování zdrojů: Zpracování velkých datových sad vyžaduje velké množství procesorových a paměťových prostředků a také mnoho dostupného úložného prostoru.
Vysoká dostupnost: Clustery mohou poskytovat různé úrovně odolnosti proti chybám a dostupnosti, takže selhání hardwaru nebo softwaru neovlivní přístup k datům a jejich zpracování. To je důležité zejména pro analýzu v reálném čase.
Škálovatelnost: Clustery podporují rychlé škálování (přidávání nových počítačů do clusteru).

Práce v klastru vyžaduje nástroje pro správu členství v klastru, koordinaci přidělování zdrojů a plánování práce s jednotlivými uzly. Členství v klastru a přidělování zdrojů lze řešit pomocí programů jako Hadoop YARN (Yet Another Resource Negotiator) nebo Apache Mesos.

Prefabrikovaný výpočetní cluster často funguje jako základna, se kterou jiný komunikuje při zpracování dat. software... Počítače účastnící se výpočetního clusteru jsou také obvykle spojeny se správou distribuovaného úložného systému.

Načítání dat

Příjem dat je proces přidávání nezpracovaných dat do systému. Složitost této operace do značné míry závisí na formátu a kvalitě zdrojů dat a na tom, jak data splňují požadavky na zpracování.

Velká data můžete do systému přidat pomocí speciálních nástrojů. Technologie jako Apache Sqoop mohou převzít existující data z relačních databází a přidat je do systému velkých dat. Můžete také použít Apache Flume a Apache Chukwa - projekty určené k agregaci a importu aplikačních a serverových protokolů. Zprostředkovatelé zpráv, jako je Apache Kafka, lze použít jako rozhraní mezi různými generátory dat a systémem velkých dat. Frameworky, jako je Gobblin, mohou kombinovat a optimalizovat výstup všech nástrojů na konci procesu.

Analýza, třídění a označování se obvykle provádí během sběru dat. Tento proces se někdy nazývá ETL (extract, transform, load), což znamená extrahovat, transformovat a načíst. Zatímco tento termín obvykle odkazuje na starší procesy ukládání, někdy se používá také pro systémy velkých dat. Typické operace zahrnují úpravu příchozích dat pro formátování, kategorizaci a označování, filtrování nebo ověřování dat z hlediska souladu.

V ideálním případě příchozí data procházejí minimálním formátováním.

Datové úložiště

Po přijetí jsou data předána komponentám, které spravují obchod.

K ukládání nezpracovaných dat se obvykle používají distribuované souborové systémy. Řešení, jako je HDFS od Apache Hadoop, umožňují zápis velkého množství dat přes více uzlů v clusteru. Tento systém poskytuje výpočetní zdroje s přístupem k datům, může načítat data do klastrové RAM pro operace s pamětí a řešit selhání komponent. Místo HDFS lze použít jiné distribuované systémy souborů, včetně Ceph a GlusterFS.

Data lze také importovat do jiných distribuovaných systémů pro strukturovanější přístup. Distribuované databáze, zejména databáze NoSQL, se pro tuto roli dobře hodí, protože dokážou zpracovávat heterogenní data. Existuje mnoho různých typů distribuovaných databází v závislosti na tom, jak chcete svá data organizovat a prezentovat.

Výpočet a analýza dat

Jakmile jsou data k dispozici, systém může začít zpracovávat. Výpočetní vrstva je možná nejsvobodnější částí systému, protože požadavky a přístupy se zde mohou výrazně lišit v závislosti na typu informace. Data se často znovu zpracovávají, a to buď jediným nástrojem, nebo řadou nástrojů pro zpracování různých typů dat.

Dávkové zpracování je jednou z metod výpočtu velkých souborů dat. Tento proces zahrnuje rozdělení dat na menší části, naplánování zpracování každého kusu na samostatném stroji, přeskupení dat na základě mezivýsledky a poté vypočítat a shromáždit konečný výsledek. Tuto strategii používá MapReduce z Apache Hadoop. Dávkové zpracování je nejužitečnější při práci s velmi velkými datovými sadami, které vyžadují mnoho výpočtů.

Jiné úlohy vyžadují zpracování v reálném čase. V takovém případě by měly být informace zpracovány a připraveny okamžitě a systém by měl reagovat včas, jakmile budou k dispozici nové informace. Jedním ze způsobů, jak implementovat zpracování v reálném čase, je zpracovávat nepřetržitý proud dat sestávající z jednotlivé prvky... Další společnou charakteristikou procesorů pracujících v reálném čase je výpočet dat v paměti clusteru, díky čemuž není nutné zapisovat na disk.

Nabídka Apache Storm, Apache Flink a Apache Spark různé způsoby implementace zpracování v reálném čase. Tyto flexibilní technologie vám umožní vybrat si pro každého ten nejlepší přístup samostatný problém... Obecně je zpracování v reálném čase nejvhodnější pro analýzu malých částí dat, které se mění nebo jsou rychle přidávány do systému.

Všechny tyto programy jsou rámce. Existuje však mnoho dalších způsobů, jak vypočítat nebo analyzovat data v systému velkých dat. Tyto nástroje se často zapojují do výše uvedených rámců a poskytují další rozhraní pro interakci se základními vrstvami. Například Apache Hive poskytuje rozhraní úložiště dat pro Hadoop, Apache Pig poskytuje rozhraní dotazů a interakce s SQL data dodávané s Apache Drill, Apache Impala, Apache Spark SQL a Presto. Strojové učení využívá Apache SystemML, Apache Mahout a MLlib od Apache Spark. Pro přímé analytické programování, které je široce podporováno datovým ekosystémem, se používá R a Python.

Vizualizace výsledků

Rozpoznání trendů nebo změn v datech v čase je často důležitější než získané hodnoty. Vizualizace dat je jedním z nejužitečnějších způsobů, jak identifikovat trendy a organizovat velké množství datových bodů.

Zpracování v reálném čase se používá k vizualizaci metrik aplikací a serverů. Data se často mění a velké výkyvy metrik obvykle naznačují významný dopad na zdraví systémů nebo organizací. Projekty jako Prometheus lze použít ke zpracování a vizualizaci datových toků a časových řad.

Jedním z oblíbených způsobů vizualizace dat je elastický zásobník, dříve známý jako zásobník ELK. Logstash se používá pro sběr dat, Elasticsearch pro indexování dat a Kibana pro vizualizaci. Elastic stack může pracovat s velkými daty, vizualizovat výsledky výpočtů nebo interagovat s nezpracovanými metrikami. Podobného zásobníku lze dosáhnout kombinací Apache Solr pro indexování s vidličkou Kibana zvanou Banana pro vykreslování. Tento zásobník se nazývá Hedvábí.

Další vizualizační technologií pro interaktivní práci s daty jsou dokumenty. Takové projekty umožňují interaktivní průzkum a vizualizaci dat ve formátu, který lze snadno sdílet a prezentovat. Populární příklady tohoto typu rozhraní jsou Jupyter Notebook a Apache Zeppelin.

Glosář velkých dat

Velká data jsou široký pojem pro datové sady, které nelze správně zpracovat konvenční počítače nebo nástroje kvůli jejich objemu, rychlosti vstupu a rozmanitosti. Tento termín se také běžně používá pro technologie a strategie pro práci s takovými daty.
Dávkové zpracování je výpočetní strategie, která zahrnuje zpracování dat přes velké datové sady. Obvykle je tato metoda ideální pro práci s neurgentními daty.
Clustered computing je praxe sdružování zdrojů více strojů a jejich správa sdílené schopnosti dokončit úkoly. To vyžaduje vrstvu správy clusteru, která se stará o komunikaci mezi jednotlivými uzly.
Datové jezero je velké úložiště shromážděných dat v relativně syrovém stavu. Tento termín se často používá k označení nestrukturovaných a často se měnících velkých dat.
Data mining je široký pojem pro různé postupy hledání vzorů ve velkých souborech dat. Jde o pokus uspořádat množství dat do srozumitelnějšího a ucelenějšího souboru informací.
Datový sklad je velké, uspořádané úložiště pro analýzu a vytváření sestav. Na rozdíl od datového jezera se sklad skládá z formátovaných a dobře uspořádaných dat, která jsou integrována s jinými zdroji. Datové sklady jsou často označovány ve vztahu k velkým datům, ale často jsou součástí konvenčních systémů pro zpracování dat.
ETL (extract, transform, and load) - extrakce, transformace a načtení dat. Takto vypadá proces získávání a přípravy hrubých dat k použití. Souvisí s datovými sklady, ale charakteristiky tohoto procesu se nacházejí také v potrubí velkých datových systémů.
Hadoop je open source projekt Apache pro velká data. Skládá se z distribuovaného systému souborů nazvaného HDFS a plánovače clusterů a zdrojů s názvem YARN. Možnosti dávkového zpracování poskytuje výpočetní stroj MapReduce. Jiné výpočetní a analytické systémy mohou běžet s MapReduce v moderních nasazeních Hadoop.
Výpočet v paměti je strategie, která zahrnuje přesun všech pracovních datových sad do paměti clusteru. Mezilehlé výpočty se nezapisují na disk, ale ukládají se do paměti. To dává systémům obrovskou výhodu v rychlosti oproti systémům souvisejícím s I/O.
Strojové učení je výzkum a praxe navrhování systémů, které se mohou učit, vylepšovat a zlepšovat na základě dat, která jim jsou předána. To obvykle znamená implementaci prediktivních a statistických algoritmů.
Map reduction (nezaměňovat s MapReduce od Hadoop) je algoritmus pro plánování výpočetního clusteru. Proces zahrnuje rozdělení úlohy mezi uzly a získání mezivýsledků, promíchání a následný výstup jedné hodnoty pro každou sadu.
NoSQL je široký pojem pro databáze vyvinuté mimo tradiční relační model. Databáze NoSQL jsou vhodné pro velká data díky své flexibilitě a distribuované architektuře.
Streamování je postup výpočtu jednotlivých kusů dat, když se pohybují systémem. To umožňuje analýzu dat v reálném čase a je vhodné pro zpracování urgentních transakcí pomocí vysokorychlostních metrik.

Štítky:,

Předpovídalo se, že celkový globální objem vytvořených a replikovaných dat v roce 2011 by mohl být asi 1,8 zettabajtů (1,8 bilionu gigabajtů) – asi 9krát více, než kolik bylo vytvořeno v roce 2006.

Složitější definice

Nicméně, ` velká data`zahrnuje více než jen analýzu obrovského množství informací. Problém není v tom, že organizace vytvářejí obrovské množství dat, ale v tom, že většina z nich je prezentována ve formátu, který příliš nekoresponduje s tradičním formátem strukturované databáze – jedná se o webové logy, videozáznamy, textové dokumenty, strojový kód nebo geoprostorová data například. To vše je uloženo v mnoha různých úložištích, někdy i mimo organizaci. Výsledkem je, že společnosti mohou mít přístup k obrovskému množství svých dat a nemají je potřebné nástroje vytvořit vztahy mezi těmito údaji a vyvodit z nich smysluplné závěry. Přidejte k tomu skutečnost, že data se nyní aktualizují stále častěji, a máte situaci, ve které tradiční metody analýza informací nemůže držet krok s obrovskými objemy neustále aktualizovaných dat, což v konečném důsledku otevírá cestu technologiím velká data.

Nejlepší definice

V podstatě koncept velká data znamená práci s informacemi obrovského objemu a různorodého složení, velmi často aktualizovanými a umístěnými v různých zdrojích za účelem zvýšení efektivity práce, vytváření nových produktů a zvýšení konkurenceschopnosti. Poradenská společnost Forrester shrnuje: ` Velká data kombinovat techniky a technologie, které dávají smysl datům na extrémní hranici použitelnosti.

Jak velký je rozdíl mezi business intelligence a velkými daty?

Craig Batey, hlavní marketingový ředitel a technologický ředitel, Fujitsu Australia, poukázal na to, že obchodní analýza je popisný proces analýzy výsledků dosažených podnikem za určité časové období při rychlosti zpracování. velká data umožňuje provést analýzu prediktivní, která je schopna nabídnout obchodní doporučení do budoucna. Velká data také umožňují analyzovat více typů dat než nástroje business intelligence, což vám umožňuje soustředit se na více než jen strukturované úložiště.

Matt Slocum z O "Reilly Radar věří, že ačkoli velká data a business intelligence mají stejný cíl (hledání odpovědí na otázku), liší se od sebe ve třech aspektech.

Velká data jsou navržena tak, aby zvládla více informací než business intelligence, a to je samozřejmě v souladu s tradiční definicí velkých dat.
Velká data jsou navržena tak, aby zpracovávala informace, které jsou přijímány a rychleji se mění, což znamená hluboký průzkum a interaktivitu. V některých případech jsou výsledky generovány rychleji, než se webová stránka načítá.
Velká data jsou navržena tak, aby zpracovávala nestrukturovaná data, jejichž způsoby teprve začínáme zkoumat poté, co jsme je dokázali shromáždit a uložit, a potřebujeme algoritmy a schopnost dialogu, které usnadní hledání trendů obsažených v těchto polích.

Podle bílé knihy Oracle Information Architecture: An Architect's Guide to Big Data vydané společností Oracle přistupujeme k informacím jinak, když pracujeme s velkými daty než při podnikové analýze.

Práce s velkými daty není jako běžný proces business intelligence, kde prosté sčítání známých hodnot přináší výsledky: například součet dat na zaplacených fakturách se stává ročním obratem. Při práci s velkými daty se výsledek získá v procesu jejich čištění pomocí sekvenčního modelování: nejprve se předloží hypotéza, sestaví se statistický, vizuální nebo sémantický model, na jehož základě je správnost zadání je ověřena dopředná hypotéza a poté je předložena další. Tento proces vyžaduje, aby výzkumník buď interpretoval vizuální hodnoty, nebo skládal interaktivní dotazy založené na znalostech, nebo vyvinul adaptivní algoritmy strojového učení schopné získat požadovaný výsledek. Kromě toho může být životnost takového algoritmu poměrně krátká.

Techniky analýzy velkých dat

Existuje mnoho různých metod pro analýzu souborů dat, které jsou založeny na nástrojích vypůjčených ze statistiky a informatiky (například strojové učení). Seznam si nečiní nárok na úplnost, ale odráží nejoblíbenější přístupy v různých odvětvích. Zároveň je třeba chápat, že výzkumníci nadále pracují na vytváření nových metod a zlepšování stávajících. Některé z výše uvedených technik navíc nemusí být nutně použitelné výhradně pro velká data a lze je úspěšně použít pro menší pole (například A/B testování, regresní analýza). Samozřejmě, čím objemnější a diverzifikovanější pole je analyzováno, tím přesnější a relevantnější data lze získat na výstupu.

A/B testování... Technika, při které je kontrolní vzorek porovnáván jeden po druhém s ostatními. Je tak možné identifikovat optimální kombinaci indikátorů pro dosažení například nejlepší reakce spotřebitele na marketingový návrh. Velká data umožňují provést obrovské množství iterací a získat tak statisticky spolehlivý výsledek.

Učení asociačních pravidel... Soubor technik pro identifikaci vztahů, tzn. asociačních pravidel mezi proměnnými ve velkých souborech dat. Použito v data mining.

Klasifikace... Soubor technik, které umožňují předvídat chování spotřebitelů v určitém segmentu trhu (rozhodování o nákupu, odlivu, spotřebě atd.). Použito v data mining.

Shluková analýza... Statistická metoda pro klasifikaci objektů do skupin pomocí identifikace dříve neznámých společných znaků. Použito v data mining.

Crowdsourcing... Metodika sběru dat z velkého množství zdrojů.

Fúze a integrace dat... Sada technik, která umožňuje analyzovat komentáře uživatelů sociálních sítí a porovnávat je s výsledky prodeje v reálném čase.

Dolování dat... Sada metod, která umožňuje určit nejvnímavější kategorie spotřebitelů pro propagovaný produkt nebo službu, identifikovat charakteristiky nejúspěšnějších zaměstnanců a předvídat model chování spotřebitelů.

Souborové učení... Tato metoda využívá různé prediktivní modely, čímž zlepšuje kvalitu předpovědí.

Genetické algoritmy... V této technice jsou možná řešení prezentována ve formě „chromozomů“, které se mohou kombinovat a mutovat. Stejně jako v procesu přirozené evoluce přežije ten nejschopnější.

Strojové učení... Směr v informatice (historicky se za ním utkvěl název `umělá inteligence`), který si klade za cíl vytvářet samoučící se algoritmy založené na analýze empirických dat.

Zpracování přirozeného jazyka (NLP). Soubor technik pro rozpoznávání přirozeného jazyka člověka převzatý z informatiky a lingvistiky.

Síťová analýza... Sada metod pro analýzu spojení mezi uzly v sítích. Při aplikaci na sociální sítě umožňuje analyzovat vztahy mezi jednotlivými uživateli, společnostmi, komunitami atd.

Optimalizace... Sada numerických metod pro přepracování složitých systémů a procesů za účelem zlepšení jedné nebo více metrik. Pomáhá při strategických rozhodnutích, například složení produktové řady uváděné na trh, provádění investiční analýzy atd.

Rozpoznávání vzorů... Soubor technik s prvky samoučení pro predikci vzorců chování spotřebitelů.

Prediktivní modelování... Soubor technik, které vám umožní tvořit matematický model předem stanovený pravděpodobný scénář vývoje událostí. Například analýza databáze CRM systému pro možné podmínky, které budou nutit účastníky ke změně poskytovatele.

Regrese... Soubor statistických metod pro identifikaci vzorců mezi změnou v závislé proměnné a jednou nebo více nezávislými proměnnými. Často se používá pro prognózy a předpovědi. Používá se při dolování dat.

Analýza sentimentu... Metody hodnocení spotřebitelského sentimentu jsou založeny na technologiích pro rozpoznávání přirozeného jazyka člověka. Umožňují vám izolovat od obecného toku informací zprávy související s předmětem zájmu (například spotřebitelský produkt). Dále posuďte polaritu úsudku (pozitivní nebo negativní), stupeň emocionality a tak dále.

Zpracování signálu... Soubor technik převzatých z radiotechniky, který sleduje cíl rozpoznání signálu na pozadí šumu a jeho další analýzu.

Prostorová analýza... Soubor metod pro analýzu prostorových dat, částečně převzatých ze statistiky - topologie terénu, zeměpisné souřadnice, geometrie objektů. Zdroj velká data v tomto případě se často využívají geografické informační systémy (GIS).

Revolution Analytics (založené na jazyku R pro matematické statistiky).

Na tomto seznamu je obzvláště zajímavý Apache Hadoop, software s otevřeným zdrojovým kódem, který byl během posledních pěti let vyzkoušen a testován jako analyzátor dat většinou sledovačů akcií. Jakmile Yahoo otevřelo kód Hadoop komunitě s otevřeným zdrojovým kódem, okamžitě se v IT průmyslu objevila zcela nová produktová řada Hadoop. Téměř všechny moderní analytické nástroje velká data poskytují nástroje pro integraci s Hadoop. Jejich vývojáři jsou jak startupy, tak známé světové společnosti.

Trhy pro řešení správy velkých dat

Velké datové platformy (BDP, Big Data Platform) jako prostředek boje proti digitálním chordingům

Schopnost analyzovat velká data, lidově nazývaný Big Data, je vnímán jako požehnání, a to jednoznačně. Ale je tomu skutečně tak? K čemu může vést nekontrolovatelné hromadění dat? Nejspíše k tomu, co domácí psychologové označují jako patologické hromadění člověka, sylogomanie nebo přeneseně „Pljuškinův syndrom“. V angličtině se zlomyslná vášeň sbírat vše nazývá hording (z anglického hoard - "stock"). Podle klasifikace duševních chorob je Hording klasifikován jako duševní porucha. V digitální éře se k tradičnímu materiálovému chordingu přidává digitální (Digital Hoarding), kterým mohou trpět jednotlivci i celé podniky a organizace ().

Světový a ruský trh

Krajina velkých dat – hlavní dodavatelé

Zájem o sběr, zpracování, správu a analytické nástroje velká data ukázaly téměř všechny přední IT společnosti, což je zcela přirozené. Za prvé se s tímto fenoménem přímo potýkají ve svém vlastním podnikání a za druhé, velká data otevírají skvělé příležitosti pro rozvoj nových mezer na trhu a přilákání nových zákazníků.

Na trhu se objevilo mnoho startupů, které podnikají na zpracování obrovského množství dat. Některé z nich využívají běžnou cloudovou infrastrukturu poskytovanou velkými hráči, jako je Amazon.

Teorie a praxe velkých dat v průmyslových odvětvích

Historie vývoje

2017

Prognóza TmaxSoft: další „vlna“ Big Data si vyžádá modernizaci DBMS

Firmy vědí, že obrovské množství dat, které nashromáždily, obsahuje důležitá informace o jejich podnikání a zákaznících. Pokud firma dokáže tyto informace úspěšně aplikovat, pak bude mít značnou výhodu před konkurencí a bude moci nabízet lepší produkty a služby, než jsou ty jejich. Mnoho organizací však stále nedokáže efektivně využívat velká data vzhledem k tomu, že jejich starší IT infrastruktura není schopna poskytnout nezbytnou kapacitu úložiště, procesy výměny dat, utility a aplikace nezbytné ke zpracování a analýze velkého množství nestrukturovaných dat za účelem extrahování cenných informací z nich, uvedl TmaxSoft.

Kromě toho může zvýšený výpočetní výkon potřebný k analýze stále rostoucího množství dat vyžadovat značné investice do starší IT infrastruktury organizace a také dodatečné zdroje údržby, které by bylo možné použít k vývoji nových aplikací a služeb.

Dne 5. února 2015 vydal Bílý dům zprávu, která pojednávala o tom, jak společnosti využívají „ velká data„Stanovení různých cen pro různé kupující – praxe známá jako „cenová diskriminace“ nebo „rozlišené stanovování cen“ (personalizované stanovování cen). Zpráva popisuje výhody „big data“ pro prodávající i kupující a její autoři docházejí k závěru, že řadu problematických problémů, které se objevily v souvislosti se vznikem velkých dat a rozdílnou cenou, lze vyřešit v rámci stávajících anti- diskriminační zákony a zákony na ochranu práv spotřebitelů.

V tuto chvíli zpráva uvádí, že existují pouze neoficiální důkazy o tom, jak společnosti využívají velká data v kontextu personalizovaného marketingu a diferencovaných cen. Tyto informace ukazují, že prodejci používají metody stanovení cen, které lze rozdělit do tří kategorií:

studium křivky poptávky;
Řízení a diferencované ceny na základě demografických údajů; a
behaviorální cílení a individualizované ceny.

Studie křivky poptávky: Obchodníci často experimentují s poptávkou a chováním spotřebitelů náhodným přiřazením zákazníků do jedné ze dvou možných cenových úrovní. "Tyto experimenty jsou technicky formou rozdílových cen, protože vedou k různým cenám pro zákazníky, i když jsou "nediskriminační" v tom smyslu, že všichni zákazníci stejně pravděpodobně "dosáhnou" vyšší ceny."

Řízení: Jedná se o praxi představování produktů spotřebitelům na základě jejich demografické skupiny. Webové stránky počítačové společnosti mohou například nabízet stejný notebook. odlišné typy kupující za různé ceny stanovené na základě informací, které o sobě poskytli (například podle toho, zda daný uživatel zástupcem vládních úřadů, vědeckých nebo komerčních institucí nebo jednotlivcem) nebo z jejich geografického umístění (například určeného IP adresou počítače).

Cílený behaviorální marketing a personalizované ceny: V těchto případech se osobní údaje kupujících používají k cílené reklamě a personalizovanému stanovení cen určitých produktů. Shromážděné využívají například online inzerenti reklamní sítě a prostřednictvím cookies třetích stran údaje o aktivitě uživatelů na internetu za účelem zasílání cílených reklamních materiálů. Tento přístup na jedné straně umožňuje spotřebitelům dostávat reklamy na zboží a služby, které je zajímají (se zdravotními a finančními problémy), které se setkávají bez jejich souhlasu.

Zatímco cílený behaviorální marketing je rozšířený, existuje relativně málo důkazů o personalizovaném stanovování cen v online prostředí. Zpráva naznačuje, že to může být způsobeno skutečností, že se stále vyvíjejí vhodné metody, nebo skutečností, že společnosti nespěchají s používáním individuálních cen (nebo o tom raději mlčí) – možná ze strachu z negativní reakce spotřebitelů .

Autoři zprávy se domnívají, že „pro jednotlivého spotřebitele je použití velkých dat nepochybně spojeno jak s potenciálními výnosy, tak s riziky“. I když zpráva uznává, že při používání velkých dat existují problémy s transparentností a diskriminací, tvrdí, že stávající antidiskriminační zákony a zákony na ochranu spotřebitele jsou dostatečné k jejich řešení. Zpráva však také zdůrazňuje potřebu „průběžného monitorování“ tam, kde společnosti používají důvěrná informace neprůhledným způsobem nebo způsoby, na které se nevztahuje stávající regulační rámec.

Tato zpráva je rozšířením úsilí Bílého domu prozkoumat používání velkých dat a diskriminační ceny na internetu a jejich důsledky pro americké spotřebitele. Dříve to bylo hlášeno pracovní skupina Bílý dům Big Data zveřejnil svou zprávu o problému v květnu 2014. Federální obchodní komise (FTC) se těmito problémy také zabývala během svého semináře v září 2014 o diskriminaci ve vztahu k používání velkých dat.

2014

Gartner boří mýty o velkých datech

Gartner's Fall 2014 Policy Brief uvádí řadu běžných mýtů o velkých datech mezi CIO a vyvrací je.

Každý implementuje systémy zpracování velkých dat rychleji než my

Zájem o technologie Big Data je rekordně vysoký: 73 % organizací letos v průzkumu analytiků Gartneru již investuje do souvisejících projektů nebo se do nich chystá. Většina těchto iniciativ je však stále v rané fázi a pouze 13 % dotázaných již taková řešení implementovalo. Nejtěžší je přijít na to, jak generovat příjem z Big Data, a rozhodnout se, kde začít. Mnoho organizací uvízne v pilotní fázi, protože se nemohou připojit nová technologie na konkrétní obchodní procesy.

Dat máme tolik, že se v nich není třeba obávat drobných chyb.

Někteří CIO se domnívají, že malé mezery v datech nemají vliv na celkové výsledky velkých objemů analýz. Když je dat hodně, každá jednotlivá chyba skutečně ovlivní výsledek méně, říkají analytici, ale samotné chyby se množí. Navíc většina analyzovaných dat je externích, neznámé struktury nebo původu, takže se zvyšuje pravděpodobnost chyb. Ve světě Big Data je tedy kvalita ve skutečnosti mnohem důležitější.

Technologie velkých dat eliminují potřebu datové integrace

Big Data slibují schopnost zpracovávat data v jejich původním formátu s automatickým generováním schémat při jejich čtení. Předpokládá se, že to umožní analýzu informací ze stejných zdrojů pomocí více datových modelů. Mnozí se domnívají, že to také umožní koncovým uživatelům interpretovat jakýkoli soubor dat, jak uznají za vhodné. Ve skutečnosti většina uživatelů často potřebuje tradiční přístup založený na schématu, kde jsou data vhodně formátována a existují dohody o úrovni integrity informací a o tom, jak by měly souviset s případem použití.

Nemá smysl používat datové sklady pro komplexní analýzy

Mnoho správců systémů správy informací se domnívá, že nemá smysl ztrácet čas budováním datového skladu, protože složité analytické systémy používají nové typy dat. Ve skutečnosti mnoho komplexních analytických systémů využívá informace z datového skladu. V jiných případech je třeba nové datové typy dodatečně připravit pro analýzu v systémech zpracování velkých dat; musíte rozhodnout o vhodnosti dat, zásadách agregace a požadované úrovni kvality - taková příprava může probíhat mimo sklad.

Datová jezera nahradí datové sklady

Ve skutečnosti prodejci klamou zákazníky tím, že umisťují datová jezera jako náhrady úložiště nebo jako kritickou analytickou infrastrukturu. Základní technologie datových jezer postrádají vyspělost a šíři funkcí, které jsou součástí úložiště. Lídři správy dat by proto měli podle Gartneru počkat, až jezera dosáhnou stejné úrovně rozvoje.

Accenture: 92 % uživatelů velkých dat je s výsledkem spokojeno

Mezi hlavní výhody velkých dat respondenti jmenovali:

„Hledání nových zdrojů příjmu“ (56 %),
"Zlepšení zákaznické zkušenosti" (51 %),
„Nové produkty a služby“ (50 %) a
„Příliv nových zákazníků a udržení loajality starých“ (47 %).

Mnoho společností čelilo tradičním výzvám při zavádění nových technologií. Pro 51 % byla kamenem úrazu bezpečnost, pro 47 % rozpočet, pro 41 % nedostatek potřebného personálu a pro 35 % potíže s integrací stávající systém... Téměř všechny dotázané společnosti (asi 91 %) plánují v brzké době vyřešit problém s nedostatkem personálu a najmout specialisty na velká data.

Společnosti jsou ohledně budoucnosti technologií velkých dat optimistické. 89 % věří, že změní podnikání stejně jako internet. 79 % respondentů uvedlo, že společnosti, které nedělají velká data, ztratí svou konkurenční výhodu.

Respondenti se však neshodli v tom, co přesně by mělo být považováno za velká data. 65 % respondentů se domnívá, že jde o „velké datové soubory“, 60 % se domnívá, že jde o „pokročilou analýzu a analýzu“ a 50 % věří, že jde o „data z vizualizačních nástrojů“.

Madrid vynakládá 14,7 milionů EUR na správu velkých dat

V červenci 2014 bylo známo, že Madrid bude využívat technologie velkých dat ke správě městské infrastruktury. Náklady na projekt - 14,7 milionů eur, základem implementovaných řešení budou technologie pro analýzu a správu velkých dat. S jejich pomocí Správa města bude řídit práci s každým poskytovatelem služeb a odpovídajícím způsobem platit v závislosti na úrovni služeb.

Řeč je o dodavatelích správy, kteří sledují stav ulic, osvětlení, zavlažování, zeleň, čistí území a odvážejí i recyklují odpad. V průběhu projektu bylo vyvinuto 300 klíčových ukazatelů výkonnosti městských služeb pro speciálně určené inspektory, na jejichž základě bude denně prováděno 1,5 tisíce různých kontrol a měření. Město navíc začne využívat inovativní technologickou platformu s názvem Madrid iNTeligente (MiNT) – Smarter Madrid.

2013

Experti: Big Data Peak Fashion

Všichni dodavatelé na trhu správy dat v současnosti bez výjimky vyvíjejí technologie pro správu velkých dat. Tento nový technologický trend je také aktivně diskutován odbornou veřejností, jak vývojáři, tak oborovými analytiky a potenciálními spotřebiteli takových řešení.

Jak Datashift zjistil, v lednu 2013 se strhla vlna diskusí kolem „ velká data„Přesáhl všechny myslitelné rozměry. Po analýze počtu zmínek o Big Data na sociálních sítích Datashift vypočítal, že v roce 2012 byl tento termín použit asi 2 miliardykrát v příspěvcích vytvořených asi 1 milionem různých autorů po celém světě. To je ekvivalent 260 příspěvků za hodinu, přičemž vrchol je 3070 zmínek za hodinu.

Gartner: Každý druhý ředitel IT je připraven utratit za velká data

Po několika letech experimentování s technologiemi Big data a prvních implementacích v roce 2013 se adaptace takových řešení výrazně zvýší, předpovídá Gartner. Výzkumníci provedli průzkum mezi IT lídry po celém světě a zjistili, že 42 % respondentů již investovalo do Big data technologií nebo plánuje takové investice provést během příštího roku (údaje k březnu 2013).

Firmy jsou nuceny utrácet peníze za zpracovatelské technologie velká data protože informační krajina se rychle mění, požaduji nové přístupy ke zpracování informací. Mnoho společností si již uvědomilo, že velká data jsou kritická a práce s nimi vám umožňuje dosáhnout výhod, které nejsou dostupné pomocí tradičních zdrojů informací a metod jejich zpracování. Neustálé zveličování tématu „big data“ v médiích navíc podněcuje zájem o relevantní technologie.

Frank Buytendijk, viceprezident společnosti Gartner, dokonce vyzval společnosti, aby mírnily své nadšení, protože některé se obávají, že zaostávají za konkurenty v přijímání velkých dat.

„Není třeba se obávat, možnosti implementace nápadů založených na technologiích Big Data jsou prakticky nekonečné,“ řekl.

Gartner předpovídá, že do roku 2015 se bude 20 % z 1000 globálních společností strategicky zaměřovat na „informační infrastrukturu“.

V očekávání nových příležitostí, které s sebou přinesou technologie zpracování velkých dat, již mnoho organizací organizuje proces shromažďování a ukládání různých druhů informací.

Pro vzdělávací a vládní organizace, ale i firmy v oboru spočívá největší potenciál pro transformaci podnikání v kombinaci nashromážděných dat s tzv. temnými daty (doslova – „temná data“), mezi ty druhé patří zprávy E-mailem, multimédia a jiný podobný obsah. V datovém závodě, tvrdí Gartner, vyhrají ti, kdo se naučí zacházet s širokou škálou informačních zdrojů.

Průzkum Cisco: Velká data pomohou zvýšit rozpočty na IT

V průzkumu Cisco Connected World Technology Report z jara 2013, který v 18 zemích provedla nezávislá analytická firma InsightExpress, se zúčastnilo 1800 vysokoškolských studentů a podobný počet mladých profesionálů ve věku 18–30 let. Průzkum byl proveden za účelem zjištění úrovně připravenosti IT oddělení na realizaci projektů Velká data a získat přehled o souvisejících výzvách, technologických mezerách a strategické hodnotě takových projektů.

Většina společností shromažďuje, zaznamenává a analyzuje data. Zpráva nicméně uvádí, že mnoho společností čelí v souvislosti s velkými daty řadě složitých obchodních a informačních výzev. Například 60 procent dotázaných připouští, že řešení Big Data mohou zlepšit rozhodovací procesy a zvýšit konkurenceschopnost, ale pouze 28 procent uvedlo, že již z nashromážděných informací získávají skutečné strategické výhody.

Více než polovina dotázaných IT manažerů se domnívá, že projekty Big Data pomohou zvýšit rozpočty na IT v jejich organizacích, protože budou zvýšené požadavky na technologie, personál a odborné dovednosti. Více než polovina respondentů přitom očekává, že takové projekty již v roce 2012 navýší IT rozpočty v jejich firmách. 57 procent je přesvědčeno, že Big Data během příštích tří let zvýší své rozpočty.

81 procent respondentů uvedlo, že všechny (nebo alespoň některé) Big Data projekty budou vyžadovat cloud computing. Tedy šíření cloudové technologie může ovlivnit rychlost distribuce řešení Big Data a hodnotu těchto řešení pro podnik.

Firmy shromažďují a využívají data od většiny odlišné typy strukturované i nestrukturované. Zde jsou zdroje, ze kterých účastníci průzkumu získávají svá data (Cisco Connected World Technology Report):

Téměř polovina (48 procent) ředitelů IT předpovídá, že zatížení jejich sítí se během příštích dvou let zdvojnásobí. (To platí zejména v Číně, kde tento názor zastává 68 procent dotázaných, a v Německu 60 procent.) 23 procent respondentů očekává, že se zatížení sítě během příštích dvou let ztrojnásobí. Připravenost na explozivní růst objemu síťového provozu přitom deklarovalo pouze 40 procent respondentů.

27 procent dotázaných přiznalo, že potřebují lepší zásady IT a opatření pro zabezpečení informací.

21 procent potřebuje větší šířku pásma.

Big Data otevírají IT oddělením nové příležitosti k přidávání hodnoty a budování pevných vztahů s obchodními jednotkami, zvyšování výnosů a posilování finanční pozice společnosti. Big Data projekty dělají z IT oddělení strategického partnera obchodních oddělení.

Právě IT oddělení se podle 73 procent respondentů stane hlavní lokomotivou implementace strategie Big Data. Respondenti se zároveň domnívají, že se na realizaci této strategie budou podílet i další resorty. Především jde o oddělení financí (uvedlo 24 procent dotázaných), výzkumu a vývoje (20 procent), provozu (20 procent), inženýrství (19 procent), ale i marketingu (15 procent) a tržby (14 procent).

Gartner: Ke správě velkých dat jsou potřeba miliony nových pracovních míst

Světové výdaje na IT dosáhnou do roku 2013 3,7 miliardy USD, což je o 3,8 % více než výdaje na informační technologie v roce 2012 (předpověď na konec roku je 3,6 miliardy USD). Segment velká data(velká data) porostou mnohem rychlejším tempem, podle zprávy Gartneru.

Do roku 2015 bude ve světě 4,4 milionu pracovních míst informační technologie bude vytvořen, aby obsluhoval velká data, z nichž je 1,9 milionu pracovních míst. Navíc každé takové pracovní místo vytvoří tři další pracovní místa mimo IT sektor, takže jen ve Spojených státech bude během příštích čtyř let pracovat na podpoře informační ekonomiky 6 milionů lidí.

Podle odborníků z Gartneru je hlavním problémem to, že na to není v oboru dostatek talentů: soukromé i veřejné vzdělávací systémy, například ve Spojených státech, nejsou schopny dodat tomuto odvětví dostatečné množství kvalifikovaných personál. Takže ze zmíněných nových pracovních míst v IT bude personálně zajištěno pouze jedno ze tří.

Analytici se domnívají, že roli kultivace kvalifikovaného IT personálu by měly převzít přímo společnosti, které je nutně potřebují, protože tito zaměstnanci se pro ně stanou vstupní branou do nové informační ekonomiky budoucnosti.

2012

První skepticismus ohledně velkých dat

Analytici společností Ovum a Gartner navrhují, aby to bylo módní téma roku 2012 velká data možná je čas uvolnit iluzi.

Termín „Big Data“ v této době obvykle označuje stále rostoucí objem informací přicházejících online ze sociálních médií, ze sítí senzorů a dalších zdrojů, stejně jako rostoucí škálu nástrojů používaných ke zpracování dat a identifikaci důležitých podniků – trendy.

„Kvůli humbuku (nebo navzdory němu) ohledně myšlenky velkých dat se výrobci v roce 2012 dívali na tento trend s velkou nadějí,“ řekl Tony Bayer, analytik společnosti Ovum.

Bayer uvedl, že společnost DataSift provedla retrospektivní analýzu zmíněných velkých dat

Big data (neboli Big Data) je soubor metod pro práci s obrovským množstvím strukturovaných nebo nestrukturovaných informací. Specialisté na velká data je zpracovávají a analyzují, aby získali vizuální, člověkem čitelné výsledky. Look At Me mluvil s profesionály a zjišťoval, jaká je situace se zpracováním velkých dat v Rusku, kde a co je pro ty, kteří chtějí v této oblasti pracovat, lepší se učit.

Alexey Ryvkin o hlavních směrech v oblasti velkých dat, komunikace se zákazníky a světa čísel

Studoval jsem na Moskevském institutu elektronické technologie... Hlavní věc, kterou se mi odtud podařilo dostat, byly základní znalosti z fyziky a matematiky. Souběžně se studiem jsem pracoval ve R&D centru, kde jsem se zabýval vývojem a implementací šumově imunních kódovacích algoritmů pro bezpečný přenos dat. Po ukončení bakalářského studia jsem nastoupil na magisterský obor Obchodní informatika na Vyšší ekonomické škole. Poté jsem chtěl pracovat v IBS. Měl jsem v té době štěstí v důsledku velké množství projektů, došlo k dalšímu náboru stážistů a po několika pohovorech jsem začal pracovat v IBS, jedné z největších ruské společnosti tato oblast. Za tři roky jsem se z praxe stal architektem podnikových řešení. Nyní rozvíjím odbornost Big Data technologií pro zákaznické společnosti z finančního a telekomunikačního sektoru.

Pro lidi, kteří chtějí pracovat s velkými daty, existují dvě hlavní specializace: analytici a IT konzultanti, kteří vytvářejí technologie pro práci s velkými daty. Kromě toho se dá mluvit i o profesi Big Data Analyst, tedy o lidech, kteří přímo pracují s daty, s IT platformou zákazníka. Dříve to byli obyčejní analytici-matematici, kteří znali statistiku a matematiku a používali statistický software k řešení problémů analýzy dat. Dnes je kromě znalostí statistiky a matematiky vyžadováno také porozumění technologiím a životnímu cyklu dat. To je podle mého názoru rozdíl mezi moderním Data Analystem a těmi analytiky, kteří byli dříve.

Moje specializace je IT poradenství, to znamená, že vymýšlím a nabízím zákazníkům způsoby řešení obchodních problémů pomocí IT technologií. Do poradenství přicházejí lidé s různými zkušenostmi, ale nejdůležitějšími vlastnostmi pro tuto profesi jsou schopnost porozumět potřebám klienta, chuť pomáhat lidem a organizacím, dobrá komunikace a týmové dovednosti (protože jde vždy o práci s klientem a v týmu), dobré analytické schopnosti. Velmi důležitá je vnitřní motivace: pracujeme v konkurenčním prostředí a zákazník očekává neobvyklá řešení a zájem o práci.

Většinu času trávím mluvením se zákazníky, formalizací jejich obchodních potřeb a pomáhám navrhovat nejvhodnější technologickou architekturu. Výběrová kritéria zde mají svou vlastní zvláštnost: kromě funkčnost a TCO (Total cost of property), velmi důležité jsou nefunkční požadavky na systém, nejčastěji je to doba odezvy, doba zpracování informací. K přesvědčení zákazníka často používáme přístup proof of concept – nabízíme zdarma „otestování“ technologie na nějakém problému, na úzkém souboru dat, abychom se ujistili, že technologie funguje. Řešení by mělo vytvořit konkurenční výhodu pro zákazníka získáním dalších výhod (například x-sell, cross-selling) nebo vyřešit nějaký problém v podnikání, řekněme, snížit vysoká úroveňúvěrový podvod.

Bylo by mnohem jednodušší, kdyby klienti přišli s hotovým úkolem, ale zatím nechápou, že se objevila revoluční technologie, která může za pár let změnit trh

Jakým problémům musíte čelit? Trh ještě není připraven na využití technologií velkých dat. Bylo by mnohem jednodušší, kdyby zákazníci přišli s hotovým úkolem, ale ještě si neuvědomují, že se objevila revoluční technologie, která může za pár let změnit trh. Proto vlastně pracujeme ve startupovém režimu – neprodáváme jen technologie, ale pokaždé, když klienty přesvědčíme, že do těchto řešení musí investovat. To je pozice vizionářů – zákazníkům ukazujeme, jak mohou se zapojením dat a IT změnit svůj byznys. Vytváříme tento nový trh – trh komerčního IT poradenství v oblasti Big Data.

Pokud se chce člověk věnovat datové analýze nebo IT poradenství v oblasti Big Data, pak je na prvním místě důležité matematické nebo technické vzdělání s dobrým matematickým zázemím. Je také užitečné seznámit se s konkrétními technologiemi, jako jsou řešení SAS, Hadoop, R nebo IBM. Kromě toho se musíte aktivně zajímat o aplikované problémy pro Big Data – například jak je lze využít pro zlepšení kreditního skóre v bance nebo managementu životní cyklus klienta. Tyto a další poznatky lze získat z dostupných zdrojů: například Coursera a Big Data University. Existuje také Customer Analytics Initiative na Wharton University of Pennsylvania, kde bylo publikováno mnoho zajímavých materiálů.

Vážným problémem pro ty, kteří chtějí pracovat v našem oboru, je evidentní nedostatek informací o Big Data. Nemůžete jít do knihkupectví nebo na nějaký web a získat například vyčerpávající sbírku případů na všechny aplikace technologií Big Data v bankách. Žádné takové příručky neexistují. Část informací je v knihách, další část se shromažďuje na konferencích a k některým se musíme dostat sami.

Dalším problémem je, že analytici jsou v pohodě ve světě čísel, ale ne vždy se cítí dobře v podnikání. Tito lidé jsou často introvertní, mají potíže s komunikací, a proto mají problém sdělit klientům přesvědčivě výsledky výzkumu. Pro rozvoj těchto dovedností bych doporučil knihy jako The Pyramid Principle, Speak the Language of Diagrams. Pomáhají rozvíjet prezentační dovednosti, stručně a jasně vyjádřit své myšlenky.

Hodně mi pomohla účast na různých case Championships během studia na Vyšší ekonomické škole. Case Championships jsou intelektuální soutěže pro studenty, aby studovali obchodní problémy a navrhovali řešení. Přicházejí ve dvou variantách: případová mistrovství pro poradenské firmy, jako je McKinsey, BCG, Accenture, a nezávislá případová mistrovství, jako je Changellenge. Během své účasti v nich jsem se naučil vidět a rozhodovat náročné úkoly- od identifikace problému a jeho strukturování až po ochranu doporučení k jeho řešení.

Oleg Mikhalskiy o ruském trhu a specifika tvorby nového produktu v oblasti velkých dat

Před nástupem do společnosti Acronis jsem se již podílel na uvádění nových produktů na trh v jiných společnostech. Je to vždy zajímavé a těžké zároveň, takže mě hned zaujala možnost na tom pracovat cloudové služby a úložná řešení. V této oblasti mi přišly vhod všechny mé dosavadní zkušenosti z IT branže, včetně vlastního startupového projektu I-accelerator. Pomohlo také mít obchodní vzdělání (MBA) kromě základního inženýrství.

V Rusku velké společnosti - banky, mobilních operátorů atd. - je potřeba analýza velkých dat, takže u nás jsou vyhlídky pro ty, kteří chtějí v této oblasti pracovat. Je pravda, že mnoho projektů je nyní integračních, tedy vytvořených na základě zahraničního vývoje nebo open source technologií. V takových projektech se nevytvářejí zásadně nové přístupy a technologie, ale spíše se přizpůsobuje stávající vývoj. Ve společnosti Acronis jsme se vydali jinou cestou a po analýze dostupných alternativ jsme se rozhodli investovat do vlastního vývoje a vytvořit systém bezpečné uložení pro velká data, která cenově nejsou nižší než například Amazon S3, ale fungují spolehlivě a efektivně a ve výrazně menším měřítku. Velké internetové společnosti mají také svůj vlastní vývoj v oblasti velkých dat, ale více se zaměřují na interní potřeby než na uspokojení potřeb externích zákazníků.

Je důležité porozumět trendům a ekonomickým silám, které ovlivňují oblast zpracování velkých dat. K tomu musíte hodně číst, poslouchat projevy autoritativních odborníků v IT průmyslu, navštěvovat tematické konference. Nyní má téměř každá konference sekci o velkých datech, ale všichni o tom mluví z jiného úhlu: z hlediska technologie, obchodu nebo marketingu. Můžete jít na projektovou práci nebo stáž do společnosti, která již projekty na toto téma provádí. Pokud jste si jisti svými schopnostmi, pak ještě není pozdě uspořádat startup v oblasti Big Data.

Bez neustálého kontaktu s trhem nový vývoj riskuje, že nebude nárokován

Když však zodpovídáte za nový produkt, spoustu času strávíte analýzou trhu a komunikací s potenciálními klienty, partnery, profesionálními analytiky, kteří toho o klientech a jejich potřebách hodně vědí. Bez neustálého kontaktu s trhem hrozí novému vývoji riziko, že nebude nárokován. Vždy existuje mnoho nejistot: musíte pochopit, kdo se stane prvními uživateli (první uživatelé), co pro ně máte cenné a jak potom přilákat masové publikum. Druhým nejdůležitějším úkolem je zformovat a zprostředkovat vývojářům jasnou a ucelenou vizi výsledného produktu, aby je motivovala k práci v podmínkách, kdy se některé požadavky ještě mohou měnit a priority závisí na zpětné vazbě od prvních zákazníků. Důležitým úkolem je proto řídit očekávání zákazníků na jedné straně a vývojářů na straně druhé. Aby ani jeden, ani druhý neztratil zájem a dotáhl projekt do konce. Po prvním úspěšném projektu to bude jednodušší a hlavní výzvou bude najít správný model růstu pro nový byznys.

Velká data- Angličtina. "Velká data". Termín se objevil jako alternativa k DBMS a stal se jedním z hlavních trendů v IT infrastruktuře, když tento koncept začala ve svých strategiích používat většina oborových gigantů – IBM, Microsoft, HP, Oracle a další. Big Data jsou chápána jako obrovské (stovky terabajtů) datové pole, které nelze zpracovat tradičními metodami; někdy - nástroje a metody pro zpracování těchto údajů.

Příklady zdrojů velkých dat: RFID události, zprávy na sociálních sítích, meteorologické statistiky, informace o poloze účastníků mobilních sítí buněčný a data z audio/video záznamových zařízení. Proto se „velká data“ široce používají ve výrobě, zdravotnictví, státní správě a internetovém podnikání – zejména při analýze cílového publika.

Charakteristický

Velké datové značky jsou definovány jako „tři V“: Objem – objem (opravdu velký); rozmanitost - rozmanitost, mnoho; rychlost - rychlost (potřeba velmi rychlého zpracování).

Velká data jsou často nestrukturovaná a vyžadují speciální algoritmy pro jejich zpracování. Mezi metody analýzy velkých dat patří:

("Data mining") - soubor přístupů k odhalování skrytých užitečných znalostí, které nelze získat standardními metodami;
Crowdsourcing (crowd - "crowd", sourcing - využití jako zdroj) - řešení významných problémů společným úsilím dobrovolníků, kteří nejsou v povinné pracovní smlouvě a poměrech, koordinace činností pomocí IT nástrojů;
Data Fusion & Integration - soubor metod pro propojení více zdrojů v rámci hloubkové analýzy;
Machine Learning ("strojové učení") - podsekce výzkumu umělé inteligence, která studuje metody využití analýzy statistik a získávání prognóz na základě základních modelů;
rozpoznávání vzorů (například rozpoznávání obličeje v hledáčku fotoaparátu nebo videokamery);
prostorová analýza – využití topologie, geometrie a geografie ke konstrukci dat;
vizualizace dat - výstup analytické informace ve formě ilustrací a diagramů s interaktivními nástroji a animacemi pro sledování výsledků a budování základů pro další sledování.

Ukládání a analýza informací se provádí na velký počet vysoce výkonné servery. Klíčovou technologií je Hadoop, open source.

Vzhledem k tomu, že množství informací bude v průběhu času pouze narůstat, problém není v získání dat, ale v tom, jak je zpracovat s maximálním přínosem. Obecně proces práce s velkými daty zahrnuje: shromažďování informací, jejich strukturování, vytváření náhledů a souvislostí, vypracovávání doporučení k akci. Ještě před první fází je důležité jasně definovat účel práce: k čemu přesně data slouží, například k definování cílové skupiny produktu. V opačném případě existuje riziko, že získáte spoustu informací, aniž byste pochopili, jak přesně je lze použít.