Big data Big Data. Big Data: analize și soluții

Știi această celebră glumă? Big Data este ca sexul sub 18 ani:

toată lumea se gândește la asta;
toată lumea vorbește despre asta;
toată lumea crede că prietenii lor o fac;
aproape nimeni nu o face;
cel care o face o face prost;
toată lumea crede că data viitoare va ieși mai bine;
nimeni nu ia măsuri de securitate;
oricui îi este rușine să admită că nu știe ceva;
dacă cineva reușește, face întotdeauna mult zgomot.

Dar să fim sinceri, cu orice hype în jur va exista întotdeauna curiozitatea obișnuită: ce fel de agitație și există ceva cu adevărat important acolo? Pe scurt, da, există. Detaliile sunt mai jos. Am selectat pentru dvs. cele mai uimitoare și interesante aplicații ale tehnologiilor Big Data. Această mică cercetare de piață cu privire la exemple clare se confruntă cu un fapt simplu: viitorul nu vine, nu este nevoie să „aștepți încă n ani și magia va deveni realitate”. Nu, a ajuns deja, dar este încă imperceptibilă pentru ochi și, prin urmare, sinterizarea singularității nu arde încă atât de bine punctul binecunoscut al pieței muncii. Merge.

1 Cum se aplică tehnologiile Big Data acolo unde au apărut

Companiile mari de IT sunt locul în care s-a născut știința datelor, așa că interiorul lor este cel mai interesant în acest domeniu. Campania Google, care găzduiește paradigma Map Reduce, al cărei unic scop este de a-și educa programatorii în tehnologiile de învățare automată. Și acesta este avantajul lor competitiv: după ce au dobândit noi cunoștințe, angajații vor implementa noi metode în acele proiecte Google în care lucrează constant. Imaginați-vă lista uriașă de domenii în care o campanie poate revoluționa. Un exemplu: se folosesc rețele neuronale.

De asemenea, corporația implementează învățarea automată în toate produsele sale. Avantajul său este prezența unui ecosistem mare, care include toate dispozitivele digitale utilizate în viața de zi cu zi. Acest lucru permite Apple să atingă un nivel imposibil: campania are la fel de multe date despre utilizatori ca oricare alta. În același timp, politica de confidențialitate este foarte strictă: corporația s-a lăudat întotdeauna că nu folosește datele clienților în scopuri publicitare. În consecință, informațiile despre utilizatori sunt criptate, astfel încât avocații Apple sau chiar FBI-ul cu mandat să nu poată le citi. Prin vei găsi mare vedere de ansamblu Dezvoltarea AI a Apple.

2 Big Data pe 4 roți

O mașină modernă este un acumulator de informații: acumulează toate datele despre șofer, mediu, dispozitive conectate și despre sine. În curând, un vehicul, care este conectat la o rețea ca aceasta, va genera până la 25 GB de date pe oră.

Telematica de transport a fost utilizată de producătorii de automobile de mulți ani, dar se face lobby pentru o metodă mai sofisticată de colectare a datelor care profită din plin de Big Data. Aceasta înseamnă că acum tehnologia poate alerta șoferul cu privire la condițiile de drum proaste, activând automat sistemele de frânare și de alunecare antiblocare.

Alte preocupări, inclusiv BMW, utilizează tehnologia Big Data, combinată cu informații colectate din prototipuri de testare, un sistem de memorie a erorilor din mașină și reclamațiile clienților, pentru a identifica punctele slabe ale unui model la începutul producției. Acum, în loc să evalueze manual datele care durează luni, se aplică un algoritm modern. Erorile și costurile de depanare sunt reduse, ceea ce accelerează fluxurile de lucru de analiză a informațiilor la BMW.

Potrivit estimărilor experților, până în 2019, cifra de afaceri pe piață a mașinilor conectate va ajunge la 130 de miliarde de dolari. Acest lucru nu este surprinzător, având în vedere ritmul de integrare de către producătorii de automobile a tehnologiilor care fac parte integrantă din vehicul.

Utilizarea Big Data vă ajută să faceți mașina mai sigură și mai funcțională. Deci, Toyota încorporează module de comunicații informaționale (DCM). Acest instrument, utilizat pentru Big Data, procesează și analizează datele colectate de DCM pentru a beneficia în continuare de acesta.

3 Aplicarea Big Data în Medicină

Implementarea tehnologiilor Big Data în domeniul medical permite medicilor să studieze mai bine boala și să aleagă un curs de tratament eficient pentru un caz specific. Prin analiza informațiilor, devine mai ușor pentru lucrătorii din domeniul sănătății să prevadă recăderea și să ia măsuri preventive. Rezultatul este un diagnostic mai precis și tratamente îmbunătățite.

Noua tehnică a făcut posibilă examinarea problemelor pacienților dintr-un unghi diferit, ceea ce a dus la descoperirea unor surse necunoscute anterior ale problemei. De exemplu, unele rase sunt genetic mai predispuse la boli de inimă decât alte grupuri etnice. Acum, când un pacient se plânge de o anumită boală, medicii iau în calcul datele referitoare la membrii rasei sale care s-au plâns de aceeași problemă. Colectarea și analiza datelor vă permit să aflați mai multe despre pacienți: de la preferințele alimentare și stilul de viață la structura genetică a ADN-ului și a metaboliților celulelor, țesuturilor, organelor. De exemplu, Centrul de Medicină Genomică Pediatrică din Kansas City folosește pacienți și analizează mutațiile din codul genetic care cauzează cancer. O abordare individuală a fiecărui pacient, luând în considerare ADN-ul său, va crește eficacitatea tratamentului la un nivel calitativ nou.

Înțelegerea modului în care se utilizează Big Data este prima și cea mai importantă schimbare din domeniul medical. Atunci când un pacient este supus tratamentului, un spital sau altă instituție medicală poate obține o mulțime de informații semnificative despre persoana respectivă. Informațiile colectate sunt utilizate pentru a prezice reapariția bolii cu un anumit grad de acuratețe. De exemplu, dacă un pacient a suferit un accident vascular cerebral, medicii studiază informații despre momentul accidentului cerebrovascular, analizează perioada intermediară dintre precedentele anterioare (dacă există), acordând o atenție specială situațiilor stresante și activității fizice grele din viața pacientului. Pe baza acestor date, spitalele oferă pacientului un plan de acțiune clar pentru a preveni posibilitatea unui accident vascular cerebral în viitor.

Dispozitivele purtabile joacă, de asemenea, un rol în a ajuta la identificarea problemelor de sănătate, chiar dacă o persoană nu are simptome evidente ale unei anumite boli. În loc să evalueze starea pacientului printr-un curs lung de examene, medicul poate trage concluzii pe baza informațiilor colectate de fitness tracker sau ceas inteligent.

Unul dintre ultimele exemple este. În timp ce pacientul era examinat pentru o nouă criză din cauza lipsei de medicamente, medicii au descoperit că bărbatul avea o problemă de sănătate mult mai gravă. Această problemă s-a dovedit a fi fibrilația atrială. Diagnosticul a fost pus datorită faptului că personalul secției a avut acces la telefonul pacientului, și anume la aplicația asociată cu fitness tracker-ul său. Datele din aplicație s-au dovedit a fi un factor cheie în determinarea diagnosticului, deoarece la momentul examinării, bărbatul nu avea anomalii cardiace.

Acesta este doar unul dintre puținele cazuri care arată de ce folosind Big Dataîn domeniul medical joacă astăzi un rol atât de semnificativ.

4 Analiza datelor a devenit deja coloana vertebrală a comerțului cu amănuntul

Înțelegerea interogărilor și direcționării către utilizatori este una dintre cele mai mari și mediatizate domenii de aplicare a instrumentelor Big Data. Big Data vă ajută să analizați obiceiurile clienților pentru a înțelege mai bine nevoile consumatorilor în viitor. Companiile caută să extindă setul de date tradițional cu social media și istoricul căutărilor browserului pentru a crea cea mai completă imagine posibilă a clienților. Uneori, organizațiile mari aleg să își creeze propriul model predictiv ca obiectiv global.

De exemplu, lanțul de magazine Target cu ajutorul analizei profunde a datelor și a propriului sistem de prognoză reușesc să determine cu o precizie ridicată -. Fiecărui client i se atribuie un ID, care la rândul său este legat de un card de credit, un nume sau un e-mail. Identificatorul servește ca un fel de coș de cumpărături, unde sunt stocate informații despre tot ceea ce o persoană a cumpărat vreodată. Experții din rețea au descoperit că femeile aflate în această poziție achiziționează în mod activ produse nedorite înainte de al doilea trimestru de sarcină și, în primele 20 de săptămâni, se bazează pe suplimente de calciu, zinc și magneziu. Pe baza datelor primite, Target trimite cupoane pentru produse pentru copii către clienți. Aceleași reduceri la bunurile pentru copii sunt „diluate” cu cupoane pentru alte produse, astfel încât ofertele de cumpărare a unui pătuț sau scutece să nu pară prea intruzive.

Chiar și departamentele guvernamentale au găsit o modalitate de a utiliza tehnologiile Big Data pentru a optimiza campaniile electorale. Unii cred că victoria lui Barack Obama la alegerile prezidențiale din 2012 din SUA s-a datorat muncii excelente a echipei sale de analiști, care a procesat cantități uriașe de date în modul corect.

5 Date mari privind supravegherea legii și a ordinii

În ultimii ani, agențiile de aplicare a legii au aflat cum și când să folosească Big Data. Se știe că Agenția Națională de Securitate folosește tehnologia Big Data pentru a preveni atacurile teroriste. Alte agenții folosesc metodologia progresivă pentru a preveni infracțiunile mai mici.

Departamentul de Poliție din Los Angeles depune o cerere. Ea este implicată în ceea ce este denumit în mod obișnuit aplicarea legii proactivă. Utilizând rapoartele de criminalitate pentru o anumită perioadă de timp, algoritmul identifică zonele în care probabilitatea de a comite infracțiuni este mai mare. Sistemul marchează astfel de zone pe harta orașului cu mici pătrate roșii și aceste date sunt transmise imediat către mașinile de patrulare.

Polițiști chicago folosiți tehnologii Big Dataîntr-un mod ușor diferit. Forțele de ordine City of Winds au același lucru, dar își propune să delimiteze un „cerc de risc” al persoanelor care ar putea fi victima sau participantul la un atac armat. Potrivit The New York Times, acest algoritm atribuie o notă de vulnerabilitate unei persoane pe baza istoricului său criminal (arestări și participare la împușcături, aparținând unor bande criminale). Dezvoltatorul sistemului asigură că, deși sistemul studiază istoricul criminal al unei persoane, nu ia în considerare factori secundari precum rasa, sexul, etnia și localizarea unei persoane.

6 Modul în care tehnologiile Big Data ajută orașele să se dezvolte

CEO-ul Veniam, João Barros, demonstrează o hartă a urmăririi routerelor Wi-Fi în autobuzele din Porto

Analiza datelor este, de asemenea, utilizată pentru a îmbunătăți o serie de aspecte ale funcționării orașelor și țărilor. De exemplu, știind exact cum și când să utilizați tehnologiile Big Data, puteți optimiza fluxurile de transport. Pentru aceasta, se ia în considerare mișcarea online a vehiculelor, sunt analizate rețelele sociale și datele meteorologice. Astăzi, o serie de orașe s-au angajat în utilizarea analizei datelor pentru a integra infrastructura de transport cu alte tipuri de utilități într-un întreg coerent. Este un concept de oraș inteligent în care autobuzele așteaptă un tren târziu, iar semafoarele sunt capabile să prezică aglomerația pentru a reduce la minimum congestia.

Long Beach folosește tehnologii Big Data pentru a opera apometre inteligente care sunt utilizate pentru a reduce irigarea ilegală. Anterior, acestea erau utilizate pentru a reduce consumul de apă de către gospodăriile private (rezultatul maxim este o reducere de 80%). Economisirea apei proaspete este întotdeauna o problemă de actualitate. Mai ales atunci când un stat se confruntă cu cea mai gravă secetă înregistrată vreodată.

Reprezentanții Departamentului de Transport din Los Angeles s-au alăturat listei celor care folosesc Big Data. Pe baza datelor primite de la senzorii camerelor de circulație, autoritățile monitorizează funcționarea semaforelor, care la rândul lor permite reglarea traficului. Sub controlul unui sistem computerizat, există aproximativ 4.500.000 de semafoare în tot orașul. Conform cifrelor oficiale, noul algoritm a contribuit la reducerea congestiei cu 16%.

7 Motorul progresului în marketing și vânzări

În marketing, instrumentele Big Data vă permit să identificați ideile care sunt cele mai eficiente într-o anumită etapă a ciclului de vânzări. Analiza datelor identifică modul în care investițiile pot îmbunătăți gestionarea relației cu clienții, ce strategie să utilizeze pentru a crește ratele de conversie și cum să optimizăm ciclul de viață al clienților. În activitatea din cloud, algoritmii Big Data sunt folosiți pentru a afla cum să minimalizeze costurile de achiziție a clienților și să crească ciclul de viață al clienților.

Diferențierea strategiilor de stabilire a prețurilor în funcție de nivelul intra-sistem al clientului este probabil principalul lucru pentru care Big Data este utilizat în domeniul marketingului. McKinsey a constatat că aproximativ 75% din veniturile medii ale companiei provin din produse de bază, dintre care 30% au un preț incorect. O creștere a prețului de 1% se traduce printr-o creștere a profitului operațional cu 8,7%.

Echipa de cercetare Forrester a stabilit că analiza datelor permite specialiștilor în marketing să se concentreze asupra modului de îmbunătățire a relațiilor cu clienții. Prin examinarea direcției de dezvoltare a clienților, specialiștii își pot evalua nivelul de loialitate, precum și extinde ciclul de viață în contextul unei anumite companii.

Optimizarea strategiilor de vânzare și etapele de intrare pe noi piețe utilizând geoanalitice sunt reflectate în industria biofarmaceutică. Potrivit lui McKinsey, companiile farmaceutice cheltuiesc în medie 20-30% din profituri pentru administrare și vânzări. Dacă afacerile încep mai active folosiți Big Data pentru a identifica piețele cele mai profitabile și cu cea mai rapidă creștere, costurile vor fi reduse imediat.

Analiza datelor este un mijloc pentru companiile de a obține o înțelegere completă a aspectelor cheie ale afacerii lor. Creșterea veniturilor, scăderea costurilor și reducerea fondului de rulment sunt trei provocări pe care întreprinderile moderne încearcă să le rezolve cu instrumente analitice.

În cele din urmă, 58% dintre OCM susțin că implementarea tehnologiilor Big Data poate fi urmărită în optimizarea motorului de căutare (SEO), e-mail și marketing mobil, unde analiza datelor joacă cel mai semnificativ rol în formarea programelor de marketing. Și doar cu 4% mai puțini respondenți sunt încrezători că Big Data va juca un rol semnificativ în toate strategiile de marketing pentru mulți ani.

8 Analiza datelor la scară planetară

Nu mai puțin curios este. Este posibil ca învățarea automată să fie în cele din urmă singura forță capabilă să mențină un echilibru delicat. Subiectul influenței umane asupra încălzirii globale este încă o chestiune de multă controversă, astfel încât numai modelele predictive fiabile bazate pe analiza unei cantități mari de date pot oferi un răspuns exact. În cele din urmă, reducerea emisiilor ne va ajuta și pe toți: vom cheltui mai puțin pe energie.

Acum, Big Data nu este un concept abstract care își poate găsi aplicația în câțiva ani. Acesta este un set perfect de tehnologii care poate fi util în aproape toate sferele activității umane: de la medicină și aplicarea legii la marketing și vânzări. Etapa de integrare activă a Big Data în viața noastră de zi cu zi tocmai a început și cine știe care va fi rolul Big Data peste câțiva ani?

Big data este un termen larg pentru strategiile și tehnologiile neconvenționale necesare pentru colectarea, organizarea și procesarea informațiilor din seturi de date mari. În timp ce problema tratării datelor care depășesc puterea de procesare sau capacitatea de stocare a unui singur computer nu este nouă, în ultimii ani sfera și valoarea acestui tip de calcul s-au extins semnificativ.

În acest articol, veți găsi conceptele de bază pe care le puteți întâlni în timp ce explorați datele mari. De asemenea, discută unele dintre procesele și tehnologiile utilizate în prezent în acest domeniu.

Ce este Big Data?

O definiție precisă a Big Data este dificil de articulat, deoarece proiectele, furnizorii, practicienii și profesioniștii în afaceri o folosesc în moduri foarte diferite. Având în vedere acest lucru, datele mari pot fi definite ca:

Seturi de date mari.
O categorie de strategii și tehnologii de calcul care sunt utilizate pentru a procesa seturi de date mari.

În acest context, „set de date mare” înseamnă un set de date care este prea mare pentru a fi procesat sau stocat folosind instrumente tradiționale sau pe un singur computer. Aceasta înseamnă că scara generală a seturilor de date mari se schimbă constant și poate varia semnificativ de la caz la caz.

Sisteme de date mari

Cerințele de bază pentru lucrul cu big data sunt aceleași ca pentru orice alt set de date. Cu toate acestea, scara masivă, viteza de procesare și caracteristicile datelor întâlnite în fiecare etapă a procesului prezintă noi provocări majore în proiectarea instrumentelor. Scopul majorității sistemelor de date mari este să înțeleagă și să comunice cu cantități mari de date eterogene, ceea ce nu ar fi posibil cu metodele convenționale.

În 2001, Doug Laney, de la Gartner, a introdus „Three Vs of Big Data” pentru a descrie unele dintre caracteristicile care diferențiază prelucrarea Big Data de alte tipuri de prelucrare a datelor:

Volum (volum de date).
Viteza (viteza de acumulare și procesare a datelor).
Varietate (varietate de tipuri de date prelucrate).

Volumul datelor

Scara completă a informațiilor procesate ajută la definirea sistemelor de date mari. Aceste seturi de date pot fi ordine de mărime mai mari decât seturile de date tradiționale, necesitând o atenție sporită în fiecare etapă de procesare și stocare.

Deoarece cerințele depășesc capacitățile unui singur computer, este adesea dificil să combinați, să alocați și să coordonați resursele din grupurile de computere. Controlul clusterelor și algoritmii capabili să împartă sarcinile în bucăți mai mici devin din ce în ce mai importante în acest domeniu.

Viteza de acumulare și procesare

A doua caracteristică care distinge semnificativ datele mari de alte sisteme de date este viteza cu care informațiile se mișcă prin sistem. Datele intră adesea în sistem din mai multe surse și trebuie procesate în timp real pentru a actualiza starea actuală a sistemului.

Acest accent pe instant părere a forțat mulți practicanți să abandoneze abordarea orientată pe lot și să opteze pentru un sistem de streaming în timp real. Datele sunt adăugate, procesate și analizate în mod constant pentru a ține pasul cu fluxul de informații noi și pentru a obține date valoroase într-un stadiu incipient, atunci când sunt cele mai relevante. Acest lucru necesită sisteme fiabile cu componente extrem de disponibile pentru a proteja împotriva defecțiunilor de-a lungul conductei de date.

Varietate de tipuri de date prelucrate

Există multe provocări unice în datele mari legate de gama largă de surse procesate și de calitatea lor relativă.

Datele pot proveni de la sisteme interne, cum ar fi jurnalele aplicațiilor și serverelor, de la canalele de socializare și alte API-uri externe, de la senzori dispozitive fiziceși din alte surse. Scopul sistemelor de date mari este de a procesa date potențial utile, indiferent de origine, prin combinarea tuturor informațiilor într-un singur sistem.

Formatele și tipurile media pot varia, de asemenea, considerabil. Mediile (imagini, video și audio) sunt combinate cu fișiere text, jurnale structurate și așa mai departe. Mai multe sisteme tradiționale de procesare a datelor se așteaptă ca datele să intre în conducte deja etichetate, formatate și organizate, dar sistemele de date mari acceptă și stochează de obicei datele încercând să-și păstreze starea inițială. În mod ideal, orice transformare sau modificare a datelor brute va avea loc în memorie în timpul procesării.

Alte caracteristici

De-a lungul timpului, experții și organizațiile au propus extinderea celor trei V originale, deși aceste inovații tind să descrie mai degrabă problemele decât caracteristicile Big Data.

Veridicitate: Varietatea surselor și complexitatea procesării pot duce la probleme în evaluarea calității datelor (și, prin urmare, a calității analizei rezultate).
Variabilitate: modificarea datelor are ca rezultat schimbări ample ale calității. Identificarea, prelucrarea sau filtrarea datelor de calitate scăzută poate necesita resurse suplimentare care pot îmbunătăți calitatea datelor.
Valoare: obiectivul final al Big Data este valoarea. Uneori, sistemele și procesele sunt foarte complexe, ceea ce face dificilă utilizarea datelor și extragerea valorilor reale.

Ciclul de viață al datelor mari

Deci, cum sunt procesate datele mari? Există mai multe abordări diferite de implementare, dar există similitudini în strategii și software.

Introducerea datelor în sistem
Salvarea datelor în stocare
Calculul și analiza datelor
Vizualizarea rezultatelor

Înainte de a ne arunca în detaliu în aceste patru categorii de fluxuri de lucru, să vorbim despre cluster computing, o strategie importantă utilizată de multe instrumente de date mari. Configurarea unui cluster de calcul este coloana vertebrală a tehnologiei utilizate în fiecare etapă a ciclului de viață.

Calcul de cluster

Datorită calității datelor mari, computerele individuale nu sunt potrivite pentru prelucrarea datelor. Clusterele sunt mai potrivite pentru acest lucru, deoarece pot face față nevoilor de stocare și de calcul ale datelor mari.

Software-ul de grupare de date mari agregă resursele multor mașini mici, urmărind să ofere o serie de avantaje:

Ponderea resurselor: Procesarea seturilor de date mari necesită o cantitate mare de resurse de procesor și memorie, precum și mult spațiu de stocare disponibil.
Disponibilitate ridicată: Clusterele pot oferi niveluri diferite de toleranță la erori și disponibilitate, astfel încât defecțiunile hardware sau software să nu afecteze accesul și procesarea datelor. Acest lucru este deosebit de important pentru analizele în timp real.
Scalabilitate: Clusterele acceptă extinderea rapidă (adăugând noi mașini în cluster).

Lucrul într-un cluster necesită instrumente pentru gestionarea apartenenței la cluster, coordonarea alocării resurselor și programarea lucrărilor cu noduri individuale. Abonarea la cluster și alocarea resurselor pot fi gestionate folosind programe precum Hadoop YARN (încă un alt negociator de resurse) sau Apache Mesos.

Un cluster de calcul prefabricat acționează adesea ca fundație cu care un altul interacționează pentru a prelucra date. software... Mașinile care participă la un cluster de calcul sunt, de asemenea, asociate de obicei cu gestionarea unui sistem de stocare distribuit.

Preluarea datelor

Primirea datelor este procesul de adăugare a datelor brute la sistem. Complexitatea acestei operațiuni depinde în mare măsură de formatul și calitatea surselor de date și de cât de bine îndeplinesc datele cerințelor pentru prelucrare.

Puteți adăuga date mari la sistem folosind instrumente speciale. Tehnologii precum Apache Sqoop pot prelua datele existente din baze de date relaționale și le pot adăuga la un sistem de date mari. De asemenea, puteți utiliza Apache Flume și Apache Chukwa - proiecte pentru agregarea și importul de jurnale de aplicații și de server. Brokerii de mesaje precum Apache Kafka pot fi folosiți ca o interfață între diferiți generatori de date și sistemul de date mari. Cadrele precum Gobblin pot combina și optimiza producția tuturor instrumentelor la sfârșitul conductei.

Analiza, sortarea și etichetarea se fac de obicei în timpul colectării datelor. Acest proces se numește uneori ETL (extract, transform, load), ceea ce înseamnă extragere, transformare și încărcare. Deși termenul se referă de obicei la procesele de stocare vechi, uneori este aplicat și sistemelor de date mari. Operațiunile tipice includ modificarea datelor primite pentru formatare, clasificare și etichetare, filtrarea sau validarea datelor pentru conformitate.

În mod ideal, datele primite trec printr-o formatare minimă.

Stocare a datelor

Odată primite, datele sunt transmise componentelor care administrează magazinul.

Sistemele de fișiere distribuite sunt de obicei utilizate pentru a stoca date brute. Soluțiile precum HDFS de la Apache Hadoop permit scrierea unor cantități mari de date pe mai multe noduri dintr-un cluster. Acest sistem oferă resurse de calcul cu acces la date, poate încărca date în memoria RAM cluster pentru operațiuni de memorie și gestiona defecțiunile componentelor. Alte sisteme de fișiere distribuite pot fi utilizate în locul HDFS, inclusiv Ceph și GlusterFS.

De asemenea, datele pot fi importate în alte sisteme distribuite pentru un acces mai structurat. Bazele de date distribuite, în special bazele de date NoSQL, sunt potrivite pentru acest rol, deoarece pot gestiona date eterogene. Există multe tipuri diferite de baze de date distribuite, alegerea depinde de modul în care doriți să vă organizați și să vă prezentați datele.

Calculul și analiza datelor

Odată ce datele sunt disponibile, sistemul poate începe procesarea. Stratul de calcul este probabil cea mai liberă parte a sistemului, deoarece cerințele și abordările de aici pot diferi semnificativ în funcție de tipul de informații. Datele sunt adesea reprelucrate, fie cu un singur instrument, fie cu o serie de instrumente pentru a procesa diferite tipuri de date.

Procesarea pe loturi este o metodă pentru calculul seturilor mari de date. Acest proces implică descompunerea datelor în bucăți mai mici, programarea procesării fiecărei piese pe o mașină separată, rearanjarea datelor pe baza rezultate intermediareși apoi calcularea și colectarea rezultatului final. Această strategie este utilizată de MapReduce de la Apache Hadoop. Procesarea pe loturi este cea mai utilă atunci când se lucrează cu seturi de date foarte mari care necesită o mulțime de calcule.

Alte sarcini de lucru necesită procesare în timp real. În acest caz, informațiile ar trebui procesate și pregătite imediat, iar sistemul ar trebui să răspundă în timp util, pe măsură ce noi informații devin disponibile. Una dintre modalitățile de implementare a procesării în timp real este de a procesa un flux continuu de date constând din elemente individuale... O altă caracteristică comună a procesoarelor în timp real este calculul datelor din memoria cluster, care evită nevoia de a scrie pe disc.

Oferta Apache Storm, Apache Flink și Apache Spark căi diferite implementare procesare în timp real. Aceste tehnologii flexibile vă permit să alegeți cea mai bună abordare pentru fiecare o problemă separată... În general, procesarea în timp real este cea mai potrivită pentru analiza unor bucăți mici de date care se modifică sau sunt adăugate rapid la sistem.

Toate aceste programe sunt cadre. Cu toate acestea, există multe alte modalități de a calcula sau analiza date într-un sistem de date mari. Aceste instrumente se conectează adesea la cadrele de mai sus și oferă interfețe suplimentare pentru interacțiunea cu straturile subiacente. De exemplu, Apache Hive oferă o interfață de depozit de date pentru Hadoop, Apache Pig oferă o interfață de interogare și interacțiuni cu Date SQL furnizat cu Apache Drill, Apache Impala, Apache Spark SQL și Presto. Învățarea automată folosește Apache SystemML, Apache Mahout și MLlib de la Apache Spark. Pentru programarea analitică directă, care este susținută pe scară largă de ecosistemul de date, se utilizează R și Python.

Vizualizarea rezultatelor

Recunoașterea tendințelor sau modificărilor datelor în timp este adesea mai importantă decât valorile obținute. Vizualizarea datelor este una dintre cele mai utile modalități de a identifica tendințele și de a organiza un număr mare de puncte de date.

Procesarea în timp real este utilizată pentru a vizualiza valorile aplicației și ale serverului. Datele se schimbă frecvent, iar diferențele mari în indicatori indică de obicei un impact semnificativ asupra sănătății sistemelor sau organizațiilor. Proiecte precum Prometeu pot fi utilizate pentru a procesa și vizualiza fluxurile de date și seriile de timp.

Una dintre modalitățile populare de vizualizare a datelor este stiva Elastic, cunoscută anterior sub numele de stiva ELK. Logstash este utilizat pentru colectarea datelor, Elasticsearch pentru indexarea datelor și Kibana pentru vizualizare. Stiva Elastic poate funcționa cu date mari, vizualiza rezultatele calculelor sau interacționa cu valori brute. O stivă similară poate fi obținută prin combinarea Apache Solr pentru indexare cu o furcă de Kibana numită Banana pentru redare. Acest teanc se numește Silk.

O altă tehnologie de vizualizare a datelor interactive este documentele. Astfel de proiecte permit explorarea și vizualizarea interactivă a datelor într-un format ușor de partajat și prezentat. Exemple populare ale acestui tip de interfață sunt Jupyter Notebook și Apache Zeppelin.

Glosar de Big Data

Big data este un termen larg pentru seturile de date care nu pot fi procesate corect calculatoare convenționale sau instrumente din cauza volumului, a ratei de intrare și a varietății. Termenul este, de asemenea, aplicat în mod obișnuit tehnologiilor și strategiilor de lucru cu astfel de date.
Prelucrarea în serie este o strategie de calcul care implică prelucrarea datelor în seturi de date mari. De obicei, această metodă este ideală pentru tratarea datelor care nu sunt urgente.
Calculul clusterizat este practica de a pune în comun resursele mai multor mașini și de a gestiona capacitățile partajate ale acestora pentru a finaliza sarcinile. Acest lucru necesită un strat de gestionare a clusterului care gestionează comunicarea între noduri individuale.
Un lac de date este un depozit mare de date colectate într-o stare relativ brută. Acest termen este adesea folosit pentru a se referi la big data nestructurate și care se schimbă frecvent.
Exploatarea datelor este un termen larg pentru diferitele practici de a găsi modele în seturi de date mari. Aceasta este o încercare de a organiza o masă de date într-un set de informații mai ușor de înțeles și mai coerent.
Un depozit de date este un spațiu de stocare mare, organizat pentru analiză și raportare. Spre deosebire de un lac de date, un depozit este format din date formatate și bine ordonate, care sunt integrate cu alte surse. Depozitele de date sunt adesea menționate în legătură cu datele mari, dar sunt adesea componente ale sistemelor convenționale de prelucrare a datelor.
ETL (extrage, transformă și încarcă) - extragerea, transformarea și încărcarea datelor. Așa arată procesul de obținere și pregătire a datelor brute pentru utilizare. Are legătură cu depozitele de date, dar caracteristicile acestui proces se regăsesc și în conductele sistemelor de date mari.
Hadoop este un proiect Apache open source pentru big data. Acesta constă dintr-un sistem de fișiere distribuit numit HDFS și un cluster și planificator de resurse numit YARN. Capacitățile de procesare în lot sunt furnizate de motorul de calcul MapReduce. Alte sisteme de calcul și de analiză pot rula cu MapReduce în implementări moderne Hadoop.
Calculul în memorie este o strategie care implică mutarea tuturor seturilor de date de lucru în memoria cluster. Calculele intermediare nu sunt scrise pe disc; în schimb, sunt stocate în memorie. Acest lucru oferă sistemelor un avantaj imens de viteză față de sistemele legate de I / O.
Învățarea automată este studiul și practica proiectării sistemelor care pot învăța, modifica și îmbunătăți pe baza datelor transmise acestuia. De obicei, aceasta înseamnă implementarea algoritmilor predictivi și statistici.
Map reduce (nu trebuie confundat cu MapReduce de la Hadoop) este un algoritm pentru planificarea unui cluster de calcul. Procesul include împărțirea sarcinii între noduri și obținerea de rezultate intermediare, amestecarea și apoi redarea unei singure valori pentru fiecare set.
NoSQL este un termen larg pentru bazele de date dezvoltate în afara modelului relațional tradițional. Bazele de date NoSQL sunt potrivite pentru big data datorită flexibilității și arhitecturii distribuite.
Streamingul este practica calculării elementelor individuale de date pe măsură ce se deplasează prin sistem. Aceasta permite analiza datelor în timp real și este potrivită pentru gestionarea tranzacțiilor urgente utilizând valori de mare viteză.

Etichete:,

S-a prezis că volumul global total de date create și reproduse în 2011 ar putea fi de aproximativ 1,8 zettabytes (1,8 trilioane de gigabytes) - de aproximativ 9 ori mai mult decât ceea ce a fost creat în 2006.

Definiție mai complexă

Cu toate acestea, ` Date mare`implică mai mult decât doar analiza unor cantități mari de informații. Problema nu este că organizațiile creează cantități uriașe de date, ci că cea mai mare parte a acestora este prezentată într-un format care nu corespunde bine formatului tradițional de baze de date structurate, cum ar fi bloguri, videoclipuri, documente text, codul mașinii sau, de exemplu, , date geospațiale ... Toate acestea sunt stocate în multe depozite diferite, uneori chiar și în afara organizației. Drept urmare, corporațiile pot avea acces la o cantitate imensă de date și nu au instrumentele necesare pentru a stabili relații între aceste date și pentru a trage concluzii semnificative din acestea. Adăugați la aceasta faptul că datele sunt actualizate din ce în ce mai des și veți obține o situație în care metodele tradiționale de analiză a informațiilor nu pot ține pasul cu volume imense de date actualizate constant, ceea ce deschide în cele din urmă calea către tehnologie. Date mare.

Cea mai bună definiție

În esență, conceptul Date mareînseamnă a lucra cu informații cu un volum imens și o compoziție diversă, foarte des actualizate și localizate în diferite surse pentru a crește eficiența muncii, a crea produse noi și a crește competitivitatea. Compania de consultanță Forrester rezumă: ` Date mare combina tehnici și tehnologii care dau sens datelor la limita extremă de utilizare. '

Cât de mare este diferența dintre business intelligence și big data?

Craig Batey, director de marketing și director de tehnologie, Fujitsu Australia, a subliniat că analiza de afaceri este un proces descriptiv de analiză a rezultatelor obținute de o afacere pe o perioadă de timp, în timp ce viteza de procesare Date mare vă permite să faceți analiza predictivă, capabilă să ofere recomandări de afaceri pentru viitor. Big data vă permite, de asemenea, să analizați mai multe tipuri de date în comparație cu instrumentele de business intelligence, ceea ce face posibilă concentrarea pe mai mult decât stocarea structurată.

Matt Slocum de la O "Reilly Radar crede că deși Date mareși business intelligence au același scop (găsirea răspunsurilor la o întrebare), diferă între ele în trei aspecte.

Big data este conceput pentru a gestiona mai multe informații decât business intelligence și acest lucru este, desigur, în conformitate cu definiția tradițională a big data.
Big data este conceput pentru a procesa informațiile primite și care se schimbă mai rapid, ceea ce înseamnă explorare profundă și interactivitate. În unele cazuri, rezultatele sunt generate mai repede decât încărcarea paginii web.
Big data este conceput pentru a prelucra date nestructurate, modalitățile de utilizare pe care începem să le învățăm abia după ce am reușit să stabilim colectarea și stocarea acestora și avem nevoie de algoritmi și capacitatea de dialog pentru a facilita căutarea tendințelor conținute în aceste matrice.

Conform Oracle Information Architecture: An Architect's Guide to Big Data white paper publicată de Oracle, abordăm informațiile în mod diferit atunci când lucrăm cu date mari decât atunci când facem analize de afaceri.

Lucrul cu big data nu este ca procesul obișnuit de business intelligence, unde simpla adăugare a valorilor cunoscute dă rezultate: de exemplu, totalul facturilor plătite împreună devine vânzări anuale. Atunci când se lucrează cu date mari, rezultatul se obține în procesul de curățare a acestuia prin modelare secvențială: mai întâi, este prezentată o ipoteză, se construiește un model statistic, vizual sau semantic, pe baza căruia este corectă ipoteza propusă. verificat, apoi următorul este prezentat. Acest proces cere cercetătorului fie să interpreteze valorile vizuale, fie să compună interogări interactive bazate pe cunoștințe, sau să dezvolte algoritmi de învățare automată adaptivi capabili să obțină rezultatul dorit. Mai mult, durata de viață a unui astfel de algoritm poate fi destul de scurtă.

Tehnici de analiză a datelor mari

Există multe metode diferite de analiză a seturilor de date, care se bazează pe instrumente împrumutate din statistici și informatică (de exemplu, învățarea automată). Lista nu pretinde a fi completă, dar reflectă cele mai populare abordări din diverse industrii. În același timp, trebuie înțeles că cercetătorii continuă să lucreze la crearea de noi metode și îmbunătățirea celor existente. În plus, unele dintre metodele enumerate mai sus nu sunt neapărat aplicabile exclusiv pentru big data și pot fi utilizate cu succes pentru tablouri mai mici (de exemplu, testarea A / B, analiza de regresie). Desigur, cu cât este analizată matricea mai voluminoasă și diversificată, cu atât datele mai exacte și relevante pot fi obținute la ieșire.

Testarea A / B... O tehnică în care un eșantion de control este comparat unul câte unul cu altele. Astfel, este posibil să se identifice combinația optimă de indicatori pentru a obține, de exemplu, cel mai bun răspuns al consumatorilor la o propunere de marketing. Date mare vă permit să efectuați un număr mare de iterații și astfel să obțineți un rezultat fiabil statistic.

Învățarea regulilor de asociere... Un set de tehnici pentru identificarea relațiilor, adică reguli de asociere, între variabile din seturi mari de date. Folosit in minerit de date.

Clasificare... Un set de tehnici care vă permite să preziceți comportamentul consumatorului într-un anumit segment de piață (luarea deciziilor cu privire la cumpărare, ieșire, consum etc.). Folosit in minerit de date.

Analiza grupului... O metodă statistică pentru clasificarea obiectelor în grupuri prin identificarea caracteristicilor comune necunoscute anterior. Folosit in minerit de date.

Crowdsourcing... Metodologie pentru colectarea datelor dintr-un număr mare de surse.

Fuziunea datelor și integrarea datelor... Un set de tehnici care vă permite să analizați comentariile utilizatorilor de rețele sociale și să le comparați cu rezultatele vânzărilor în timp real.

Exploatarea datelor... Un set de metode care vă permite să determinați categoriile de consumatori cei mai receptivi pentru produsul sau serviciul promovat, să identificați caracteristicile celor mai de succes angajați și să preziceți modelul comportamental al consumatorilor.

Învățarea ansamblului... Această metodă utilizează o varietate de modele predictive, îmbunătățind astfel calitatea predicțiilor.

Algoritmi genetici... În această tehnică, soluțiile posibile sunt prezentate sub formă de „cromozomi”, care se pot combina și muta. Ca și în procesul de evoluție naturală, cel mai potrivit supraviețuiește.

Învățare automată... Direcția în informatică (istoric i s-a atribuit denumirea de „inteligență artificială”), care își propune să creeze algoritmi de auto-învățare pe baza analizei datelor empirice.

Prelucrarea limbajului natural (NLP). Un set de tehnici pentru recunoașterea limbajului natural al unei persoane împrumutate din informatică și lingvistică.

Analiza rețelei... Un set de tehnici pentru analiza conexiunilor între noduri în rețele. Aplicat rețelelor sociale, vă permite să analizați relația dintre utilizatorii individuali, companii, comunități etc.

Optimizare... Un set de metode numerice pentru reproiectarea sistemelor și proceselor complexe pentru a îmbunătăți una sau mai multe valori. Ajută la luarea deciziilor strategice, de exemplu, compoziția liniei de produse introduse pe piață, efectuarea analizei investițiilor etc.

Recunoasterea formelor... Un set de tehnici cu elemente de auto-învățare pentru prezicerea tiparelor de comportament ale consumatorului.

Modelarea predictivă... Un set de tehnici care vă permit să creați model matematic un scenariu probabil predeterminat al dezvoltării evenimentelor. De exemplu, analizând baza de date a unui sistem CRM pentru posibile condiții care îi vor împinge pe abonați să își schimbe furnizorul.

Regresie... Un set de metode statistice pentru identificarea tiparelor dintre o modificare a unei variabile dependente și una sau mai multe independente. Este adesea folosit pentru prognoze și predicții. Folosit în exploatarea datelor.

Analiza sentimentelor... Metodele de evaluare a sentimentului consumatorului se bazează pe tehnologii de recunoaștere a limbajului natural al unei persoane. Acestea vă permit să izolați de fluxul de informații generale mesaje legate de subiectul de interes (de exemplu, un produs de consum). Apoi, evaluați polaritatea judecății (pozitivă sau negativă), gradul de emoționalitate etc.

Procesare semnal... Un set de tehnici împrumutate din ingineria radio, care urmărește scopul de a recunoaște un semnal pe un fundal de zgomot și analiza ulterioară a acestuia.

Analiza spațială... Un set de metode pentru analiza datelor spațiale, parțial împrumutate din statistici - topologia terenului, coordonatele geografice, geometria obiectelor. Sursă Date mareîn acest caz, sunt adesea utilizate sistemele de informații geografice (GIS).

Revoluția Analytics (bazată pe limbajul R pentru statistici matematice).

Un interes deosebit pe această listă este Apache Hadoop, un software open source care a fost încercat și testat ca analizor de date de către majoritatea instrumentelor de urmărire a stocurilor în ultimii cinci ani. De îndată ce Yahoo a deschis codul Hadoop pentru comunitatea open source, a existat o nouă linie de produse Hadoop în industria IT. Aproape toate instrumentele moderne de analiză Date mare furnizați instrumente pentru integrarea cu Hadoop. Dezvoltatorii lor sunt atât start-up-uri, cât și companii mondiale bine-cunoscute.

Piețe de gestionare a datelor mari

Platformele Big Data (BDP, Big Data Platform) ca mijloc de combatere a acordurilor digitale

Capacitatea de a analiza Date mare, numit în mod colocvial Big Data, este perceput ca o binecuvântare și fără ambiguități. Dar chiar este așa? La ce poate duce acumularea de date rampantă? Cel mai probabil la ceea ce psihologii domestici se referă la tezaurizarea patologică a unei persoane, silogomania sau figurativ „sindromul Plyushkin”. În engleză, pasiunea vicioasă de a colecta totul se numește hording (din engleza hoard - „stoc”). Conform clasificării bolilor mintale, Hording este clasificat ca o tulburare mentală. În era digitală, digitalul (Digital Hoarding) este adăugat la acordul material tradițional, atât indivizii, cât și întreprinderi întregi și organizații pot suferi de acesta ().

Piața mondială și cea rusă

Peisaj Big Data - Furnizori majori

Interes pentru instrumentele de colectare, procesare, gestionare și analiză Date mare a arătat aproape toate companiile IT de top, ceea ce este destul de firesc. În primul rând, aceștia se confruntă direct cu acest fenomen în propria afacere și, în al doilea rând, Date mare deschideți oportunități excelente pentru dezvoltarea de noi nișe de piață și atragerea de noi clienți.

Pe piață au apărut multe start-up-uri care fac afaceri prin prelucrarea unor cantități uriașe de date. Unii dintre ei folosesc infrastructura cloud oferită de jucători importanți precum Amazon.

Teoria și practica Big Data în industrii

Istoria dezvoltării

2017

Prognoza TmaxSoft: următorul „val” de Big Data va necesita modernizarea SGBD

Companiile știu că cantitățile mari de date pe care le-au acumulat conțin Informații importante despre afacerea și clienții lor. Dacă o companie poate aplica cu succes aceste informații, atunci va avea un avantaj semnificativ față de concurență și va putea oferi produse și servicii mai bune decât ale lor. Cu toate acestea, multe organizații sunt încă incapabile să utilizeze în mod eficient Date mare datorită faptului că infrastructura IT moștenită nu este în măsură să furnizeze capacitatea de stocare necesară, procesele de schimb de date, utilitățile și aplicațiile necesare procesării și analizei unor cantități mari de date nestructurate pentru a extrage informații valoroase din acestea, indicate în TmaxSoft.

În plus, puterea sporită de procesare necesară pentru a analiza cantități tot mai mari de date poate necesita investiții semnificative în infrastructura IT moștenită a unei organizații, precum și resurse de întreținere suplimentare care ar putea fi utilizate pentru dezvoltarea de noi aplicații și servicii.

La 5 februarie 2015, Casa Albă a publicat un raport care a discutat despre modul în care companiile folosesc „ Date mare„Pentru a stabili prețuri diferite pentru diferiți cumpărători - o practică cunoscută sub numele de„ discriminare de preț ”sau„ prețuri personalizate ”. Raportul descrie avantajele „Big Data” atât pentru vânzători, cât și pentru cumpărători, iar autorii săi concluzionează că multe dintre problemele problematice care au apărut în legătură cu apariția Big Data și stabilirea prețurilor diferențiale pot fi rezolvate în cadrul sistemului anti- legile și legile discriminării.protejarea drepturilor consumatorilor.

În acest moment, raportul menționează că există puține dovezi ale modului în care companiile utilizează big data în contextul marketingului personalizat și al prețurilor diferențiate. Aceste informații arată că vânzătorii folosesc metode de stabilire a prețurilor care pot fi împărțite în trei categorii:

studiul curbei cererii;
Conducere și stabilire a prețurilor diferențiate pe baza datelor demografice; și
direcționare comportamentală și prețuri individualizate.

Examinarea curbei cererii: Marketerii experimentează adesea comportamentul cererii și al consumatorilor prin alocarea aleatorie a clienților la unul dintre cele două niveluri de preț posibile. „Din punct de vedere tehnic, aceste experimente reprezintă o formă de stabilire a prețurilor diferențiale, deoarece au ca rezultat prețuri diferite pentru clienți, chiar dacă sunt„ nediscriminatorii ”în sensul că toți clienții sunt la fel de susceptibili să„ atingă ”un preț mai mare.”

Direcție: Este practica prezentării produselor consumatorilor pe baza grupului lor demografic. De exemplu, un site web al unei companii de calculatoare poate oferi același laptop. tipuri diferite cumpărătorii la prețuri diferite stabilite pe baza informațiilor pe care le furnizează despre ei înșiși (de exemplu, în funcție de faptul dacă acest utilizator este un reprezentant al agențiilor guvernamentale, instituțiilor științifice sau comerciale sau o persoană privată) sau de locația lor geografică (de exemplu, determinată de IP -adresa computerului).

Marketing comportamental vizat și prețuri personalizate: În aceste cazuri, datele personale ale cumpărătorilor sunt utilizate pentru publicitate direcționată și prețuri personalizate pentru anumite produse. De exemplu, agenții de publicitate online folosesc cele colectate rețele publicitareși prin cookie-uri terțe, date despre activitatea utilizatorilor pe Internet pentru a trimite materiale publicitare direcționate. Această abordare, pe de o parte, permite consumatorilor să primească reclame de bunuri și servicii care le interesează, însă poate provoca îngrijorare pentru acei consumatori care nu doresc anumite tipuri de date personale (cum ar fi informații despre vizitele pe site-urile conectate cu probleme medicale și financiare) întâlnite fără acordul lor.

În timp ce marketingul comportamental orientat este răspândit, există relativ puține dovezi ale tarifării personalizate în mediul online. Raportul sugerează că acest lucru se poate datora faptului că metodele adecvate sunt încă în curs de dezvoltare sau faptul că companiile nu se grăbesc să folosească prețurile individuale (sau preferă să păstreze tăcerea în legătură cu aceasta) - poate de teama reacției negative a consumatorilor .

Autorii raportului consideră că „pentru consumatorul individual, utilizarea datelor mari este, fără îndoială, asociată atât cu potențialele rentabilități, cât și cu riscurile”. Deși recunoaște că există probleme de transparență și discriminare în utilizarea datelor mari, raportul susține că legile existente privind discriminarea și protecția consumatorilor sunt suficiente pentru a le aborda. Cu toate acestea, raportul subliniază, de asemenea, necesitatea unei „monitorizări continue” atunci când companiile utilizează informații confidențiale într-un mod opac sau în moduri care nu sunt acoperite de cadrul de reglementare existent.

Acest raport este o extensie a eforturilor Casei Albe de a examina utilizarea datelor mari și a prețurilor discriminatorii pe internet și a implicațiilor acestora pentru consumatorii americani. Anterior, s-a raportat că grupul de lucru pentru Big Data de la Casa Albă și-a publicat raportul pe această problemă în mai 2014. De asemenea, Comisia Federală pentru Comerț (FTC) a abordat aceste probleme în cadrul seminarului său din septembrie 2014 privind discriminarea în legătură cu utilizarea datelor mari.

2014

Gartner risipe miturile Big Data

Gartner's Fall 2014 Policy Brief enumeră o serie de mituri comune despre Big Data printre CIO și le respinge.

Toată lumea implementează sisteme de procesare Big Data mai repede decât noi

Interesul pentru tehnologiile Big Data este la un nivel record: 73% dintre organizațiile chestionate de analiștii Gartner anul acesta investesc deja în proiecte conexe sau vor face acest lucru. Dar majoritatea acestor inițiative sunt încă în stadiile incipiente și doar 13% dintre cei chestionați au implementat deja astfel de soluții. Cel mai greu este să descoperiți cum să generați venituri din Big Data, să decideți de unde să începeți. Multe organizații se blochează în faza pilot, deoarece nu se pot atașa tehnologie nouă la anumite procese de afaceri.

Avem atât de multe date încât nu este nevoie să vă faceți griji cu privire la erorile mici din acestea.

Unii CIO consideră că lipsurile mici de date nu afectează rezultatele generale ale unor volume mari de analize. Când există o mulțime de date, fiecare eroare individuală afectează cu adevărat rezultatul mai puțin, spun analiștii, dar erorile în sine devin mai numeroase. În plus, majoritatea datelor analizate sunt externe, de structură sau origine necunoscută, astfel încât probabilitatea erorilor crește. Astfel, în lumea Big Data, calitatea este de fapt mult mai importantă.

Tehnologiile de date mari vor elimina necesitatea integrării datelor

Big Data promite capacitatea de a procesa date în format nativ cu generarea automată a schemelor pe măsură ce sunt citite. Se crede că acest lucru va permite analiza informațiilor din aceleași surse utilizând mai multe modele de date. Mulți cred că acest lucru va permite, de asemenea, utilizatorilor finali să interpreteze orice set de date așa cum consideră potrivit. În realitate, majoritatea utilizatorilor au adesea nevoie de o abordare tradițională bazată pe schemă, în care datele sunt formatate în mod corespunzător și există acorduri privind nivelul de integritate al informațiilor și modul în care acestea ar trebui să fie legate de cazul de utilizare.

Nu are rost să folosiți depozite de date pentru analize complexe

Mulți administratori de sisteme de gestionare a informațiilor cred că nu are rost să pierdem timpul creând un depozit de date, dat fiind că sistemele analitice complexe utilizează noi tipuri de date. De fapt, multe sisteme analitice complexe folosesc informații dintr-un depozit de date. În alte cazuri, noile tipuri de date trebuie pregătite suplimentar pentru analiză în sistemele de procesare Big Data; trebuie să luați decizii cu privire la adecvarea datelor, principiile agregării și nivelul de calitate necesar - o astfel de pregătire poate avea loc în afara depozitului.

Lacurile de date vor înlocui depozitele de date

În realitate, vânzătorii induc în eroare clienții prin poziționarea lacurilor de date ca înlocuitori de stocare sau ca infrastructură analitică critică. Tehnologiile de bază ale lacurilor de date nu au maturitatea și lățimea funcționalității inerente stocării. Prin urmare, liderii de gestionare a datelor ar trebui să aștepte până când lacurile vor atinge același nivel de dezvoltare, potrivit lui Gartner.

Accenture: 92% dintre cei care au implementat sisteme de date mari sunt mulțumiți de rezultat

Printre principalele beneficii ale datelor mari, respondenții au numit:

„Căutați noi surse de venit” (56%),
„Îmbunătățirea experienței clienților” (51%),
"Produse și servicii noi" (50%) și
„Afluența de noi clienți și păstrarea loialității celor vechi” (47%).

Multe companii s-au confruntat cu provocări tradiționale atunci când au introdus noi tehnologii. Pentru 51%, obstacolul a fost securitatea, pentru 47% - bugetul, pentru 41% - lipsa personalului necesar, iar pentru 35% - dificultăți în integrarea cu sistemul existent. Aproape toate companiile chestionate (aproximativ 91%) intenționează să rezolve în curând problema cu lipsa de personal și să angajeze specialiști în big data.

Companiile sunt optimiste cu privire la viitorul tehnologiei big data. 89% cred că vor schimba afacerea la fel de mult ca și internetul. 79% dintre respondenți au menționat că companiile care nu fac big data își vor pierde avantajul competitiv.

Cu toate acestea, respondenții nu au fost de acord cu privire la exact ceea ce ar trebui considerat big data. 65% dintre respondenți consideră că sunt „fișiere de date mari”, 60% consideră că sunt „analize și analize avansate”, iar 50% consideră că sunt „date din instrumente de vizualizare”.

Madrid cheltuie 14,7 milioane de euro pentru gestionarea datelor mari

În iulie 2014, a devenit cunoscut faptul că Madridul va folosi tehnologiile de date mari pentru a gestiona infrastructura urbană. Costul proiectului - 14,7 milioane de euro, baza soluțiilor implementate vor fi tehnologiile pentru analiza și gestionarea datelor mari. Cu ajutorul lor Administrația orașului va gestiona munca cu fiecare furnizor de servicii și va plăti corespunzător în funcție de nivelul serviciului.

Vorbim despre contractorii administrației care monitorizează starea străzilor, iluminatului, irigațiilor, spațiilor verzi, curăță teritoriul și elimină, precum și reciclează deșeurile. În timpul proiectului, au fost dezvoltați 300 de indicatori cheie de performanță ai serviciilor orașului pentru inspectori special desemnați, pe baza cărora se vor efectua zilnic 1,5 mii de verificări și măsurători diferite. În plus, orașul va începe să utilizeze o platformă tehnologică inovatoare numită Madrid iNTeligente (MiNT) - Smarter Madrid.

2013

Experți: Big Data Peak Fashion

Fără excepție, toți furnizorii de pe piața de gestionare a datelor dezvoltă în acest moment tehnologii pentru gestionarea Big Data. Această nouă tendință tehnologică este, de asemenea, discutată activ de comunitatea profesională, atât dezvoltatorii, cât și analiștii din industrie și potențialii consumatori de astfel de soluții.

După cum a aflat Datashift, din ianuarie 2013, a existat un val de discuții în jurul „ Date mare„A depășit toate dimensiunile imaginabile. După analizarea numărului de mențiuni despre Big Data în rețelele sociale, Datashift a calculat că în 2012 acest termen a fost folosit de aproximativ 2 miliarde de ori în postările create de aproximativ 1 milion de autori diferiți din întreaga lume. Acest lucru este echivalent cu 260 de postări pe oră, cu un vârf de 3070 de mențiuni pe oră.

Gartner: Fiecare al doilea CIO este gata să cheltuiască bani pe Big Data

După câțiva ani de experimente cu tehnologiile Big Data și primele implementări în 2013, adaptarea unor astfel de soluții va crește semnificativ, prezice Gartner. Cercetătorii au chestionat liderii IT din întreaga lume și au constatat că 42% dintre respondenți au investit deja în tehnologiile Big Data sau intenționează să facă astfel de investiții în anul următor (date din martie 2013).

Companiile sunt obligate să cheltuiască bani pe tehnologii de procesare Date mare deoarece peisajul informațional se schimbă rapid, necesit noi abordări ale procesării informațiilor. Multe companii și-au dat deja seama că datele mari sunt esențiale și lucrul cu acestea vă permite să obțineți beneficii care nu sunt disponibile folosind surse tradiționale de informații și metode de prelucrare a acestora. În plus, exagerarea constantă a subiectului „big data” în mass-media alimentează interesul pentru tehnologiile relevante.

Frank Buytendijk, vicepreședinte al Gartner, a cerut chiar companiilor să-și modereze fervoarea, deoarece unii sunt îngrijorați că rămân în urma concurenților în achiziția Big Data.

„Nu este nevoie să vă faceți griji, posibilitățile de implementare a ideilor bazate pe tehnologiile Big Data sunt practic nelimitate”, a spus el.

Gartner prezice că până în 2015, 20% din companiile Global 1000 vor avea un accent strategic pe „infrastructura informațională”.

În așteptarea noilor oportunități pe care le vor aduce tehnologiile de prelucrare Big Data, multe organizații organizează deja procesul de colectare și stocare a diferitelor tipuri de informații.

Pentru organizațiile educaționale și guvernamentale, precum și pentru companiile din industrie, cel mai mare potențial de transformare a afacerilor constă în combinația de date acumulate cu așa-numitele date întunecate (literalmente - „date întunecate”), acestea din urmă includ mesaje E-mail, conținut multimedia și alt conținut similar. Potrivit lui Gartner, cei care învață să gestioneze o mare varietate de surse de informații vor câștiga cursa de date.

Sondaj Cisco: Big Data va ajuta la creșterea bugetelor IT

Într-un sondaj din primăvara anului 2013, Cisco Connected World Technology Report, realizat în 18 țări de firma independentă de analize InsightExpress, au fost chestionați 1.800 de studenți și un număr similar de tineri profesioniști cu vârste cuprinse între 18-30 de ani. Sondajul a fost realizat pentru a afla nivelul de pregătire al departamentelor IT pentru implementarea proiectelor Date mareși să obțină informații despre provocările asociate, lacunele tehnologice și valoarea strategică a acestor proiecte.

Majoritatea companiilor colectează, înregistrează și analizează date. Cu toate acestea, potrivit raportului, multe companii se confruntă cu o serie de provocări complexe în domeniul afacerilor și tehnologiei informației în legătură cu Big Data. De exemplu, 60% dintre cei chestionați recunosc că soluțiile Big Data pot îmbunătăți procesele decizionale și pot crește competitivitatea, dar doar 28% au declarat că primesc deja beneficii strategice reale din informațiile acumulate.

Mai mult de jumătate dintre directorii IT chestionați consideră că proiectele Big Data vor contribui la creșterea bugetelor IT în organizațiile lor, deoarece vor exista cerințe sporite pentru tehnologie, personal și abilități profesionale. În același timp, mai mult de jumătate dintre respondenți se așteaptă ca astfel de proiecte să crească bugetele IT în companiile lor încă din 2012. 57% sunt încrezători că Big Data își va crește bugetele în următorii trei ani.

81% dintre respondenți au spus că toate (sau cel puțin unele) proiecte Big Data vor necesita cloud computing. Astfel, răspândirea tehnologiilor cloud poate afecta viteza de distribuție a soluțiilor Big Data și valoarea acestor soluții pentru afacere.

Companiile colectează și utilizează date dintr-o mare varietate de tipuri, atât structurate, cât și nestructurate. Iată sursele din care participanții la sondaj își obțin datele (Cisco Connected World Technology Report):

Aproape jumătate (48 la sută) din CIO prezic că încărcătura din rețelele lor se va dubla în următorii doi ani. (Acest lucru este valabil mai ales în China, unde 68 la sută dintre cei chestionați susțin acest punct de vedere, iar Germania, 60 la sută.) 23% dintre respondenți se așteaptă ca încărcarea rețelei să se tripleze în următorii doi ani. În același timp, doar 40% dintre respondenți și-au declarat disponibilitatea pentru o creștere explozivă a volumului traficului de rețea.

27% dintre cei chestionați au recunoscut că au nevoie de politici IT mai bune și măsuri de securitate a informațiilor.

21% au nevoie de mai multă lățime de bandă.

Big Data deschide noi oportunități pentru departamentele IT de a construi valoare și de a construi relații puternice cu unitățile de afaceri, permițându-le să crească veniturile și să consolideze poziția financiară a companiei. Proiectele Big Data fac din departamentele IT un partener strategic pentru unitățile de afaceri.

Potrivit 73% dintre respondenți, departamentul IT va deveni principala forță motrice a strategiei Big Data. În același timp, respondenții consideră că și alte departamente vor fi implicate în implementarea acestei strategii. În primul rând, aceasta se referă la departamentele de finanțe (a fost numită de 24 la sută din respondenți), cercetare și dezvoltare (20 la sută), operațiuni (20 la sută), inginerie (19 la sută), precum și marketing (15 la sută) și vânzări (14 la sută).

Gartner: Milioane de noi locuri de muncă sunt necesare pentru a gestiona Big Data

Cheltuielile IT globale vor ajunge la 3,7 miliarde de dolari până în 2013, ceea ce reprezintă 3,8% mai mult decât cheltuielile pentru tehnologia informației în 2012 (prognozele pentru sfârșitul anului sunt de 3,6 miliarde de dolari). Segment Date mare(Big Data) va crește într-un ritm mult mai rapid, potrivit unui raport Gartner.

Până în 2015, 4,4 milioane de locuri de muncă în domeniul tehnologiei informației vor fi create pentru a servi big data, din care 1,9 milioane de locuri de muncă vor fi incluse. Mai mult, fiecare astfel de loc de muncă va presupune crearea a trei locuri de muncă suplimentare în afara sectorului IT, astfel încât doar în Statele Unite în următorii patru ani, 6 milioane de oameni vor lucra pentru a sprijini economia informației.

Potrivit experților Gartner, principala problemă este că nu există suficient talent în industrie pentru acest lucru: atât sistemele de învățământ privat, cât și cele publice, de exemplu, în Statele Unite, nu sunt capabile să furnizeze industriei un număr suficient de persoane calificate. personal. Deci, din noile locuri de muncă menționate în IT, doar unul dintre cele trei va primi personal.

Analiștii consideră că rolul de a cultiva personal IT calificat ar trebui să fie preluat direct de companiile care au mare nevoie de ei, deoarece acești angajați vor deveni o poartă pentru ei către noua economie a informației din viitor.

2012

Primul scepticism cu privire la Big Data

Analiștii de la Ovum și Gartner sugerează că pentru o temă la modă 2012 Date mare s-ar putea să fie timpul să eliberăm iluzia.

Termenul „Big Data” în acest moment se referă de obicei la volumul din ce în ce mai mare de informații care vin online de pe rețelele de socializare, rețelele de senzori și alte surse, precum și gama crescândă de instrumente utilizate pentru procesarea datelor și identificarea tendințelor importante ale afacerii.

„Din cauza hype-ului (sau în ciuda acestuia) asupra ideii de big data, producătorii au privit în 2012 această tendință cu mare speranță”, a declarat Tony Bayer, analist la Ovum.

Bayer a declarat că DataSift a efectuat o analiză retrospectivă a mențiunilor de date mari în

Big data (sau Big Data) este o colecție de metode pentru lucrul cu cantități uriașe de informații structurate sau nestructurate. Specialiștii în Big Data îl procesează și îl analizează pentru a obține rezultate vizuale, care pot fi citite de om. Look At Me a vorbit cu profesioniști și a aflat care este situația procesării datelor mari în Rusia, unde și ce este mai bine pentru cei care doresc să lucreze în acest domeniu să învețe.

Alexey Ryvkin despre principalele direcții în domeniul big data, comunicarea cu clienții și lumea numerelor

Am studiat la Institutul de Tehnologie Electronică din Moscova. Principalul lucru pe care am reușit să-l scot de acolo a fost cunoștințele fundamentale în fizică și matematică. Concomitent cu studiile mele, am lucrat în centrul de cercetare și dezvoltare, unde am fost angajat în dezvoltarea și implementarea algoritmilor de codificare imunitară la zgomot pentru transmiterea sigură a datelor. După absolvirea diplomei de licență, am intrat la masterat în informatică în afaceri la Școala Superioară de Economie. După aceea, am vrut să lucrez la IBS. Am avut noroc că în acel moment din cauza o cantitate mare proiecte, a existat o recrutare suplimentară de stagiari, iar după mai multe interviuri am început să lucrez pentru IBS, una dintre cele mai mari companii ruse din acest domeniu. În trei ani, am trecut de la stagiar la arhitect de soluții pentru întreprinderi. Acum dezvolt expertiza tehnologiilor Big Data pentru companiile clienți din sectoarele financiar și de telecomunicații.

Există două specializări principale pentru persoanele care doresc să lucreze cu big data: analiștii și consultanții IT care creează tehnologii pentru lucrul cu big data. În plus, poți vorbi și despre profesia de Big Data Analyst, adică oameni care lucrează direct cu date, cu platforma IT de pe site-ul clientului. Anterior, aceștia erau analiști-matematicieni obișnuiți care știau statistici și matematică și foloseau programe statistice pentru rezolvarea problemelor de analiză a datelor. Astăzi, pe lângă cunoștințele de statistică și matematică, este necesară și o înțelegere a tehnologiei și a ciclului de viață al datelor. În opinia mea, aceasta este diferența dintre analistul de date modern și acei analiști care au fost înainte.

Specializarea mea este consultanță IT, adică vin și ofer clienților modalități de rezolvare a problemelor de afaceri folosind tehnologii IT. Oamenii cu experiență diferită vin la consultanță, dar cele mai importante calități pentru această profesie sunt abilitatea de a înțelege nevoile clientului, dorința de a ajuta oamenii și organizațiile, o bună comunicare și abilități de echipă (deoarece aceasta este întotdeauna să lucreze cu clientul și în echipă), abilități analitice bune. Motivația internă este foarte importantă: lucrăm într-un mediu competitiv, iar clientul așteaptă soluții neobișnuite și interes pentru muncă.

Cea mai mare parte a timpului meu o petrec vorbind cu clienții, formalizându-le nevoile de afaceri și ajutând la proiectarea celei mai adecvate arhitecturi tehnologice. Criteriile de selecție de aici au propria lor particularitate: pe lângă funcționalitateși TCO (Costul total de proprietate), cerințele nefuncționale pentru sistem sunt foarte importante, cel mai adesea este timpul de răspuns, timpul de procesare a informațiilor. Pentru a convinge clientul, folosim adesea abordarea dovezii conceptului - ne oferim să „testăm” gratuit tehnologia pentru o anumită problemă, pe un set restrâns de date, pentru a ne asigura că tehnologia funcționează. Soluția ar trebui să creeze un avantaj competitiv pentru client, obținând beneficii suplimentare (de exemplu, x-sell, cross-selling) sau să rezolve o problemă în afaceri, să zicem, să reducem nivel inalt fraudă de credit.

Ar fi mult mai ușor dacă clienții ar veni cu o sarcină gata pregătită, dar până acum nu înțeleg că a apărut o tehnologie revoluționară care poate schimba piața în câțiva ani

Cu ce probleme trebuie să te confrunți? Piața nu este încă pregătită să utilizeze tehnologiile big data. Ar fi mult mai ușor dacă clienții ar veni cu o sarcină gata făcută, dar încă nu își dau seama că a apărut o tehnologie revoluționară care poate schimba piața în câțiva ani. De aceea, de fapt, lucrăm într-un mod de pornire - nu vindem doar tehnologii, ci și de fiecare dată când convingem clienții că trebuie să investească în aceste soluții. Aceasta este poziția vizionarilor - le arătăm clienților cum își pot schimba afacerea cu implicarea de date și IT. Creăm această nouă piață - piața consultanței IT comerciale în domeniul Big Data.

Dacă o persoană dorește să se angajeze în analiza datelor sau consultanță IT în domeniul Big Data, atunci primul lucru important este o educație matematică sau tehnică cu o bună pregătire matematică. De asemenea, este util să vă familiarizați cu tehnologii specifice, cum ar fi soluțiile SAS, Hadoop, R sau IBM. În plus, trebuie să fiți interesat în mod activ de problemele aplicate pentru Big Data - de exemplu, modul în care acestea pot fi folosite pentru îmbunătățirea punctajului creditului într-o bancă sau în conducere ciclu de viață client. Această și alte cunoștințe pot fi obținute din sursele disponibile: de exemplu, Coursera și Universitatea Big Data. Există, de asemenea, o Inițiativă de analiză a clienților la Universitatea Wharton din Pennsylvania, unde au fost publicate o mulțime de materiale interesante.

O problemă serioasă pentru cei care doresc să lucreze în domeniul nostru este lipsa evidentă de informații despre Big Data. Nu puteți merge la o librărie sau la un site web și să obțineți, de exemplu, o colecție exhaustivă de cazuri pentru toate aplicațiile tehnologiilor Big Data din bănci. Nu există astfel de cărți de referință. O parte a informațiilor se află în cărți, o altă parte este colectată la conferințe, iar unele trebuie să fie atinse de noi înșine.

O altă problemă este că analiștii sunt bine în lumea numerelor, dar nu sunt întotdeauna confortabili în afaceri. Acești oameni sunt adesea introvertiți, au dificultăți de comunicare și, prin urmare, au dificultăți în comunicarea convingătoare a rezultatelor cercetării către clienți. Pentru a dezvolta aceste abilități, aș recomanda cărți precum Principiul piramidei, Vorbiți limbajul diagramelor. Ele ajută la dezvoltarea abilităților de prezentare, exprimă concis și clar gândurile tale.

Participarea la diferite campionate de caz în timpul studiilor mele la Școala Superioară de Economie m-a ajutat foarte mult. Campionatele de caz sunt competiții intelectuale pentru studenți pentru a studia problemele de afaceri și a propune soluții. Acestea vin în două variante: campionate de carcase pentru firme de consultanță precum McKinsey, BCG, Accenture și campionate de carcase independente precum Changellenge. În timpul participării mele la ei, am învățat să văd și să decid sarcini provocatoare- de la identificarea problemei și structurarea acesteia până la protecția recomandărilor pentru soluționarea ei.

Oleg Mikhalskiy pe piața rusă și specificul creării unui nou produs în domeniul big data

Înainte de a mă alătura Acronis, eram deja implicat în lansări de produse noi la alte companii. Este întotdeauna interesant și dificil în același timp, așa că am fost imediat interesat de oportunitatea de a lucra servicii cloudși soluții de depozitare. În acest domeniu, toată experiența mea anterioară în industria IT a fost utilă, inclusiv propriul meu proiect de pornire I-accelerator. De asemenea, a ajutat să aveți o educație în afaceri (MBA), în plus față de ingineria de bază.

În Rusia, companiile mari - bănci, operatori de telefonie mobilă etc. - au nevoie de analize de date mari, astfel că există perspective în țara noastră pentru cei care doresc să lucreze în acest domeniu. Este adevărat, multe proiecte sunt acum integrare, adică realizate pe baza dezvoltărilor străine sau a tehnologiilor open source. În astfel de proiecte, în mod fundamental nu se creează noi abordări și tehnologii, ci sunt adaptate mai degrabă dezvoltările existente. La Acronis, am mers pe altă cale și, după ce am analizat alternativele disponibile, am decis să investim în propria noastră dezvoltare, creând un sistem ca rezultat depozitare sigură pentru big data, care nu este inferior în prețul de cost, de exemplu, Amazon S3, dar funcționează fiabil și eficient și la o scară semnificativ mai mică. Companiile mari de internet au, de asemenea, propriile lor dezvoltări în ceea ce privește datele mari, dar sunt mai concentrate pe nevoile interne decât pe satisfacerea nevoilor clienților externi.

Este important să înțelegem tendințele și forțele economice care afectează domeniul prelucrării datelor mari. Pentru a face acest lucru, trebuie să citiți foarte mult, să ascultați discursurile experților autorizați din industria IT, să participați la conferințe tematice. Acum aproape fiecare conferință are o secțiune despre Big Data, dar toți vorbesc despre asta dintr-un unghi diferit: în ceea ce privește tehnologia, afacerile sau marketingul. Puteți merge pentru proiecte sau stagii la o companie care desfășoară deja proiecte pe această temă. Dacă ești încrezător în abilitățile tale, atunci nu este prea târziu să organizezi un startup în domeniul Big Data.

Fără contact constant cu piața dezvoltarea nouă riscă să nu fie reclamată

Cu toate acestea, atunci când sunteți responsabil pentru un produs nou, este dedicat mult timp analizei de piață și comunicării cu potențiali clienți, parteneri, analiști profesioniști care știu multe despre clienți și nevoile acestora. Fără un contact constant cu piața, o nouă dezvoltare riscă să nu fie reclamată. Există întotdeauna o mulțime de incertitudini: trebuie să înțelegeți cine vor fi primii utilizatori (early adopters), ce aveți de preț pentru ei și cum să atrageți apoi un public în masă. A doua sarcină cea mai importantă este de a forma și transmite dezvoltatorilor o viziune clară și holistică a produsului final pentru a-i motiva să lucreze în astfel de condiții atunci când unele cerințe se pot schimba în continuare, iar prioritățile depind de feedback-ul primilor clienți. Prin urmare, o sarcină importantă este gestionarea așteptărilor clienților, pe de o parte, și a dezvoltatorilor, pe de altă parte. Astfel încât nici unul, nici celălalt nu și-au pierdut interesul și au dus la finalizarea proiectului. După primul proiect de succes, devine mai ușor și principala provocare va fi găsirea modelului potrivit de creștere pentru noua afacere.

Date mare- Engleză. "Date mare". Termenul a apărut ca o alternativă la SGBD și a devenit una dintre tendințele principale în infrastructura IT, când majoritatea giganților din industrie - IBM, Microsoft, HP, Oracle și alții au început să folosească acest concept în strategiile lor. Big Data este înțeleasă ca o matrice de date imensă (sute de terabytes) care nu poate fi procesată folosind metode tradiționale; uneori - instrumentele și metodele de prelucrare a acestor date.

Exemple de surse Big Data: evenimente RFID, mesaje în rețelele sociale, statistici meteorologice, informații despre locația abonaților rețelelor mobile comunicare celularăși date de pe dispozitive de înregistrare audio / video. Prin urmare, „big data” este utilizat pe scară largă în producție, asistență medicală, guvern, afaceri pe internet - în special atunci când se analizează publicul țintă.

Caracteristică

Semnele de date mari sunt definite ca „trei V”: Volum - volum (foarte mare); varietate - diversitate, multe; viteză - viteză (este necesară prelucrarea foarte rapidă).

Big data este adesea nestructurat și necesită algoritmi speciali pentru a le procesa. Metodele de analiză a datelor mari includ:

(„Data mining”) - un set de abordări pentru descoperirea cunoștințelor utile ascunse care nu pot fi obținute prin metode standard;
Crowdsourcing (mulțime - „mulțime”, aprovizionare - utilizare ca sursă) - rezolvarea problemelor semnificative prin eforturile comune ale voluntarilor care nu se află într-un contract de muncă obligatoriu și relații, coordonarea activităților folosind instrumente IT;
Fuziunea și integrarea datelor („amestecarea și încorporarea datelor”) - un set de metode pentru conectarea mai multor surse în cadrul analizei profunde;
Învățarea automată („învățarea automată”) - o subdiviziune a cercetării inteligenței artificiale, care studiază metodele de utilizare a analizei statisticilor și obținerea previziunilor pe baza modelelor de bază;
recunoașterea modelelor (de exemplu, recunoașterea feței în vizorul unei camere sau al unei camere video);
analiza spațială - utilizarea topologiei, geometriei și geografiei pentru a construi date;
vizualizarea datelor - ieșirea de informații analitice sub formă de ilustrații și diagrame folosind instrumente interactive și animație pentru a urmări rezultatele și a construi fundația pentru monitorizarea ulterioară.

Stocarea și analiza informațiilor se efectuează pe un număr mare de servere de înaltă performanță. Tehnologia cheie este Hadoop, open source.

Deoarece cantitatea de informații va crește doar în timp, dificultatea nu constă în obținerea datelor, ci în modul de procesare a acestora cu un beneficiu maxim. În general, procesul de lucru cu Big Data include: colectarea informațiilor, structurarea acestora, crearea de perspective și contexte, dezvoltarea recomandărilor de acțiune. Chiar înainte de prima etapă, este important să definiți în mod clar scopul lucrării: care sunt datele pentru, de exemplu, definirea publicului țintă al produsului. În caz contrar, există riscul de a obține o mulțime de informații fără a înțelege exact cum poate fi utilizată.