Veliki podaci Veliki podaci. Big Data: analitika i rješenja

Znate ovaj poznati vic? Veliki podaci su poput seksa ispod 18 godina:

svi o tome razmišljaju;
svi pričaju o tome;
svi misle da to rade njihovi prijatelji;
skoro niko to ne radi;
onaj ko to radi loše radi;
svi misle da će sljedeći put biti bolje;
niko ne poduzima sigurnosne mjere;
bilo koga je sram priznati da nešto ne zna;
ako neko uspije, uvijek pravi veliku buku.

Ali budimo iskreni, s bilo kakvom preopterećenjem uvijek će postojati uobičajena znatiželja: kakva gužva i ima li tu nešto zaista važno? Ukratko, da, postoji. Detalji su ispod. Za vas smo odabrali najnevjerojatnije i najzanimljivije primjene tehnologija velikih podataka. Ovo malo istraživanje tržišta na jasnim primjerima suočava se s jednostavnom činjenicom: budućnost ne dolazi, nema potrebe "čekati još n godina i magija će postati stvarnost". Ne, već je došlo, ali je oku još uvijek neprimjetno, pa stoga sinteriranje singularnosti još uvijek ne peče toliko poznatu točku tržišta rada. Idi.

1 Kako se tehnologije velikih podataka primjenjuju tamo gdje su nastale

Velike IT kompanije su mjesto gdje je rođena znanost o podacima, pa je njihova unutrašnjost najzanimljivija u ovoj oblasti. Google kampanja, dom paradigme Map Reduce, čija je jedina svrha educirati svoje programere o tehnologijama strojnog učenja. I to je njihova konkurentska prednost: nakon stjecanja novih znanja zaposlenici će implementirati nove metode u one Googleove projekte na kojima stalno rade. Zamislite ogroman popis područja u kojima kampanja može revolucionirati. Jedan primjer: koriste se neuronske mreže.

Korporacija takođe implementira mašinsko učenje u sve svoje proizvode. Njegova prednost je prisutnost velikog ekosistema koji uključuje sve digitalne uređaje koji se koriste u svakodnevnom životu. To omogućava Appleu da dosegne nemogući nivo: kampanja ima onoliko korisničkih podataka kao i bilo koja druga. Istovremeno, politika privatnosti je vrlo stroga: korporacija se uvijek hvalila da ne koristi podatke korisnika u reklamne svrhe. U skladu s tim, korisnički podaci su šifrirani tako da ih Appleovi odvjetnici ili čak FBI sa nalogom ne mogu pročitati. By you will find odličan pregled Apple -ov razvoj AI.

2 Veliki podaci na 4 točka

Savremeni automobil akumulator je informacija: akumulira sve podatke o vozaču, okolini, povezanim uređajima i o sebi. Uskoro će jedno vozilo, povezano na mrežu poput ove, generirati do 25 GB podataka na sat.

Transportnu telematiku proizvođači automobila koriste već dugi niz godina, ali lobira se sofisticiranija metoda prikupljanja podataka koja u potpunosti koristi velike podatke. To znači da tehnologija sada može upozoriti vozača na loše uslove na putu automatskim aktiviranjem sistema protiv blokiranja kočenja i proklizavanja.

Druge brige, uključujući BMW, koriste tehnologiju Big Data, u kombinaciji s podacima prikupljenim iz testnih prototipova, memorijom grešaka u automobilu i pritužbama kupaca, kako bi se identificirale slabosti modela u ranoj fazi proizvodnje. Sada se umjesto ručne procjene podataka koji traju mjesecima primjenjuje savremeni algoritam. Smanjuju se greške i troškovi rješavanja problema, što ubrzava tijek analize podataka u BMW -u.

Prema procjenama stručnjaka, do 2019. godine tržišni promet povezanih automobila dosegnut će 130 milijardi dolara, što ne čudi s obzirom na tempo integracije proizvođača automobila tehnologija koje su sastavni dio vozila.

Korištenje Big Data -a pomaže da stroj bude sigurniji i funkcionalniji. Dakle, Toyota ugrađivanjem informaciono komunikacionih modula (DCM). Ovaj alat, koji se koristi za velike podatke, obrađuje i analizira podatke koje je prikupio DCM kako bi od toga imao dodatne koristi.

3 Primjena velikih podataka u medicini

Implementacija Big Data tehnologija u medicini omogućava ljekarima da detaljnije prouče bolest i odaberu efikasan način liječenja za određeni slučaj. Analizom informacija zdravstvenim radnicima postaje lakše predvidjeti recidiv i poduzeti preventivne mjere. Rezultat je preciznija dijagnoza i poboljšani tretmani.

Nova tehnika omogućila je sagledavanje problema pacijenata iz drugog kuta, što je dovelo do otkrića ranije nepoznatih izvora problema. Na primjer, neke rase su genetski sklonije srčanim oboljenjima od drugih etničkih grupa. Sada, kada se pacijent žali na određenu bolest, liječnici uzimaju u obzir podatke o pripadnicima njegove rase koji su se žalili na isti problem. Prikupljanje i analiza podataka omogućuje vam da saznate mnogo više o pacijentima: od preferencija hrane i načina života do genetske strukture DNK i metabolita stanica, tkiva, organa. Na primjer, Centar za pedijatrijsku genomsku medicinu u Kansas Cityju koristi pacijente i analizira mutacije u genetskom kodu koje uzrokuju rak. Individualni pristup svakom pacijentu, uzimajući u obzir njegovu DNK, podići će učinkovitost liječenja na kvalitativno novu razinu.

Razumijevanje načina na koji se koriste veliki podaci prva je i najvažnija promjena u medicini. Kada se pacijent nalazi na liječenju, bolnica ili druga zdravstvena ustanova mogu dobiti puno značajnih informacija o toj osobi. Prikupljeni podaci koriste se za predviđanje recidiva bolesti s određenim stepenom tačnosti. Na primjer, ako je pacijent doživio moždani udar, liječnici proučavaju informacije o vremenu cerebrovaskularne nesreće, analiziraju među razdoblje između prethodnih presedana (ako ih ima), obraćajući posebnu pozornost na stresne situacije i teške tjelesne aktivnosti u životu pacijenta. Na osnovu ovih podataka, bolnice daju pacijentu jasan plan djelovanja kako bi se spriječila mogućnost moždanog udara u budućnosti.

Nosivi uređaji također igraju ulogu u identifikaciji zdravstvenih problema, čak i ako osoba nema očigledne simptome određene bolesti. Umjesto da procjenjuje stanje pacijenta kroz duge preglede, liječnik može donijeti zaključke na temelju podataka koje je prikupio uređaj za praćenje fitnessa ili pametni sat.

Jedan od najnovijih primjera je. Dok je pacijent bio na pregledu zbog novog napada zbog propuštenih lijekova, ljekari su otkrili da je muškarac imao mnogo ozbiljniji zdravstveni problem. Pokazalo se da je ovaj problem atrijalna fibrilacija. Dijagnoza je postavljena zbog činjenice da je osoblje odjela dobilo pristup pacijentovom telefonu, odnosno aplikaciji uparenoj s njegovim uređajem za praćenje kondicije. Pokazalo se da su podaci iz aplikacije ključni faktor za utvrđivanje dijagnoze, jer u vrijeme pregleda muškarac nije imao srčanih abnormalnosti.

Ovo je samo jedan od rijetkih slučajeva koji pokazuje zašto koristiti Big Data u medicini danas igra tako značajnu ulogu.

4 Analiza podataka već je postala okosnica maloprodaje

Razumijevanje upita i ciljanja korisnika jedno je od najvećih i široko objavljenih područja primjene alata za velike podatke. Big Data pomaže analizirati navike kupaca kako bi se bolje razumjele potrebe potrošača u budućnosti. Kompanije nastoje proširiti tradicionalni skup podataka s poviješću pretraživanja društvenih medija i preglednika kako bi stvorile što potpuniju sliku o korisnicima. Ponekad se velike organizacije odlučuju stvoriti vlastiti model predviđanja kao globalni cilj.

Na primjer, trgovine lanaca Target uz pomoć dubinske analize podataka i vlastitog sistema predviđanja uspijevaju s velikom točnošću utvrditi -. Svakom klijentu se dodjeljuje ID koji je zauzvrat vezan uz kreditnu karticu, ime ili adresu e -pošte. Identifikator služi kao neka vrsta korpe za kupovinu, u kojoj se pohranjuju informacije o svemu što je osoba ikada kupila. Mrežni stručnjaci otkrili su da žene koje su u poziciji aktivno nabavljaju proizvode bez okusa prije drugog tromjesečja trudnoće, a tijekom prvih 20 tjedana oslanjaju se na suplemente kalcija, cinka i magnezija. Na temelju primljenih podataka, Target kupcima šalje kupone za proizvode za bebe. Isti popusti na dječju robu "razrijeđeni" su kuponima za druge proizvode, tako da ponude za kupnju krevetića ili pelena ne izgledaju previše nametljivo.

Čak su i vladini odjeli pronašli način da koriste tehnologije velikih podataka za optimizaciju izbornih kampanja. Neki vjeruju da je pobjeda Baracka Obame na američkim predsjedničkim izborima 2012. godine posljedica izvrsnog rada njegovog tima analitičara, koji je na pravi način obradio ogromne količine podataka.

5 Veliki podaci o čuvanju reda i mira

Posljednjih nekoliko godina agencije za provođenje zakona smislile su kako i kada koristiti Big Data. Opće je poznato da Agencija za nacionalnu sigurnost koristi Big Data tehnologiju za sprječavanje terorističkih napada. Druge agencije koriste progresivnu metodologiju za sprječavanje manjih zločina.

Policija Los Angelesa se prijavljuje. Uključena je u ono što se obično naziva proaktivnim provođenjem zakona. Koristeći izvještaje o kriminalu za određeni vremenski period, algoritam identificira područja u kojima je vjerovatnoća izvršenja zločina najveća. Sistem označava takva područja na karti grada malim crvenim kvadratima i ti se podaci odmah prenose u patrolna vozila.

Cops chicago koristiti tehnologije velikih podataka na malo drugačiji način. Sprovođenje zakona ima City of Winds, ali ima za cilj da ocrta „krug rizika“ ljudi koji bi mogli biti žrtva ili učesnik oružanog napada. Prema The New York Times -u, ovaj algoritam dodjeljuje ocjenu ugroženosti osobi na osnovu njene kriminalne istorije (hapšenja i učešće u pucnjavi, koji pripadaju kriminalnim grupama). Programer sistema uvjerava da, iako sistem ispituje kriminalnu istoriju pojedinca, ne uzima u obzir manje faktore kao što su rasa, pol, etnička pripadnost i lokacija osobe.

6 Kako tehnologije velikih podataka pomažu gradovima u razvoju

Izvršni direktor Veniam-a João Barros prikazuje mapu praćenja Wi-Fi usmjerivača u autobusima u Portu

Analiza podataka se također koristi za poboljšanje brojnih aspekata funkcioniranja gradova i država. Na primjer, znajući kako i kada koristiti tehnologije velikih podataka, možete optimizirati transportne tokove. U tu svrhu uzima se u obzir kretanje vozila putem interneta, analiziraju se društveni mediji i meteorološki podaci. Danas je veliki broj gradova započeo upotrebu analize podataka za integraciju transportne infrastrukture sa drugim vrstama komunalnih usluga u koherentnu cjelinu. To je koncept pametnog grada u kojem autobusi čekaju kasni voz, a semafori mogu predvidjeti zastoje u saobraćaju kako bi se zagušenja svela na minimum.

Long Beach koristi Big Data tehnologije za rad pametnih vodomjera koji se koriste za suzbijanje ilegalnog navodnjavanja. Ranije su se koristili za smanjenje potrošnje vode u privatnim domaćinstvima (maksimalni rezultat je smanjenje od 80%). Ušteda slatke vode uvijek je aktuelno pitanje. Pogotovo kada država doživljava najveću sušu koja je ikada zabilježena.

Predstavnici Odjela za transport Los Angelesa pridružili su se spisku onih koji koriste Big Data. Na osnovu podataka dobijenih od senzora prometnih kamera, vlasti nadgledaju rad semafora, što zauzvrat omogućava regulisanje saobraćaja. Pod kontrolom kompjuterizovanog sistema, postoji oko 4.500.000 semafora širom grada. Prema službenim podacima, novi algoritam pomogao je u smanjenju zagušenja za 16%.

7 Motor napretka u marketingu i prodaji

U marketingu, alati velikih podataka omogućuju vam da identificirate koje su ideje najučinkovitije u određenoj fazi prodajnog ciklusa. Analiza podataka identificira kako ulaganja mogu poboljšati upravljanje odnosima s klijentima, koju strategiju koristiti za povećanje stope konverzije i kako optimizirati životni ciklus korisnika. U poslu u oblaku, Big Data algoritmi koriste se za otkrivanje kako smanjiti troškove akvizicije kupaca i povećati životni ciklus korisnika.

Diferenciranje cjenovnih strategija ovisno o unutarsistemskom nivou klijenta možda je glavna stvar za koju se Big Data koristi u području marketinga. McKinsey je otkrio da oko 75% prihoda prosječne firme dolazi od osnovnih proizvoda, od kojih je 30% netočno određeno. Povećanje cijene od 1% prevodi se u povećanje operativne dobiti od 8,7%.

Forresterov istraživački tim utvrdio je da analiza podataka omogućava marketinškim stručnjacima da se usredotoče na to kako poboljšati odnose s kupcima. Ispitujući smjer razvoja kupaca, stručnjaci mogu procijeniti njihov nivo lojalnosti, kao i produžiti životni ciklus u kontekstu određene kompanije.

Optimizacija prodajnih strategija i faze ulaska na nova tržišta primjenom geoanalitike odražavaju se na biofarmaceutsku industriju. Prema McKinseyju, farmaceutske kompanije troše u prosjeku 20 do 30% svog profita na administraciju i prodaju. Ako poduzeća počnu aktivnije koristiti Big Data kako bi se identificirala najprofitabilnija i najbrže rastuća tržišta, troškovi će se odmah smanjiti.

Analiza podataka je način na koji kompanije mogu steći potpuno razumijevanje ključnih aspekata svog poslovanja. Povećanje prihoda, smanjenje troškova i smanjenje obrtnog kapitala tri su izazova koja moderno poslovanje pokušava riješiti analitičkim alatima.

Konačno, 58% CMO-a tvrdi da se implementacija Big Data tehnologija može pratiti u optimizaciji tražilica (SEO), e-pošti i mobilnom marketingu, gdje analiza podataka igra najznačajniju ulogu u formiranju marketinških programa. A samo 4% manje ispitanika uvjereno je da će Big Data imati značajnu ulogu u svim marketinškim strategijama još mnogo godina.

8 Analiza podataka na planetarnoj razini

Ništa manje radoznalo nije. Moguće je da će mašinsko učenje na kraju biti jedina sila sposobna održati osjetljivu ravnotežu. Tema utjecaja čovjeka na globalno zagrijavanje još je uvijek predmet kontroverzi, pa samo pouzdani modeli predviđanja zasnovani na analizi velike količine podataka mogu dati točan odgovor. Na kraju, smanjenje emisija pomoći će nam svima: potrošit ćemo manje na energiju.

Sada Big Data nije apstraktan koncept koji bi mogao pronaći svoju primjenu za nekoliko godina. Ovo je savršeno funkcionirajući skup tehnologija koje mogu biti korisne u gotovo svim sferama ljudske aktivnosti: od medicine i provođenja zakona do marketinga i prodaje. Faza aktivne integracije Big Data -a u naš svakodnevni život tek je počela, a tko zna kakva će biti uloga Big Data -a za nekoliko godina?

Veliki podaci su široki pojam za nekonvencionalne strategije i tehnologije potrebne za prikupljanje, organiziranje i obradu informacija iz velikih skupova podataka. Iako problem bavljenja podacima koji premašuju procesorsku snagu ili kapacitet skladištenja jednog računara nije nov, posljednjih godina opseg i vrijednost ove vrste računanja značajno su se proširili.

U ovom članku pronaći ćete osnovne koncepte s kojima se možete susresti prilikom istraživanja velikih podataka. Također se raspravlja o nekim procesima i tehnologijama koje se trenutno koriste u ovoj oblasti.

Šta su Big Data?

Preciznu definiciju velikih podataka teško je artikulirati jer je projekti, prodavači, praktičari i poslovni stručnjaci koriste na vrlo različite načine. Imajući ovo na umu, veliki podaci se mogu definirati kao:

Veliki skupovi podataka.
Kategorija računskih strategija i tehnologija koje se koriste za obradu velikih skupova podataka.

U tom kontekstu, "veliki skup podataka" znači skup podataka koji je prevelik da bi se mogao obraditi ili pohraniti pomoću tradicionalnih alata ili na jednom računaru. To znači da se ukupna skala velikih skupova podataka stalno mijenja i može značajno varirati od slučaja do slučaja.

Sistemi velikih podataka

Osnovni zahtjevi za rad s velikim podacima isti su kao i za bilo koji drugi skup podataka. Međutim, velika razmjera, brzina obrade i karakteristike podataka na koje se nailazi u svakoj fazi procesa predstavljaju velike nove izazove u dizajnu alata. Cilj većine sustava velikih podataka je razumjeti i povezati se s velikim količinama heterogenih podataka, što ne bi bilo moguće konvencionalnim metodama.

Godine 2001., Gartnerov Doug Laney predstavio je "Tri V velikih podataka" kako bi opisao neke karakteristike koje razlikuju obradu velikih podataka od drugih vrsta obrade podataka:

Volumen (volumen podataka).
Brzina (brzina prikupljanja i obrade podataka).
Raznolikost (raznolikost vrsta obrađenih podataka).

Obim podataka

Sama skala obrađenih informacija pomaže u definiranju sistema velikih podataka. Ovi skupovi podataka mogu biti za red veličine veći od tradicionalnih skupova podataka, zahtijevajući više pažnje u svakoj fazi obrade i pohrane.

Budući da zahtjevi premašuju mogućnosti jednog računara, često je teško kombinirati, raspodijeliti i koordinirati resurse iz grupa računara. Kontrola klastera i algoritmi sposobni za razbijanje zadataka na manje dijelove postaju sve važniji u ovoj oblasti.

Brzina akumulacije i obrade

Druga karakteristika koja značajno razlikuje velike podatke od drugih sistema podataka je brzina kojom se informacije kreću kroz sistem. Podaci često dolaze u sistem iz više izvora i moraju se obraditi u stvarnom vremenu kako bi se ažuriralo trenutno stanje sistema.

Ovaj fokus na instant povratne informacije primorao mnoge praktičare da napuste paketno orijentisan pristup i preferiraju sistem za striming u realnom vremenu. Podaci se stalno dodaju, obrađuju i analiziraju kako bi bili u toku s prilivom novih informacija i dobili vrijedne podatke u ranoj fazi, kada su oni najrelevantniji. Ovo zahtijeva pouzdane sisteme sa visoko dostupnim komponentama za zaštitu od kvarova duž cjevovoda podataka.

Različite vrste obrađenih podataka

Mnogo je jedinstvenih izazova u velikim podacima koji se odnose na širok raspon obrađenih izvora i njihovu relativnu kvalitetu.

Podaci mogu dolaziti iz internih sistema, poput dnevnika aplikacija i servera, iz kanala društvenih medija i drugih vanjskih API -ja, iz senzora fizičkim uređajima i iz drugih izvora. Svrha sistema velikih podataka je obrada potencijalno korisnih podataka, bez obzira na porijeklo, kombinovanjem svih informacija u jedan sistem.

Formati i vrste medija takođe se mogu značajno razlikovati. Mediji (slike, video i audio) kombiniraju se s tekstualnim datotekama, strukturiranim zapisnicima itd. Tradicionalniji sistemi za obradu podataka očekuju da će podaci ući u cjevovod već označeni, formatirani i organizirani, ali sistemi velikih podataka obično prihvaćaju i pohranjuju podatke pokušavajući zadržati prvobitno stanje. U idealnom slučaju, sve transformacije ili promjene sirovih podataka dogodit će se u memoriji tijekom obrade.

Ostale karakteristike

Vremenom su stručnjaci i organizacije predložili proširenje izvornih Tri V -a, iako ove inovacije teže opisuju probleme, a ne karakteristike velikih podataka.

Istinitost: Različiti izvori i složenost obrade mogu dovesti do problema u procjeni kvalitete podataka (a time i kvalitete rezultirajuće analize).
Varijabilnost: Promjena podataka dovodi do velikih promjena u kvaliteti. Identificiranje, obrada ili filtriranje podataka niske kvalitete mogu zahtijevati dodatne resurse koji mogu poboljšati kvalitetu podataka.
Vrijednost: Krajnji cilj velikih podataka je vrijednost. Ponekad su sistemi i procesi vrlo složeni, što otežava korištenje podataka i izdvajanje stvarnih vrijednosti.

Životni ciklus velikih podataka

Dakle, kako se zapravo obrađuju veliki podaci? Postoji nekoliko različitih pristupa implementaciji, ali postoje sličnosti u strategijama i softveru.

Unos podataka u sistem
Spremanje podataka u pohranu
Izračunavanje i analiza podataka
Vizualizacija rezultata

Prije nego što se detaljno upustimo u ove četiri kategorije tijeka rada, razgovarajmo o klasterskom računarstvu, važnoj strategiji koju koriste mnogi alati za velike podatke. Postavljanje računarskog klastera okosnica je tehnologije koja se koristi u svakoj fazi životnog ciklusa.

Klaster računarstvo

Zbog kvalitete velikih podataka, pojedinačna računala nisu prikladna za obradu podataka. Klasteri su prikladniji za to jer se mogu nositi s potrebama skladištenja i računanja velikih podataka.

Softver za grupiranje velikih podataka objedinjuje resurse mnogih malih strojeva s ciljem pružanja niza prednosti:

Udruživanje resursa: Za obradu velikih skupova podataka potrebna je velika količina procesora i memorijskih resursa, kao i puno raspoloživog skladišnog prostora.
Visoka dostupnost: Klasteri mogu pružiti različite nivoe tolerancije grešaka i dostupnosti, tako da kvarovi hardvera ili softvera neće utjecati na pristup i obradu podataka. Ovo je posebno važno za analitiku u stvarnom vremenu.
Skalabilnost: Klasteri podržavaju brzo proširenje (dodavanje novih mašina u klaster).

Rad u klasteru zahtijeva alate za upravljanje članstvom u klasteru, koordinaciju raspodjele resursa i zakazivanje rada s pojedinim čvorovima. Članstvom u klasteru i raspodjelom resursa može se upravljati pomoću programa poput Hadoop YARN (još jedan pregovarač resursa) ili Apache Mesosa.

Montažni računski klaster često djeluje kao temelj s kojim drugi stupa u interakciju za obradu podataka. softvera... Mašine koje učestvuju u računarskom klasteru takođe su obično povezane sa upravljanjem distribuiranim sistemom za skladištenje.

Preuzimanje podataka

Primanje podataka je proces dodavanja sirovih podataka u sistem. Složenost ove operacije uvelike ovisi o formatu i kvaliteti izvora podataka i o tome koliko podaci ispunjavaju zahtjeve za obradu.

Možete dodati velike podatke sistemu pomoću posebnih alata. Tehnologije poput Apache Sqoop -a mogu uzeti postojeće podatke iz relacijskih baza podataka i dodati ih u sistem velikih podataka. Također možete koristiti Apache Flume i Apache Chukwa - projekte dizajnirane za skupljanje i uvoz dnevnika aplikacija i poslužitelja. Brokeri za poruke kao što je Apache Kafka mogu se koristiti kao sučelje između različitih generatora podataka i sistema velikih podataka. Okviri poput Gobblina mogu kombinirati i optimizirati izlaz svih alata na kraju cjevovoda.

Analiza, sortiranje i označavanje obično se rade tokom prikupljanja podataka. Ovaj proces se ponekad naziva ETL (ekstrakt, transformacija, učitavanje), što znači izdvajanje, transformacija i učitavanje. Iako se izraz obično odnosi na naslijeđene procese skladištenja, ponekad se primjenjuje i na sisteme velikih podataka. Tipične operacije uključuju izmjenu dolaznih podataka za oblikovanje, kategoriziranje i označavanje, filtriranje ili provjeru podataka radi usklađenosti.

U idealnom slučaju, dolazni podaci prolaze kroz minimalno oblikovanje.

Pohrana podataka

Nakon primanja, podaci se prosljeđuju komponentama koje upravljaju spremištem.

Distribuirani sistemi datoteka obično se koriste za pohranu neobrađenih podataka. Rješenja poput HDFS -a iz Apache Hadoopa omogućuju pisanje velikih količina podataka na više čvorova u klasteru. Ovaj sistem pruža računskim resursima pristup podacima, može učitavati podatke u RAM klastera radi memorijskih operacija i rješavati greške komponenti. Drugi distribuirani datotečni sistemi mogu se koristiti umjesto HDFS -a, uključujući Ceph i GlusterFS.

Podaci se također mogu uvesti u druge distribuirane sisteme radi strukturiranijeg pristupa. Distribuirane baze podataka, posebno baze podataka NoSQL, dobro su prilagođene ovoj ulozi jer mogu rukovati heterogenim podacima. Postoji mnogo različitih vrsta distribuiranih baza podataka, izbor ovisi o tome kako želite organizirati i prezentirati svoje podatke.

Izračunavanje i analiza podataka

Kada podaci budu dostupni, sistem može započeti obradu. Računski sloj je možda najslobodniji dio sistema, jer se zahtjevi i pristupi ovdje mogu značajno razlikovati ovisno o vrsti informacija. Podaci se često ponovno obrađuju, bilo s jednim alatom, ili s nizom alata za obradu različitih vrsta podataka.

Paketna obrada jedna je od metoda za izračunavanje velikih skupova podataka. Ovaj proces uključuje razbijanje podataka na manje dijelove, zakazivanje obrade svakog komada na zasebnoj mašini, preuređivanje podataka na osnovu srednji rezultati a zatim izračunavanje i prikupljanje konačnog rezultata. Ovu strategiju koristi MapReduce iz Apache Hadoopa. Paketna obrada je najkorisnija pri radu s vrlo velikim skupovima podataka koji zahtijevaju puno računanja.

Ostala radna opterećenja zahtijevaju obradu u stvarnom vremenu. Istovremeno, informacije treba odmah obraditi i pripremiti, a sistem bi trebao pravovremeno reagirati kad nove informacije postanu dostupne. Jedan od načina implementacije obrade u stvarnom vremenu je obrada kontinuiranog toka podataka koji se sastoji od pojedini elementi... Još jedna zajednička karakteristika procesora u stvarnom vremenu je računanje podataka u memoriji klastera, čime se izbjegava potreba za upisivanjem na disk.

Ponude Apache Storm, Apache Flink i Apache Spark Različiti putevi implementacija obrade u realnom vremenu. Ove fleksibilne tehnologije omogućuju vam da odaberete najbolji pristup za svaki poseban problem... Općenito, obrada u stvarnom vremenu najprikladnija je za analizu malih komada podataka koji se mijenjaju ili se brzo dodaju sistemu.

Svi ovi programi su okviri. Međutim, postoji mnogo drugih načina za izračunavanje ili analizu podataka u sistemu velikih podataka. Ovi alati često se uključuju u gornje okvire i pružaju dodatna sučelja za interakciju s podložnim slojevima. Na primjer, Apache Hive pruža sučelje skladišta podataka za Hadoop, Apache Pig pruža sučelje za upite i interakcije sa SQL podaci isporučuje se sa Apache Drill, Apache Impala, Apache Spark SQL i Presto. Strojno učenje koristi Apache SystemML, Apache Mahout i MLlib iz Apache Spark. Za izravno analitičko programiranje, koje široko podržava ekosistem podataka, koriste se R i Python.

Vizualizacija rezultata

Prepoznavanje trendova ili promjena podataka s vremenom često je važnije od dobivenih vrijednosti. Vizualizacija podataka jedan je od najkorisnijih načina za identifikaciju trendova i organiziranje velikog broja podatkovnih točaka.

Obrada u stvarnom vremenu koristi se za vizualizaciju metrike aplikacija i servera. Podaci se često mijenjaju, a veliki rasponi u mjernim podacima obično ukazuju na značajan utjecaj na zdravlje sistema ili organizacija. Projekti poput Prometeja mogu se koristiti za obradu i vizualizaciju tokova podataka i vremenskih serija.

Jedan od popularnih načina vizualizacije podataka je Elastic stack, ranije poznat kao ELK stek. Logstash se koristi za prikupljanje podataka, Elasticsearch za indeksiranje podataka, a Kibana za vizualizaciju. Elastični stog može raditi s velikim podacima, vizualizirati rezultate izračuna ili interakciju sa sirovim metrikama. Sličan se hrpa može dobiti kombiniranjem Apache Solra za indeksiranje s račvom Kibane zvanom Banana za iscrtavanje. Ovaj hrpa se zove Svila.

Druga tehnologija vizualizacije za interaktivni rad s podacima su dokumenti. Takvi projekti omogućuju interaktivno istraživanje i vizualizaciju podataka u formatu koji je jednostavan za razmjenu i prezentaciju podataka. Popularni primjeri ove vrste sučelja su Jupyter Notebook i Apache Zeppelin.

Rečnik velikih podataka

Veliki podaci su široki pojam za skupove podataka koji se ne mogu pravilno obraditi konvencionalni računari ili instrumenti zbog njihove zapremine, stope ulaska i raznolikosti. Izraz se također uobičajeno primjenjuje na tehnologije i strategije rada s takvim podacima.
Paketna obrada je računska strategija koja uključuje obradu podataka u velikim skupovima podataka. Obično je ova metoda idealna za rad s podacima koji nisu hitni.
Klastersko računarstvo je praksa udruživanja resursa više mašina i upravljanja njihovim zajedničkim mogućnostima za izvršavanje zadataka. Ovo zahtijeva sloj za upravljanje klasterima koji upravlja komunikacijom između pojedinih čvorova.
Jezero podataka veliko je skladište prikupljenih podataka u relativno sirovom stanju. Ovaj izraz se često koristi za označavanje nestrukturiranih velikih podataka koji se često mijenjaju.
Data mining je širok pojam za različite prakse pronalaženja obrazaca u velikim skupovima podataka. Ovo je pokušaj organiziranja mase podataka u razumljiviji i koherentniji skup informacija.
Skladište podataka je veliko, uređeno skladište za analizu i izvještavanje. Za razliku od jezera podataka, skladište se sastoji od formatiranih i dobro uređenih podataka koji su integrirani s drugim izvorima. Skladišta podataka se često nazivaju u vezi s velikim podacima, ali su često komponente konvencionalnih sistema za obradu podataka.
ETL (ekstrakt, transformacija i učitavanje) - ekstrakcija, transformacija i učitavanje podataka. Ovako izgleda proces dobivanja i pripreme sirovih podataka za upotrebu. To ima veze sa skladištima podataka, ali se karakteristike ovog procesa nalaze i u cjevovodima sistema velikih podataka.
Hadoop je otvoreni izvorni Apache projekt za velike podatke. Sastoji se od distribuiranog datotečnog sistema koji se zove HDFS i planera klastera i resursa koji se zove YARN. Mogućnosti paketne obrade pruža MapReduce mehanizam za računanje. Ostali računski i analitički sistemi mogu raditi s MapReduceom u modernim Hadoop implementacijama.
Računanje u memoriji je strategija koja uključuje premještanje svih radnih skupova podataka u memoriju klastera. Međuproračuni se ne zapisuju na disk, već se pohranjuju u memoriji. To daje sistemima veliku prednost u brzini u odnosu na I / O-povezane sisteme.
Mašinsko učenje je istraživanje i praksa dizajniranja sistema koji mogu učiti, prilagođavati i poboljšavati na osnovu podataka koji su mu proslijeđeni. Obično to znači implementaciju prediktivnih i statističkih algoritama.
Map Reduction (ne treba se miješati sa Hadoop MapReduce) je algoritam za zakazivanje računarskog klastera. Proces uključuje podjelu zadatka između čvorova i dobivanje posrednih rezultata, miješanje i zatim ispisivanje jedne vrijednosti za svaki skup.
NoSQL je širok pojam za baze podataka razvijene izvan tradicionalnog relacionog modela. NoSQL baze podataka su vrlo prilagodljive za velike podatke zbog svoje fleksibilnosti i distribuirane arhitekture.
Streaming je praksa izračunavanja pojedinačnih stavki podataka dok se kreću kroz sistem. Ovo omogućava analizu podataka u stvarnom vremenu i pogodno je za rukovanje hitnim transakcijama koristeći metrike velike brzine.

Tagovi :,

Predviđalo se da bi ukupna globalna količina podataka stvorenih i repliciranih 2011. mogla biti oko 1,8 zetabajta (1,8 triliona gigabajta) - oko 9 puta više nego što je stvoreno 2006. godine.

Složenija definicija

Međutim, ` veliki podaci`uključuju više od samog analiziranja ogromnih količina informacija. Problem nije u tome što organizacije stvaraju ogromne količine podataka, već u tome što je većina prikazana u formatu koji ne odgovara dobro tradicionalnom formatu strukturirane baze podataka, kao što su web dnevnici, video zapisi, tekstualni dokumenti, strojni kod ili, na primjer, , geoprostorni podaci .... Sve je to pohranjeno u mnogo različitih spremišta, ponekad čak i izvan organizacije. Kao rezultat toga, korporacije mogu imati pristup velikoj količini svojih podataka i nedostajati im potrebni alati za uspostavljanje odnosa između tih podataka i iz njih izvući značajne zaključke. Dodajte tome činjenicu da se podaci sada sve češće ažuriraju i dobivate situaciju u kojoj tradicionalne metode analize informacija ne mogu pratiti velike količine stalno ažuriranih podataka, što na kraju otvara put tehnologiji. veliki podaci.

Najbolja definicija

U suštini, koncept veliki podaci uključuje rad s informacijama ogromnog obima i raznolikog sastava, vrlo često ažuriranim i lociranim u različitim izvorima kako bi se povećala efikasnost rada, stvorili novi proizvodi i povećala konkurentnost. Konsultantska kompanija Forrester rezimira: ` Veliki podaci kombinirati tehnike i tehnologije koje daju smisao podacima na krajnjoj granici upotrebljivosti. '

Kolika je razlika između poslovne inteligencije i velikih podataka?

Craig Bati, glavni direktor marketinga i glavni direktor tehnologije, Fujitsu Australia, istakao je da je poslovna analiza opisni proces analize rezultata koje je preduzeće postiglo u određenom vremenskom periodu, uz brzinu obrade veliki podaci omogućava vam da analizu učinite predviđanjem sposobnom da ponudi poslovne preporuke za budućnost. Veliki podaci također vam omogućuju analizu više vrsta podataka u odnosu na alate poslovne inteligencije, što vam omogućuje da se usredotočite na više od samo strukturirane pohrane.

Matt Slocum iz O "Reilly Radar vjeruje da iako veliki podaci i poslovna inteligencija imaju isti cilj (pronalaženje odgovora na pitanje), međusobno se razlikuju u tri aspekta.

Veliki podaci su dizajnirani da obrađuju više informacija od poslovne inteligencije, što je, naravno, u skladu s tradicionalnom definicijom velikih podataka.
Veliki podaci su dizajnirani za bržu obradu informacija koje se primaju i mijenjaju, što znači duboko istraživanje i interaktivnost. U nekim slučajevima rezultati se generiraju brže od učitavanja web stranice.
Veliki podaci osmišljeni su za rukovanje nestrukturiranim podacima, čije načine tek počinjemo istraživati nakon što ih prikupimo i pohranimo, a potrebni su nam algoritmi i sposobnost dijaloga kako bismo olakšali traženje trendova sadržanih u tim nizovima.

Prema Oracle Information Architecture: Vodič za arhitekte za velike podatke koji je objavio Oracle, mi pristupamo informacijama drugačije kada radimo s velikim podacima nego kada radimo poslovnu analizu.

Rad s velikim podacima nije poput uobičajenog procesa poslovne inteligencije u kojem jednostavno dodavanje poznatih vrijednosti daje rezultate: na primjer, ukupni računi plaćeni zajedno postaju godišnja prodaja. Prilikom rada s velikim podacima rezultat se dobiva u procesu čišćenja sekvencijalnim modeliranjem: prvo se iznosi hipoteza, gradi se statistički, vizualni ili semantički model na temelju kojeg se utvrđuje ispravnost postavljene hipoteze je označena, a zatim se postavlja sljedeća. Ovaj proces zahtijeva od istraživača ili tumačenje vizualnih vrijednosti ili sastavljanje interaktivnih upita na temelju znanja, ili razvoj prilagodljivih algoritama strojnog učenja sposobnih za postizanje željenog rezultata. Štoviše, vijek trajanja takvog algoritma može biti prilično kratak.

Tehnike analize velikih podataka

Postoji mnogo različitih metoda za analizu skupova podataka, koji se temelje na alatima posuđenim iz statistike i računarstva (na primjer, mašinsko učenje). Lista ne tvrdi da je potpuna, ali odražava najpopularnije pristupe u različitim industrijama. U isto vrijeme, treba shvatiti da istraživači nastavljaju raditi na stvaranju novih tehnika i poboljšanju postojećih. Osim toga, neke od gore navedenih metoda nisu nužno primjenjive isključivo na velike podatke i mogu se uspješno koristiti za manje nizove (na primjer, A / B testiranje, regresijska analiza). Naravno, što se niz analizira opsežnije i raznovrsnije, točniji i relevantniji podaci mogu se dobiti na izlazu.

A / B testiranje... Tehnika u kojoj se kontrolni uzorak upoređuje jedan po jedan s drugima. Tako je moguće identificirati optimalnu kombinaciju pokazatelja za postizanje, na primjer, najboljeg odgovora potrošača na marketinški prijedlog. Veliki podaci omogućuju vam da izvršite veliki broj iteracija i tako dobijete statistički pouzdan rezultat.

Učenje pravila udruživanja... Skup tehnika za identifikaciju odnosa, tj. pravila asocijacije, između varijabli u velikim skupovima podataka. Koristi se u data mining.

Klasifikacija... Skup tehnika koje vam omogućuju predviđanje ponašanja potrošača u određenom segmentu tržišta (donošenje odluka o kupovini, odlivu, potrošnji itd.). Koristi se u data mining.

Klaster analiza... Statistička metoda za klasifikaciju objekata u grupe identificiranjem prethodno nepoznatih zajedničkih obilježja. Koristi se u data mining.

Crowdsourcing... Metodologija prikupljanja podataka iz velikog broja izvora.

Spajanje podataka i integracija podataka... Skup tehnika koje vam omogućuju da analizirate komentare korisnika društvenih mreža i uporedite ih s rezultatima prodaje u stvarnom vremenu.

Data mining... Skup metoda koji vam omogućuje da odredite kategorije potrošača koji su najprihvatljiviji za proizvod ili uslugu koja se promovira, identificirajte karakteristike najuspješnijih zaposlenika i predvidite model ponašanja potrošača.

Ansambl učenje... Ova metoda koristi različite modele predviđanja, čime se poboljšava kvaliteta predviđanja.

Genetski algoritmi... U ovoj tehnici moguća rješenja su predstavljena u obliku 'kromosoma', koji se mogu kombinirati i mutirati. Kao i u procesu prirodne evolucije, najsposobniji preživljava.

Mašinsko učenje... Smjer u informatici (povijesno mu je dodijeljen naziv "umjetna inteligencija"), koji ima za cilj stvaranje algoritama za samoučenje zasnovanih na analizi empirijskih podataka.

Obrada prirodnim jezikom (NLP). Skup tehnika za prepoznavanje prirodnog jezika osobe posuđenih iz računarstva i lingvistike.

Analiza mreže... Skup tehnika za analizu veza između čvorova u mrežama. Što se tiče društvenih mreža, omogućuje vam analizu odnosa između pojedinačnih korisnika, kompanija, zajednica itd.

Optimizacija... Skup numeričkih metoda za redizajniranje složenih sistema i procesa radi poboljšanja jedne ili više metrika. Pomaže u donošenju strateških odluka, na primjer, sastav linije proizvoda predstavljene tržištu, provođenje analize ulaganja itd.

Prepoznavanje uzoraka... Skup tehnika sa elementima samoučenja za predviđanje obrazaca ponašanja potrošača.

Prediktivno modeliranje... Skup tehnika koje vam omogućuju stvaranje matematički model unapred utvrđen verovatni scenario razvoja događaja. Na primjer, analiziranje baze podataka CRM sistema na moguće uvjete koji će natjerati pretplatnike da promijene svog davatelja usluga.

Regresija... Skup statističkih metoda za identifikaciju obrazaca između promjene zavisne varijable i jedne ili više nezavisnih. Često se koristi za predviđanje i predviđanja. Koristi se u rudarenju podataka.

Analiza osjećaja... Metode za procjenu osjećaja potrošača temelje se na tehnologijama za prepoznavanje prirodnog jezika osobe. Omogućuju vam da izolirate poruke koje se odnose na predmet interesa (na primjer, potrošački proizvod) iz općeg toka informacija. Zatim procijenite polaritet presude (pozitivne ili negativne), stupanj emocionalnosti itd.

Obrada signala... Skup tehnika posuđenih iz radiotehnike, koji teži cilju prepoznavanja signala u pozadini šuma i njegovoj daljoj analizi.

Prostorna analiza... Skup metoda za analizu prostornih podataka, djelomično posuđenih iz statistike - topologija terena, geografske koordinate, geometrija objekata. Izvor veliki podaci u ovom slučaju često se koriste geografski informacijski sustavi (GIS).

Revolution Analytics (zasnovan na jeziku R za matematičku statistiku).

Na ovom popisu posebno je zanimljiv Apache Hadoop, softver otvorenog koda koji je većina tragača dionica dokazala kao analizator podataka u posljednjih pet godina. Čim je Yahoo otvorio Hadoop kod za zajednicu otvorenog koda, odmah se u IT industriji pojavila potpuno nova linija proizvoda Hadoop. Gotovo svi moderni alati za analizu veliki podaci pružaju alate za integraciju s Hadoopom. Njihovi programeri su i startupi i poznate svjetske kompanije.

Tržišta upravljanja velikim podacima

Platforme velikih podataka (BDP, Big Data Platform) kao sredstvo borbe protiv digitalnih akorda

Sposobnost analize veliki podaci, kolokvijalno nazvan Big Data, doživljava se kao blagoslov i nedvosmisleno. Ali je li zaista tako? Do čega može dovesti ogromno gomilanje podataka? Najvjerojatnije ono što domaći psiholozi nazivaju patološkim gomilanjem, silogomanijom ili figurativno "Plyushkinovim sindromom". Na engleskom, opaka strast sakupljanja svega naziva se hording (od engleskog hoard - "zaliha"). Prema klasifikaciji mentalnih bolesti, Hording je klasificiran kao mentalni poremećaj. U digitalnoj eri, digitalno (Digitalno gomilanje) dodaje se tradicionalnom akordiranju materijala, i pojedinci i cijela preduzeća i organizacije mogu patiti od toga ().

Svjetsko i rusko tržište

Pejzaž velikih podataka - glavni dobavljači

Interes za prikupljanje, obradu, upravljanje i alate za analizu veliki podaci pokazala gotovo sve vodeće IT kompanije, što je sasvim prirodno. Prvo, direktno se suočavaju s ovom pojavom u svom poslu, a drugo, veliki podaci otvaraju izvrsne mogućnosti za razvoj novih tržišnih niša i privlačenje novih kupaca.

Na tržištu su se pojavili mnogi startupi koji posluju s obradom ogromnih količina podataka. Neki od njih koriste gotovu cloud infrastrukturu koju pružaju veliki igrači poput Amazona.

Teorija i praksa velikih podataka u industriji

Istorija razvoja

2017

TmaxSoft prognoza: sljedeći "val" velikih podataka zahtijevat će modernizaciju DBMS -a

Poduzeća znaju da ogromne količine podataka koje su prikupili sadrže važna informacija o njihovom poslovanju i kupcima. Ako kompanija može uspješno primijeniti ove informacije, tada će imati značajnu prednost u odnosu na konkurenciju, te će moći ponuditi bolje proizvode i usluge od njihovih. Međutim, mnoge organizacije još uvijek ne mogu učinkovito koristiti veliki podaci zbog činjenice da njihova naslijeđena IT infrastruktura nije u stanju osigurati potrebne skladišne kapacitete, procese razmjene podataka, pomoćne programe i aplikacije potrebne za obradu i analizu velikih količina nestrukturiranih podataka kako bi se iz njih izvukli vrijedni podaci, navedeno u TmaxSoft -u.

Osim toga, povećana procesorska snaga potrebna za analizu sve većih količina podataka može zahtijevati značajna ulaganja u naslijeđenu IT infrastrukturu organizacije, kao i dodatna sredstva za održavanje koja bi se mogla koristiti za razvoj novih aplikacija i usluga.

Bijela kuća je 5. februara 2015. objavila izvještaj u kojem se raspravlja o tome kako kompanije koriste “ veliki podaci"Postavljanje različitih cijena za različite kupce - praksa poznata kao" diskriminacija cijena "ili" diferencirano određivanje cijena "(personalizirano određivanje cijena). Izvještaj opisuje prednosti "velikih podataka" i za prodavatelje i za kupce, a njegovi autori zaključuju da se mnoga problematična pitanja koja su se pojavila u vezi s pojavom velikih podataka i razlika u cijenama mogu riješiti u okvirima postojećih zakoni i zakoni o diskriminaciji, zaštita prava potrošača.

U ovom trenutku u izvješću se napominje da postoji malo dokaza o tome kako kompanije koriste velike podatke u kontekstu personaliziranog marketinga i diferenciranih cijena. Ove informacije pokazuju da prodavači koriste metode određivanja cijena koje se mogu podijeliti u tri kategorije:

proučavanje krivulje potražnje;
Upravljanje i diferencirano određivanje cijena na osnovu demografskih podataka; i
bihevioralno ciljanje i individualizirane cijene.

Ispitivanje krive tražnje: Marketinški stručnjaci često eksperimentiraju s potražnjom i ponašanjem potrošača nasumičnim dodjeljivanjem kupaca na jedan od dva moguća nivoa cijena. "Tehnički, ovi eksperimenti su oblik diferenciranih cijena jer rezultiraju različitim cijenama za kupce, čak i ako su" nediskriminatorni "u smislu da će svi kupci podjednako vjerovatno" pogoditi "višu cijenu."

Upravljanje: To je praksa predstavljanja proizvoda potrošačima na osnovu njihove demografske grupe. Na primjer, web stranica računarske kompanije može ponuditi isti laptop. različite vrste kupci po različitim cijenama koje se određuju na temelju informacija koje daju o sebi (na primjer, ovisno o tome je li ovaj korisnik predstavnik vladinih agencija, znanstvenih ili komercijalnih institucija ili privatna osoba) ili na njihovoj geografskoj lokaciji (na primjer, određuje IP adresa računara).

Ciljani bihevioralni marketing i personalizirane cijene: U tim se slučajevima osobni podaci kupaca koriste za ciljano oglašavanje i personalizirane cijene određenih proizvoda. Na primjer, internetski oglašivači koriste prikupljeno oglasne mreže a putem kolačića trećih strana podatke o aktivnosti korisnika na Internetu radi slanja ciljanih reklamnih materijala. Ovaj pristup, s jedne strane, omogućuje potrošačima da primaju oglase o robama i uslugama koje ih zanimaju. Međutim, može izazvati zabrinutost kod onih potrošača koji ne žele određene vrste svojih osobnih podataka (poput informacija o posjetima web stranicama koje su povezane sa medicinskim i finansijskim pitanjima) sastali bez njihovog pristanka.

Iako je ciljani bihevioralni marketing široko rasprostranjen, relativno je malo dokaza o personaliziranim cijenama u internetskom okruženju. Izvještaj sugerira da je to možda posljedica činjenice da se odgovarajuće metode još uvijek razvijaju, ili činjenice da se kompanije ne žure koristiti individualne cijene (ili radije šute o tome) - možda iz straha od negativne reakcije potrošača .

Autori izvještaja vjeruju da je "za pojedinačnog potrošača upotreba velikih podataka nesumnjivo povezana i s potencijalnim prinosima i rizicima". Prepoznajući da postoje problemi transparentnosti i diskriminacije u korištenju velikih podataka, izvještaj tvrdi da su postojeći zakoni protiv diskriminacije i zaštite potrošača dovoljni za njihovo rješavanje. Međutim, izvještaj također naglašava potrebu za „stalnim praćenjem“ kada kompanije koriste povjerljive informacije na neproziran način ili na načine koji nisu obuhvaćeni postojećim regulatornim okvirom.

Ovaj izvještaj je produžetak napora Bijele kuće da ispita upotrebu velikih podataka i diskriminatorne cijene na internetu, te njihove implikacije na američke potrošače. Ranije je objavljeno da je radna grupa Bijele kuće za velike podatke objavila svoj izvještaj o ovom pitanju u maju 2014. Federalna komisija za trgovinu (FTC) također se pozabavila ovim pitanjima tokom svog septembra 2014. seminara o diskriminaciji u vezi s korištenjem velikih podataka.

2014

Gartner razbija mitove o velikim podacima

Gartner's Brief Policy Brief navodi niz uobičajenih mitova o velikim podacima među direktorima informacijskih tehnologija i opovrgava ih.

Svi implementiraju sisteme za obradu velikih podataka brže od nas

Interes za tehnologije velikih podataka je rekordno visok: 73% organizacija koje su anketirali Gartner -ovi analitičari ove godine već ulažu ili će to učiniti. No, većina ovih inicijativa je još uvijek u ranoj fazi, a samo je 13% ispitanika već implementiralo takva rješenja. Najteže je shvatiti kako ostvariti prihod od velikih podataka, odlučiti odakle početi. Mnoge organizacije zaglave u pilot fazi jer se ne mogu priključiti nova tehnologija na određene poslovne procese.

Imamo toliko podataka da ne morate brinuti o malim greškama u njima.

Neki informacijski direktori vjeruju da male praznine u podacima ne utječu na ukupne rezultate velikih količina analiza. Kad ima puno podataka, svaka pojedinačna greška zaista manje utječe na rezultat, kažu analitičari, ali same greške postaju sve brojnije. Osim toga, većina analiziranih podataka je vanjska, nepoznate strukture ili porijekla, pa se povećava vjerovatnoća grešaka. Stoga je u svijetu velikih podataka kvaliteta zapravo mnogo važnija.

Tehnologije velikih podataka eliminirat će potrebu za integracijom podataka

Big Data obećava mogućnost obrade podataka u izvornom formatu s automatskim generiranjem sheme dok se čitaju. Vjeruje se da će to omogućiti analizu informacija iz istih izvora pomoću više modela podataka. Mnogi vjeruju da će to također omogućiti krajnjim korisnicima da tumače bilo koji skup podataka kako im odgovara. U stvarnosti, većini korisnika često je potreban tradicionalan pristup zasnovan na shemi gdje su podaci odgovarajuće formatirani i postoje dogovori o nivou integriteta informacija i o tome kako ih treba povezati sa slučajem upotrebe.

Nema smisla koristiti skladišta podataka za složene analize

Mnogi administratori sistema za upravljanje informacijama smatraju da nema smisla gubiti vrijeme na stvaranje skladišta podataka, s obzirom na to da složeni analitički sistemi koriste nove vrste podataka. U stvari, mnogi složeni analitički sistemi koriste informacije iz skladišta podataka. U drugim slučajevima, nove tipove podataka potrebno je dodatno pripremiti za analizu u sistemima za obradu velikih podataka; morate donijeti odluke o prikladnosti podataka, principima objedinjavanja i potrebnom nivou kvalitete - takva priprema može se odvijati izvan skladišta.

Jezera podataka zamijenit će skladišta podataka

U stvarnosti, dobavljači obmanjuju kupce postavljajući jezera podataka kao zamjenu za pohranu ili kao kritičnu analitičku infrastrukturu. Osnovne tehnologije jezera podataka nemaju zrelost i širinu funkcionalnosti svojstvenih skladištu. Prema tome, lideri u upravljanju podacima trebali bi pričekati dok jezera ne dostignu isti nivo razvoja, prema Gartneru.

Naglasak: 92% onih koji su implementirali sisteme velikih podataka zadovoljni su rezultatom

Među glavnim prednostima velikih podataka, ispitanici su naveli:

„Potraga za novim izvorima prihoda“ (56%),
"Poboljšanje korisničkog iskustva" (51%),
"Novi proizvodi i usluge" (50%) i
„Priliv novih kupaca i zadržavanje lojalnosti starih“ (47%).

Mnoge kompanije su se suočile s tradicionalnim izazovima pri uvođenju novih tehnologija. Za 51% kamen spoticanja bila je sigurnost, za 47% - budžet, za 41% - nedostatak potrebnog osoblja, a za 35% - poteškoće pri integraciji sa postojećim sistemom. Gotovo sve anketirane kompanije (oko 91%) planiraju uskoro riješiti problem nedostatka osoblja i angažirati stručnjake za velike podatke.

Kompanije su optimistične u pogledu budućnosti tehnologija velikih podataka. 89% vjeruje da će promijeniti posao isto koliko i internet. 79% ispitanika je primijetilo da će kompanije koje ne rade velike podatke izgubiti svoju konkurentsku prednost.

Međutim, ispitanici se nisu složili oko toga šta bi tačno trebalo smatrati velikim podacima. 65% ispitanika vjeruje da se radi o „datotekama velikih podataka“, 60% vjeruje da je to „napredna analiza i analiza“, a 50% vjeruje da su to „podaci iz alata za vizualizaciju“.

Madrid troši 14,7 miliona eura na upravljanje velikim podacima

U julu 2014. godine postalo je poznato da će Madrid koristiti velike podatkovne tehnologije za upravljanje gradskom infrastrukturom. Cijena projekta - 14,7 miliona eura, osnova implementiranih rješenja bit će tehnologije za analizu i upravljanje velikim podacima. Uz njihovu pomoć Gradska uprava upravljat će radom sa svakim pružateljem usluga i prema tome plaćati ovisno o razini usluge.

Govorimo o izvođačima radova uprave koji prate stanje ulica, rasvjetu, navodnjavanje, zelene površine, čiste teritoriju i uklanjaju, kao i recikliraju otpad. U toku projekta razvijeno je 300 ključnih pokazatelja performansi gradskih službi za posebno imenovane inspektore, na osnovu kojih će se dnevno vršiti 1,5 hiljada različitih provjera i mjerenja. Osim toga, grad će početi koristiti inovativnu tehnološku platformu pod nazivom Madrid iNTeligente (MiNT) - Smarter Madrid.

2013

Stručnjaci: Big Data Peak Fashion

Bez izuzetka, svi dobavljači na tržištu upravljanja podacima trenutno razvijaju tehnologije za upravljanje velikim podacima. O ovom novom tehnološkom trendu aktivno raspravlja i stručna zajednica, i programeri i industrijski analitičari i potencijalni potrošači takvih rješenja.

Kako je Datashift saznao, od januara 2013. došlo je do talasa rasprava oko „ veliki podaci"Prekoračio je sve moguće dimenzije. Nakon analize broja spominjanja velikih podataka na društvenim mrežama, Datashift je izračunao da je 2012. ovaj izraz korišten oko 2 milijarde puta u postovima koje je kreiralo oko 1 milijun različitih autora širom svijeta. To je ekvivalentno 260 postova na sat, s vrhom od 3070 spominjanja na sat.

Gartner: Svaki drugi direktor informacijske tehnologije spreman je potrošiti novac na Big Data

Nakon nekoliko godina eksperimentiranja s tehnologijama velikih podataka i prvih implementacija 2013. godine, prilagodba takvih rješenja značajno će se povećati, predviđa Gartner. Istraživači su anketirali IT lidere širom svijeta i otkrili da je 42% ispitanika već uložilo u tehnologije velikih podataka ili planiraju takva ulaganja u sljedećoj godini (podaci iz marta 2013.).

Kompanije su prisiljene trošiti novac na tehnologije obrade veliki podaci budući da se informatičko okruženje brzo mijenja, potrebni su mi novi pristupi obradi informacija. Mnoge kompanije su već shvatile da su veliki podaci kritični, a rad s njima omogućuje vam postizanje koristi koje nisu dostupne pomoću tradicionalnih izvora informacija i metoda njihove obrade. Osim toga, stalno preuveličavanje teme "velikih podataka" u medijima potiče interes za relevantne tehnologije.

Frank Buytendijk, potpredsjednik Gartnera, čak je pozvao kompanije da umere svoj žar, jer su neki zabrinuti da zaostaju za konkurentima u akviziciji Big Data.

"Nema razloga za brigu, mogućnosti za implementaciju ideja zasnovanih na tehnologijama velikih podataka su gotovo beskrajne", rekao je.

Gartner predviđa da će do 2015. godine 20% od globalnih 1000 kompanija imati strateški fokus na "informacijsku infrastrukturu".

U očekivanju novih mogućnosti koje će donijeti tehnologije obrade velikih podataka, mnoge organizacije već organiziraju proces prikupljanja i pohrane različitih vrsta informacija.

Za obrazovne i vladine organizacije, kao i kompanije u industriji, najveći potencijal za poslovnu transformaciju leži u kombinaciji prikupljenih podataka s takozvanim mračnim podacima (doslovno - "mračni podaci"), potonji uključuju poruke Email, multimedija i drugi slični sadržaji. Prema Gartneru, oni koji nauče rukovati raznim izvorima informacija pobijedit će u utrci s podacima.

Cisco istraživanje: Veliki podaci pomoći će u povećanju IT budžeta

U istraživanju proleća 2013., anketirano je Cisco Connected World Technology Report, koje je u 18 zemalja sprovela nezavisna analitička kompanija InsightExpress, 1800 studenata i sličan broj mladih stručnjaka u dobi od 18-30 godina. Istraživanje je provedeno kako bi se utvrdio stepen spremnosti IT odjela za implementaciju projekata Big Data i steći razumijevanje povezanih izazova, tehnoloških nedostataka i strateške vrijednosti takvih projekata.

Većina kompanija prikuplja, bilježi i analizira podatke. Ipak, kaže se u izvještaju, mnoge kompanije suočavaju se sa nizom složenih poslovnih i informatičkih izazova u vezi s Big Data -om. Na primjer, 60 posto ispitanika priznaje da rješenja velikih podataka mogu poboljšati procese donošenja odluka i povećati konkurentnost, ali samo 28 posto je reklo da već imaju stvarne strateške koristi od prikupljenih informacija.

Više od polovice ispitanih IT rukovodilaca vjeruje da će projekti velikih podataka pomoći u povećanju IT budžeta u njihovim organizacijama, jer će biti povećani zahtjevi za tehnologiju, osoblje i profesionalne vještine. Istovremeno, više od polovice ispitanika očekuje da će takvi projekti povećati IT budžete u njihovim kompanijama već u 2012. godini. 57 posto je uvjereno da će Big Data povećati njihove budžete u sljedeće tri godine.

81 posto ispitanika reklo je da će svi (ili barem neki) projekti velikih podataka zahtijevati računalstvo u oblaku. Stoga širenje cloud tehnologija može utjecati na brzinu distribucije Big Data rješenja i vrijednost ovih rješenja za poslovanje.

Preduzeća prikupljaju i koriste podatke različitih vrsta, strukturiranih i nestrukturiranih. Evo izvora iz kojih sudionici istraživanja dobivaju svoje podatke (Cisco Connected World Technology Report):

Gotovo polovica (48 posto) direktorica informacijskih tehnologija predviđa da će se opterećenje njihovih mreža udvostručiti u sljedeće dvije godine. (Ovo je posebno istinito u Kini, gdje 68 posto ispitanih ima ovakvo mišljenje, i Njemačkoj, 60 posto.) 23 posto ispitanika očekuje da će se opterećenje mreže utrostručiti u sljedeće dvije godine. Istovremeno, samo 40 posto ispitanika izrazilo je spremnost za eksplozivan rast obima mrežnog prometa.

27 posto ispitanika priznalo je da im trebaju bolje IT politike i mjere sigurnosti informacija.

21 posto treba veću propusnost.

Big Data otvara nove mogućnosti IT odjelima za dodavanje vrijednosti i izgradnju čvrstih odnosa s poslovnim jedinicama, povećavajući prihode i jačajući financijski položaj kompanije. Projekti Big Data čine IT odjele strateškim partnerom poslovnih jedinica.

Prema 73 posto ispitanika, IT odjel postat će glavna pokretačka snaga strategije velikih podataka. Istovremeno, ispitanici vjeruju da će u implementaciju ove strategije biti uključena i druga odjeljenja. Prije svega, to se odnosi na odjela financija (imenovalo ga je 24 posto ispitanika), istraživanja i razvoja (20 posto), operacija (20 posto), inženjering (19 posto), kao i marketing (15 posto) i prodaja (14 posto).

Gartner: Milioni novih radnih mjesta potrebni za upravljanje velikim podacima

Svjetska potrošnja na IT doseći će 3,7 milijardi dolara do 2013. godine, što je 3,8% više od potrošnje na informatičku tehnologiju u 2012. (prognoza za kraj godine je 3,6 milijardi dolara). Segment veliki podaci(veliki podaci) će rasti mnogo bržim tempom, prema Gartnerovom izvještaju.

Do 2015. godine bit će otvoreno 4,4 milijuna radnih mjesta u području informacijske tehnologije za opsluživanje velikih podataka, od čega 1,9 milijuna radnih mjesta. Štaviše, svaki takav posao će podrazumijevati otvaranje tri dodatna radna mjesta izvan IT sektora, tako da će samo u Sjedinjenim Državama u naredne četiri godine 6 miliona ljudi raditi na podršci informacione ekonomije.

Prema Gartnerovim stručnjacima, glavni problem je što u industriji nema dovoljno talenata za to: i privatni i javni obrazovni sustavi, na primjer, u Sjedinjenim Državama, nisu u mogućnosti opskrbiti industriju dovoljnim brojem kvalificiranih personal. Tako će od spomenutih novih poslova u IT -u samo jedan od tri biti zaposlen.

Analitičari smatraju da bi ulogu njegovanja kvalificiranog IT osoblja trebale izravno preuzeti kompanije kojima su one prijeko potrebne, jer će im takvi zaposlenici postati ulaz u novu informatičku ekonomiju budućnosti.

2012

Prvi skepticizam u vezi velikih podataka

Analitičari Ovuma i Gartnera sugerišu da će to biti trendovska tema 2012. godine veliki podaci možda je vrijeme da se oslobodite iluzije.

Izraz "veliki podaci" u ovom trenutku obično se odnosi na stalno rastuću količinu informacija koje dolaze na internet s društvenih medija, senzorskih mreža i drugih izvora, kao i na sve veći raspon alata koji se koriste za obradu podataka i identifikaciju važnih poslovnih trendova.

"Zbog hipa (ili uprkos tome) zbog ideje velikih podataka, proizvođači su 2012. sa velikim nadom gledali na ovaj trend", rekao je Tony Bayer, analitičar u Ovumu.

Bayer je rekao da je DataSift proveo retrospektivnu analizu spominjanja velikih podataka u

Veliki podaci (ili Big Data) skup su metoda za rad s ogromnim količinama strukturiranih ili nestrukturiranih informacija. Stručnjaci za velike podatke obrađuju i analiziraju ih kako bi dobili vizualne, čitljive rezultate. Look At Me je razgovarao sa profesionalcima i saznao kakva je situacija s obradom velikih podataka u Rusiji, gdje i šta je bolje za naučiti onima koji žele raditi u ovoj oblasti.

Alexey Ryvkin o glavnim pravcima u području velikih podataka, komunikaciji s kupcima i svijetu brojeva

Studirao sam na Moskovskom institutu za elektronsku tehnologiju. Glavna stvar koju sam odatle uspio izvući je temeljno znanje iz fizike i matematike. Paralelno sa studiranjem radio sam u istraživačko-razvojnom centru, gdje sam se bavio razvojem i implementacijom algoritama kodiranja otpornih na buku za siguran prijenos podataka. Nakon što sam diplomirao, upisao sam master studije poslovne informatike na Višoj ekonomskoj školi. Nakon toga sam htjela raditi u IBS -u. Imao sam sreće u to vrijeme zbog veliki iznos projekata, došlo je do dodatnog zapošljavanja pripravnika, a nakon nekoliko razgovora počeo sam raditi za IBS, jednu od najvećih ruskih kompanija u ovoj oblasti. Za tri godine sam od pripravnika postao arhitekta za rješenja za preduzeća. Sada razvijam stručnost Big Data tehnologija za kompanije klijente iz finansijskog i telekomunikacijskog sektora.

Postoje dvije glavne specijalizacije za ljude koji žele raditi s velikim podacima: analitičari i IT konzultanti koji stvaraju tehnologije za rad s velikim podacima. Osim toga, možete razgovarati i o zanimanju analitičara velikih podataka, odnosno ljudi koji direktno rade s podacima, s IT platformom korisnika. Ranije su to bili obični analitičari-matematičari koji su poznavali statistiku i matematiku i koristili statistički softver za rješavanje problema analize podataka. Danas je, osim poznavanja statistike i matematike, potrebno i razumijevanje tehnologije i životnog ciklusa podataka. Ovo je, po mom mišljenju, razlika između modernog analitičara podataka i onih analitičara koji su bili prije.

Moja specijalizacija je IT konsalting, odnosno smišljam i nudim klijentima načine rješavanja poslovnih problema pomoću IT tehnologija. Na savjetovanje dolaze ljudi s različitim iskustvom, ali najvažniji kvaliteti ove profesije su sposobnost razumijevanja potreba klijenta, želja da se pomogne ljudima i organizacijama, dobra komunikacija i timske vještine (budući da je to uvijek rad s klijentom i u timu), dobre analitičke sposobnosti. Interna motivacija je vrlo važna: radimo u konkurentnom okruženju, a kupac očekuje neobična rješenja i interes za rad.

Većinu svog vremena provodim razgovarajući s kupcima, formalizirajući njihove poslovne potrebe i pomažući u projektiranju najprikladnije tehnološke arhitekture. Kriteriji odabira ovdje imaju svoju posebnost: pored funkcionalnost i TCO (ukupni troškovi vlasništva), nefunkcionalni zahtjevi za sistem su vrlo važni, najčešće je to vrijeme odziva, vrijeme obrade informacija. Kako bismo uvjerili kupca, često koristimo pristup dokaza koncepta - nudimo besplatno testiranje tehnologije na nekom zadatku, na uskom skupu podataka, kako bismo bili sigurni da tehnologija radi. Rješenje bi trebalo stvoriti konkurentsku prednost za kupca stjecanjem dodatnih pogodnosti (na primjer, x-prodaja, unakrsna prodaja) ili riješiti neki poslovni problem, recimo, smanjiti visoki nivo kreditna prevara.

Bilo bi mnogo lakše da klijenti dođu s gotovim zadatkom, ali zasad ne razumiju da se pojavila revolucionarna tehnologija koja može promijeniti tržište za nekoliko godina

Sa kojim problemima se morate suočiti? Tržište još nije spremno za upotrebu tehnologija velikih podataka. Bilo bi mnogo lakše da su kupci došli s gotovim zadatkom, ali još ne shvaćaju da se pojavila revolucionarna tehnologija koja može promijeniti tržište za nekoliko godina. Zato, zapravo, radimo u načinu pokretanja - ne prodajemo samo tehnologije, već i svaki put uvjeravamo klijente da moraju uložiti u ova rješenja. Ovo je pozicija vizionara - mi pokazujemo klijentima kako mogu promijeniti svoje poslovanje uključivanjem podataka i IT -a. Mi stvaramo ovo novo tržište - tržište komercijalnog IT savjetovanja u području velikih podataka.

Ako se osoba želi baviti analizom podataka ili informatičkim savjetovanjem u području velikih podataka, prvo što je važno je matematičko ili tehničko obrazovanje s dobrom matematičkom obukom. Također je korisno upoznati se sa specifičnim tehnologijama kao što su SAS, Hadoop, R ili IBM rješenja. Osim toga, morate se aktivno zanimati za primijenjene probleme za Big Data - na primjer, kako se oni mogu koristiti za poboljšanje kreditnog bodovanja u banci ili upravi životni ciklus klijent. Ovo i druga znanja mogu se dobiti iz dostupnih izvora: na primjer, Coursera i Univerziteta velikih podataka. Postoji i Inicijativa za korisničku analitiku na Univerzitetu Wharton u Pensilvaniji, gdje je objavljeno mnogo zanimljivih materijala.

Ozbiljan problem za one koji žele raditi na našem polju je očigledan nedostatak informacija o Big Data -u. Ne možete otići u knjižaru ili na neku web stranicu i nabaviti, na primjer, iscrpnu zbirku slučajeva o svim primjenama Big Data tehnologija u bankama. Ne postoje takve knjige. Dio informacija se nalazi u knjigama, drugi dio se prikuplja na konferencijama, a do nekih moramo doći sami.

Drugi problem je što su analitičari u svijetu brojeva, ali nisu uvijek ugodni u poslu. Ovi ljudi su često introvertirani, imaju poteškoća u komunikaciji i stoga imaju poteškoća s uvjerljivim priopćavanjem rezultata istraživanja klijentima. Za razvoj ovih vještina preporučio bih knjige poput Principa piramide, Govori jezik dijagrama. Pomažu u razvijanju prezentacijskih vještina, sažeto i jasno izražavaju vaše misli.

Mnogo mi je pomoglo učešće na raznim prvenstvima u predmetima tokom studija na Višoj ekonomskoj školi. Case prvenstva su intelektualna takmičenja za studente da prouče poslovne probleme i predlože rješenja. Dolaze u dva okusa: prvenstva u slučajevima za konsultantske kuće kao što su McKinsey, BCG, Accenture i nezavisna prvenstva u slučajevima kao što je Changellenge. Tokom svog učešća u njima naučio sam da vidim i odlučujem izazovni zadaci- od identifikacije problema i njegovog strukturiranja do zaštite preporuka za njegovo rješavanje.

Oleg Mikhalskiy na ruskom tržištu i specifičnosti stvaranja novog proizvoda u području velikih podataka

Prije nego što sam se pridružio Acronisu, već sam bio uključen u lansiranje novih proizvoda u drugim kompanijama. Uvijek je zanimljivo i teško u isto vrijeme, pa me odmah zainteresirala prilika za rad na cloud servisi i rješenja za skladištenje. U tom području dobro mi je došlo sve moje prethodno iskustvo u IT industriji, uključujući i moj vlastiti startup projekt I-accelerator. Uz osnovno inženjerstvo pomoglo je i poslovno obrazovanje (MBA).

U Rusiji velike kompanije - banke, mobilni operateri itd. - imaju potrebu za analizom velikih podataka, pa u našoj zemlji postoje izgledi za one koji žele raditi u ovoj oblasti. Istina, mnogi projekti su sada integracija, odnosno napravljeni su na temelju inozemnog razvoja ili tehnologija otvorenog koda. U takvim projektima ne stvaraju se suštinski novi pristupi i tehnologije, već se prilagođavaju postojeći razvoji. U Acronisu smo otišli drugim putem i, analizirajući dostupne alternative, odlučili smo uložiti u vlastiti razvoj, stvarajući sistem kao rezultat sigurno skladištenje za velike podatke, koji po troškovima nisu inferiorni u odnosu na, na primjer, Amazon S3, ali rade pouzdano i efikasno iu znatno manjem obimu. Velike internetske kompanije također imaju svoj razvoj velikih podataka, ali su više fokusirane na interne potrebe nego na zadovoljavanje potreba vanjskih kupaca.

Važno je razumjeti trendove i ekonomske sile koje utječu na područje obrade velikih podataka. Da biste to učinili, morate puno čitati, slušati govore autoritativnih stručnjaka u IT industriji, prisustvovati tematskim konferencijama. Sada gotovo svaka konferencija ima odjeljak o velikim podacima, ali svi govore o tome iz drugog kuta: u smislu tehnologije, poslovanja ili marketinga. Možete otići na projektni posao ili na praksu u kompaniju koja već sprovodi projekte na ovu temu. Ako ste sigurni u svoje sposobnosti, onda nije kasno za organiziranje startupa u području velikih podataka.

Bez stalnog kontakta s tržištem novi razvoj izlaže se opasnosti da bude nezahtjevan

Međutim, kada ste odgovorni za novi proizvod, puno vremena trošite na analizu tržišta i komunikaciju s potencijalnim klijentima, partnerima, profesionalnim analitičarima koji znaju mnogo o klijentima i njihovim potrebama. Bez stalnog kontakta s tržištem, novi razvoj izlaže se opasnosti da ne bude tražen. Uvijek postoji mnogo neizvjesnosti: morate razumjeti ko će biti prvi korisnici (prvi korisnici), šta imate za njih vrijedno i kako onda privući masovnu publiku. Drugi najvažniji zadatak je formiranje i prenošenje programerima jasne i cjelovite vizije konačnog proizvoda kako bi ih se motiviralo da rade u takvim uvjetima kada se neki zahtjevi ipak mogu promijeniti, a prioriteti ovise o povratnim informacijama prvih kupaca. Stoga je važan zadatak upravljati očekivanjima kupaca s jedne strane i programera s druge strane. Tako da ni jedno ni drugo nije izgubilo interes i dovelo projekat do kraja. Nakon prvog uspješnog projekta postaje lakše, a glavni izazov bit će pronaći pravi model rasta za novo poslovanje.

Big Data- Engleski. "Veliki podaci". Izraz se pojavio kao alternativa DBMS -u i postao jedan od glavnih trendova u IT infrastrukturi, kada je većina industrijskih divova - IBM, Microsoft, HP, Oracle i drugi počela koristiti ovaj koncept u svojim strategijama. Veliki podaci se shvaćaju kao veliki (stotine terabajta) niz podataka koji se ne može obraditi tradicionalnim metodama; ponekad - alati i metode za obradu ovih podataka.

Primjeri izvora velikih podataka: RFID događaji, poruke na društvenim mrežama, meteorološka statistika, informacije o lokaciji pretplatnika mobilnih mreža ćelijski i podatke sa audio / video uređaja za snimanje. Stoga se "veliki podaci" široko koriste u proizvodnji, zdravstvu, vladi, internetskom poslovanju - posebno pri analizi ciljne publike.

Karakteristično

Znakovi velikih podataka definirani su kao „tri Vs“: Volumen - volumen (zaista veliki); raznolikost - raznolikost, mnogo; velocity - speed (potrebna je vrlo brza obrada).

Veliki podaci često nisu strukturirani i zahtijevaju posebne algoritme za njihovu obradu. Metode analize velikih podataka uključuju:

("Data mining") - skup pristupa za otkrivanje skrivenog korisnog znanja koje se ne može steći standardnim metodama;
Crowdsourcing (gomila - "gomila", izvor - korištenje kao izvor) - rješavanje značajnih problema zajedničkim naporima volontera koji nisu u obaveznom ugovoru o radu i odnosima, koordinirajući aktivnosti pomoću IT alata;
Spajanje i integracija podataka ("miješanje i ugrađivanje podataka") - skup metoda za povezivanje više izvora u okviru duboke analize;
Strojno učenje ("strojno učenje") - pododjeljak istraživanja umjetne inteligencije, koji proučava metode korištenja analize statistike i dobijanja prognoza na osnovu osnovnih modela;
prepoznavanje uzoraka (na primjer, prepoznavanje lica u tražilu fotoaparata ili kamkordera);
prostorna analiza - upotreba topologije, geometrije i geografije za konstruiranje podataka;
vizualizacija podataka - izlaz analitičkih informacija u obliku ilustracija i dijagrama pomoću interaktivnih alata i animacija za praćenje rezultata i stvaranje temelja za daljnje praćenje.

Skladištenje i analiza podataka vrši se na velikom broju servera visokih performansi. Ključna tehnologija je Hadoop, otvorenog koda.

Budući da će se količina informacija s vremenom samo povećavati, nije poteškoća u pribavljanju podataka, već u tome kako ih obraditi s najvećom koristi. Općenito, proces rada s velikim podacima uključuje: prikupljanje informacija, njihovo strukturiranje, stvaranje uvida i konteksta, razvoj preporuka za djelovanje. Čak i prije prve faze, važno je jasno definirati svrhu rada: za što se točno koriste podaci, na primjer, za definiranje ciljne publike proizvoda. U suprotnom, postoji rizik da dobijete mnogo informacija bez razumijevanja kako se točno mogu koristiti.