Lielu datu lieli dati. Lieli dati: analītika un risinājumi

Vai jūs zināt šo slaveno joku? Lielie dati ir kā sekss līdz 18 gadu vecumam:

  • visi par to domā;
  • visi par to runā;
  • visi domā, ka viņu draugi to dara;
  • gandrīz neviens to nedara;
  • tas, kurš to dara, dara to slikti;
  • visi domā, ka nākamreiz tas izrādīsies labāk;
  • neviens neveic drošības pasākumus;
  • ikvienam ir kauns atzīt, ka viņš kaut ko nezina;
  • ja kādam tas izdodas, tas vienmēr rada lielu troksni.

Bet būsim godīgi, ar jebkuru ažiotāžu apkārt vienmēr būs ierastā ziņkāre: kāda ažiotāža un vai tur ir kaut kas patiešām svarīgs? Īsāk sakot, jā, ir. Sīkāka informācija ir zemāk. Mēs esam izvēlējušies jums pārsteidzošākās un interesantākās lielo datu tehnoloģiju lietojumprogrammas. Šis nelielais tirgus pētījums, izmantojot skaidrus piemērus, saskaras ar vienkāršu faktu: nākotne nenāk, nav nepieciešams “gaidīt vēl n gadus, un maģija kļūs par realitāti”. Nē, tas jau ir pienācis, bet tas joprojām ir nemanāms acīm, un tāpēc singularitātes saķepināšana vēl tik ļoti nededzina tik labi zināmo darba tirgus punktu. Iet.

1 Kā lielo datu tehnoloģijas tiek izmantotas to radīšanas vietā

Lieli IT uzņēmumi ir vieta, kur radās datu zinātne, tāpēc to iekšienes šajā jomā ir visinteresantākās. Google kampaņa, kurā atrodas paradīzes “Kartes samazināšana”, kuras vienīgais mērķis ir izglītot savus programmētājus mašīnmācīšanās tehnoloģijās. Un tā ir viņu konkurences priekšrocība: pēc jaunu zināšanu iegūšanas darbinieki ieviesīs jaunas metodes tajos Google projektos, kur viņi pastāvīgi strādā. Iedomājieties milzīgo sarakstu ar jomām, kurās kampaņa var radīt revolūciju. Viens piemērs: tiek izmantoti neironu tīkli.

Korporācija arī visos savos produktos ievieš mašīnmācīšanos. Tās priekšrocība ir lielas ekosistēmas klātbūtne, kas ietver visas ikdienas dzīvē izmantotās digitālās ierīces. Tas ļauj Apple sasniegt neiespējamu līmeni: kampaņai ir tikpat daudz lietotāju datu kā jebkuram citam. Tajā pašā laikā privātuma politika ir ļoti stingra: korporācija vienmēr ir lielījusies, ka tā neizmanto klientu datus reklāmas nolūkos. Attiecīgi lietotāju informācija tiek šifrēta, lai Apple juristi vai pat FIB ar orderi nevarētu to nolasīt. Pēc jūs atradīsiet lielisks pārskats Apple AI attīstība.

2 Lieli dati par 4 riteņiem

Mūsdienu automašīna ir informācijas uzkrājējs: tā uzkrāj visus datus par vadītāju, vidi, pievienotajām ierīcēm un par sevi. Drīz viens transportlīdzeklis, kas ir savienots ar šādu tīklu, radīs līdz 25 GB datu stundā.

Transporta telemātiku automobiļu ražotāji izmanto jau daudzus gadus, taču tiek lobēta sarežģītāka datu vākšanas metode, kas pilnībā izmanto lielo datu priekšrocības. Tas nozīmē, ka tehnoloģija tagad var brīdināt vadītāju par sliktiem ceļa apstākļiem, automātiski aktivizējot bremžu pretbloķēšanas un slīdēšanas sistēmas.

Citas bažas, tostarp BMW, izmanto lielo datu tehnoloģiju apvienojumā ar informāciju, kas iegūta no testa prototipiem, automašīnas kļūdu atmiņas sistēmas un klientu sūdzībām, lai identificētu modeļa trūkumus ražošanas sākumā. Tagad tā vietā, lai manuāli novērtētu datus, kas aizņem vairākus mēnešus, tiek izmantots mūsdienīgs algoritms. Tiek samazinātas kļūdu un problēmu novēršanas izmaksas, kas paātrina BMW informācijas analīzes darbplūsmas.

Saskaņā ar ekspertu aplēsēm līdz 2019. gadam savienoto automašīnu tirgus apgrozījums sasniegs 130 miljardus ASV dolāru. Tas nav pārsteidzoši, ņemot vērā automobiļu ražotāju integrācijas tempu, kas ir transportlīdzekļa neatņemama sastāvdaļa.

Lielo datu izmantošana palīdz padarīt iekārtu drošāku un funkcionālāku. Tātad, Toyota, iestrādājot informācijas komunikācijas moduļus (DCM). Šis rīks, ko izmanto lielajiem datiem, apstrādā un analizē DCM savāktos datus, lai turpmāk gūtu labumu no tiem.

3 Lielo datu izmantošana medicīnā


Lielo datu tehnoloģiju ieviešana medicīnas jomā ļauj ārstiem rūpīgāk izpētīt slimību un izvēlēties efektīvu ārstēšanas kursu konkrētam gadījumam. Pateicoties informācijas analīzei, veselības aprūpes darbiniekiem kļūst vieglāk prognozēt recidīvu un veikt profilakses pasākumus. Rezultāts ir precīzāka diagnoze un uzlabota ārstēšana.

Jaunā tehnika ļāva paskatīties uz pacientu problēmām no citas perspektīvas, kā rezultātā tika atklāti iepriekš nezināmi problēmas avoti. Piemēram, dažas rases ir ģenētiski vairāk pakļautas sirds slimībām nekā citas etniskās grupas. Tagad, kad pacients sūdzas par noteiktu slimību, ārsti ņem vērā datus par viņa rases pārstāvjiem, kuri sūdzējās par to pašu problēmu. Datu vākšana un analīze ļauj uzzināt daudz vairāk par pacientiem: no ēdiena izvēles un dzīvesveida līdz DNS un šūnu, audu, orgānu metabolītu ģenētiskajai struktūrai. Piemēram, Kanzassitijas Bērnu ģenētiskās medicīnas centrs izmanto pacientus un analizē ģenētiskā koda mutācijas, kas izraisa vēzi. Individuāla pieeja katram pacientam, ņemot vērā viņa DNS, paaugstinās ārstēšanas efektivitāti kvalitatīvi jaunā līmenī.

Izpratne par lielo datu izmantošanu ir pirmās un vissvarīgākās izmaiņas medicīnas jomā. Kad pacients tiek ārstēts, slimnīca vai cita veselības aprūpes iestāde var iegūt daudz nozīmīgas informācijas par šo personu. Savākto informāciju izmanto, lai ar noteiktu precizitāti prognozētu slimības atkārtošanos. Piemēram, ja pacients ir pārcietis insultu, ārsti pēta informāciju par cerebrovaskulāro negadījumu laiku, analizē starpposmu starp iepriekšējiem precedentiem (ja tādi ir), īpašu uzmanību pievēršot stresa situācijām un smagām fiziskām aktivitātēm pacienta dzīvē. Pamatojoties uz šiem datiem, slimnīcas sniedz pacientam skaidru rīcības plānu, lai novērstu insulta iespējamību nākotnē.

Arī valkājamām ierīcēm ir nozīme, palīdzot noteikt veselības problēmas, pat ja cilvēkam nav acīmredzamu konkrētas slimības simptomu. Tā vietā, lai novērtētu pacienta stāvokli, veicot garus izmeklējumus, ārsts var izdarīt secinājumus, pamatojoties uz fitnesa izsekotāja vai viedpulksteņa apkopoto informāciju.

Viens no jaunākajiem piemēriem ir. Kamēr pacients tika pārbaudīts, vai viņam nav jaunu krampju sakarā ar izlaisto zāļu lietošanu, ārsti atklāja, ka vīrietim ir daudz nopietnākas veselības problēmas. Šī problēma izrādījās priekškambaru mirdzēšana. Diagnoze tika noteikta, pateicoties tam, ka nodaļas darbinieki saņēma piekļuvi pacienta tālrunim, proti, lietojumprogrammai, kas bija savienota pārī ar viņa fitnesa izsekotāju. Lietojumprogrammas dati izrādījās galvenais faktors diagnozes noteikšanā, jo pārbaudes laikā vīrietim nebija sirdsdarbības traucējumu.

Šis ir tikai viens no retajiem gadījumiem, kas to parāda kāpēc izmantot Big Data medicīnas jomā šodien ir tik nozīmīga loma.

4 Datu analīze jau ir kļuvusi par mazumtirdzniecības mugurkaulu

Izpratne par lietotāju vaicājumiem un mērķauditorijas atlasi ir viena no lielākajām un visplašāk publiskotajām lielo datu rīku piemērošanas jomām. Big Data palīdz analizēt klientu paradumus, lai nākotnē labāk izprastu patērētāju vajadzības. Uzņēmumi vēlas paplašināt tradicionālo datu kopu ar sociālo mediju un pārlūkprogrammas meklēšanas vēsturi, lai radītu pēc iespējas pilnīgāku priekšstatu par klientu. Dažreiz lielas organizācijas izvēlas izveidot savu prognozēšanas modeli kā globālu mērķi.

Piemēram, Target veikalu tīkliem, izmantojot dziļu datu analīzi un savu prognozēšanas sistēmu, izdodas ar augstu precizitāti noteikt -. Katram klientam tiek piešķirts ID, kas savukārt ir piesaistīts kredītkartei, vārdam vai e -pastam. Identifikators kalpo kā sava veida iepirkumu grozs, kurā tiek glabāta informācija par visu, ko cilvēks jebkad ir iegādājies. Tīkla eksperti atklāja, ka šajā stāvoklī esošās sievietes pirms grūtniecības otrā trimestra aktīvi iegūst bezaromatizētus produktus, un pirmajās 20 nedēļās viņas paļaujas uz kalcija, cinka un magnija piedevām. Pamatojoties uz saņemtajiem datiem, Target klientiem nosūta kuponus bērnu produktiem. Tieši tādas pašas atlaides precēm bērniem tiek “atšķaidītas” ar kuponiem citiem produktiem, lai piedāvājumi iegādāties gultiņu vai autiņbiksītes neizskatās pārāk uzmācīgi.

Pat valdības departamenti ir atraduši veidu, kā izmantot lielo datu tehnoloģijas, lai optimizētu vēlēšanu kampaņas. Daži uzskata, ka Baraka Obamas uzvara 2012. gada ASV prezidenta vēlēšanās bija saistīta ar viņa analītiķu komandas lielisko darbu, kurš pareizi apstrādāja milzīgus datu apjomus.

5 Lieli dati par likuma un kārtības sargu


Pēdējos gados tiesībaizsardzības iestādes ir sapratušas, kā un kad izmantot lielos datus. Ir vispārzināms, ka Nacionālās drošības aģentūra izmanto lielo datu tehnoloģiju, lai novērstu teroraktus. Citas aģentūras izmanto progresīvu metodiku, lai novērstu mazākus noziegumus.

Losandželosas policijas pārvalde piesakās. Viņa ir iesaistīta tajā, ko parasti dēvē par proaktīvu tiesībaizsardzību. Izmantojot noziegumu ziņojumus noteiktā laika periodā, algoritms nosaka jomas, kurās noziegumu izdarīšanas iespējamība ir vislielākā. Sistēma atzīmē šādas teritorijas pilsētas kartē ar maziem sarkaniem kvadrātiem, un šie dati tiek nekavējoties nosūtīti patruļas automašīnām.

Čikāgas policisti izmantot lielo datu tehnoloģijas nedaudz savādāk. Vēju pilsētas tiesībaizsardzības iestādēm ir tas pats, taču tās mērķis ir noteikt “riska loku” cilvēkiem, kuri var būt bruņota uzbrukuma upuri vai dalībnieks. Saskaņā ar The New York Times, šis algoritms piešķir ievainojamības pakāpi personai, pamatojoties uz viņa kriminālo vēsturi (aresti un dalība šaušanā, piederība noziedzīgām bandām). Sistēmas izstrādātājs apliecina, ka, kamēr sistēma pēta indivīda kriminālo vēsturi, tajā netiek ņemti vērā sekundārie faktori, piemēram, rase, dzimums, etniskā piederība un personas atrašanās vieta.

6 Kā lielo datu tehnoloģijas palīdz pilsētām attīstīties


Veniam izpilddirektors João Barros demonstrē karti par Wi-Fi maršrutētāju izsekošanu Porto autobusos

Datu analīzi izmanto arī, lai uzlabotu vairākus pilsētu un valstu darbības aspektus. Piemēram, precīzi zinot, kā un kad izmantot lielo datu tehnoloģijas, varat optimizēt transporta plūsmas. Šim nolūkam tiek ņemta vērā transportlīdzekļu kustība tiešsaistē, tiek analizēti sociālie mediji un meteoroloģiskie dati. Mūsdienās vairākas pilsētas ir sākušas izmantot datu analīzi, lai transporta infrastruktūru ar cita veida komunālajiem pakalpojumiem integrētu vienotā veselumā. Tā ir gudras pilsētas koncepcija, kurā autobusi gaida vēlu vilcienu, un luksofori spēj paredzēt satiksmes sastrēgumus, lai samazinātu sastrēgumus.

Longbīča izmanto lielo datu tehnoloģijas, lai darbinātu viedos ūdens skaitītājus, kas tiek izmantoti, lai ierobežotu nelegālu apūdeņošanu. Iepriekš tos izmantoja, lai samazinātu ūdens patēriņu privātām mājsaimniecībām (maksimālais rezultāts ir samazinājums par 80%). Svaiga ūdens taupīšana vienmēr ir aktuāls jautājums. It īpaši, ja štatā ir vislielākais sausums, kāds jebkad reģistrēts.

Losandželosas Transporta departamenta pārstāvji ir pievienojušies to lietotāju sarakstam, kuri izmanto Big Data. Pamatojoties uz datiem, kas saņemti no satiksmes kameru sensoriem, iestādes uzrauga luksoforu darbību, kas savukārt ļauj regulēt satiksmi. Datorizētas sistēmas kontrolē visā pilsētā ir aptuveni 4 500 000 luksoforu. Saskaņā ar oficiālajiem datiem jaunais algoritms palīdzēja samazināt sastrēgumus par 16%.

7 Mārketinga un pārdošanas progresa dzinējs


Mārketingā lielo datu rīki ļauj noteikt, kuras idejas ir visefektīvākās konkrētā pārdošanas cikla posmā. Datu analīze nosaka, kā ieguldījumi var uzlabot klientu attiecību pārvaldību, kādu stratēģiju izmantot, lai palielinātu reklāmguvumu līmeni un kā optimizēt klientu dzīves ciklu. Mākoņu biznesā tiek izmantoti lielo datu algoritmi, lai noskaidrotu, kā samazināt klientu piesaistīšanas izmaksas un palielināt klientu dzīves ciklu.

Cenu noteikšanas stratēģiju diferencēšana atkarībā no klienta sistēmas iekšējā līmeņa, iespējams, ir galvenais, kam mārketinga jomā tiek izmantoti lieli dati. McKinsey atklāja, ka aptuveni 75% no vidējā uzņēmuma ieņēmumiem nāk no pamatproduktiem, no kuriem 30% ir nepareizi noteiktas cenas. Cenu pieaugums par 1% nozīmē peļņas pieaugumu par 8,7%.

Forrester pētnieku komanda noskaidroja, ka datu analīze ļauj tirgotājiem koncentrēties uz to, kā uzlabot attiecības ar klientiem. Pārbaudot klientu attīstības virzienu, speciālisti var novērtēt savu lojalitātes līmeni, kā arī pagarināt dzīves ciklu konkrēta uzņēmuma kontekstā.

Pārdošanas stratēģiju optimizācija un jaunu tirgu ienākšanas posmi, izmantojot ģeoanalītiku, atspoguļojas biofarmaceitiskajā rūpniecībā. Saskaņā ar McKinsey teikto, zāļu uzņēmumi administrācijai un pārdošanai tērē vidēji 20 līdz 30% savas peļņas. Ja uzņēmumi sāk darboties aktīvāk izmantot Big Data lai noteiktu ienesīgākos un visstraujāk augošos tirgus, izmaksas tiks nekavējoties samazinātas.

Datu analīze ir veids, kā uzņēmumi var pilnībā izprast sava biznesa galvenos aspektus. Ieņēmumu palielināšana, izmaksu samazināšana un apgrozāmā kapitāla samazināšana ir trīs problēmas, kuras mūsdienu uzņēmumi cenšas atrisināt ar analītiskiem līdzekļiem.

Visbeidzot, 58% TKO apgalvo, ka lielo datu tehnoloģiju ieviešanu var izsekot meklētājprogrammu optimizācijā (SEO), e-pastā un mobilajā mārketingā, kur datu analīzei ir visnozīmīgākā loma mārketinga programmu veidošanā. Un tikai par 4% mazāk respondentu ir pārliecināti, ka lielajiem datiem daudzus gadus būs nozīmīga loma visās mārketinga stratēģijās.

8 Analizējot datus planētu mērogā

Ne mazāk ziņkārīgs ir. Iespējams, ka mašīnmācīšanās galu galā būs vienīgais spēks, kas spēj saglabāt smalku līdzsvaru. Tēma par cilvēka ietekmi uz globālo sasilšanu joprojām rada daudz strīdu, tāpēc tikai ticami prognozēšanas modeļi, kuru pamatā ir liela datu apjoma analīze, var sniegt precīzu atbildi. Galu galā emisiju samazināšana palīdzēs mums visiem: mēs tērēsim mazāk enerģijas.

Tagad lielie dati nav abstrakts jēdziens, kas varētu tikt pielietots pēc pāris gadiem. Tas ir perfekti strādājošs tehnoloģiju kopums, kas var būt noderīgs gandrīz visās cilvēka darbības jomās: no medicīnas un tiesībaizsardzības līdz mārketingam un pārdošanai. Lielo datu aktīvas integrācijas posms mūsu ikdienas dzīvē ir tikko sācies, un kas zina, kāda būs lielo datu loma pēc dažiem gadiem?

Lieli dati ir plašs termins netradicionālām stratēģijām un tehnoloģijām, kas nepieciešamas, lai apkopotu, sakārtotu un apstrādātu informāciju no lielām datu kopām. Lai gan problēma saistībā ar datiem, kas pārsniedz viena datora apstrādes jaudu vai atmiņas ietilpību, nav jauna, pēdējos gados šāda veida skaitļošanas joma un vērtība ir ievērojami paplašinājusies.

Šajā rakstā jūs atradīsit pamatjēdzienus, ar kuriem varat saskarties, izpētot lielos datus. Tajā aplūkoti arī daži šajā jomā pašlaik izmantotie procesi un tehnoloģijas.

Kas ir lieli dati?

Precīzu lielo datu definīciju ir grūti formulēt, jo projekti, pārdevēji, praktiķi un biznesa profesionāļi to izmanto ļoti dažādos veidos. Paturot to prātā, lielos datus var definēt šādi:

  • Lielas datu kopas.
  • Skaitļošanas stratēģiju un tehnoloģiju kategorija, kas tiek izmantota lielu datu kopu apstrādei.

Šajā kontekstā "liela datu kopa" nozīmē datu kopu, kas ir pārāk liela, lai to varētu apstrādāt vai uzglabāt, izmantojot tradicionālos rīkus vai vienā datorā. Tas nozīmē, ka lielo datu kopu kopējā skala pastāvīgi mainās un katrā gadījumā var ievērojami atšķirties.

Lielo datu sistēmas

Pamatprasības darbam ar lielajiem datiem ir tādas pašas kā jebkurai citai datu kopai. Tomēr milzīgais datu apjoms, apstrādes ātrums un datu īpašības, ar kurām saskaras katrā procesa posmā, rada lielas jaunas problēmas rīku projektēšanā. Lielākās daļas lielo datu sistēmu mērķis ir saprast un sazināties ar lielu daudzumu neviendabīgu datu, kas nebūtu iespējams ar parastajām metodēm.

2001. gadā Gartnera Dags Lanejs iepazīstināja ar "trīs lielo datu versijām", lai aprakstītu dažas īpašības, kas atšķir lielo datu apstrādi no citiem datu apstrādes veidiem:

  1. Apjoms (datu apjoms).
  2. Ātrums (datu uzkrāšanas un apstrādes ātrums).
  3. Dažādība (apstrādāto datu veidu dažādība).

Datu apjoms

Apstrādātās informācijas apjoms palīdz definēt lielo datu sistēmas. Šīs datu kopas var būt par kārtām lielākas nekā tradicionālās datu kopas, un tām jāpievērš lielāka uzmanība katrā apstrādes un uzglabāšanas posmā.

Tā kā prasības pārsniedz viena datora iespējas, bieži vien ir grūti apvienot, piešķirt un koordinēt resursus no datoru grupām. Klasteru vadība un algoritmi, kas spēj sadalīt uzdevumus mazākos gabalos, šajā jomā kļūst arvien nozīmīgāki.

Uzkrāšanās un apstrādes ātrums

Otra īpašība, kas būtiski atšķir lielos datus no citām datu sistēmām, ir ātrums, kādā informācija pārvietojas pa sistēmu. Dati bieži nonāk sistēmā no vairākiem avotiem, un tie ir jāapstrādā reālā laikā, lai atjauninātu pašreizējo sistēmas stāvokli.

Šī koncentrēšanās uz tūlītēju atsauksmes ir piespiedis daudzus praktiķus atteikties no pieejas, kas orientēta uz sēriju, un izvēlēties reāllaika straumēšanas sistēmu. Dati tiek pastāvīgi pievienoti, apstrādāti un analizēti, lai neatpaliktu no jaunās informācijas pieplūduma un iegūtu vērtīgus datus agrīnā stadijā, kad tā ir visatbilstošākā. Tam nepieciešamas uzticamas sistēmas ar ļoti pieejamiem komponentiem, lai aizsargātu pret kļūmēm datu cauruļvadā.

Apstrādāto datu veidu dažādība

Lielajos datos ir daudz unikālu problēmu, kas saistītas ar apstrādāto avotu plašo klāstu un to relatīvo kvalitāti.

Dati var tikt iegūti no iekšējām sistēmām, piemēram, lietojumprogrammu un serveru žurnāliem, no sociālo mediju kanāliem un citām ārējām API, no sensoriem fiziskās ierīces un no citiem avotiem. Lielo datu sistēmu mērķis ir apstrādāt potenciāli noderīgus datus neatkarīgi no to izcelsmes, apvienojot visu informāciju vienā sistēmā.

Arī multivides formāti un veidi var ievērojami atšķirties. Multivides faili (attēli, video un audio) tiek apvienoti ar teksta failiem, strukturētiem žurnāliem utt. Tradicionālākās datu apstrādes sistēmas paredz, ka dati tiks ievadīti jau atzīmētajos, formatētajos un sakārtotajos cauruļvados, bet lielo datu sistēmas parasti pieņem un saglabā datus, mēģinot saglabāt to sākotnējo stāvokli. Ideālā gadījumā jebkura neapstrādātu datu pārveidošana vai izmaiņas notiks atmiņā apstrādes laikā.

Citas īpašības

Laika gaitā eksperti un organizācijas ir ierosinājušas paplašināt sākotnējos trīs V, lai gan šie jauninājumi drīzāk raksturo problēmas, nevis lielo datu īpašības.

  • Patiesība: avotu dažādība un apstrādes sarežģītība var radīt problēmas, novērtējot datu kvalitāti (un līdz ar to arī iegūtās analīzes kvalitāti).
  • Mainīgums: mainot datus, rodas plašas kvalitātes izmaiņas. Zemas kvalitātes datu identificēšanai, apstrādei vai filtrēšanai var būt nepieciešami papildu resursi, kas var uzlabot datu kvalitāti.
  • Vērtība: lielo datu galvenais mērķis ir vērtība. Dažreiz sistēmas un procesi ir ļoti sarežģīti, tādēļ ir grūti izmantot datus un iegūt faktiskās vērtības.

Lielo datu dzīves cikls

Tātad, kā faktiski tiek apstrādāti lielie dati? Īstenošanai ir vairākas atšķirīgas pieejas, taču stratēģijās un programmatūrā ir līdzības.

  • Datu ievadīšana sistēmā
  • Datu saglabāšana krātuvē
  • Datu aprēķināšana un analīze
  • Rezultātu vizualizācija

Pirms sīkāk iedziļināties šajās četrās darbplūsmu kategorijās, parunāsim par klasteru skaitļošanu, kas ir svarīga stratēģija, ko izmanto daudzi lielo datu rīki. Skaitļošanas kopas izveide ir katrā dzīves cikla posmā izmantotās tehnoloģijas mugurkauls.

Klasteru skaitļošana

Lielo datu kvalitātes dēļ atsevišķi datori nav piemēroti datu apstrādei. Klasteri tam ir vairāk piemēroti, jo tie var tikt galā ar lielo datu uzglabāšanas un skaitļošanas vajadzībām.

Lielo datu klasteru programmatūra apkopo daudzu mazu mašīnu resursus, lai sniegtu vairākas priekšrocības:

  • Resursu apvienošana: lielu datu kopu apstrādei nepieciešams liels procesora un atmiņas resursu daudzums, kā arī daudz pieejamās krātuves vietas.
  • Augsta pieejamība: kopas var nodrošināt dažāda līmeņa kļūdu toleranci un pieejamību, lai aparatūras vai programmatūras kļūmes neietekmētu piekļuvi datiem un apstrādi. Tas ir īpaši svarīgi reāllaika analīzei.
  • Mērogojamība: kopas atbalsta ātru mērogošanu (jaunu mašīnu pievienošana klasterim).

Lai strādātu klasterī, ir nepieciešami rīki klasteru dalības pārvaldībai, resursu piešķiršanas koordinēšanai un darba plānošanai ar atsevišķiem mezgliem. Klasteru dalību un resursu piešķiršanu var apstrādāt, izmantojot tādas programmas kā Hadoop YARN (vēl viens resursu sarunu vedējs) vai Apache Mesos.

Saliekamā skaitļošanas kopa bieži darbojas kā pamats, ar kuru cits mijiedarbojas, lai apstrādātu datus. programmatūru... Mašīnas, kas piedalās skaitļošanas klasterī, parasti ir saistītas arī ar izplatītas krātuves sistēmas pārvaldību.

Notiek datu izgūšana

Datu saņemšana ir neapstrādātu datu pievienošanas process sistēmai. Šīs darbības sarežģītība lielā mērā ir atkarīga no datu avotu formāta un kvalitātes un no tā, cik labi dati atbilst apstrādes prasībām.

Jūs varat pievienot lielus datus sistēmai, izmantojot īpašus rīkus. Tādas tehnoloģijas kā Apache Sqoop var iegūt esošos datus no relāciju datu bāzēm un pievienot to lielo datu sistēmai. Varat arī izmantot Apache Flume un Apache Chukwa - projektus lietojumprogrammu un serveru žurnālu apkopošanai un importēšanai. Ziņu starpniekus, piemēram, Apache Kafka, var izmantot kā saskarni starp dažādiem datu ģeneratoriem un lielo datu sistēmu. Sistēmas, piemēram, Gobblin, var apvienot un optimizēt visu instrumentu izvadi cauruļvada beigās.

Analīze, šķirošana un marķēšana parasti tiek veikta datu vākšanas laikā. Šo procesu dažreiz sauc par ETL (izvilkt, pārveidot, ielādēt), kas nozīmē izvilkt, pārveidot un ielādēt. Lai gan šis termins parasti attiecas uz mantotajiem uzglabāšanas procesiem, dažreiz to lieto arī lielo datu sistēmām. Tipiskas darbības ietver ienākošo datu pārveidošanu formatēšanai, kategorizēšanu un marķēšanu, datu filtrēšanu vai apstiprināšanu atbilstības nodrošināšanai.

Ideālā gadījumā ienākošie dati tiek formatēti minimāli.

Datu glabāšana

Pēc saņemšanas dati tiek nodoti komponentiem, kas pārvalda veikalu.

Neapstrādātu datu glabāšanai parasti tiek izmantotas izplatītas failu sistēmas. Risinājumi, piemēram, HDFS no Apache Hadoop, ļauj ierakstīt lielu datu apjomu vairākos klasteru mezglos. Šī sistēma nodrošina skaitļošanas resursus ar piekļuvi datiem, var ielādēt datus klasteru operatīvajā atmiņā, lai veiktu atmiņas darbības, un apstrādāt komponentu kļūmes. HDFS vietā var izmantot citas izplatītas failu sistēmas, tostarp Ceph un GlusterFS.

Datus var arī importēt citās izplatītās sistēmās, lai iegūtu strukturētāku piekļuvi. Izplatītās datu bāzes, īpaši NoSQL datu bāzes, ir labi piemērotas šai lomai, jo tās var apstrādāt neviendabīgus datus. Ir daudz dažādu izplatītu datu bāzu veidu, izvēle ir atkarīga no tā, kā vēlaties sakārtot un prezentēt savus datus.

Datu aprēķināšana un analīze

Kad dati ir pieejami, sistēma var sākt apstrādi. Skaitļošanas slānis, iespējams, ir sistēmas brīvākā daļa, jo prasības un pieejas šeit var ievērojami atšķirties atkarībā no informācijas veida. Dati bieži tiek atkārtoti apstrādāti, izmantojot vienu rīku vai dažādus rīkus dažādu veidu datu apstrādei.

Sērijveida apstrāde ir viena metode lielu datu kopu aprēķināšanai. Šis process ietver datu sadalīšanu mazākos gabalos, katra gabala apstrādes plānošanu atsevišķā mašīnā, datu pārkārtošanu, pamatojoties uz starpposma rezultāti un pēc tam galīgā rezultāta aprēķināšana un savākšana. Šo stratēģiju izmanto MapReduce no Apache Hadoop. Partiju apstrāde ir visnoderīgākā, strādājot ar ļoti lielām datu kopām, kurām nepieciešams daudz aprēķinu.

Citas slodzes prasa apstrādi reāllaikā. Tajā pašā laikā informācija ir nekavējoties jāapstrādā un jāsagatavo, un sistēmai savlaicīgi jāatbild, kad kļūst pieejama jauna informācija. Viens no reālā laika apstrādes īstenošanas veidiem ir nepārtrauktas datu plūsmas apstrāde, kas sastāv no atsevišķi elementi... Vēl viena kopīga reālā laika procesoru iezīme ir datu aprēķināšana klasteru atmiņā, kas novērš nepieciešamību rakstīt uz diska.

Apache Storm, Apache Flink un Apache Spark piedāvājums Dažādi ceļi reālā laika apstrādes ieviešana. Šīs elastīgās tehnoloģijas ļauj jums izvēlēties labāko pieeju katram atsevišķa problēma... Kopumā reālā laika apstrāde ir vislabāk piemērota, lai analizētu nelielus datu gabalus, kas mainās vai tiek ātri pievienoti sistēmai.

Visas šīs programmas ir ietvari. Tomēr ir arī daudzi citi veidi, kā aprēķināt vai analizēt datus lielo datu sistēmā. Šie rīki bieži tiek pievienoti iepriekš minētajām sistēmām un nodrošina papildu saskarnes mijiedarbībai ar pamatā esošajiem slāņiem. Piemēram, Apache Hive nodrošina datu noliktavas saskarni Hadoop, Apache Pig nodrošina vaicājumu saskarni un mijiedarbību ar SQL dati komplektā ar Apache Drill, Apache Impala, Apache Spark SQL un Presto. Mašīnmācībā tiek izmantotas Apache SystemML, Apache Mahout un MLlib no Apache Spark. Tiešai analītiskai programmēšanai, ko plaši atbalsta datu ekosistēma, tiek izmantoti R un Python.

Rezultātu vizualizācija

Datu tendenču vai izmaiņu atpazīšana laika gaitā bieži ir svarīgāka par iegūtajām vērtībām. Datu vizualizācija ir viens no visnoderīgākajiem veidiem, kā noteikt tendences un organizēt lielu datu punktu skaitu.

Apstrāde reāllaikā tiek izmantota, lai vizualizētu lietojumprogrammu un servera metriku. Dati bieži mainās, un liela metrikas izplatība parasti norāda uz būtisku ietekmi uz sistēmu vai organizāciju veselību. Tādus projektus kā Prometejs var izmantot, lai apstrādātu un vizualizētu datu plūsmas un laikrindas.

Viens no populārākajiem datu vizualizācijas veidiem ir elastīgā kaudze, agrāk pazīstama kā ELK kaudze. Logstash tiek izmantots datu vākšanai, Elasticsearch datu indeksēšanai un Kibana vizualizēšanai. Elastīgā kaudze var strādāt ar lieliem datiem, vizualizēt aprēķinu rezultātus vai mijiedarboties ar neapstrādātiem rādītājiem. Līdzīgu kaudzīti var iegūt, apvienojot Apache Solr indeksēšanai ar Kibana dakšiņu, ko sauc par banānu renderēšanai. Šo kaudzīti sauc par zīdu.

Vēl viena vizualizācijas tehnoloģija interaktīvam datu darbam ir dokumenti. Šādi projekti ļauj interaktīvi izpētīt un vizualizēt datus tādā formātā, kurā ir viegli koplietot un prezentēt datus. Populāri šāda veida saskarnes piemēri ir Jupyter Notebook un Apache Zeppelin.

Lielo datu vārdnīca

  • Lieli dati ir plašs termins datu kopām, kuras nevar pareizi apstrādāt parastie datori vai instrumenti to apjoma, ienākšanas ātruma un dažādības dēļ. Šo terminu parasti izmanto arī tehnoloģijām un stratēģijām darbam ar šādiem datiem.
  • Sērijveida apstrāde ir skaitļošanas stratēģija, kas ietver datu apstrādi lielās datu kopās. Parasti šī metode ir ideāla, lai apstrādātu datus, kas nav steidzami.
  • Klasterizētā skaitļošana ir prakse apvienot vairāku mašīnu resursus un pārvaldīt to kopīgās iespējas, lai veiktu uzdevumus. Tam nepieciešams klasteru pārvaldības slānis, kas apstrādā saziņu starp atsevišķiem mezgliem.
  • Datu ezers ir liela savākto datu krātuve salīdzinoši neapstrādātā stāvoklī. Šo terminu bieži lieto, lai apzīmētu nestrukturētus un bieži mainīgus lielos datus.
  • Datu ieguve ir plašs termins dažādām praksēm modeļu atrašanai lielās datu kopās. Tas ir mēģinājums sakārtot datu masu saprotamākā un saskaņotākā informācijas kopā.
  • Datu noliktava ir liela, pasūtīta krātuve analīzei un ziņošanai. Atšķirībā no datu ezera, noliktava sastāv no formatētiem un labi sakārtotiem datiem, kas ir integrēti ar citiem avotiem. Datu noliktavas bieži tiek minētas saistībā ar lielajiem datiem, taču tās bieži ir parasto datu apstrādes sistēmu sastāvdaļas.
  • ETL (iegūt, pārveidot un ielādēt) - datu ieguve, pārveidošana un ielāde. Šādi izskatās neapstrādātu datu iegūšanas un sagatavošanas process. Tas ir saistīts ar datu noliktavām, taču šī procesa iezīmes ir atrodamas arī lielo datu sistēmu cauruļvados.
  • Hadoop ir atvērtā pirmkoda Apache projekts lieliem datiem. Tas sastāv no izplatītas failu sistēmas HDFS un klasteru un resursu plānotāja ar nosaukumu YARN. Partiju apstrādes iespējas nodrošina MapReduce skaitļošanas dzinējs. Citas skaitļošanas un analīzes sistēmas var darboties ar MapReduce mūsdienu Hadoop izvietojumos.
  • Atmiņas aprēķins ir stratēģija, kas ietver visu darba datu kopu pārvietošanu klasteru atmiņā. Starpposma aprēķini netiek ierakstīti diskā; tie tiek saglabāti atmiņā. Tas sistēmām dod milzīgas ātruma priekšrocības salīdzinājumā ar sistēmām, kas saistītas ar I / O.
  • Mašīnmācīšanās ir tādu sistēmu izstrādes izpēte un prakse, kuras var apgūt, pielāgot un uzlabot, pamatojoties uz tai nodotajiem datiem. Parasti tas nozīmē paredzamo un statistisko algoritmu ieviešanu.
  • Kartes samazināšana (nejaukt ar Hadoop's MapReduce) ir algoritms aprēķinu kopas plānošanai. Process ietver uzdevuma sadalīšanu starp mezgliem un starpposma rezultātu iegūšanu, sajaukšanu un pēc tam katras kopas vienas vērtības izvadīšanu.
  • NoSQL ir plašs termins datu bāzēm, kas izstrādātas ārpus tradicionālā relāciju modeļa. NoSQL datu bāzes ir elastīgas un izkliedētas arhitektūras dēļ piemērotas lieliem datiem.
  • Straumēšana ir prakse, aprēķinot atsevišķus datu vienumus, kad tie pārvietojas pa sistēmu. Tas ļauj veikt reāllaika datu analīzi un ir piemērots steidzamu darījumu apstrādei, izmantojot ātrgaitas metriku.
Tagi :,

Tika prognozēts, ka 2011. gadā kopējais radīto un atkārtoto datu apjoms pasaulē varētu būt aptuveni 1,8 zetbaiti (1,8 triljoni gigabaitu) - aptuveni 9 reizes vairāk nekā tas, kas tika izveidots 2006. gadā.

Sarežģītāka definīcija

Tomēr ` lieli dati"ietver ne tikai milzīga informācijas daudzuma analīzi. Problēma nav tajā, ka organizācijas rada milzīgu datu apjomu, bet lielākā daļa no tiem tiek parādīta formātā, kas labi neatbilst tradicionālajam strukturētās datu bāzes formātam, piemēram, tīmekļa žurnāli, videoklipi, teksta dokumenti, mašīnas kods vai, piemēram, , ģeotelpiskie dati .... Tas viss tiek glabāts daudzās dažādās krātuvēs, dažreiz pat ārpus organizācijas. Tā rezultātā korporācijām var būt piekļuve milzīgam datu apjomam, un tām trūkst nepieciešamo rīku, lai izveidotu attiecības starp šiem datiem un izdarītu no tiem nozīmīgus secinājumus. Pievienojiet tam faktu, ka dati tagad tiek atjaunināti arvien biežāk, un jūs iegūstat situāciju, kurā tradicionālās informācijas analīzes metodes nevar sekot līdzi milzīgajiem pastāvīgi atjaunināto datu apjomiem, kas galu galā paver ceļu tehnoloģijām. lieli dati.

Labākā definīcija

Būtībā koncepcija lieli dati ietver darbu ar milzīga apjoma un dažāda sastāva informāciju, kas bieži tiek atjaunināta un atrodas dažādos avotos, lai palielinātu darba efektivitāti, radītu jaunus produktus un palielinātu konkurētspēju. Konsultāciju uzņēmums Forrester apkopo: ` Lieli dati apvienot paņēmienus un tehnoloģijas, kas nodrošina datu jēgu pie izmantojamības galējās robežas. ”

Cik liela ir atšķirība starp biznesa informāciju un lielajiem datiem?

Kreigs Batijs, Fujitsu Austrālijas galvenais mārketinga un tehnoloģiju direktors, norādīja, ka biznesa analīze ir aprakstošs process, kurā tiek analizēti rezultāti, ko uzņēmums sasniedzis noteiktā laika periodā, vienlaikus apstrādājot ātrumu lieli datiļauj veikt analīzi prognozējošu, kas var piedāvāt biznesa ieteikumus nākotnei. Lielie dati arī ļauj analizēt vairāk datu veidu, salīdzinot ar biznesa informācijas rīkiem, kas ļauj koncentrēties ne tikai uz strukturētu krātuvi.

Matt Slocum no O "Reilly Radar uzskata, ka, lai gan lieli dati un biznesa inteliģencei ir viens mērķis (atrast atbildes uz jautājumu), tie atšķiras viens no otra trīs aspektos.

  • Lieli dati ir paredzēti, lai apstrādātu vairāk informācijas nekā biznesa izlūkošana, un tas, protams, atbilst tradicionālajai lielo datu definīcijai.
  • Lielie dati ir paredzēti, lai apstrādātu saņemto un mainīgo informāciju ātrāk, kas nozīmē dziļu izpēti un interaktivitāti. Dažos gadījumos rezultāti tiek ģenerēti ātrāk, nekā tiek ielādēta tīmekļa lapa.
  • Lielie dati ir paredzēti, lai apstrādātu nestrukturētus datus, kuru veidus mēs sākam izpētīt tikai pēc tam, kad esam spējuši tos savākt un uzglabāt, un mums ir nepieciešami algoritmi un dialoga iespēja, lai atvieglotu šajos masīvos ietverto tendenču meklēšanu.

Saskaņā ar Oracle publicēto balto grāmatu Oracle Information Architecture: An Architect's Guide to Big Data, strādājot ar lielajiem datiem, mēs pieejam informācijai citādi nekā veicot biznesa analīzi.

Darbs ar lielajiem datiem nav līdzīgs parastajam biznesa informācijas procesam, kurā vienkārša zināmu vērtību pievienošana dod rezultātus: piemēram, kopā samaksāto rēķinu kopsumma kļūst par gada pārdošanu. Strādājot ar lielajiem datiem, rezultāts tiek iegūts to attīrīšanas procesā, izmantojot secīgu modelēšanu: pirmkārt, tiek izvirzīta hipotēze, izveidots statistiskais, vizuālais vai semantiskais modelis, uz kura pamata tiek izvirzīta ierosinātās hipotēzes pareizība. pārbaudīts, un tad tiek izvirzīts nākamais. Šis process prasa pētniekam vai nu interpretēt vizuālās vērtības, vai sastādīt interaktīvus vaicājumus, pamatojoties uz zināšanām, vai arī izstrādāt adaptīvus mašīnmācīšanās algoritmus, kas spēj sasniegt vēlamo rezultātu. Turklāt šāda algoritma kalpošanas laiks var būt diezgan īss.

Lielu datu analīzes metodes

Datu kopu analīzei ir daudz dažādu metožu, kuru pamatā ir no statistikas un datorzinātnēm aizgūti rīki (piemēram, mašīnmācīšanās). Saraksts nepretendē uz pilnību, taču tas atspoguļo populārākās pieejas dažādās nozarēs. Vienlaikus jāsaprot, ka pētnieki turpina darbu pie jaunu metožu radīšanas un esošo uzlabošanas. Turklāt dažas no iepriekš uzskaitītajām metodēm nav obligāti piemērojamas tikai lielajiem datiem un var tikt veiksmīgi izmantotas mazākiem masīviem (piemēram, A / B pārbaude, regresijas analīze). Protams, jo apjomīgāks un daudzveidīgāks masīvs tiek analizēts, jo precīzākus un atbilstošākus datus var iegūt pie izvades.

A / B pārbaude... Metode, kurā kontroles paraugs tiek salīdzināts pa vienam ar citiem. Tādējādi ir iespējams noteikt optimālo rādītāju kombināciju, lai panāktu, piemēram, labāko patērētāja reakciju uz mārketinga priekšlikumu. Lieli datiļauj veikt milzīgu atkārtojumu skaitu un tādējādi iegūt statistiski ticamu rezultātu.

Asociācijas noteikumu apguve... Paņēmienu kopums attiecību identificēšanai, t.i. asociācijas noteikumi starp mainīgajiem lielās datu kopās. Izmantots datu ieguve.

Klasifikācija... Paņēmienu kopums, kas ļauj paredzēt patērētāja uzvedību noteiktā tirgus segmentā (lēmumu pieņemšana par pirkšanu, aizplūšanu, patēriņu utt.). Izmantots datu ieguve.

Klasteru analīze... Statistiska metode objektu klasificēšanai grupās, identificējot iepriekš nezināmas kopīgās iezīmes. Izmantots datu ieguve.

Crowdsourcing... Metodika datu vākšanai no daudziem avotiem.

Datu saplūšana un datu integrācija... Paņēmienu kopums, kas ļauj analizēt sociālo tīklu lietotāju komentārus un reālā laikā salīdzināt tos ar pārdošanas rezultātiem.

Datu ieguve... Metožu kopums, kas ļauj noteikt patērētāju kategorijas, kuras visvairāk uztver reklamēto produktu vai pakalpojumu, identificē veiksmīgāko darbinieku īpašības un paredz patērētāju uzvedības modeli.

Ansambļa mācīšanās... Šī metode izmanto dažādus prognozēšanas modeļus, tādējādi uzlabojot prognožu kvalitāti.

Ģenētiskie algoritmi... Šajā tehnikā iespējamie risinājumi ir parādīti “hromosomu” veidā, kas var apvienoties un mutēt. Tāpat kā dabiskās evolūcijas procesā, visspēcīgākais izdzīvo.

Mašīnmācība... Informātikas virziens (vēsturiski tam tika piešķirts nosaukums "mākslīgais intelekts"), kura mērķis ir izveidot pašmācības algoritmus, pamatojoties uz empīrisko datu analīzi.

Dabiskās valodas apstrāde (NLP). Metožu kopums personas dabiskās valodas atpazīšanai, kas aizgūts no datorzinātnēm un valodniecības.

Tīkla analīze... Metožu kopums savienojumu mezglu analīzei tīklos. Lietojot sociālajos tīklos, tas ļauj analizēt attiecības starp atsevišķiem lietotājiem, uzņēmumiem, kopienām utt.

Optimizācija... Skaitlisku metožu kopums sarežģītu sistēmu un procesu pārprojektēšanai, lai uzlabotu vienu vai vairākus rādītājus. Palīdz pieņemt stratēģiskus lēmumus, piemēram, tirgū ieviestās produktu līnijas sastāvu, veikt ieguldījumu analīzi utt.

Rakstu atpazīšana... Paņēmienu kopums ar pašmācības elementiem patērētāju uzvedības modeļu prognozēšanai.

Prognozējošā modelēšana... Tehniku ​​kopums, kas ļauj jums izveidot matemātiskais modelis iepriekš noteiktu iespējamo notikumu attīstības scenāriju. Piemēram, analizējot CRM sistēmas datu bāzi, lai konstatētu iespējamos apstākļus, kas liks abonentiem mainīt pakalpojumu sniedzēju.

Regresija... Statistisko metožu kopums, lai identificētu modeļus starp atkarīgā mainīgā izmaiņām un vienu vai vairākiem neatkarīgiem. To bieži izmanto prognozēšanai un prognozēšanai. Izmanto datu ieguvē.

Sajūtu analīze... Patērētāju noskaņojuma novērtēšanas metodes ir balstītas uz cilvēka dabiskās valodas atpazīšanas tehnoloģijām. Tie ļauj izolēt no vispārējās informācijas plūsmas ziņojumus, kas saistīti ar interesējošo tēmu (piemēram, patēriņa prece). Tālāk novērtējiet sprieduma polaritāti (pozitīvu vai negatīvu), emocionalitātes pakāpi utt.

Signāla apstrāde... No radiotehnikas aizgūts metožu kopums, kura mērķis ir atpazīt signālu uz trokšņa fona un tā turpmāku analīzi.

Telpiskā analīze... Telpu datu analīzes metožu kopums, kas daļēji aizgūts no statistikas - reljefa topoloģija, ģeogrāfiskās koordinātas, objektu ģeometrija. Avots lieli datišajā gadījumā bieži tiek izmantotas ģeogrāfiskās informācijas sistēmas (ĢIS).

  • Revolution Analytics (pamatojoties uz R valodu matemātiskai statistikai).

Īpaša interese par šo sarakstu ir Apache Hadoop - atvērtā pirmkoda programmatūra, ko pēdējo piecu gadu laikā lielākā daļa akciju izsekotāju ir pierādījuši kā datu analizatoru. Tiklīdz Yahoo atvēra Hadoop kodu atklātā pirmkoda kopienai, IT nozarē nekavējoties parādījās pilnīgi jauna Hadoop produktu līnija. Gandrīz visi mūsdienu analīzes rīki lieli dati nodrošināt rīkus integrācijai ar Hadoop. To izstrādātāji ir gan jaunuzņēmumi, gan labi pazīstami pasaules uzņēmumi.

Lielo datu pārvaldības tirgi

Lielo datu platformas (BDP, Big Data Platform) kā līdzeklis cīņai pret digitālajiem akordiem

Spēja analizēt lieli dati, sarunvalodā saukta par lielajiem datiem, tiek uztverta kā svētība un nepārprotami. Bet vai tas tiešām tā ir? Ko var izraisīt niknā datu uzkrāšana? Visticamāk, uz to, ko pašmāju psihologi dēvē par cilvēka patoloģisku krātuvi, silogomaniju vai tēlaini "Pļuškina sindromu". Angļu valodā ļauno aizraušanos visu savākt sauc par hordingu (no angļu krājuma - "krājums"). Saskaņā ar garīgo slimību klasifikāciju Hording tiek klasificēts kā garīgi traucējumi. Digitālajā laikmetā tradicionālajam materiālu akordam pievieno digitālo (Digital Hoarding), no tā var ciest gan indivīdi, gan veseli uzņēmumi un organizācijas ().

Pasaules un Krievijas tirgus

Lielo datu ainava - galvenie piegādātāji

Interese par savākšanas, apstrādes, pārvaldības un analīzes rīkiem lieli dati parādīja gandrīz visus vadošos IT uzņēmumus, kas ir diezgan dabiski. Pirmkārt, viņi tieši saskaras ar šo parādību savā biznesā, un, otrkārt, lieli dati paver lieliskas iespējas jaunu tirgus nišu attīstīšanai un jaunu klientu piesaistei.

Tirgū ir parādījušies daudzi jaunizveidotie uzņēmumi, kas nodarbojas ar milzīgu datu apjomu apstrādi. Daži no tiem izmanto gatavu mākoņu infrastruktūru, ko nodrošina galvenie spēlētāji, piemēram, Amazon.

Lielo datu teorija un prakse nozarēs

Attīstības vēsture

2017

TmaxSoft prognoze: nākamais lielo datu "vilnis" prasīs DBVS modernizāciju

Uzņēmumi zina, ka milzīgais datu apjoms, ko tie ir uzkrājuši, satur svarīga informācija par viņu biznesu un klientiem. Ja uzņēmums var veiksmīgi izmantot šo informāciju, tam būs ievērojamas priekšrocības salīdzinājumā ar konkurenci, un tas varēs piedāvāt labākus produktus un pakalpojumus nekā viņu. Tomēr daudzas organizācijas joprojām nespēj efektīvi izmantot lieli dati sakarā ar to, ka to mantotā IT infrastruktūra nespēj nodrošināt nepieciešamo atmiņas ietilpību, datu apmaiņas procesus, utilītas un lietojumprogrammas, kas nepieciešamas, lai apstrādātu un analizētu lielu daudzumu nestrukturētu datu, lai no tiem iegūtu vērtīgu informāciju, kas norādīta vietnē TmaxSoft.

Turklāt, lai palielinātu apstrādes jaudu, kas nepieciešama, lai analizētu arvien pieaugošos datu apjomus, var būt nepieciešami ievērojami ieguldījumi organizācijas mantotajā IT infrastruktūrā, kā arī papildu uzturēšanas resursi, kurus varētu izmantot jaunu lietojumprogrammu un pakalpojumu izstrādei.

2015. gada 5. februārī Baltais nams izdeva ziņojumu, kurā tika apspriests, kā uzņēmumi izmanto “ lieli dati"Dažādiem pircējiem noteikt dažādas cenas - prakse, kas pazīstama kā" cenu diskriminācija "vai" diferencēta cenu noteikšana "(personalizēta cenu noteikšana). Ziņojumā ir aprakstīti “lielo datu” ieguvumi gan pārdevējiem, gan pircējiem, un tā autori secina, ka daudzas problemātiskas problēmas, kas radušās saistībā ar lielo datu parādīšanos un atšķirīgu cenu noteikšanu, var atrisināt esošā pretrunu ietvaros. diskriminācijas likumi un likumi.aizsargā patērētāju tiesības.

Pašlaik ziņojumā atzīmēts, ka ir maz pierādījumu tam, kā uzņēmumi izmanto lielos datus personalizēta mārketinga un diferencētas cenu noteikšanas kontekstā. Šī informācija liecina, ka pārdevēji izmanto cenu noteikšanas metodes, kuras var iedalīt trīs kategorijās:

  • pieprasījuma līknes izpēte;
  • Vadošā un diferencētā cenu noteikšana, pamatojoties uz demogrāfiskajiem datiem; un
  • uzvedības mērķauditorijas atlase un individuāla cenu noteikšana.

Pieprasījuma līknes izpēte: Tirgotāji bieži eksperimentē ar pieprasījumu un patērētāju uzvedību, nejauši iedalot klientus vienā no diviem iespējamiem cenu līmeņiem. "Tehniski šie eksperimenti ir atšķirīgas cenu noteikšanas veids, jo tie rada atšķirīgas cenas klientiem, pat ja tie ir" nediskriminējoši "tādā nozīmē, ka visiem klientiem ir vienlīdz liela iespēja" sasniegt "augstāku cenu."

Stūrēšana: Tā ir prakse prezentēt produktus patērētājiem, pamatojoties uz viņu demogrāfisko grupu. Piemēram, datoru kompānijas vietne var piedāvāt to pašu klēpjdatoru. dažādi veidi pircēji par dažādām cenām, kas noteiktas, pamatojoties uz informāciju, ko viņi ir snieguši par sevi (piemēram, atkarībā no tā, vai šis lietotājs ir valdības aģentūru, zinātnisko vai komerciālo institūciju pārstāvis vai privātpersona) vai viņu ģeogrāfiskā atrašanās vieta (piemēram, , nosaka pēc datora IP adreses).

Mērķtiecīgs uzvedības mārketings un personalizēta cenu noteikšana: Šajos gadījumos pircēju personas dati tiek izmantoti mērķtiecīgai reklāmai un noteiktu produktu cenu noteikšanai. Piemēram, tiešsaistes reklāmdevēji izmanto savākto reklāmu tīkli un izmantojot trešo pušu sīkdatnes, dati par lietotāju darbību internetā, lai nosūtītu mērķtiecīgus reklāmas materiālus. Šī pieeja, no vienas puses, ļauj patērētājiem saņemt viņu interesējošu preču un pakalpojumu reklāmas. Tomēr tas var radīt bažas tiem patērētājiem, kuri nevēlas noteiktus viņu personas datu veidus (piemēram, informāciju par saistīto vietņu apmeklējumiem) ar medicīniskiem un finansiāliem jautājumiem) tikās bez viņu piekrišanas.

Lai gan mērķtiecīgs uzvedības mārketings ir plaši izplatīts, ir salīdzinoši maz pierādījumu par personalizētu cenu noteikšanu tiešsaistes vidē. Ziņojumā norādīts, ka tas varētu būt saistīts ar faktu, ka joprojām tiek izstrādātas piemērotas metodes, vai arī ar to, ka uzņēmumi nesteidzas izmantot individuālu cenu noteikšanu (vai izvēlas par to klusēt) - iespējams, baidoties no negatīvas patērētāju reakcijas. .

Pārskata autori uzskata, ka "atsevišķam patērētājam lielo datu izmantošana neapšaubāmi ir saistīta gan ar iespējamo atdevi, gan risku". Atzīstot, ka lielo datu izmantošanā pastāv pārredzamības un diskriminācijas jautājumi, ziņojumā apgalvots, ka esošie diskriminācijas novēršanas un patērētāju aizsardzības likumi ir pietiekami, lai tos novērstu. Tomēr ziņojumā arī uzsvērta nepieciešamība pēc “pastāvīgas uzraudzības”, ja uzņēmumi konfidenciālu informāciju izmanto necaurspīdīgā veidā vai tādā veidā, uz kuru neattiecas esošais tiesiskais regulējums.

Šis ziņojums ir paplašinājums Baltā nama centieniem izpētīt lielo datu izmantošanu un diskriminējošās cenas internetā, kā arī to ietekmi uz amerikāņu patērētājiem. Iepriekš tika ziņots, ka Baltā nama lielo datu darba grupa publicēja savu ziņojumu par šo jautājumu 2014. gada maijā. Federālā tirdzniecības komisija (FTC) arī pievērsās šiem jautājumiem 2014. gada septembra seminārā par diskrimināciju saistībā ar lielo datu izmantošanu.

2014

Gartners kliedē mītus par lielajiem datiem

Gartnera 2014. gada rudens politikas kopsavilkumā CIO ir uzskaitīti vairāki izplatīti mīti par lielajiem datiem un tie tiek atspēkoti.

  • Visi ievieš lielo datu apstrādes sistēmas ātrāk nekā mēs

Interese par lielo datu tehnoloģijām ir rekordaugsta: 73% organizāciju, kuras šogad aptaujāja Gartner analītiķi, jau iegulda saistītos projektos vai gatavojas. Bet lielākā daļa no šīm iniciatīvām vēl ir sākuma stadijā, un tikai 13% aptaujāto jau ir ieviesuši šādus risinājumus. Visgrūtāk ir izdomāt, kā gūt ienākumus no lielajiem datiem, izlemt, kur sākt. Daudzas organizācijas iestrēgst izmēģinājuma posmā, jo nevar pievienoties jauna tehnoloģija konkrētiem biznesa procesiem.

  • Mums ir tik daudz datu, ka nav jāuztraucas par nelielām kļūdām.

Daži CIO uzskata, ka nelielas datu nepilnības neietekmē liela apjoma analīzes kopējos rezultātus. Ja ir daudz datu, katra atsevišķa kļūda patiešām mazāk ietekmē rezultātu, norāda analītiķi, bet pašas kļūdas kļūst daudz vairāk. Turklāt lielākā daļa analizēto datu ir ārēji, tiem nav zināma struktūra vai izcelsme, tāpēc palielinās kļūdu iespējamība. Tādējādi lielo datu pasaulē kvalitātei ir daudz lielāka nozīme.

  • Lielo datu tehnoloģijas novērsīs nepieciešamību pēc datu integrācijas

Lielie dati sola iespēju apstrādāt datus vietējā formātā ar automātisku shēmas ģenerēšanu, kad tā tiek nolasīta. Tiek uzskatīts, ka tas ļaus analizēt informāciju no tiem pašiem avotiem, izmantojot vairākus datu modeļus. Daudzi uzskata, ka tas arī ļaus galalietotājiem interpretēt jebkuru datu kopu pēc saviem ieskatiem. Patiesībā lielākajai daļai lietotāju bieži ir nepieciešama tradicionāla uz shēmu balstīta pieeja, kurā dati ir pareizi formatēti un ir vienošanās par informācijas integritātes līmeni un to, kā tai jābūt saistītai ar lietošanas gadījumu.

  • Nav jēgas izmantot datu noliktavas sarežģītai analīzei

Daudzi informācijas pārvaldības sistēmu administratori uzskata, ka nav jēgas tērēt laiku datu noliktavas izveidei, ņemot vērā, ka sarežģītās analītiskās sistēmas izmanto jaunus datu veidus. Faktiski daudzas sarežģītas analītikas sistēmas izmanto informāciju no datu noliktavas. Citos gadījumos jauni datu tipi papildus jāsagatavo analīzei lielo datu apstrādes sistēmās; jums jāpieņem lēmumi par datu piemērotību, apkopošanas principiem un nepieciešamo kvalitātes līmeni - šāda sagatavošana var notikt ārpus noliktavas.

  • Datu ezeri aizstās datu noliktavas

Patiesībā pārdevēji maldina klientus, pozicionējot datu ezerus kā krātuves aizvietotājus vai kā kritisku analītisko infrastruktūru. Pamatdatu ezera tehnoloģijām trūkst uzglabāšanai raksturīgās brieduma un funkcionalitātes. Tāpēc datu pārvaldības vadītājiem jāgaida, līdz ezeri sasniegs tādu pašu attīstības līmeni, norāda Gartners.

Accenture: 92% no tiem, kas ieviesa lielo datu sistēmas, ir apmierināti ar rezultātu

Starp galvenajiem lielo datu ieguvumiem respondenti minēja:

  • “Jaunu ienākumu avotu meklēšana” (56%),
  • "Klientu pieredzes uzlabošana" (51%),
  • "Jauni produkti un pakalpojumi" (50%) un
  • “Jauno klientu pieplūdums un veco klientu lojalitātes saglabāšana” (47%).

Daudzi uzņēmumi, ieviešot jaunas tehnoloģijas, ir saskārušies ar tradicionālām problēmām. 51% klupšanas akmens bija drošība, 47% - budžets, 41% - nepieciešamā personāla trūkums, bet 35% - grūtības integrēties esošajā sistēmā. Gandrīz visi aptaujātie uzņēmumi (aptuveni 91%) plāno drīz atrisināt problēmu ar personāla trūkumu un pieņemt darbā lielo datu speciālistus.

Uzņēmumi optimistiski raugās uz lielo datu tehnoloģiju nākotni. 89% uzskata, ka viņi mainīs biznesu tikpat daudz kā internets. 79% respondentu atzīmēja, ka uzņēmumi, kas neveic lielos datus, zaudēs savu konkurētspēju.

Tomēr respondenti nepiekrita tam, kas tieši būtu jāuzskata par lielajiem datiem. 65% respondentu uzskata, ka tie ir “lielo datu faili”, 60% uzskata, ka tie ir “uzlabota analīze un analīze”, un 50% uzskata, ka tie ir “dati no vizualizācijas rīkiem”.

Lielo datu pārvaldībai Madride tērē 14,7 miljonus eiro

2014. gada jūlijā kļuva zināms, ka Madride pilsētas infrastruktūras pārvaldīšanai izmantos lielo datu tehnoloģijas. Projekta izmaksas - 14,7 miljoni eiro, īstenoto risinājumu pamatā būs tehnoloģijas lielo datu analīzei un pārvaldībai. Ar viņu palīdzību Pilsētas administrācija vadīs darbu ar katru pakalpojumu sniedzēju un attiecīgi maksās atkarībā no pakalpojuma līmeņa.

Runa ir par administrācijas darbuzņēmējiem, kuri uzrauga ielu stāvokli, apgaismojumu, apūdeņošanu, zaļās zonas, sakopj teritoriju un izvada, kā arī pārstrādā atkritumus. Projekta laikā īpaši izraudzītiem inspektoriem tika izstrādāti 300 galvenie pilsētas pakalpojumu snieguma rādītāji, uz kuru pamata katru dienu tiks veikti 1,5 tūkstoši dažādu pārbaužu un mērījumu. Turklāt pilsēta sāks izmantot inovatīvu tehnoloģiju platformu ar nosaukumu Madrid iNTeligente (MiNT) - Smarter Madrid.

2013

Eksperti: Big Data Peak Fashion

Bez izņēmuma visi pārdevēji datu pārvaldības tirgū pašlaik izstrādā tehnoloģijas lielo datu pārvaldībai. Šo jauno tehnoloģisko tendenci aktīvi apspriež arī profesionālā sabiedrība - gan izstrādātāji, gan nozares analītiķi, gan šādu risinājumu potenciālie patērētāji.

Kā noskaidroja Datashift, no 2013. gada janvāra apkārtnē sākās diskusiju vilnis “ lieli dati"Ir pārsniegusi visus iedomājamos izmērus. Pēc tam, kad tika analizēts lielo datu pieminēšanas skaits sociālajos tīklos, Datashift aprēķināja, ka 2012. gadā šis termins tika izmantots aptuveni 2 miljardus reižu ziņās, kuras izveidoja aptuveni 1 miljons dažādu autoru visā pasaulē. Tas atbilst 260 ziņām stundā, maksimums ir 3070 pieminēšanas stundā.

Gartners: Katrs otrais CIO ir gatavs tērēt naudu lielajiem datiem

Pēc vairāku gadu eksperimentiem ar lielo datu tehnoloģijām un pirmajām ieviešanām 2013. gadā šādu risinājumu pielāgošanās ievērojami palielināsies, prognozē Gartners. Pētnieki aptaujāja IT līderus visā pasaulē un atklāja, ka 42% respondentu jau ir ieguldījuši lielo datu tehnoloģijās vai plāno veikt šādas investīcijas nākamā gada laikā (dati uz 2013. gada martu).

Uzņēmumi ir spiesti tērēt naudu apstrādes tehnoloģijām lieli dati tā kā informācijas ainava strauji mainās, man ir vajadzīgas jaunas pieejas informācijas apstrādei. Daudzi uzņēmumi jau ir sapratuši, ka lielie dati ir kritiski, un, strādājot ar tiem, jūs varat sasniegt priekšrocības, kas nav pieejamas, izmantojot tradicionālos informācijas avotus un to apstrādes metodes. Turklāt nepārtrauktais "lielo datu" tēmas pārspīlējums plašsaziņas līdzekļos veicina interesi par attiecīgajām tehnoloģijām.

Gartner viceprezidents Frenks Buitendijks pat mudināja uzņēmumus mērenēt savu degsmi, jo daži ir nobažījušies, ka lielo datu iegūšanā atpaliek no konkurentiem.

"Nav jāuztraucas, iespējas īstenot idejas, kas balstītas uz lielo datu tehnoloģijām, ir praktiski bezgalīgas," viņš teica.

Gartners prognozē, ka līdz 2015. gadam 20% no Global 1000 uzņēmumiem stratēģiski pievērsīsies "informācijas infrastruktūrai".

Gaidot jaunas iespējas, ko sniegs lielo datu apstrādes tehnoloģijas, daudzas organizācijas jau organizē dažāda veida informācijas vākšanas un uzglabāšanas procesu.

Izglītības un valsts organizācijām, kā arī nozares uzņēmumiem lielākais biznesa pārveidošanas potenciāls ir uzkrāto datu kombinācija ar tā sauktajiem tumšajiem datiem (burtiski - "tumšie dati"), pēdējos ietver ziņas E -pasts, multivide un cits līdzīgs saturs. Pēc Gartnera domām, tie, kuri iemācīsies rīkoties ar visdažādākajiem informācijas avotiem, uzvarēs datu sacensībās.

Cisco aptauja: lieli dati palīdzēs palielināt IT budžetu

2013. gada pavasara aptaujā Cisco Connected World Technology Report, ko 18 valstīs veica neatkarīga analītikas firma InsightExpress, tika aptaujāti 1800 koledžas studenti un līdzīgs skaits jauno speciālistu vecumā no 18 līdz 30 gadiem. Aptauja tika veikta, lai noskaidrotu IT nodaļu gatavības pakāpi projektu īstenošanai Lieli dati un gūt ieskatu ar to saistītajos izaicinājumos, tehnoloģiju trūkumos un šādu projektu stratēģiskajā vērtībā.

Lielākā daļa uzņēmumu vāc, reģistrē un analizē datus. Neskatoties uz to, ziņojumā teikts, ka daudzi uzņēmumi saskaras ar virkni sarežģītu biznesa un informācijas tehnoloģiju problēmu saistībā ar lielajiem datiem. Piemēram, 60 procenti aptaujāto atzīst, ka lielo datu risinājumi var uzlabot lēmumu pieņemšanas procesus un palielināt konkurētspēju, bet tikai 28 procenti apgalvoja, ka no uzkrātās informācijas jau saņem reālus stratēģiskus ieguvumus.

Vairāk nekā puse aptaujāto IT vadītāju uzskata, ka lielo datu projekti palīdzēs palielināt IT budžetu viņu organizācijās, jo tiks paaugstinātas prasības tehnoloģijām, personālam un profesionālajām prasmēm. Tajā pašā laikā vairāk nekā puse respondentu sagaida, ka šādi projekti palielinās IT budžetu viņu uzņēmumos jau 2012. gadā. 57 procenti ir pārliecināti, ka Big Data nākamo trīs gadu laikā palielinās budžetu.

81 procents respondentu teica, ka visiem (vai vismaz dažiem) lielo datu projektiem būs nepieciešama mākoņdatošana. Tādējādi mākoņtehnoloģiju izplatība var ietekmēt lielo datu risinājumu izplatīšanas ātrumu un šo risinājumu vērtību biznesam.

Uzņēmumi vāc un izmanto dažāda veida datus, gan strukturētus, gan nestrukturētus. Šeit ir avoti, no kuriem aptaujas dalībnieki iegūst datus (Cisco Connected World Technology Report):

Gandrīz puse (48 procenti) CIO prognozē, ka nākamo divu gadu laikā viņu tīklu slodze dubultosies. (Tas jo īpaši attiecas uz Ķīnu, kur 68 procenti aptaujāto uzskata šo viedokli, un Vācija - 60 procenti.) 23 procenti respondentu sagaida, ka nākamo divu gadu laikā tīkla slodze trīskāršosies. Tajā pašā laikā tikai 40 procenti respondentu paziņoja par gatavību eksplozīvam tīkla trafika pieaugumam.

27 procenti aptaujāto atzina, ka viņiem nepieciešama labāka IT politika un informācijas drošības pasākumi.

21 procentiem ir nepieciešams lielāks joslas platums.

Lielie dati IT nodaļām paver jaunas iespējas veidot vērtību un veidot ciešas attiecības ar biznesa vienībām, ļaujot tām palielināt ieņēmumus un stiprināt uzņēmuma finansiālo stāvokli. Lielo datu projekti padara IT nodaļas par stratēģisku partneri biznesa vienībām.

Pēc 73 procentu aptaujāto domām, tieši IT nodaļa kļūs par lielo datu stratēģijas virzītājspēku. Vienlaikus respondenti uzskata, ka šīs stratēģijas īstenošanā tiks iesaistīti arī citi departamenti. Pirmkārt, tas attiecas uz finanšu nodaļām (to nosauca 24 procenti respondentu), pētniecību un attīstību (20 procenti), darbību (20 procenti), inženierzinātnes (19 procenti), kā arī mārketingu (15 procenti) un pārdošanas apjoms (14 procenti).

Gartners: Miljoniem jaunu darbu, kas nepieciešami lielo datu pārvaldībai

Globālie IT izdevumi līdz 2013. gadam sasniegs 3,7 miljardus ASV dolāru, kas ir par 3,8% vairāk nekā izdevumi informācijas tehnoloģijām 2012. gadā (gada beigām prognozēts 3,6 miljardi ASV dolāru). Segments lieli dati(lielie dati) pieaugs daudz ātrāk, teikts Gartnera ziņojumā.

Līdz 2015. gadam informācijas tehnoloģiju jomā tiks izveidoti 4,4 miljoni darbavietu, lai apkalpotu lielos datus, no kuriem 1,9 miljoni tiks radīti. Turklāt katra šāda darbavieta radīs trīs papildu darbavietas ārpus IT nozares, lai tikai Amerikas Savienotajās Valstīs nākamo četru gadu laikā 6 miljoni cilvēku strādātu, lai atbalstītu informācijas ekonomiku.

Pēc Gartner ekspertu domām, galvenā problēma ir tā, ka nozarē nav pietiekami daudz talantu: gan privātā, gan valsts izglītības sistēma, piemēram, ASV, nespēj nodrošināt nozari ar pietiekamu skaitu kvalificētu personāls. Tātad no minētajām jaunajām darbavietām IT jomā tikai viens no trim tiks nodrošināts ar personālu.

Analītiķi uzskata, ka kvalificētu IT darbinieku audzināšanas loma jāuzņemas tieši uzņēmumiem, kuriem tie ir ļoti nepieciešami, jo šādi darbinieki viņiem kļūs par vārtiem uz jauno informācijas ekonomiku nākotnē.

2012

Pirmā skepse par lielajiem datiem

Ovum un Gartner analītiķi to iesaka par modernu 2012. gada tēmu lieli dati var būt laiks atbrīvot ilūziju.

Termins "lieli dati" šajā laikā parasti attiecas uz arvien pieaugošo informācijas apjomu, kas tiek saņemts tiešsaistē no sociālajiem medijiem, sensoru tīkliem un citiem avotiem, kā arī uz arvien pieaugošo rīku klāstu, ko izmanto datu apstrādei un svarīgu biznesa tendenču noteikšanai.

"Sakarā ar ažiotāžu (vai neskatoties uz to) par lielo datu ideju, ražotāji 2012. gadā ar lielu cerību aplūkoja šo tendenci," sacīja Ovum analītiķis Tonijs Beiers.

Bayer teica, ka DataSift ir veikusi lielo datu pieminēšanas retrospektīvu analīzi

Lielie dati (jeb lielie dati) ir metožu kopums darbam ar milzīgu daudzumu strukturētas vai nestrukturētas informācijas. Lielo datu speciālisti to apstrādā un analizē, lai iegūtu vizuālus, cilvēkam lasāmus rezultātus. Look At Me runāja ar profesionāļiem un noskaidroja, kāda ir situācija ar lielo datu apstrādi Krievijā, kur un kas ir labāk tiem, kas vēlas strādāt šajā jomā, lai mācītos.

Aleksejs Ryvkins par galvenajiem virzieniem lielo datu jomā, saziņā ar klientiem un skaitļu pasauli

Studēju Maskavas Elektronisko tehnoloģiju institūtā. Galvenais, ko man izdevās izkļūt, bija pamatzināšanas fizikā un matemātikā. Vienlaikus ar studijām strādāju pētniecības un attīstības centrā, kur nodarbojos ar trokšņa imūnās kodēšanas algoritmu izstrādi un ieviešanu drošai datu pārraidei. Pabeidzot bakalaura grādu, iestājos Biznesa informātikas maģistrantūrā Ekonomikas augstskolā. Pēc tam es gribēju strādāt IBS. Man paveicās, ka tolaik dēļ liela summa projektiem, notika papildu praktikantu pieņemšana darbā, un pēc vairākām intervijām es sāku strādāt IBS, kas ir viens no lielākajiem Krievijas uzņēmumiem šajā jomā. Trīs gadu laikā no praktikanta esmu kļuvis par uzņēmumu risinājumu arhitektu. Tagad es pilnveidoju lielo datu tehnoloģiju zināšanas finanšu un telekomunikāciju nozares klientu uzņēmumiem.

Cilvēkiem, kuri vēlas strādāt ar lielajiem datiem, ir divas galvenās specializācijas: analītiķi un IT konsultanti, kas rada tehnoloģijas darbam ar lielajiem datiem. Turklāt jūs varat arī runāt par lielo datu analītiķa profesiju, tas ir, par cilvēkiem, kuri tieši strādā ar datiem, ar klienta IT platformu. Iepriekš tie bija parastie analītiķi-matemātiķi, kuri zināja statistiku un matemātiku un izmantoja statistikas programmatūru datu analīzes problēmu risināšanai. Mūsdienās papildus zināšanām par statistiku un matemātiku ir nepieciešama arī izpratne par tehnoloģijām un datu dzīves ciklu. Šī, manuprāt, ir atšķirība starp mūsdienu datu analītiķi un tiem analītiķiem, kuri bija iepriekš.

Mana specializācija ir IT konsultācijas, tas ir, es izdomāju un piedāvāju klientiem veidus, kā risināt biznesa problēmas, izmantojot IT tehnoloģijas. Uz konsultācijām nāk cilvēki ar dažādu pieredzi, taču šīs profesijas svarīgākās īpašības ir spēja izprast klienta vajadzības, vēlme palīdzēt cilvēkiem un organizācijām, labas komunikācijas un komandas prasmes (jo tas vienmēr ir darbs ar klientu un komandā), labas analītiskās prasmes. Iekšējā motivācija ir ļoti svarīga: mēs strādājam konkurences apstākļos, un klients gaida neparastus risinājumus un interesi par darbu.

Lielākā daļa mana laika tiek veltīta sarunām ar klientiem, viņu biznesa vajadzību formalizēšanai un palīdzībai izstrādāt vispiemērotāko tehnoloģiju arhitektūru. Atlases kritērijiem šeit ir sava īpatnība: papildus funkcionalitāti un TCO (kopējās īpašuma izmaksas), nefunkcionālas prasības sistēmai ir ļoti svarīgas, visbiežāk tas ir reakcijas laiks, informācijas apstrādes laiks. Lai pārliecinātu klientu, mēs bieži izmantojam koncepcijas pierādīšanas pieeju - mēs piedāvājam bez maksas “pārbaudīt” kādu problēmu, šaurā datu kopā, lai pārliecinātos, ka tehnoloģija darbojas. Risinājumam vajadzētu radīt klientam konkurences priekšrocības, iegūstot papildu priekšrocības (piemēram, x-sell, cross-sales) vai atrisināt kādu problēmu uzņēmējdarbībā, teiksim, samazināt augsts līmenis kredītu krāpšana.

Būtu daudz vieglāk, ja klienti nāktu ar gatavu uzdevumu, bet līdz šim viņi nesaprot, ka ir parādījusies revolucionāra tehnoloģija, kas var mainīt tirgu pēc pāris gadiem

Ar kādām problēmām jums jāsaskaras? Tirgus vēl nav gatavs izmantot lielo datu tehnoloģijas. Būtu daudz vieglāk, ja klienti nāktu ar gatavu uzdevumu, bet viņi vēl neapzinās, ka ir parādījusies revolucionāra tehnoloģija, kas var mainīt tirgu pēc pāris gadiem. Tāpēc mēs faktiski strādājam starta režīmā - mēs ne tikai pārdodam tehnoloģijas, bet arī ikreiz, kad pārliecinām klientus, ka viņiem ir jāiegulda šajos risinājumos. Šī ir vizionāru nostāja - mēs parādām klientiem, kā viņi var mainīt savu biznesu, iesaistot datus un IT. Mēs veidojam šo jauno tirgu - komerciālu IT konsultāciju tirgu lielo datu jomā.

Ja cilvēks vēlas iesaistīties datu analīzē vai IT konsultācijās lielo datu jomā, tad pirmā lieta, kas ir svarīga, ir matemātiska vai tehniska izglītība ar labu matemātisko sagatavotību. Ir arī noderīgi iepazīties ar īpašām tehnoloģijām, piemēram, SAS, Hadoop, R vai IBM risinājumiem. Turklāt jums ir aktīvi jāinteresējas par lielo datu lietišķajām problēmām, piemēram, par to, kā tās var izmantot, lai uzlabotu kredītreitingu bankā vai pārvaldē. dzīves cikls klients. Šīs un citas zināšanas var iegūt no pieejamiem avotiem: piemēram, Coursera un Big Data University. Pensilvānijas Universitātē Wharton ir arī klientu analīzes iniciatīva, kurā ir publicēts daudz interesantu materiālu.

Nopietna problēma tiem, kas vēlas strādāt mūsu jomā, ir acīmredzams informācijas trūkums par Big Data. Jūs nevarat doties uz grāmatnīcu vai kādu vietni un iegūt, piemēram, izsmeļošu lietu kolekciju par visām lielo datu tehnoloģiju lietojumprogrammām bankās. Šādu uzziņu grāmatu nav. Daļa informācijas ir grāmatās, otra daļa tiek apkopota konferencēs, un daļa ir jāsasniedz pašiem.

Vēl viena problēma ir tā, ka analītiķiem ir labi skaitļu pasaulē, taču viņiem ne vienmēr ir ērti biznesā. Šie cilvēki bieži ir intraverti, viņiem ir grūtības sazināties, un tāpēc viņiem ir grūti pārliecinoši paziņot pētniecības rezultātus klientiem. Lai attīstītu šīs prasmes, es ieteiktu tādas grāmatas kā Piramīdas princips, Runā diagrammu valodā. Tie palīdz attīstīt prezentācijas prasmes, kodolīgi un skaidri izteikt savas domas.

Man ļoti palīdzēja dalība dažādos lietu čempionātos studiju laikā Ekonomikas augstskolā. Gadījumu čempionāti ir intelektuālas sacensības, kurās studenti studē biznesa problēmas un piedāvā risinājumus. Viņiem ir divas garšas: lietu čempionāti konsultāciju firmām, piemēram, McKinsey, BCG, Accenture, un neatkarīgi lietu čempionāti, piemēram, Changellenge. Piedaloties tajās, es iemācījos redzēt un izlemt izaicinošus uzdevumus- no problēmas identificēšanas un tās strukturēšanas līdz ieteikumiem tās risināšanai.

Oļegs Mihalskis par Krievijas tirgu un jauna produkta radīšanas specifika lielo datu jomā

Pirms pievienošanās Acronis, es jau biju iesaistīts jaunu produktu laišanā tirgū citos uzņēmumos. Tas vienmēr ir interesanti un vienlaikus grūti, tāpēc mani uzreiz ieinteresēja iespēja strādāt mākoņa pakalpojumi un uzglabāšanas risinājumi. Šajā jomā noderēja visa mana iepriekšējā pieredze IT nozarē, ieskaitot manu starta projekta I-paātrinātāju. Palīdzēja arī uzņēmējdarbības izglītība (MBA) papildus inženierzinātņu pamatiem.

Krievijā lielajiem uzņēmumiem - bankām, mobilo sakaru operatoriem utt. - ir nepieciešama lielo datu analīze, tāpēc mūsu valstī ir perspektīvas tiem, kas vēlas strādāt šajā jomā. Tiesa, daudzi projekti tagad ir integrācija, tas ir, tiek veikti, pamatojoties uz ārvalstu attīstību vai atvērtā koda tehnoloģijām. Šādos projektos netiek radītas principiāli jaunas pieejas un tehnoloģijas, bet drīzāk tiek pielāgota esošā attīstība. Uzņēmumā Acronis mēs izvēlējāmies citu ceļu un, analizējot pieejamās alternatīvas, nolēmām ieguldīt savā attīstībā, kā rezultātā izveidojot sistēmu. droša uzglabāšana lieliem datiem, kas nav zemāki par pašizmaksu, piemēram, Amazon S3, bet darbojas uzticami un efektīvi un ievērojami mazākā mērogā. Lielajiem interneta uzņēmumiem ir arī sava attīstība attiecībā uz lielajiem datiem, taču tie vairāk koncentrējas uz iekšējām vajadzībām, nevis uz ārējo klientu vajadzību apmierināšanu.

Ir svarīgi saprast tendences un ekonomiskos spēkus, kas ietekmē lielo datu apstrādes jomu. Lai to izdarītu, jums daudz jālasa, jāuzklausa IT nozares autoritatīvu ekspertu runas, jāapmeklē tematiskās konferences. Tagad gandrīz katrā konferencē ir sadaļa par lielajiem datiem, taču viņi visi par to runā no cita leņķa: tehnoloģiju, biznesa vai mārketinga ziņā. Jūs varat doties projektu darbā vai praksē uzņēmumā, kas jau veic projektus par šo tēmu. Ja esat pārliecināts par savām spējām, tad vēl nav par vēlu organizēt startēšanu lielo datu jomā.

Bez pastāvīga kontakta ar tirgu jauna attīstība rada risku, ka tā netiks pieprasīta

Tomēr, kad esat atbildīgs par jaunu produktu, daudz laika tiek veltīts tirgus analīzei un saziņai ar potenciālajiem klientiem, partneriem, profesionāliem analītiķiem, kuri daudz zina par klientiem un viņu vajadzībām. Bez pastāvīga kontakta ar tirgu jauna attīstība rada risku, ka tā netiks pieprasīta. Vienmēr ir daudz neskaidrību: jums ir jāsaprot, kas būs pirmie lietotāji (pirmie lietotāji), kas jums viņiem ir vērtīgs un kā tad piesaistīt masu auditoriju. Otrs svarīgākais uzdevums ir veidot un nodot izstrādātājiem skaidru un holistisku redzējumu par galaproduktu, lai motivētu viņus strādāt tādos apstākļos, kad dažas prasības vēl var mainīties, un prioritātes ir atkarīgas no pirmo klientu atsauksmēm. Tāpēc svarīgs uzdevums ir pārvaldīt klientu cerības, no vienas puses, un izstrādātājus, no otras puses. Tā, ka ne viens, ne otrs nezaudēja interesi un noveda projektu līdz galam. Pēc pirmā veiksmīgā projekta kļūst vieglāk, un galvenais izaicinājums būs atrast pareizo izaugsmes modeli jaunajam biznesam.

Lieli dati- Angļu. "Lieli dati". Šis termins parādījās kā alternatīva DBVS un kļuva par vienu no galvenajām IT infrastruktūras tendencēm, kad lielākā daļa nozares gigantu - IBM, Microsoft, HP, Oracle un citi sāka izmantot šo koncepciju savās stratēģijās. Lielie dati tiek saprasti kā milzīgs (simtiem terabaitu) datu masīvs, ko nevar apstrādāt, izmantojot tradicionālās metodes; dažreiz - šo datu apstrādes rīki un metodes.

Lielo datu avotu piemēri: RFID notikumi, ziņojumi sociālajos tīklos, meteoroloģiskā statistika, informācija par mobilo tīklu abonentu atrašanās vietu šūnu komunikācija un dati no audio / video ierakstīšanas ierīcēm. Tāpēc "lielos datus" plaši izmanto ražošanā, veselības aprūpē, valdībā, interneta biznesā - jo īpaši, analizējot mērķauditoriju.

Raksturīgi

Lielo datu zīmes tiek definētas kā “trīs V”: Skaļums - apjoms (patiešām liels); daudzveidība - daudzveidība, daudz; ātrums - ātrums (nepieciešama ļoti ātra apstrāde).

Lielie dati bieži ir nestrukturēti, un to apstrādei nepieciešami īpaši algoritmi. Lielo datu analīzes metodes ietver:

  • ("Datu ieguve") - pieeju kopums slēptu noderīgu zināšanu atklāšanai, kuras nevar iegūt ar standarta metodēm;
  • Crowdsourcing (pūlis - "pūlis", iegāde - izmantošana kā avots) - būtisku problēmu risināšana ar kopīgiem spēkiem brīvprātīgajiem, kuriem nav noslēgts obligāts darba līgums un attiecības, darbību koordinēšana, izmantojot IT rīkus;
  • Datu saplūšana un integrācija ("datu sajaukšana un iegulšana") - metožu kopums vairāku avotu savienošanai dziļas analīzes ietvaros;
  • Mašīnmācība ("mašīnmācīšanās") - mākslīgā intelekta pētījumu apakšnodaļa, kurā tiek pētītas statistikas analīzes izmantošanas metodes un prognožu iegūšana, pamatojoties uz pamatmodeliem;
  • raksta atpazīšana (piemēram, sejas atpazīšana kameras vai videokameras skatu meklētājā);
  • telpiskā analīze - topoloģijas, ģeometrijas un ģeogrāfijas izmantošana datu konstruēšanai;
  • datu vizualizācija - analītiskās informācijas izvade ilustrāciju un diagrammu veidā, izmantojot interaktīvus rīkus un animācijas, lai izsekotu rezultātiem un izveidotu pamatu turpmākai uzraudzībai.

Informācijas glabāšana un analīze tiek veikta lielā skaitā augstas veiktspējas serveru. Galvenā tehnoloģija ir Hadoop, atvērtā koda.

Tā kā laika gaitā informācijas apjoms tikai palielināsies, grūtības rada nevis datu iegūšana, bet gan veids, kā tos apstrādāt ar maksimālu labumu. Kopumā darba process ar lielajiem datiem ietver: informācijas vākšanu, tās strukturēšanu, ieskatu un kontekstu veidošanu un ieteikumu izstrādi rīcībai. Jau pirms pirmā posma ir svarīgi skaidri definēt darba mērķi: kādi tieši ir dati, piemēram, nosakot produkta mērķauditoriju. Pretējā gadījumā pastāv risks iegūt daudz informācijas, nesaprotot, kā tieši to var izmantot.