Big data big data. Big Data: elemzések és megoldások

Ismered ezt a híres viccet? A Big Data olyan, mint a 18 év alatti szex:

mindenki gondol rá;
mindenki erről beszél;
mindenki azt hiszi, hogy a barátai csinálják;
szinte senki nem csinálja;
aki csinálja, rosszul teszi;
mindenki azt hiszi, hogy legközelebb jobb lesz;
senki sem tesz biztonsági intézkedéseket;
bárki szégyelli bevallani, hogy nem tud valamit;
ha valakinek sikerül, az mindig nagy zajt csap.

De legyünk őszinték, minden felhajtás körül mindig ott lesz a szokásos kíváncsiság: milyen felhajtás és van -e ott valami igazán fontos? Röviden: igen, van. Részletek alább. Kiválasztottuk Önnek a Big Data technológiák legcsodálatosabb és legérdekesebb alkalmazásait. Ez a kis piackutatás világos példákon szembesül egy egyszerű ténnyel: a jövő nem jön el, nem kell "várni még n évet, és a varázslat valósággá válik". Nem, már meg is érkezett, de a szem számára még mindig észrevehetetlen, és ezért a szingularitás szinterezése még nem égeti meg annyira a munkaerőpiac jól ismert pontját. Megy.

1 Hogyan alkalmazzák a Big Data technológiákat ott, ahol keletkeztek

A nagy informatikai cégek születtek meg az adattudományban, így a belsejük a legérdekesebb ezen a területen. A Térképcsökkentés paradigmának otthont adó Google Kampány kizárólagos célja, hogy programozóit gépi tanulási technológiákra nevelje. És ez a versenyelőnyük: új ismeretek megszerzése után az alkalmazottak új módszereket fognak alkalmazni azokban a Google -projektekben, ahol folyamatosan dolgoznak. Képzelje el a hatalmas listát azokról a területekről, ahol egy kampány forradalmasíthatja. Egy példa: neurális hálózatokat használnak.

A vállalat minden termékében megvalósítja a gépi tanulást is. Előnye egy nagy ökoszisztéma jelenléte, amely magában foglalja a mindennapi életben használt összes digitális eszközt. Ez lehetővé teszi az Apple számára, hogy elérje a lehetetlen szintet: a kampány ugyanannyi felhasználói adatot tartalmaz, mint bármely más. Ugyanakkor az adatvédelmi politika nagyon szigorú: a vállalat mindig azzal dicsekedett, hogy nem használja fel az ügyfelek adatait reklámcélokra. Ennek megfelelően a felhasználói adatok titkosítva vannak, így az Apple ügyvédei vagy akár az FBI felhatalmazással nem tudja elolvasni. Az által találsz remek áttekintés Az Apple AI fejlesztése.

2 Big Data 4 keréken

A modern autó információgyűjtő: minden adatot felhalmoz a vezetőről, a környezetről, a csatlakoztatott eszközökről és önmagáról. Hamarosan egy ilyen hálózathoz csatlakozó jármű akár 25 GB adatot is generál óránként.

A közlekedési telematikát hosszú évek óta használják az autógyártók, de kifinomultabb adatgyűjtési módszert lobbiznak, amely teljes mértékben kihasználja a Big Data előnyeit. Ez azt jelenti, hogy a technológia a blokkolásgátló fék- és csúszásgátló rendszerek automatikus aktiválásával figyelmeztetheti a vezetőt a rossz útviszonyokra.

Más aggályok, beleértve a BMW-t is, a Big Data technológiát, a teszt prototípusokból, az autóban található hibamemória-rendszerből és az ügyfelek panaszaiból összegyűjtött információkkal kombinálva azonosítják a modell gyengeségeit a gyártás elején. Most a hónapokig tartó adatok manuális értékelése helyett egy modern algoritmust alkalmaznak. Csökkennek a hibák és a hibaelhárítási költségek, ami felgyorsítja a BMW információelemzési munkafolyamatait.

Szakértői becslések szerint 2019 -re a csatlakoztatott autók piaci forgalma eléri a 130 milliárd dollárt. Ez nem meglepő, tekintettel arra, hogy az autógyártók milyen ütemben integrálják a jármű szerves részét képező technológiákat.

A Big Data használata hozzájárul a gép biztonságosabbá és funkcionálisabbá tételéhez. Tehát a Toyota információs kommunikációs modulok (DCM) beágyazásával. Ez a Big Data -hoz használt eszköz feldolgozza és elemzi a DCM által gyűjtött adatokat, hogy további hasznot húzzon belőlük.

3 A Big Data alkalmazása az orvostudományban

A Big Data technológiák orvosi területen történő bevezetése lehetővé teszi az orvosok számára, hogy alaposabban tanulmányozzák a betegséget, és egy adott esetben hatékony kezelést válasszanak. Az információk elemzésével az egészségügyi dolgozók könnyebben megjósolhatják a visszaesést, és megelőző intézkedéseket hozhatnak. Az eredmény a pontosabb diagnózis és a jobb kezelés.

Az új technika lehetővé tette a betegek problémáinak más szemszögből történő szemlélését, ami a probléma korábban ismeretlen forrásainak felfedezéséhez vezetett. Például egyes fajok genetikailag hajlamosabbak a szívbetegségekre, mint más etnikai csoportok. Most, amikor egy beteg egy bizonyos betegségre panaszkodik, az orvosok figyelembe veszik a fajuk azon tagjainak adatait, akik ugyanezen problémára panaszkodtak. Az adatok összegyűjtése és elemzése lehetővé teszi, hogy sokkal többet megtudjon a betegekről: az étkezési preferenciáktól és az életmódtól a DNS genetikai szerkezetéig és a sejtek, szövetek, szervek metabolitjaiig. Például a Kansas City -i Gyermekgenomikai Orvostudományi Központ betegeket és elemzéseket végez a rákot okozó genetikai kód mutációira vonatkozóan. Az egyes betegek egyedi megközelítése, figyelembe véve a DNS -ét, minőségileg új szintre emeli a kezelés hatékonyságát.

A Big Data használatának megértése az első és legfontosabb változás az orvosi területen. Amikor a beteg kezelés alatt áll, egy kórház vagy más egészségügyi intézmény sok hasznos információt szerezhet a személyről. Az összegyűjtött információkat a betegség kiújulásának bizonyos fokú előrejelzésére használják. Például, ha a páciens agyvérzést kapott, az orvosok tanulmányozzák az agyi érbaleset idejére vonatkozó információkat, elemzik a korábbi precedensek közötti közbenső időszakot (ha vannak ilyenek), különös figyelmet fordítva a stresszes helyzetekre és a súlyos fizikai aktivitásra a beteg életében. Ezen adatok alapján a kórházak egyértelmű cselekvési tervet adnak a páciensnek, hogy megelőzzék a stroke lehetőségét a jövőben.

A hordható eszközök szintén szerepet játszanak az egészségügyi problémák azonosításában, még akkor is, ha egy személynek nincsenek nyilvánvaló tünetei egy adott betegségre vonatkozóan. Ahelyett, hogy hosszú vizsgálat során értékelné a beteg állapotát, az orvos következtetéseket vonhat le a fitneszkövető vagy az okosóra által gyűjtött információk alapján.

Az egyik legújabb példa az. Míg a beteget új roham miatt vizsgálták kihagyott gyógyszeres kezelés miatt, az orvosok felfedezték, hogy a férfinak sokkal súlyosabb egészségügyi problémája van. Ez a probléma pitvarfibrillációnak bizonyult. A diagnózist az okozta, hogy az osztály munkatársai hozzáférést kaptak a beteg telefonjához, nevezetesen a fitneszkövetőjével párosított alkalmazáshoz. Az alkalmazásból származó adatok kulcsfontosságú tényezőnek bizonyultak a diagnózis meghatározásában, mert a vizsgálat idején a férfinak nem voltak szívhibái.

Ez csak egy a kevés eset közül, amely megmutatkozik miért használja a Big Data -t az orvosi területen ma ilyen jelentős szerepet játszik.

4 Az adatelemzés már a kiskereskedelem gerincévé vált

A felhasználói lekérdezések és a célzás megértése a Big Data eszközök egyik legnagyobb és legszélesebb körben használt területe. A Big Data segít elemezni az ügyfelek szokásait annak érdekében, hogy a jövőben jobban megértsük a fogyasztói igényeket. A vállalatok a hagyományos adatkészletet a közösségi médiával és a böngésző keresési előzményeivel kívánják bővíteni, hogy a lehető legteljesebb vevőképet teremtsenek. Néha a nagy szervezetek úgy döntenek, hogy globális célként saját prediktív modellt hoznak létre.

Például a Target üzletláncok mély adatelemzés és saját előrejelző rendszerük segítségével nagy pontossággal képesek meghatározni -. Minden ügyfél azonosítót kap, amely viszont hitelkártyához, névhez vagy e -mail címhez van kötve. Az azonosító egyfajta bevásárlókosárként szolgál, ahol információkat tárol mindenről, amit egy személy valaha vásárolt. A hálózat szakemberei megállapították, hogy a helyzetben lévő nők a terhesség második trimeszterét megelőzően aktívan vásárolnak illatmentes termékeket, és az első 20 hétben kalcium-, cink- és magnézium-kiegészítőkre támaszkodnak. A kapott adatok alapján a Target kuponokat küld babatermékekhez az ügyfeleknek. Ugyanezeket a kedvezményeket a gyermekeknek szánt árukra "hígítják" más termékek kuponjaival, így a kiságy vagy pelenka vásárlása nem tűnik túl tolakodónak.

Még a kormányzati szervek is megtalálták a módját a Big Data technológiáknak a választási kampányok optimalizálásához. Egyesek úgy vélik, hogy Barack Obama győzelme a 2012 -es amerikai elnökválasztáson az elemzői csapatának kiváló munkájának volt köszönhető, akik hatalmas mennyiségű adatot dolgoztak fel a megfelelő módon.

5 Nagy adatok a törvény és a rend őréről

Az elmúlt néhány évben a bűnüldöző szervek kitalálták, hogyan és mikor használják a Big Data -t. Közismert, hogy a Nemzetbiztonsági Ügynökség a Big Data technológiát használja a terrortámadások megelőzésére. Más ügynökségek progresszív módszertant alkalmaznak a kisebb bűncselekmények megelőzésére.

A Los Angeles -i rendőrség jelentkezik. Részt vesz az úgynevezett proaktív bűnüldözésben. A bűnügyi jelentések egy adott időszakra történő felhasználásával az algoritmus azonosítja azokat a területeket, ahol a legnagyobb a bűncselekmények elkövetésének valószínűsége. A rendszer az ilyen területeket kis piros négyzetekkel jelöli a várostérképen, és ezeket az adatokat azonnal továbbítják a járőrkocsikhoz.

Chicago zsaruk használjon Big Data technológiákat kissé más módon. A City of Winds bűnüldöző szervei ugyanezek, de célja, hogy körvonalazza az emberek „kockázati körét”, akik esetleg fegyveres támadás áldozatai vagy résztvevői. A The New York Times szerint ez az algoritmus sebezhetőségi besorolást rendel egy személyhez bűnügyi története alapján (letartóztatások és lövöldözésben való részvétel, bűnbandákhoz tartozás). A rendszer fejlesztője biztosítja, hogy míg a rendszer tanulmányozza az egyén bűnügyi történetét, nem veszi figyelembe a másodlagos tényezőket, például a fajt, a nemet, az etnikai hovatartozást és a személy tartózkodási helyét.

6 Hogyan segítik a Big Data technológiák a városok fejlődését

A Veniam vezérigazgatója, João Barros térképet mutat a portói buszok Wi-Fi útválasztóinak nyomon követéséről

Az adatelemzést a városok és országok működésének számos aspektusának javítására is használják. Például, ha pontosan tudja, hogyan és mikor használja a Big Data technológiákat, optimalizálhatja a szállítási folyamatokat. Ehhez figyelembe veszik a járművek online mozgását, elemzik a közösségi médiát és a meteorológiai adatokat. Napjainkban számos város megkezdte az adatelemzést, hogy a közlekedési infrastruktúrát más típusú közművekkel koherens egésszé integrálja. Ez egy okos város koncepció, amelyben a buszok késő vonatra várnak, és a közlekedési lámpák képesek előre jelezni a forgalmi torlódásokat, hogy minimalizálják a torlódásokat.

A Long Beach Big Data technológiákat használ az intelligens vízmérők működtetésére, amelyeket az illegális öntözés visszaszorítására használnak. Korábban a háztartások vízfogyasztásának csökkentésére használták őket (a maximális eredmény 80%-os csökkenés). A friss víz megtakarítása mindig aktuális kérdés. Különösen akkor, ha egy államban a valaha regisztrált legrosszabb aszály van.

A Los Angeles -i Közlekedési Minisztérium képviselői csatlakoztak a Big Data -t használók listájához. A közlekedési kamerák érzékelőitől kapott adatok alapján a hatóságok figyelemmel kísérik a közlekedési lámpák működését, ami viszont lehetővé teszi a forgalom szabályozását. Számítógépes rendszer irányítása alatt körülbelül 4500 000 közlekedési lámpa van az egész városban. A hivatalos adatok szerint az új algoritmus 16%-kal csökkentette a torlódásokat.

7 A haladás motorja a marketingben és az értékesítésben

A marketingben a Big Data eszközök lehetővé teszik annak azonosítását, hogy mely ötletek a leghatékonyabbak az értékesítési ciklus egy adott szakaszában. Az adatelemzés meghatározza, hogy a befektetések hogyan javíthatják az ügyfélkapcsolatok kezelését, milyen stratégiát használnak a konverziós arány növelésére, és hogyan optimalizálják az ügyfél életciklusát. A felhőalapú üzletágban a Big Data algoritmusok segítségével kitalálják, hogyan lehet minimalizálni az ügyfélszerzési költségeket és növelni az ügyfelek életciklusát.

Az árképzési stratégiák differenciálása az ügyfél rendszeren belüli szintjétől függően talán a legfontosabb, amihez a Big Data-t a marketing területén használják. McKinsey megállapította, hogy az átlagos cég bevételének mintegy 75% -a alaptermékekből származik, amelyek 30% -a helytelenül van árazva. Az 1% -os áremelés 8,7% -os üzemi eredmény növekedést jelent.

A Forrester kutatócsoportja megállapította, hogy az adatelemzés lehetővé teszi a marketingszakemberek számára, hogy az ügyfélkapcsolatok javításának módjára összpontosítsanak. Az ügyfélfejlesztés irányának vizsgálatával a szakemberek felmérhetik lojalitásukat, valamint meghosszabbíthatják az életciklusát egy adott vállalat kontextusában.

Az értékesítési stratégiák optimalizálása és az új piacokra lépés szakaszai a geoanalitika segítségével tükröződnek a biogyógyszeriparban. McKinsey szerint a gyógyszergyárak nyereségük átlagosan 20-30% -át költik adminisztrációra és értékesítésre. Ha a vállalkozások aktívabban indulnak használjon Big Data -t a legjövedelmezőbb és leggyorsabban növekvő piacok azonosítása érdekében a költségek azonnal csökkennek.

Az adatelemzés egy olyan eszköz, amellyel a vállalatok teljes körű megértést kaphatnak üzleti tevékenységük legfontosabb szempontjairól. A bevételek növelése, a költségek csökkentése és a forgótőke csökkentése három olyan kihívás, amelyet a modern üzletág elemzési eszközökkel próbál megoldani.

Végül a CMO-k 58% -a állítja, hogy a Big Data technológiák megvalósítása nyomon követhető a keresőoptimalizálás (SEO), az e-mail és a mobil marketing területén, ahol az adatelemzés játssza a legjelentősebb szerepet a marketingprogramok kialakításában. És csak 4% -kal kevesebb válaszadó bízik abban, hogy a Big Data jelentős szerepet fog játszani minden marketingstratégiában az elkövetkező években.

8 Az adatok elemzése bolygóskálán

Nem kevésbé kíváncsi. Lehetséges, hogy a gépi tanulás lesz az egyetlen erő, amely képes fenntartani a kényes egyensúlyt. A globális felmelegedésre gyakorolt emberi befolyás témája még mindig sok vita tárgyát képezi, ezért csak a nagy mennyiségű adat elemzésén alapuló megbízható prediktív modellek adhatnak pontos választ. Végső soron a kibocsátások csökkentése mindannyiunkat segít: kevesebbet költünk energiára.

Most a Big Data nem absztrakt fogalom, amely néhány év múlva alkalmazható. Ez egy tökéletesen működő technológia, amely az emberi tevékenység szinte minden területén hasznos lehet: az orvostudománytól és a bűnüldözéstől a marketingig és az értékesítésig. A Big Data aktív integrációja a mindennapi életünkbe csak most kezdődött, és ki tudja, mi lesz a Big Data szerepe néhány év múlva?

A big data széles körű kifejezés a nem hagyományos stratégiákra és technológiákra, amelyek szükségesek a nagy adatkészletekből származó információk összegyűjtéséhez, rendszerezéséhez és feldolgozásához. Míg az egyetlen számítógép feldolgozási teljesítményét vagy tárolókapacitását meghaladó adatok kezelésének problémája nem új keletű, az utóbbi években az ilyen típusú számítástechnika hatóköre és értéke jelentősen bővült.

Ebben a cikkben megtalálja azokat az alapfogalmakat, amelyekkel találkozhat a big data feltárása során. Ezenkívül tárgyalja az ezen a területen jelenleg használt folyamatokat és technológiákat.

Mi az a Big Data?

A Big Data pontos meghatározását nehéz megfogalmazni, mivel a projektek, a szállítók, a gyakorlók és az üzleti szakemberek nagyon különböző módon használják. Ezt szem előtt tartva a big data a következőképpen határozható meg:

Nagy adathalmazok.
A nagy adathalmazok feldolgozására használt számítási stratégiák és technológiák kategóriája.

Ebben az összefüggésben a "nagy adathalmaz" olyan adatkészletet jelent, amely túl nagy ahhoz, hogy hagyományos eszközökkel vagy egyetlen számítógépen lehessen feldolgozni vagy tárolni. Ez azt jelenti, hogy a nagy adathalmazok általános skálája folyamatosan változik, és esetenként jelentősen eltérhet.

Nagy adatrendszerek

A nagy adatokkal való munkavégzés alapvető követelményei megegyeznek bármely más adatkészlettel. Mindazonáltal a folyamat minden szakaszában felmerülő adatok hatalmas mérete, feldolgozási sebessége és jellemzői jelentős új kihívásokat jelentenek a szerszámtervezésben. A legtöbb nagy adatrendszer célja a nagy mennyiségű heterogén adat megértése és kommunikálása, ami hagyományos módszerekkel nem lenne lehetséges.

2001 -ben a Gartner -féle Doug Laney bemutatta a „Három nagyméretű adatot”, hogy leírja azokat a jellemzőket, amelyek megkülönböztetik a nagy adatfeldolgozást a többi adatfeldolgozástól:

Hangerő (adatmennyiség).
Sebesség (az adatgyűjtés és -feldolgozás sebessége).
Változatosság (különféle típusú feldolgozott adatok).

Adatmennyiség

A feldolgozott információk puszta skálája segít meghatározni a nagy adatrendszereket. Ezek az adathalmazok nagyságrendekkel nagyobbak lehetnek, mint a hagyományos adatkészletek, és a feldolgozás és tárolás minden szakaszában nagyobb figyelmet igényelnek.

Mivel a követelmények meghaladják egyetlen számítógép képességeit, gyakran nehéz kombinálni, kiosztani és összehangolni a számítógépcsoportokból származó erőforrásokat. A klasztervezérlés és a feladatokat kisebb darabokra bontó algoritmusok egyre fontosabbak ezen a területen.

Felhalmozási és feldolgozási sebesség

A második jellemző, amely jelentősen megkülönbözteti a nagy adatokat a többi adatrendszertől, az a sebesség, amellyel az információ áthalad a rendszeren. Az adatok gyakran több forrásból érkeznek a rendszerbe, és azokat valós időben kell feldolgozni a rendszer aktuális állapotának frissítéséhez.

Ez a pillanatra összpontosít Visszacsatolás sok gyakorlót arra kényszerített, hogy hagyja el a kötegorientált megközelítést, és válassza a valós idejű streaming rendszert. Az adatokat folyamatosan adják hozzá, dolgozzák fel és elemzik, hogy lépést tartsanak az új információk beáramlásával, és értékes adatokat szerezzenek a korai szakaszban, amikor a legrelevánsabbak. Ehhez megbízható rendszerekre van szükség magas rendelkezésre állású alkatrészekkel, amelyek megvédik az adatvezeték mentén fellépő meghibásodásoktól.

Különféle típusú feldolgozott adatok

A big data sok egyedi kihívást rejt magában a feldolgozott források széles körével és azok relatív minőségével kapcsolatban.

Az adatok származhatnak belső rendszerekből, például alkalmazás- és szervernaplókból, közösségi média csatornákról és más külső API -kból, érzékelőkből fizikai eszközökés más forrásokból. A nagy adatrendszerek célja a potenciálisan hasznos adatok feldolgozása, függetlenül azok eredetétől, az összes információ egyetlen rendszerbe történő egyesítésével.

A médiaformátumok és típusok is jelentősen eltérhetnek. A médiát (képeket, videót és hangot) szöveges fájlokkal, strukturált naplókkal stb. Kombinálják. A hagyományosabb adatfeldolgozó rendszerek elvárják, hogy az adatok már címkézett, formázott és rendszerezett módon kerüljenek a folyamatba, de a nagy adatrendszerek általában elfogadják és tárolják az adatokat azzal, hogy megpróbálják megőrizni eredeti állapotukat. Ideális esetben a nyers adatok bármilyen átalakítása vagy módosítása a memóriában történik a feldolgozás során.

Egyéb jellemzők

Idővel a szakértők és szervezetek az eredeti Three V bővítését javasolták, bár ezek az újítások inkább a problémákat írják le, mint a big data jellemzőit.

Valódiság: A források sokfélesége és a feldolgozás összetettsége problémákat okozhat az adatok minőségének (és így a kapott elemzés minőségének) értékelésében.
Változékonyság: Az adatok megváltoztatása jelentős minőségi változásokat eredményez. Az alacsony minőségű adatok azonosítása, feldolgozása vagy szűrése további erőforrásokat igényelhet, amelyek javíthatják az adatok minőségét.
Érték: A big data végső célja az érték. Néha a rendszerek és folyamatok nagyon összetettek, ami megnehezíti az adatok felhasználását és a tényleges értékek kinyerését.

Big data életciklus

Tehát hogyan történik a nagy adatok feldolgozása? A megvalósításnak többféle megközelítése létezik, de a stratégiákban és a szoftverekben is van hasonlóság.

Adatok bevitele a rendszerbe
Adatok mentése a tárolóba
Adatok számítása és elemzése
Eredmények megjelenítése

Mielőtt részletesen belevetnénk magunkat ebbe a négy munkafolyamat -kategóriába, beszéljünk a fürtös számítástechnikáról, amely fontos stratégia, amelyet sok big data eszköz használ. A számítási klaszter felállítása az életciklus minden szakaszában alkalmazott technológia gerincét jelenti.

Fürtszámítás

A big data minősége miatt az egyes számítógépek nem alkalmasak adatfeldolgozásra. A fürtök alkalmasabbak erre, mivel képesek megbirkózni a big data tárolási és számítási igényeivel.

A nagy adathalmazokat tömörítő szoftverek sok kisgép erőforrásait összesítik, és számos előnyt kívánnak nyújtani:

Erőforrások egyesítése: A nagy adathalmazok feldolgozása nagy mennyiségű processzor- és memória -erőforrást, valamint sok rendelkezésre álló tárhelyet igényel.
Magas rendelkezésre állás: A fürtök különböző szintű hibatűrést és rendelkezésre állást biztosíthatnak, így a hardver- vagy szoftverhibák nem befolyásolják az adatok elérését és feldolgozását. Ez különösen fontos a valós idejű elemzéseknél.
Skálázhatóság: A fürtök támogatják a gyors skálázást (új gépek hozzáadása a fürthöz).

A fürtben való munkavégzéshez eszközökre van szükség a fürttagság kezeléséhez, az erőforrás -allokáció koordinálásához és az egyes csomópontokkal történő ütemezéshez. A fürttagság és az erőforrás -allokáció kezelhető olyan programokkal, mint a Hadoop YARN (Még egy erőforrás -tárgyaló) vagy az Apache Mesos.

Egy előregyártott számítási fürt gyakran szolgál alapul, amellyel egy másik kapcsolatba lép az adatok feldolgozásával. szoftver... A számítási fürtben részt vevő gépek jellemzően elosztott tárolási rendszer kezeléséhez is kapcsolódnak.

Adatok lekérése

Az adatok fogadása a nyers adatok rendszerbe történő hozzáadásának folyamata. E művelet összetettsége nagyban függ az adatforrások formátumától és minőségétől, valamint attól, hogy az adatok mennyire felelnek meg a feldolgozási követelményeknek.

Speciális eszközökkel adhat hozzá nagy adatokat a rendszerhez. Az olyan technológiák, mint az Apache Sqoop, képesek meglévő adatokat venni a relációs adatbázisokból, és hozzáadni egy nagy adatrendszerhez. Az Apache Flume és az Apache Chukwa projekteket is használhatja alkalmazás- és szervernaplók összesítésére és importálására. Az üzenetközvetítők, mint például az Apache Kafka, interfészként használhatók a különböző adatgenerátorok és a big data rendszer között. Az olyan keretrendszerek, mint a Gobblin, kombinálhatják és optimalizálhatják az összes eszköz kimenetét a folyamat végén.

Az elemzés, a válogatás és a címkézés általában az adatgyűjtés során történik. Ezt a folyamatot néha ETL -nek (kivonat, transzformáció, betöltés) hívják, ami kivonást, átalakítást és betöltést jelent. Míg a kifejezés általában a régi tárolási folyamatokra utal, néha a nagy adatrendszerekre is alkalmazzák. A tipikus műveletek közé tartozik a bejövő adatok módosítása formázáshoz, kategorizálás és címkézés, az adatok szűrése vagy érvényesítése a megfelelőség érdekében.

Ideális esetben a bejövő adatok minimális formázáson mennek keresztül.

Adattárolás

A beérkezés után az adatokat továbbítják a tárolót kezelő összetevőknek.

Az elosztott fájlrendszereket általában nyers adatok tárolására használják. Az olyan megoldások, mint az Apache Hadoop HDFS, lehetővé teszik nagy mennyiségű adat írását a fürt több csomópontjára. Ez a rendszer számítási erőforrásokat biztosít az adatokhoz, betöltheti az adatokat a fürt RAM -ba a memóriaműveletekhez, és kezelheti az alkatrészhibákat. A HDFS helyett más elosztott fájlrendszerek is használhatók, köztük a Ceph és a GlusterFS.

Az adatok más elosztott rendszerekbe is importálhatók a strukturáltabb hozzáférés érdekében. Az elosztott adatbázisok, különösen a NoSQL adatbázisok, nagyon alkalmasak erre a szerepkörre, mivel képesek heterogén adatokat kezelni. Sok különböző típusú elosztott adatbázis létezik, a választás attól függ, hogyan szeretné rendszerezni és bemutatni az adatait.

Adatok számítása és elemzése

Amint az adatok rendelkezésre állnak, a rendszer megkezdheti a feldolgozást. A számítási réteg talán a rendszer legszabadabb része, mivel az itt támasztott követelmények és megközelítések jelentősen eltérhetnek az információ típusától függően. Az adatokat gyakran újrafeldolgozzák, akár egyetlen eszközzel, akár különféle eszközök feldolgozásával.

A kötegelt feldolgozás az egyik módszer a nagy adathalmazok kiszámítására. Ez a folyamat magában foglalja az adatok kisebb darabokra bontását, az egyes darabok feldolgozásának ütemezését egy külön gépen, az adatok átrendezését a köztes eredmények majd a végeredmény kiszámítása és összegyűjtése. Ezt a stratégiát használja a MapReduce az Apache Hadoop -tól. A kötegelt feldolgozás akkor a leghasznosabb, ha nagyon nagy adathalmazokkal dolgozik, amelyek sok számítást igényelnek.

Más munkaterhelések valós idejű feldolgozást igényelnek. Ebben az esetben az információkat azonnal fel kell dolgozni és elő kell készíteni, és a rendszernek időben reagálnia kell, amint új információk állnak rendelkezésre. A valós idejű feldolgozás egyik módja a folyamatos adatfolyam feldolgozása, amely a következőkből áll: egyes elemek... A valós idejű processzorok másik közös jellemzője a fürtmemóriában lévő adatok kiszámítása, aminek köszönhetően nincs szükség lemezre írásra.

Az Apache Storm, az Apache Flink és az Apache Spark kínálata különböző utak valós idejű feldolgozás megvalósítása. Ezek a rugalmas technológiák lehetővé teszik, hogy mindegyikhez a legjobb megközelítést válassza külön probléma... Általánosságban elmondható, hogy a valós idejű feldolgozás a legalkalmasabb a rendszerben változó vagy gyorsan hozzáadott kis adatok elemzésére.

Mindezek a programok keretrendszerek. Azonban sok más módszer is létezik az adatok kiszámítására vagy elemzésére egy nagy adatrendszerben. Ezek az eszközök gyakran csatlakoznak a fenti keretrendszerekhez, és további interfészeket biztosítanak az alatta lévő rétegekkel való interakcióhoz. Például az Apache Hive adattároló felületet biztosít a Hadoop számára, az Apache Pig lekérdezési felületet és interakciókat biztosít a SQL adatok Apache Drill, Apache Impala, Apache Spark SQL és Presto tartozékokkal. A gépi tanulás az Apache SystemML, az Apache Mahout és az Apache Spark MLlib -jét használja. A közvetlen analitikus programozáshoz, amelyet az adat ökoszisztéma széles körben támogat, az R és a Python használható.

Eredmények megjelenítése

Az adatok időbeli alakulásának vagy változásainak felismerése gyakran fontosabb, mint a kapott értékek. Az adatábrázolás az egyik leghasznosabb módszer a trendek azonosítására és nagyszámú adatpont megszervezésére.

A valós idejű feldolgozást az alkalmazás és a szerver mutatóinak megjelenítésére használják. Az adatok gyakran változnak, és a mutatók nagy szórása általában jelentős hatást jelez a rendszerek vagy szervezetek egészségére. Az olyan projektek, mint a Prometheus, felhasználhatók adatfolyamok és idősorok feldolgozására és megjelenítésére.

Az adatok megjelenítésének egyik népszerű módja az elasztikus verem, korábbi nevén ELK verem. A Logstash adatgyűjtésre, az Elasticsearch az adatok indexelésére, a Kibana pedig a vizualizációra szolgál. Az elasztikus verem nagy adatokkal dolgozhat, megjelenítheti a számítások eredményeit, vagy kölcsönhatásba léphet a nyers metrikákkal. Hasonló verem érhető el, ha az Apache Solr -t kombinálja az indexeléshez a Banana nevű Kibana villával. Ez a verem Silk.

Az interaktív adatmunka másik vizualizációs technológiája a dokumentumok. Az ilyen projektek lehetővé teszik az adatok interaktív feltárását és megjelenítését olyan formában, amely könnyen megosztható és bemutatható. Az ilyen típusú felület népszerű példái a Jupyter Notebook és az Apache Zeppelin.

A Big Data szószedete

A big data tág fogalom azoknak az adatkészleteknek, amelyeket nem lehet megfelelően feldolgozni hagyományos számítógépek vagy hangszerek hangerejük, belépési arányuk és változatosságuk miatt. A kifejezést gyakran használják az ilyen adatokkal való munkavégzés technológiáira és stratégiáira is.
A kötegelt feldolgozás egy számítási stratégia, amely magában foglalja az adatok nagy adathalmazokban történő feldolgozását. Általában ez a módszer ideális a nem sürgős adatok kezelésére.
A fürtös számítástechnika az a gyakorlat, amikor több gép erőforrásait egyesítik, és megosztott képességeiket kezelik a feladatok elvégzéséhez. Ehhez fürtkezelő rétegre van szükség, amely kezeli az egyes csomópontok közötti kommunikációt.
Az adattó viszonylag nyers állapotban gyűjtött adatok nagy tárháza. Ezt a kifejezést gyakran használják a strukturálatlan és gyakran változó nagy adatokra.
Az adatbányászat tág fogalom a nagy adatkészletekben található minták keresésének különböző gyakorlatára. Ez egy kísérlet arra, hogy az adattömeget érthetőbb és koherensebb információhalmazzá rendezze.
Az adattárház nagyméretű, rendezett tároló elemzéshez és jelentésekhez. Az adattókkal ellentétben a raktár formázott és jól rendezett adatokból áll, amelyek más forrásokkal vannak integrálva. Az adattárházakra gyakran hivatkoznak a nagy adatokkal kapcsolatban, de gyakran a hagyományos adatfeldolgozó rendszerek összetevői.
ETL (kivonás, átalakítás és betöltés) - adatok kinyerése, átalakítása és betöltése. Így néz ki a nyers adatok beszerzésének és felhasználásra való előkészítésének folyamata. Ennek köze van az adattárházakhoz, de ennek a folyamatnak a jellemzői megtalálhatók a nagy adatrendszerek csővezetékeiben is.
A Hadoop egy nyílt forráskódú Apache projekt a big data számára. Ez egy HDFS nevű elosztott fájlrendszerből és egy YARN nevű fürtből és erőforrás -ütemezőből áll. A kötegelt feldolgozási lehetőségeket a MapReduce számítási motor biztosítja. Más számítási és elemzési rendszerek is futtathatók a MapReduce segítségével a modern Hadoop telepítésekben.
A memórián belüli számítás olyan stratégia, amely magában foglalja az összes működő adathalmaz áthelyezését a fürt memóriájába. A köztes számításokat nem írják lemezre, hanem a memóriában tárolják. Ez hatalmas előnyt biztosít a rendszereknek az I / O-val kapcsolatos rendszerekkel szemben.
A gépi tanulás olyan rendszerek tervezésének kutatása és gyakorlata, amelyek tanulhatnak, csíphetnek és javíthatnak a továbbított adatok alapján. Ez általában a prediktív és statisztikai algoritmusok megvalósítását jelenti.
A térképcsökkentés (nem tévesztendő össze a Hadoop MapReduce -jával) egy algoritmus a számítási fürt ütemezéséhez. A folyamat magában foglalja a feladat felosztását a csomópontok között és közbenső eredmények beszerzését, a véletlenszerű keverést, majd minden egyes halmazhoz egyetlen érték kiadását.
A NoSQL egy széles kifejezés a hagyományos relációs modellen kívül kifejlesztett adatbázisokra. A NoSQL adatbázisok rugalmasságuk és elosztott architektúrájuk miatt jól alkalmasak nagy adatokra.
A streamelés az egyes adatok elemzésének gyakorlata, amikor azok a rendszeren keresztül mozognak. Ez lehetővé teszi a valós idejű adatelemzést, és alkalmas a sürgős tranzakciók kezelésére nagysebességű mérőszámok használatával.

Címkék :,

Az előrejelzések szerint 2011 -ben a létrehozott és replikált adatok teljes globális mennyisége körülbelül 1,8 zettabájt (1,8 billió gigabájt) lehet - ez körülbelül 9 -szer több, mint a 2006 -ban létrehozott.

Bonyolultabb definíció

Azonban ` nagy adat`nem csak hatalmas mennyiségű információ elemzését foglalja magában. A probléma nem az, hogy a szervezetek óriási mennyiségű adatot hoznak létre, hanem az, hogy nagy részük olyan formátumban kerül bemutatásra, amely nem felel meg a hagyományos strukturált adatbázis formátumnak, például webnaplók, videók, szöveges dokumentumok, gépi kódok vagy , térinformatikai adatok .... Mindezt sok különböző adattárban tárolják, néha még a szervezeten kívül is. Ennek eredményeként a vállalatok hozzáférhetnek hatalmas mennyiségű adatukhoz, és nem rendelkeznek a szükséges eszközökkel az adatok közötti kapcsolatok létrehozásához és az azokból való érdemi következtetések levonásához. Ha ehhez hozzávesszük azt a tényt, hogy az adatokat egyre gyakrabban frissítik, és olyan helyzetbe kerül, amelyben a hagyományos információelemzési módszerek nem tudnak lépést tartani a folyamatosan frissülő adatok hatalmas mennyiségével, ami végül megnyitja az utat a technológia előtt. nagy adat.

A legjobb definíció

Lényegében a koncepció nagy adat azt jelenti, hogy hatalmas mennyiségű és összetételű információval dolgoznak, gyakran frissítik és különböző forrásokban helyezkednek el a munka hatékonyságának növelése, új termékek létrehozása és a versenyképesség növelése érdekében. A Forrester tanácsadó cég összefoglalja: ` Nagy adat kombinálja azokat a technikákat és technológiákat, amelyek a használhatóság szélső határán értelmezik az adatokat. ”

Mekkora a különbség az üzleti intelligencia és a big data között?

Craig Bati, a Fujitsu Ausztrália marketing igazgatója és technológiai vezérigazgatója rámutatott, hogy az üzleti elemzés egy leíró folyamat, amely elemzi a vállalkozás által egy adott idő alatt elért eredményeket, miközben feldolgozza a sebességet. nagy adat lehetővé teszi, hogy az elemzés prediktív legyen, és üzleti ajánlásokat kínáljon a jövőre nézve. A big data emellett többféle típusú adatot is elemezhet az üzleti intelligencia eszközeihez képest, ami lehetővé teszi, hogy a strukturált tároláson kívül másra is összpontosítson.

Matt Slocum, az O "Reilly Radar úgy véli, hogy bár nagy adatés az üzleti intelligenciának ugyanaz a célja (válaszokat találni egy kérdésre), három szempontból különböznek egymástól.

A big data több információt képes kezelni, mint az üzleti intelligencia, és ez természetesen összhangban van a big data hagyományos definíciójával.
A big data célja a beérkező és gyorsabban változó információk feldolgozása, ami mély feltárást és interaktivitást jelent. Bizonyos esetekben az eredmények gyorsabban jönnek létre, mint a weboldal betöltése.
A big data a strukturálatlan adatok kezelésére szolgál, amelyek módszereit csak azután kezdjük felfedezni, miután összegyűjtöttük és tároltuk őket, és szükségünk van algoritmusokra és párbeszédképességre, hogy megkönnyítsük a tömbökben található trendek keresését.

Az Oracle által közzétett Oracle Information Architecture: An Architect's Guide to Big Data című fehér könyv szerint másképp közelítünk az információkhoz, amikor nagy adatokkal dolgozunk, mint üzleti elemzések során.

A nagy adatokkal való munka nem olyan, mint a szokásos üzleti intelligencia -folyamat, ahol az ismert értékek egyszerű összeadása eredményeket hoz: például az együtt kifizetett számlák összértéke éves árbevétel lesz. Amikor nagy adatokkal dolgozik, az eredmény a tisztítás során szekvenciális modellezéssel érhető el: először hipotézist terjesztenek elő, statisztikai, vizuális vagy szemantikai modellt építenek fel, amely alapján a javasolt hipotézis helyessége ellenőrizni, majd a következőt előterjeszteni. Ez a folyamat megköveteli a kutatótól, hogy vagy értelmezze a vizuális értékeket, vagy tudás alapján interaktív lekérdezéseket írjon, vagy adaptív gépi tanulási algoritmusokat dolgozzon ki, amelyek képesek a kívánt eredmény elérésére. Ezenkívül egy ilyen algoritmus élettartama meglehetősen rövid lehet.

Nagy adatelemzési technikák

Az adathalmazok elemzésére sokféle módszer létezik, amelyek a statisztikából és a számítástechnikából kölcsönzött eszközökön alapulnak (például gépi tanulás). A lista nem állítja, hogy teljes, de tükrözi a legnépszerűbb megközelítéseket a különböző iparágakban. Ugyanakkor meg kell érteni, hogy a kutatók továbbra is új technikák létrehozásán és a meglévők fejlesztésén dolgoznak. Ezenkívül a fent felsorolt módszerek egy része nem feltétlenül alkalmazható kizárólag nagy adatokra, és sikeresen használható kisebb tömbökhöz (például A / B tesztelés, regressziós elemzés). Természetesen minél terjedelmesebb és diverzifikáltabb a tömb, annál pontosabb és relevánsabb adatok nyerhetők a kimeneten.

A / B tesztelés... Olyan technika, amelyben egy kontrollmintát egyenként összehasonlítanak másokkal. Így lehetséges a mutatók optimális kombinációjának azonosítása, hogy például a legjobb fogyasztói választ érjék el egy marketing javaslatra. Nagy adat lehetővé teszi, hogy hatalmas számú iterációt hajtson végre, és így statisztikailag megbízható eredményt kapjon.

Társulási szabály tanulás... A kapcsolatok azonosítására szolgáló technikák összessége, azaz asszociációs szabályok, a nagy adathalmazok változói között. Használt adatbányászat.

Osztályozás... Olyan technikák halmaza, amelyek lehetővé teszik a fogyasztói magatartás előrejelzését egy adott piaci szegmensben (döntés a vásárlással, a kiáramlással, a fogyasztással stb.). Használt adatbányászat.

Klaszteranalízis... Statisztikai módszer az objektumok csoportba sorolására a korábban ismeretlen közös jellemzők azonosításával. Használt adatbányászat.

Crowdsourcing... Számos forrásból származó adatok gyűjtésének módszertana.

Adatfúzió és adatintegráció... Technikakészlet, amely lehetővé teszi a közösségi hálózatok felhasználóinak megjegyzéseinek elemzését és valós időben történő összehasonlítását az értékesítési eredményekkel.

Adatbányászat... Módszerek halmaza, amely lehetővé teszi, hogy meghatározza a népszerűsített termékre vagy szolgáltatásra leginkább vevő fogyasztói kategóriákat, azonosítsa a legsikeresebb alkalmazottak jellemzőit, és megjósolja a fogyasztók viselkedési modelljét.

Együttes tanulás... Ez a módszer számos prediktív modellt használ, ezáltal javítva a jóslatok minőségét.

Genetikai algoritmusok... Ebben a technikában a lehetséges megoldásokat „kromoszómák” formájában mutatják be, amelyek kombinálhatók és mutálódhatnak. Akárcsak a természetes evolúció folyamatában, a legalkalmasabb is fennmarad.

Gépi tanulás... Az informatika iránya (történelmileg a "mesterséges intelligencia" nevet kapták hozzá), amelynek célja az önálló tanulási algoritmusok létrehozása az empirikus adatok elemzése alapján.

Természetes nyelvfeldolgozás (NLP). Az ember természetes nyelvének felismerésére szolgáló technikák halmaza, amelyet számítógép -tudományból és nyelvészetből kölcsönöztek.

Hálózati elemzés... Technikák halmaza a hálózatok csomópontjai közötti kapcsolatok elemzésére. A közösségi hálózatokra alkalmazva lehetővé teszi az egyes felhasználók, vállalatok, közösségek stb. Közötti kapcsolat elemzését.

Optimalizálás... Numerikus módszerek összessége összetett rendszerek és folyamatok újratervezésére egy vagy több mutató javítása érdekében. Segíti a stratégiai döntések meghozatalát, például a piacra bevezetett termékcsalád összetételét, a befektetési elemzés elvégzését stb.

Mintafelismerés... Technikák halmaza önálló tanulási elemekkel a fogyasztói magatartási minták előrejelzésére.

Prediktív modellezés... Technikák összessége, amelyek lehetővé teszik az alkotást matematikai modell az események előre meghatározott valószínű forgatókönyve. Például egy CRM rendszer adatbázisának elemzése a lehetséges feltételek miatt, amelyek arra kényszerítik az előfizetőket, hogy változtassanak szolgáltatójukon.

Regresszió... Statisztikai módszerek halmaza egy függő változó változása és egy vagy több független változó közötti mintázatok azonosítására. Gyakran használják előrejelzésre és előrejelzésre. Adatbányászatban használják.

Hangulat elemzése... A fogyasztói hangulat értékelésének módszerei egy személy természetes nyelvének felismerésére szolgáló technológiákon alapulnak. Lehetővé teszik, hogy elkülönítse az érdeklődő témához (például fogyasztói termékhez) kapcsolódó üzeneteket az általános információáramlástól. Ezután értékelje az ítélet polaritását (pozitív vagy negatív), az érzelmesség mértékét stb.

Jelfeldolgozás... A rádiótechnikából kölcsönzött technikák halmaza, amelynek célja a jel felismerése a zaj hátterében és további elemzése.

Térbeli elemzés... Módszerek halmaza a térbeli adatok elemzésére, részben statisztikából kölcsönözve - terep topológia, földrajzi koordináták, tárgyak geometriája. Forrás nagy adat ebben az esetben gyakran földrajzi információs rendszereket (GIS) használnak.

Revolution Analytics (a matematikai statisztikák R nyelvén alapul).

Ezen a listán különösen érdekes az Apache Hadoop, egy nyílt forráskódú szoftver, amelyet az elmúlt öt évben a legtöbb tőzsdekövető kipróbált és tesztelt adatelemzőként. Amint a Yahoo megnyitotta a Hadoop kódot a nyílt forráskódú közösség előtt, egy teljesen új Hadoop termékcsalád jelent meg azonnal az informatikai iparban. Szinte minden modern elemző eszköz nagy adat eszközöket biztosít a Hadoop -hoz való integrációhoz. Fejlesztőik egyszerre startupok és jól ismert globális vállalatok.

A nagy adatkezelési megoldások piacai

Nagy adatplatformok (BDP, Big Data Platform) a digitális akkordok elleni küzdelem eszközeként

Az elemzés képessége nagy adat, köznyelven Big Data néven, áldásként és egyértelműen fogják fel. De vajon tényleg így van? Mire vezethet a féktelen adatgyűjtés? Valószínűleg arra, amit a hazai pszichológusok személy patológiás felhalmozásának, syllogomániának vagy képletesen "Plyushkin -szindrómának" neveznek. Angolul a mindent összegyűjtő ördögi szenvedélyt hordingnak hívják (az angol gyűjteményből - "stock"). A mentális betegségek osztályozása szerint Hording mentális rendellenességnek minősül. A digitális korszakban a digitális (digitális felhalmozás) hozzáadódik a hagyományos anyagsorokhoz, mind az egyének, mind a teljes vállalkozások és szervezetek szenvedhetnek tőle ().

Világ- és orosz piac

Big data Landscape - fő szállítók

Érdeklődés a gyűjtési, feldolgozási, kezelési és elemzési eszközök iránt nagy adat szinte minden vezető informatikai céget bemutatott, ami teljesen természetes. Először is, saját üzletükben közvetlenül szembesülnek ezzel a jelenséggel, másodszor pedig nagy adat kiváló lehetőségeket nyit meg új piaci rések kialakítására és új ügyfelek vonzására.

Sok startup jelent meg a piacon, amelyek hatalmas mennyiségű adat feldolgozásával foglalkoznak. Némelyikük a főbb szereplők, például az Amazon által biztosított kész felhőinfrastruktúrát használja.

A Big Data elmélete és gyakorlata az iparágakban

A fejlődés története

2017

TmaxSoft előrejelzés: a Big Data következő "hulláma" a DBMS korszerűsítését igényli

A vállalkozások tudják, hogy az általuk felhalmozott hatalmas mennyiségű adat tartalmaz fontos információüzletükről és ügyfeleikről. Ha egy vállalat sikeresen alkalmazhatja ezeket az információkat, akkor jelentős előnyökkel jár a versenytársakkal szemben, és jobb termékeket és szolgáltatásokat tud kínálni, mint az övék. Sok szervezet azonban még mindig nem tudja hatékonyan használni nagy adat mivel a régi IT infrastruktúrájuk nem képes biztosítani a szükséges tárolókapacitást, adatcsere folyamatokat, segédprogramokat és alkalmazásokat, amelyek szükségesek a nagy mennyiségű strukturálatlan adat feldolgozásához és elemzéséhez, hogy értékes információkat nyerjenek ki belőlük, a TmaxSoft -ban.

Ezenkívül az egyre növekvő adatmennyiség elemzéséhez szükséges megnövelt feldolgozási teljesítmény jelentős beruházásokat igényelhet a szervezet régi IT infrastruktúrájába, valamint további karbantartási erőforrásokat, amelyek felhasználhatók új alkalmazások és szolgáltatások fejlesztésére.

2015. február 5 -én a Fehér Ház jelentést tett közzé, amely megvitatta, hogy a vállalatok hogyan használják nagy adat"Különböző árak meghatározása a különböző vevők számára - az" árdiszkrimináció "vagy" differenciált árképzés "(személyre szabott árazás) néven ismert gyakorlat. A jelentés leírja a „big data” előnyeit mind az eladók, mind a vevők számára, és szerzői arra a következtetésre jutnak, hogy a big data és a differenciált árképzés kapcsán felmerült problémás problémák nagy része megoldható a meglévő anti- diszkriminációs törvények és törvények.

Jelenleg a jelentés megjegyzi, hogy kevés bizonyíték van arra, hogy a vállalatok hogyan használják fel a big data -t a személyre szabott marketing és a differenciált árazás keretében. Ez az információ azt mutatja, hogy az eladók olyan árképzési módszereket használnak, amelyek három kategóriába sorolhatók:

a keresleti görbe tanulmányozása;
Irányító és differenciált árazás demográfiai adatok alapján; és
viselkedési célzás és személyre szabott árazás.

A keresleti görbe vizsgálata: A marketingesek gyakran kísérleteznek a kereslettel és a fogyasztói magatartással, és véletlenszerűen hozzárendelik az ügyfeleket a két lehetséges árszínvonal egyikéhez. "Technikailag ezek a kísérletek a differenciált árazás egyik formája, mert eltérő árakat eredményeznek az ügyfelek számára, még akkor is, ha" megkülönböztetéstől mentesek "abban az értelemben, hogy minden ügyfél egyformán valószínű, hogy magasabb árat" üt meg ".

Kormányzás: Az a gyakorlat, hogy a termékeket demográfiai csoportjuk alapján mutatják be a fogyasztóknak. Például egy számítógépes cég webhelye kínálhatja ugyanazt a laptopot. különböző típusok a vevők különböző árakon, a saját magukról szolgáltatott információk alapján (például attól függően, hogy ez a felhasználó kormányzati szervek, tudományos vagy kereskedelmi intézmények képviselője vagy magánszemély), vagy földrajzi elhelyezkedésük alapján (pl. , a számítógép IP -címe határozza meg).

Célzott viselkedési marketing és személyre szabott árazás: Ezekben az esetekben a vásárlók személyes adatait célzott reklámozásra és bizonyos termékek személyre szabott árazására használják fel. Például az online hirdetők használják az összegyűjtött adatokat hirdetési hálózatokés harmadik féltől származó cookie-k révén adatok a felhasználók internetes tevékenységéről, célzott hirdetési anyagok küldése érdekében. Ez a megközelítés egyrészt lehetővé teszi a fogyasztók számára, hogy reklámokat kapjanak az őket érdeklő árukról és szolgáltatásokról. Ez azonban aggodalomra adhat okot azoknak a fogyasztóknak, akik nem akarnak bizonyos típusú személyes adatokat (például a kapcsolódó webhelyek látogatásáról szóló információkat) egészségügyi és pénzügyi kérdésekkel) a beleegyezésük nélkül találkoztak.

Míg a célzott viselkedési marketing széles körben elterjedt, az online környezetben viszonylag kevés bizonyíték van a személyre szabott árazásra. A jelentés azt sugallja, hogy ennek az lehet az oka, hogy a megfelelő módszerek még fejlesztés alatt állnak, vagy az a tény, hogy a vállalatok nem sietnek az egyéni árazás alkalmazásával (vagy inkább elhallgatnak erről) - talán a fogyasztók negatív reakciójától tartva .

A jelentés készítői úgy vélik, hogy "az egyéni fogyasztók számára a big data használata kétségkívül összefügg a potenciális hozamokkal és kockázatokkal is". Bár a jelentés elismeri, hogy átláthatósággal és megkülönböztetéssel kapcsolatos problémák vannak a nagy adatok használatában, a jelentés azzal érvel, hogy a meglévő diszkriminációellenes és fogyasztóvédelmi jogszabályok elegendőek ezek kezelésére. A jelentés ugyanakkor hangsúlyozza a „folyamatos ellenőrzés” szükségességét is, amikor a vállalatok a bizalmas információkat átláthatatlan módon vagy olyan módon használják fel, amelyre a hatályos szabályozási keret nem terjed ki.

Ez a jelentés a Fehér Ház azon törekvéseinek nyomon követése, amelyek célja, hogy megvizsgálja a big data használatát és a diszkriminatív árazást az interneten, valamint azok hatásait az amerikai fogyasztókra. Korábban arról számoltak be, hogy a Fehér Ház nagy adatokkal foglalkozó munkacsoportja 2014 májusában tette közzé erről szóló jelentését. A Szövetségi Kereskedelmi Bizottság (FTC) is foglalkozott ezekkel a kérdésekkel 2014. szeptemberi szemináriumán a nagy adatok felhasználásával kapcsolatos megkülönböztetésről.

2014

A Gartner eloszlatja a Big Data mítoszokat

A Gartner's Fall 2014 Policy Brief számos, a Big Data -val kapcsolatos mítoszt sorol fel a CIO -k között, és cáfolja azokat.

Mindenki gyorsabban implementálja a Big Data feldolgozó rendszereket, mint mi

Rekordmagas az érdeklődés a Big Data technológiák iránt: a Gartner elemzői által idén megkérdezett szervezetek 73% -a már befektet vagy kapcsolódó projektekbe fektet be. E kezdeményezések többsége azonban még a kezdeti szakaszban van, és a megkérdezettek mindössze 13% -a hajtott végre már ilyen megoldásokat. A legnehezebb az, ha kitaláljuk, hogyan lehet bevételt termelni a Big Data -ból, és eldöntjük, hol kezdjük. Sok szervezet elakad a kísérleti szakaszban, mert nem tud csatlakozni új technológia meghatározott üzleti folyamatokhoz.

Annyi adat áll rendelkezésünkre, hogy nem kell aggódni az apró hibák miatt.

Néhány informatikai igazgató úgy véli, hogy a kis adathiányok nem befolyásolják a nagy mennyiségű elemzés általános eredményeit. Ha sok adat van, az egyes hibák valóban kevésbé befolyásolják az eredményt, mondják az elemzők, de maguk a hibák is egyre többek. Ezenkívül az elemzett adatok nagy része külső, ismeretlen szerkezetű vagy eredetű, így a hibák valószínűsége nő. Így a Big Data világában a minőség valójában sokkal fontosabb.

A nagy adattechnológiák kiküszöbölik az adatintegráció szükségességét

A Big Data azt ígéri, hogy képes az adatok natív formátumban történő feldolgozására az automatikus sémagenerálás során. Úgy gondolják, hogy ez lehetővé teszi az azonos forrásokból származó információk elemzését több adatmodell használatával. Sokan úgy vélik, hogy ez lehetővé teszi a végfelhasználók számára is, hogy tetszésük szerint értelmezzenek bármilyen adatkészletet. A valóságban a legtöbb felhasználónak gyakran szüksége van egy hagyományos séma-alapú megközelítésre, ahol az adatok megfelelően vannak formázva, és megállapodások vannak az információ integritásának szintjéről, valamint arról, hogyan kell azokat a használati esethez kapcsolni.

Nincs értelme adattárházakat használni komplex elemzésekhez

Sok információkezelő rendszergazda úgy véli, hogy nincs értelme időt vesztegetni egy adattárház építésével, mivel a kifinomult elemzési rendszerek új típusú adatokat használnak. Valójában sok összetett elemzőrendszer használja az adattárházból származó információkat. Más esetekben új adattípusokat kell előkészíteni a Big Data feldolgozó rendszerekben történő elemzéshez; döntéseket kell hoznia az adatok alkalmasságáról, az összesítés elveiről és a szükséges minőségi szintről - az ilyen előkészítésre a raktáron kívül kerülhet sor.

Az adattárak felváltják az adattárházakat

Valójában a szállítók félrevezetik az ügyfeleket azzal, hogy az adathordozókat tárhelycserékként vagy kritikus elemzési infrastruktúraként helyezik el. A mögöttes adattó -technológiákból hiányzik a tárolásban rejlő érettség és funkcionalitás. Ezért az adatkezelés vezetőinek várniuk kell, amíg a tavak el nem érik ugyanazt a fejlettségi szintet - írja a Gartner.

Accenture: A nagy adatrendszereket megvalósítók 92% -a elégedett az eredménnyel

A big data fő előnyei között a válaszadók a következőket nevezték meg:

„Új bevételi források keresése” (56%),
"Az ügyfélélmény javítása" (51%),
"Új termékek és szolgáltatások" (50%) és
„Az új ügyfelek beáramlása és a régiek hűségének megtartása” (47%).

Sok vállalat szembesült a hagyományos kihívásokkal az új technológiák bevezetésekor. 51% -uk számára a buktató a biztonságot jelentette, 47% -uknál - a költségvetés, 41% -nál - a szükséges személyzet hiánya, 35% -nál pedig a meglévő rendszerrel való integráció nehézségei. Szinte minden megkérdezett vállalat (körülbelül 91%) azt tervezi, hogy hamarosan megoldja a problémát a személyzet hiánya miatt, és felveszi a big data szakembereket.

A vállalatok optimisták a big data technológia jövőjét illetően. 89% -uk úgy gondolja, hogy annyira megváltoztatja az üzletet, mint az internet. A válaszadók 79% -a megjegyezte, hogy a nagy adatot nem végző vállalatok elveszítik versenyelőnyüket.

A válaszadók azonban nem értettek egyet azzal kapcsolatban, hogy pontosan mit kell nagy adatnak tekinteni. A válaszadók 65% -a úgy véli, hogy „big data fájlok”, 60% „fejlett elemzés és elemzés”, 50% pedig úgy véli, hogy „vizualizációs eszközökből származó adatok”.

Madrid 14,7 millió eurót költ nagy adatkezelésre

2014 júliusában vált ismertté, hogy Madrid a big data technológiákat fogja használni a városi infrastruktúra kezelésére. A projekt költsége - 14,7 millió euró, a megvalósított megoldások alapját a big data elemzésére és kezelésére szolgáló technológiák képezik. Segítségükkel Városvezetés kezeli a munkát minden szolgáltatóval, és ennek megfelelően fizet a szolgáltatási szinttől függően.

A közigazgatás vállalkozóiról beszélünk, akik figyelemmel kísérik az utcák állapotát, a világítást, az öntözést, a zöldfelületeket, kitakarítják a területet és elszállítják, valamint újrahasznosítják a hulladékot. A projekt során a városi szolgáltatások 300 kulcsfontosságú teljesítménymutatóját dolgozták ki a speciálisan kijelölt ellenőrök számára, amelyek alapján naponta 1,5 ezer különféle ellenőrzést és mérést hajtanak végre. Ezenkívül a város elkezdi használni a Madrid iNTeligente (MiNT) - Smarter Madrid nevű innovatív technológiai platformot.

2013

Szakértők: Big Data Peak Fashion

Kivétel nélkül az adatkezelési piacon minden gyártó jelenleg fejleszt a Big Data kezeléshez szükséges technológiákat. Ezt az új technológiai trendet a szakmai közösség, a fejlesztők és az iparági elemzők, valamint az ilyen megoldások potenciális fogyasztói is aktívan tárgyalják.

Amint azt a Datashift megtudta, 2013 januárjában vitahullám támadt a környéken. nagy adat"Túllépett minden elképzelhető méretet. Miután elemezte a Big Data megemlítéseinek számát a közösségi hálózatokban, a Datashift kiszámította, hogy 2012 -ben ezt a kifejezést körülbelül 2 milliárd alkalommal használták világszerte körülbelül 1 millió különböző szerző által létrehozott bejegyzésekben. Ez 260 hozzászólásnak felel meg óránként, a csúcs 3070 említés óránként.

Gartner: Minden második CIO kész pénzt költeni a nagy adatokra

A Gartner előrejelzése szerint, miután több évig kísérleteztek a Big data technológiákkal és az első megvalósításokkal 2013 -ban, az ilyen megoldások adaptációja jelentősen megnő. A kutatók világszerte megkérdezték az informatikai vezetőket, és megállapították, hogy a válaszadók 42% -a már fektetett a big data technológiákba, vagy tervez ilyen beruházásokat a következő évben (2013. március adatai).

A vállalatok kénytelenek pénzt költeni a feldolgozási technológiákra nagy adat mivel az információs táj gyorsan változik, új megközelítéseket kívánok az információfeldolgozáshoz. Sok vállalat már felismerte, hogy a big data kritikus fontosságú, és a velük való együttműködés lehetővé teszi olyan előnyök elérését, amelyek nem érhetők el a hagyományos információforrások és feldolgozási módszerek használatával. Ezenkívül a "big data" témájának állandó túlzása a médiában felkelti az érdeklődést a releváns technológiák iránt.

Frank Buytendijk, a Gartner alelnöke még arra is sürgette a vállalatokat, hogy mérsékeljék buzgalmukat, mivel egyesek attól tartanak, hogy lemaradnak a versenytársaktól a Big Data megszerzésében.

„Nem kell aggódnia, a Big Data technológiákon alapuló ötletek megvalósítási lehetőségei gyakorlatilag végtelenek” - mondta.

A Gartner előrejelzése szerint 2015 -re a Global 1000 vállalatok 20% -a stratégiai fókuszban lesz az "információs infrastruktúrával".

A nagy adatfeldolgozási technológiák új lehetőségeire számítva sok szervezet már szervezi a különféle információk gyűjtésének és tárolásának folyamatát.

Az oktatási és kormányzati szervezetek, valamint az iparág vállalatai számára az üzleti átalakítás legnagyobb lehetősége a felhalmozott adatok és az úgynevezett sötét adatok (szó szerint - "sötét adatok") kombinációjában rejlik, utóbbiak üzeneteket tartalmaznak Email, multimédia és más hasonló tartalmak. A Gartner szerint azok fogják megnyerni az adatversenyt, akik megtanulnak sokféle információforrást kezelni.

Cisco Survey: A Big Data segít növelni az informatikai költségvetést

A 2013 tavaszi felmérésben a független CANCO elemzőcég, az InsightExpress 18 országban végzett Cisco Connected World Technology Report, 18 főiskolai hallgatót és hasonló számú, 18-30 év közötti fiatal szakembert kérdezett meg. A felmérést azért végezték, hogy kiderítsék az informatikai részlegek felkészültségét a projektek megvalósítására Nagy adatés betekintést nyerhet az ilyen projektek kapcsolódó kihívásaiba, technológiai hiányosságaiba és stratégiai értékébe.

A legtöbb vállalat adatokat gyűjt, rögzít és elemez. Ennek ellenére a jelentés szerint sok vállalat szembesül számos összetett üzleti és információtechnológiai kihívással a Big Data kapcsán. Például a megkérdezettek 60 százaléka elismeri, hogy a Big Data megoldások javíthatják a döntéshozatali folyamatokat és növelhetik a versenyképességet, de csak 28 százalék mondta azt, hogy már valódi stratégiai előnyöket kap a felhalmozott információkból.

A megkérdezett informatikai vezetők több mint fele úgy véli, hogy a Big Data projektek elősegítik a szervezetek informatikai költségvetésének növelését, mivel megnövekednek a technológiára, a személyzetre és a szakmai készségekre vonatkozó követelmények. Ugyanakkor a válaszadók több mint fele arra számít, hogy az ilyen projektek már 2012 -ben megnövelik vállalataik informatikai költségvetését. 57 százalék bízik abban, hogy a Big Data növeli költségvetését a következő három évben.

A válaszadók 81 százaléka szerint minden (vagy legalább néhány) Big Data projekt felhőalapú számítást igényel. Így a felhőalapú technológiák elterjedése befolyásolhatja a Big Data megoldások terjesztésének sebességét és ezen megoldások értékét az üzlet számára.

A vállalatok sokféle, strukturált és strukturálatlan típusú adatot gyűjtenek és használnak fel. Íme azok a források, amelyekből a felmérésben résztvevők adatokat szereznek (Cisco Connected World Technology Report):

A CIO -k közel fele (48 százaléka) azt jósolja, hogy a következő két évben a hálózatuk terhelése megkétszereződik. (Különösen igaz ez Kínára, ahol a megkérdezettek 68 százaléka tartja ezt a nézetet, Németország pedig 60 százaléka.) A válaszadók 23 százaléka arra számít, hogy a következő két évben megháromszorozódik a hálózati terhelés. Ugyanakkor a válaszadók mindössze 40 százaléka nyilatkozott arról, hogy készen áll a hálózati forgalom robbanásszerű növekedésére.

A megkérdezettek 27 százaléka elismerte, hogy jobb informatikai politikára és információbiztonsági intézkedésekre van szüksége.

21 százaléknak nagyobb sávszélességre van szüksége.

A Big Data új lehetőségeket nyit meg az informatikai részlegek számára, hogy értéket teremtsenek és erős kapcsolatokat építsenek ki az üzleti egységekkel, növelve a bevételeket és erősítve a vállalat pénzügyi helyzetét. A Big Data projektek az informatikai részlegeket az üzleti egységek stratégiai partnereivé teszik.

A válaszadók 73 százaléka szerint az informatikai részleg lesz a Big Data stratégia fő hajtóereje. Ugyanakkor a válaszadók úgy vélik, hogy más osztályok is részt vesznek e stratégia végrehajtásában. Először is, ez a pénzügyi (a válaszadók 24 százaléka nevezte meg), a kutatás -fejlesztési (20 százalék), a működési (20 százalék), a mérnöki (19 százalék), valamint a marketing (15 százalék) osztályokat érinti. eladások (14 százalék).

Gartner: Millió új munkahely szükséges a Big Data kezeléséhez

A globális informatikai kiadások 2013 -ra elérik a 3,7 milliárd dollárt, ami 3,8% -kal több, mint a 2012 -ben az információtechnológiára fordított kiadások (az év végi előrejelzés 3,6 milliárd dollár). Szegmens nagy adat(big data) sokkal gyorsabb ütemben fog növekedni a Gartner jelentése szerint.

2015 -re az információtechnológia területén 4,4 millió munkahely jön létre a big data kiszolgálására, ebből 1,9 millió munkahely. Ezenkívül minden ilyen munkahely három további munkahely létrehozását vonja maga után az informatikai szektoron kívül, így csak az Egyesült Államokban a következő négy évben 6 millió ember fog dolgozni az információs gazdaság támogatása érdekében.

A Gartner szakértői szerint a fő probléma az, hogy ehhez nincs elég tehetség az iparban: mind a magán-, mind a közoktatási rendszer, például az Egyesült Államokban, nem tudja ellátni az iparágat elegendő számú képesített szakemberrel. személyzet. Tehát az említett új informatikai munkahelyek közül a három közül csak egyet biztosítanak személyzettel.

Az elemzők úgy vélik, hogy a képzett IT -személyzet művelésének szerepét közvetlenül azoknak a vállalatoknak kell felvállalniuk, amelyekre nagy szükségük van, mivel ezek az alkalmazottak kapuvá válnak számukra a jövő új információs gazdaságába.

2012

Első szkepticizmus a Big Data -val kapcsolatban

Az Ovum és a Gartner elemzői azt javasolják, hogy egy trendi 2012 -es témához nagy adat lehet, hogy ideje leszabadítani az illúziót.

A „Big Data” kifejezés ebben az időben általában a közösségi médiából, az érzékelők hálózataiból és más forrásokból származó, folyamatosan növekvő mennyiségű információra utal, valamint az adatok feldolgozására és a fontos üzleti tevékenységek azonosítására használt eszközök egyre növekvő választékára - trendeket.

„A big data ötlete miatti felháborodás (vagy annak ellenére) miatt a gyártók 2012 -ben nagy reménnyel nézték ezt a tendenciát” - mondta Tony Bayer, az Ovum elemzője.

Bayer szerint a DataSift retrospektív elemzést végzett a big data említésekről

A Big Data (vagy Big Data) módszerek gyűjteménye hatalmas mennyiségű strukturált vagy strukturálatlan információval való munkához. A nagy adatokkal foglalkozó szakemberek feldolgozzák és elemzik, hogy vizuális, ember által olvasható eredményeket kapjanak. A Look At Me szakemberekkel beszélt, és megtudta, mi a helyzet a nagy adatfeldolgozással Oroszországban, hol és mi a jobb azoknak, akik ezen a területen szeretnének dolgozni.

Alexey Ryvkin a big data, a vevőkkel folytatott kommunikáció és a számok világa főbb irányairól

A moszkvai Elektronikai Technológiai Intézetben tanultam. A legfontosabb dolog, amit sikerült kihoznom onnan, a fizika és a matematika alapvető ismeretei voltak. Tanulmányaimmal párhuzamosan a K + F központban dolgoztam, ahol részt vettem a biztonságos adatátvitel érdekében zaj-immun kódoló algoritmusok fejlesztésében és megvalósításában. Az alapképzés elvégzése után a Közgazdaságtudományi Felsőoktatási Egyetem Gazdasági Informatika Mesterképzésébe kerültem. Ezt követően az IBS -nél akartam dolgozni. Szerencsém volt, hogy annak idején miatt nagy mennyiség projektek, további gyakornok toborzás történt, és több interjú után elkezdtem dolgozni az IBS -nél, amely az egyik legnagyobb orosz vállalat ezen a területen. Három év alatt gyakornokból vállalati megoldások építészévé váltam. Most fejlesztem a Big Data technológiák szakértelmét a pénzügyi és távközlési szektor ügyfelei számára.

Két fő szakterület áll rendelkezésre a nagy adatokkal dolgozni kívánó emberek számára: elemzők és informatikai tanácsadók, akik technológiákat hoznak létre a nagy adatokkal való munkavégzéshez. Ezenkívül beszélhet a Big Data Analyst szakmájáról, vagyis azokról az emberekről is, akik közvetlenül dolgoznak az adatokkal, az ügyfél informatikai platformjával. Korábban ezek rendes elemzők-matematikusok voltak, akik ismerték a statisztikát és a matematikát, és statisztikai szoftvereket használtak az elemzési problémák megoldására. Ma a statisztika és a matematika ismerete mellett a technológia és az adatok életciklusának ismerete is szükséges. Véleményem szerint ez a különbség a modern adatelemző és azok között, akik korábban voltak.

Szakterületem az informatikai tanácsadás, vagyis olyan megoldásokat találok ki és kínálok az ügyfeleknek, amelyek segítségével megoldhatják az üzleti problémákat az informatikai technológiák segítségével. A tanácsadásra különböző tapasztalatokkal rendelkező emberek érkeznek, de e szakma legfontosabb tulajdonságai az ügyfél igényeinek megértése, az emberek és szervezetek segítése iránti vágy, a jó kommunikációs és csapatkészség (mivel ez mindig az ügyféllel való együttműködés és csapatban), jó elemzőkészség. Nagyon fontos a belső motiváció: versenykörnyezetben dolgozunk, a megrendelő pedig szokatlan megoldásokat és érdeklődést vár a munka iránt.

Időm nagy részét az ügyfelekkel való beszélgetéssel töltöm, üzleti igényeik formalizálásával és a legmegfelelőbb technológiai architektúra megtervezésével. Az itteni kiválasztási kritériumoknak megvan a maga sajátossága: amellett funkcionalitástés a TCO (teljes tulajdonosi költség), a rendszer nem funkcionális követelményei nagyon fontosak, leggyakrabban a válaszidő, az információfeldolgozási idő. Az ügyfelek meggyőzése érdekében gyakran használjuk a koncepció igazolás megközelítést - felajánljuk, hogy ingyenesen „teszteljük” a technológiát valamilyen feladaton, szűk adathalmazon, hogy megbizonyosodjunk arról, hogy a technológia működik. A megoldásnak versenyelőnyt kell teremtenie az ügyfél számára további előnyök megszerzésével (például x-sell, cross-sales), vagy meg kell oldania valamilyen üzleti problémát, például csökkentenie kell magas szint hitel csalás.

Sokkal könnyebb lenne, ha az ügyfelek kész feladattal érkeznének, de eddig nem értik, hogy megjelent egy forradalmi technológia, amely pár év alatt megváltoztathatja a piacot

Milyen problémákkal kell szembenéznie? A piac még nem áll készen a big data technológiák használatára. Sokkal egyszerűbb lenne, ha az ügyfelek kész feladattal érkeznének, de még nem veszik észre, hogy megjelent egy forradalmian új technológia, amely pár év alatt megváltoztathatja a piacot. Ezért valójában indítási módban dolgozunk - nem csak technológiákat értékesítünk, hanem minden alkalommal, amikor meggyőzzük az ügyfeleket arról, hogy befektetniük kell ezekbe a megoldásokba. Ez a látnokok helyzete - megmutatjuk az ügyfeleknek, hogyan változtathatják meg üzletüket adatok és informatika bevonásával. Létrehozzuk ezt az új piacot - a Big Data területén a kereskedelmi informatikai tanácsadás piacát.

Ha valaki a Big Data területén adatelemzéssel vagy informatikai tanácsadással szeretne foglalkozni, akkor az első fontos dolog egy jó matematikai képzettségű matematikai vagy műszaki oktatás. Az is hasznos, ha megismerkedünk bizonyos technológiákkal, például SAS, Hadoop, R vagy IBM megoldásokkal. Ezenkívül aktívan érdeklődnie kell a Big Data alkalmazásával kapcsolatos problémák iránt - például arról, hogyan lehet ezeket felhasználni a bankok vagy vezetőség javított hitelminősítéséhez. életciklusügyfél. Ez és más ismeretek a rendelkezésre álló forrásokból szerezhetők be: például a Coursera és a Big Data University. Van egy Customer Analytics Initiative is a Pennsylvaniai Wharton Egyetemen, ahol sok érdekes anyagot publikáltak.

Komoly probléma azok számára, akik a szakterületünkön szeretnének dolgozni, az a nyilvánvaló információhiány a Big Data -ról. Nem mehet könyvesboltba vagy valamilyen weboldalra, és nem kaphat például kimerítő esetgyűjteményt a Big Data technológiák minden alkalmazásáról a bankokban. Ilyen referenciakönyvek nincsenek. Az információ egy része könyvekben, másik része konferenciákon gyűlik össze, és néhányat magunknak kell elérniük.

További probléma, hogy az elemzők jól állnak a számok világában, de nem mindig érzik jól magukat az üzleti életben. Ezek az emberek gyakran introvertáltak, nehezen kommunikálnak, ezért nehezen tudják meggyőzően közölni a kutatási eredményeket az ügyfelekkel. E készségek fejlesztése érdekében olyan könyveket ajánlanék, mint A piramis elve, Beszéld a diagramok nyelvét. Segítenek a prezentációs készségek fejlesztésében, tömören és világosan kifejezni gondolatait.

Nagyon sokat segített, ha részt vettem a különböző ügyi bajnokságokon a tanulmányok során a Közgazdasági Gimnáziumban. Az eseti bajnokságok szellemi versenyek a diákok számára, hogy tanulmányozzák az üzleti problémákat és megoldásokat javasoljanak. Ezek két típusból állnak: tanácsadó cégek, például McKinsey, BCG, Accenture, eseti bajnokságai, valamint független ügyek, például Changellenge. A részvételük során megtanultam látni és dönteni kihívást jelentő feladatokat- a probléma azonosításától és strukturálásától a megoldásra vonatkozó ajánlások védelméig.

Oleg Mikhalskiy az orosz piacon és az új termék létrehozásának sajátosságai a big data területén

Mielőtt az Acronishoz csatlakoztam, már részt vettem új termékek bevezetésében más cégeknél. Mindig érdekes és nehéz egyszerre, ezért azonnal érdekelt a munka lehetősége felhőszolgáltatásokés tárolási megoldások. Ezen a területen jól jött minden korábbi tapasztalatom az IT-iparban, beleértve a saját indítási projektem I-gyorsítóját. Segített az üzleti végzettség (MBA) megszerzése az alapvető mérnöki tudás mellett.

Oroszországban a nagyvállalatoknak - bankoknak, mobilszolgáltatóknak stb. - szükségük van a nagy adatelemzésre, ezért vannak kilátások hazánkban azok számára, akik ezen a területen szeretnének dolgozni. Igaz, sok projekt ma már integráció, azaz külföldi fejlesztések vagy nyílt forráskódú technológiák alapján készül. Az ilyen projektekben alapvetően új megközelítéseket és technológiákat nem hoznak létre, hanem a meglévő fejlesztéseket adaptálják. Az Acronis -nál más utat jártunk be, és miután elemeztük a rendelkezésre álló alternatívákat, úgy döntöttünk, hogy befektetünk saját fejlesztésünkbe, és ennek eredményeként egy rendszert hozunk létre. biztonságos tárolás a big data esetében, amely önköltségi árban nem rosszabb, például az Amazon S3, de megbízhatóan és hatékonyan, és lényegesen kisebb méretben működik. A nagy internetes vállalatoknak is vannak saját fejlesztéseik a nagy adatokkal kapcsolatban, de inkább a belső igényekre koncentrálnak, mint a külső ügyfelek igényeinek kielégítésére.

Fontos megérteni azokat a tendenciákat és gazdasági erőket, amelyek befolyásolják a nagy adatfeldolgozás területét. Ehhez sokat kell olvasnia, meg kell hallgatnia az IT -ipar tekintélyes szakértőinek beszédeit, részt kell vennie a tematikus konferenciákon. Most szinte minden konferencián van egy részlet a Big Data -ról, de mindannyian más szemszögből beszélnek róla: technológiai, üzleti vagy marketing szempontból. Elmehet projektmunkára vagy szakmai gyakorlatra egy olyan cégnél, amely már projekteket hajt végre ebben a témában. Ha bízik képességeiben, akkor még nem késő megszervezni egy indítást a Big Data területén.

A piaccal való folyamatos kapcsolattartás nélkül az új fejlesztés azzal a kockázattal jár, hogy nem igényelnek

Amikor azonban Ön felelős egy új termékért, sok időt fordítanak a piacelemzésre és a potenciális ügyfelekkel, partnerekkel, professzionális elemzőkkel való kommunikációra, akik sokat tudnak az ügyfelekről és igényeikről. A piaccal való folyamatos kapcsolattartás nélkül az új fejlesztés azzal a kockázattal jár, hogy nem igényelnek. Mindig sok a bizonytalanság: meg kell értenie, kik lesznek az első felhasználók (korai alkalmazók), mi az, ami értékes számukra, és hogyan lehet akkor tömeges közönséget vonzani. A második legfontosabb feladat az, hogy világos és holisztikus elképzelést alakítsunk ki és továbbítsunk a fejlesztőknek a végtermékről, hogy motiválhassuk őket olyan körülmények közötti munkavégzésre, amikor bizonyos követelmények még változhatnak, és a prioritások az első vásárlók visszajelzéseitől függenek. Ezért fontos feladat egyrészt az ügyfelek, másrészt a fejlesztők elvárásainak kezelése. Annak érdekében, hogy egyik sem a másik ne veszítse el az érdeklődését, és ne fejezze be a projektet. Az első sikeres projekt után könnyebbé válik, és a fő kihívás az lesz, hogy megtaláljuk a megfelelő növekedési modellt az új üzlet számára.

Nagy adat- Angol. "Nagy adat". A kifejezés a DBMS alternatívájaként jelent meg, és az informatikai infrastruktúra egyik fő irányzatává vált, amikor az iparág óriásainak nagy része - az IBM, a Microsoft, a HP, az Oracle és mások - elkezdte használni ezt a koncepciót stratégiáiban. A Big Data alatt hatalmas (több száz terabájtos) adatsort értünk, amelyet hagyományos módszerekkel nem lehet feldolgozni; néha - az adatok feldolgozásának eszközei és módszerei.

Példák a nagy adatforrásokra: RFID -események, üzenetek a közösségi hálózatokban, meteorológiai statisztikák, információk a mobilhálózatok előfizetőinek helyéről sejtesés az audio / videó rögzítő eszközökről származó adatok. Ezért a "big data" -ot széles körben használják a gyártásban, az egészségügyben, a kormányzatban, az internetes üzletben - különösen a célközönség elemzésekor.

Jellegzetes

A big data jeleket „három V” -ként határozzák meg: Hangerő - hangerő (igazán nagy); változatosság - sokféleség, sok; sebesség - sebesség (nagyon gyors feldolgozás szükséges).

A nagy adatok gyakran strukturálatlanok, és feldolgozásukhoz speciális algoritmusok szükségesek. A nagy adatelemzési módszerek a következők:

("Adatbányászat") - megközelítések halmaza a rejtett hasznos ismeretek felfedezésére, amelyeket nem lehet standard módszerekkel megszerezni;
Crowdsourcing (tömeg - "tömeg", beszerzés - forrásként való felhasználás) - jelentős problémák megoldása a kötelező munkaszerződésben és kapcsolatokban nem szereplő önkéntesek közös erőfeszítésével, a tevékenységek összehangolása az informatikai eszközök segítségével;
Adatfúzió és integráció ("adatok keverése és beágyazása") - módszerek összessége több forrás összekapcsolásához mély elemzés keretében;
Gépi tanulás ("gépi tanulás") - a mesterséges intelligencia -kutatás alosztálya, amely a statisztikák elemzésének és az előrejelzések megszerzésének módszereit tanulmányozza alapmodellek alapján;
mintafelismerés (például arcfelismerés a fényképezőgép vagy a kamera keresőjében);
térbeli elemzés - a topológia, a geometria és a földrajz használata az adatok konstruálásához;
adatábrázolás - analitikus információk kimenete illusztrációk és diagramok formájában, interaktív eszközök és animációk segítségével az eredmények nyomon követésére és a további monitoring alapjainak megteremtésére.

Az információ tárolása és elemzése nagyszámú nagy teljesítményű szerveren történik. A legfontosabb technológia a Hadoop, nyílt forráskódú.

Mivel az információ mennyisége az idő múlásával csak növekedni fog, a nehézséget nem az adatok megszerzése jelenti, hanem az, hogy hogyan dolgozzák fel a legnagyobb haszonnal. Általánosságban elmondható, hogy a Big Data -val való munka folyamata magában foglalja az információk gyűjtését, strukturálását, betekintések és összefüggések létrehozását, cselekvési ajánlások kidolgozását. Már az első szakasz előtt is fontos egyértelműen meghatározni a munka célját: pontosan milyen adatokról van szó, például a termék célközönségének meghatározásához. Ellenkező esetben fennáll annak a veszélye, hogy sok információt szerez, anélkül, hogy megértené, hogyan lehet pontosan használni.