Büyük miktarda büyük veri. Büyük Veri: analitik ve çözümler

Bu ünlü fıkrayı biliyor musunuz? Büyük Veri, 18'den önceki seks gibidir:

  • herkes düşünür;
  • herkes ondan bahsediyor;
  • herkes arkadaşlarının yaptığını sanıyor;
  • neredeyse hiç kimse yapmaz;
  • kim yaparsa kötü yapar;
  • herkes bir dahaki sefere daha iyi olacağını düşünüyor;
  • kimse güvenlik önlemi almıyor;
  • kimse bir şey bilmediğini kabul etmekten utanır;
  • biri başarılı olursa, ondan her zaman çok fazla gürültü gelir.

Ama dürüst olalım, herhangi bir heyecanla, olağan merak her zaman devam edecek: ne tür bir yaygara var ve orada gerçekten önemli bir şey var mı? Kısacası evet var. Ayrıntılar aşağıdadır. Büyük Veri teknolojilerinin en şaşırtıcı ve ilgi çekici uygulamalarını sizin için seçtik. Pazarın anlaşılabilir örnekler üzerindeki bu küçük araştırması basit bir gerçekle yüzleşiyor: gelecek gelmiyor, "n yıl daha beklemeye gerek yok ve sihir gerçek olacak". Hayır, çoktan geldi ama yine de gözle görülmüyor ve bu nedenle tekilliğin yakılması henüz emek piyasasında belli bir noktayı o kadar da yakmıyor. Gitmek.

1 Büyük Veri teknolojileri ortaya çıktıkları yerde nasıl uygulanır?

Büyük BT şirketleri, veri biliminin doğduğu yerdir, bu nedenle bu alandaki iç çalışmaları en ilginç olanıdır. Tek amacı programcılarını makine öğrenimi teknikleri konusunda eğitmek olan Harita Azaltma paradigmasının doğum yeri olan bir Google kampanyası. Rekabet avantajı da burada yatıyor: Yeni bilgiler edindikten sonra, çalışanlar sürekli çalıştıkları Google projelerinde yeni yöntemler uygulayacak. Kampanyanın devrim yaratabileceği alanların listesinin ne kadar büyük olduğunu hayal edin. Bir örnek: sinir ağları kullanılıyor.

Şirket, tüm ürünlerine makine öğrenimi uyguluyor. Avantajı, günlük yaşamda kullanılan tüm dijital cihazları içeren geniş bir ekosistemin varlığıdır. Bu, Apple'ın imkansız bir seviyeye ulaşmasını sağlar: kampanya, diğerlerinden daha fazla kullanıcı verisine sahiptir. Aynı zamanda, gizlilik politikası çok katıdır: şirket her zaman müşteri verilerini reklam amacıyla kullanmamakla övünmüştür. Buna göre kullanıcı bilgileri şifreleniyor, böylece Apple avukatları ve hatta emri olan FBI bile okuyamıyor. tarafından bulacaksınız harika inceleme AI alanındaki Apple gelişmeleri.

2 4 tekerlekte Büyük Veri

Modern bir araba bir bilgi deposudur: sürücü, çevre, bağlı cihazlar ve kendisi hakkında tüm verileri toplar. Yakında, bunun gibi bir ağa bağlanan bir araç, saatte 25 GB'a kadar veri üretecek.

Araç telematiği, otomobil üreticileri tarafından uzun yıllardır kullanılmaktadır, ancak şimdi Büyük Veriden tam olarak yararlanan daha karmaşık bir veri toplama yöntemi kulislenmektedir. Bu, teknolojinin artık kilitlenme önleyici fren ve çekiş kontrol sistemini otomatik olarak etkinleştirerek sürücüyü kötü yol koşullarına karşı uyarabileceği anlamına geliyor.

BMW de dahil olmak üzere diğer endişeler, bir modeldeki zayıflıkları üretimin başlarında belirlemek için test prototiplerinden, yerleşik "hata belleği" sistemlerinden ve müşteri şikayetlerinden elde edilen bilgilerle birlikte Büyük Veri teknolojisini kullanmaktır. Artık aylar süren verileri manuel olarak değerlendirmek yerine son teknoloji bir algoritma uygulanıyor. Hatalar ve sorun giderme maliyetleri azaltılarak BMW'de daha hızlı veri analizi iş akışları sağlanır.

Uzman tahminlerine göre, 2019 yılına kadar tek bir otomobil ağına bağlı pazarın cirosu 130 milyar dolara ulaşacak.Aracın ayrılmaz bir parçası olan teknolojilerin otomobil üreticilerinin entegrasyon hızı göz önüne alındığında bu şaşırtıcı değil.

Büyük Veri kullanımı, makineyi daha güvenli ve daha işlevsel hale getirmeye yardımcı olur. Böylece Toyota, Bilgi İletişim Modüllerini (DCM) gömerek. Büyük Veri için kullanılan bu araç, DCM tarafından toplanan verileri ondan daha fazla yararlanmak için işler ve analiz eder.

3 Büyük verinin tıpta uygulanması


Büyük Veri teknolojilerinin tıp alanında uygulanması, doktorların hastalığı daha kapsamlı bir şekilde incelemesine ve belirli bir vaka için etkili bir tedavi yöntemi seçmesine olanak tanır. Bilgilerin analizi sayesinde sağlık çalışanlarının nüksleri tahmin etmesi ve önleyici tedbirler alması kolaylaşıyor. Sonuç, daha doğru teşhis ve iyileştirilmiş tedavilerdir.

Yeni teknik, hastaların sorunlarına farklı bir açıdan bakmayı mümkün kıldı ve bu da sorunun daha önce bilinmeyen kaynaklarının keşfedilmesine yol açtı. Örneğin, bazı ırklar genetik olarak kalp hastalığına diğer etnik grupların üyelerinden daha yatkındır. Şimdi, bir hasta belirli bir hastalıktan şikayet ettiğinde, doktorlar aynı sorundan şikayet eden kendi ırkının üyeleri hakkındaki verileri dikkate alıyor. Verilerin toplanması ve analizi, hastalar hakkında çok daha fazlasını öğrenmeyi mümkün kılar: gıda tercihleri ​​ve yaşam tarzından DNA'nın genetik yapısına ve hücre, doku ve organların metabolitlerine kadar. Örneğin, Kansas City'deki Pediatrik Genomik Tıp Merkezi, hastaları kullanır ve kansere neden olan genetik koddaki mutasyonları analiz eder. DNA'sını dikkate alarak her hastaya bireysel bir yaklaşım, tedavinin etkinliğini niteliksel olarak yeni bir seviyeye yükseltecektir.

Big Data'nın nasıl kullanıldığının anlaşılmasıyla birlikte tıp alanında ilk ve çok önemli değişim geliyor. Bir hasta tedavi gördüğünde, bir hastane veya başka bir sağlık kuruluşu, kişi hakkında birçok değerli bilgi edinebilir. Toplanan bilgiler, belirli bir doğruluk derecesi ile hastalıkların tekrarını tahmin etmek için kullanılır. Örneğin, bir hasta felç geçirmişse, doktorlar serebrovasküler kaza zamanı hakkında bilgi inceler, önceki emsaller (varsa) arasındaki ara dönemi analiz eder, stresli durumlara ve hastanın hayatındaki ağır fiziksel eforlara özel dikkat gösterir. Bu verilere dayanarak, hastaneler hastaya gelecekte felç olasılığını önlemek için net bir eylem planı verir.

Giyilebilir cihazlar da bir rol oynar ve bir kişi belirli bir hastalığın belirgin semptomlarına sahip olmasa bile sağlık sorunlarının belirlenmesine yardımcı olur. Doktor, hastanın durumunu uzun bir muayene süreciyle değerlendirmek yerine, bir fitness takipçisi veya akıllı saat tarafından toplanan bilgilere dayanarak sonuçlar çıkarabilir.

En son örneklerden biri. Hasta, kaçırılan bir ilacın neden olduğu yeni bir nöbet için muayene edilirken, doktorlar adamın çok daha ciddi bir sağlık sorunu olduğunu keşfetti. Sorunun atriyal fibrilasyon olduğu ortaya çıktı. Teşhis, bölüm personelinin hastanın telefonuna, yani fitness takipçisi ile ilgili uygulamaya erişmesi nedeniyle konuldu. Uygulamadan elde edilen veriler, tanıyı belirlemede önemli bir faktör oldu, çünkü muayene sırasında adamda herhangi bir kardiyak anormallik bulunmadı.

Bu, gösteren birkaç vakadan sadece biri. neden büyük veri kullanıyorsunuz? tıp alanında bugün çok önemli bir rol oynamaktadır.

4 Veri analitiği zaten perakendenin merkezinde yer alıyor

Kullanıcı sorgularını ve hedeflemeyi anlamak, Büyük Veri araçlarının en geniş ve en yaygın şekilde duyurulan uygulama alanlarından biridir. Büyük Veri, gelecekteki tüketici ihtiyaçlarını daha iyi anlamak için müşteri alışkanlıklarını analiz etmeye yardımcı olur. Şirketler, mümkün olan en eksiksiz müşteri resmini oluşturmak için geleneksel veri setini sosyal medya bilgileri ve tarayıcı arama geçmişi ile genişletmek istiyor. Bazen büyük kuruluşlar, küresel bir hedef olarak kendi tahmin modellerini oluşturmayı seçerler.

Örneğin, Hedef mağazalar zinciri, derin veri analizi ve kendi tahmin sistemini kullanarak yüksek doğrulukla - belirleyebilir. Her müşteriye bir kredi kartına, isme veya e-postaya bağlı olan bir kimlik atanır. Tanımlayıcı, bir kişinin satın aldığı her şey hakkında bilgilerin depolandığı bir tür alışveriş sepeti işlevi görür. Ağ uzmanları, pozisyondaki kadınların, hamileliğin ikinci üç aylık döneminden önce aktif olarak aromasız ürünler satın aldıklarını ve ilk 20 hafta boyunca kalsiyum, çinko ve magnezyum takviyelerine dayandıklarını buldu. Hedef, alınan verilere dayanarak müşterilere çocuk ürünleri için kupon gönderir. Çocuklara yönelik mallardaki indirimler, diğer ürünler için kuponlarla “seyreltilir”, böylece bir beşik veya çocuk bezi satın alma teklifleri çok müdahaleci görünmez.

Devlet daireleri bile seçim kampanyalarını optimize etmek için Büyük Veri teknolojilerini kullanmanın bir yolunu buldu. Bazıları, B. Obama'nın 2012'deki ABD başkanlık seçimlerindeki zaferinin, büyük miktarda veriyi doğru şekilde işleyen analist ekibinin mükemmel çalışmasından kaynaklandığına inanıyor.

5 Kanun ve düzenin korunmasına ilişkin Büyük Veri


Son birkaç yılda, kolluk kuvvetleri Büyük Veriyi nasıl ve ne zaman kullanacaklarını anladılar. Ulusal Güvenlik Teşkilatı'nın terör saldırılarını önlemek için Büyük Veri teknolojilerini kullandığı bilinen bir gerçektir. Diğer departmanlar, daha küçük suçları önlemek için aşamalı metodoloji kullanıyor.

Los Angeles Polis Departmanı kullanır. Genellikle proaktif kolluk kuvvetleri olarak adlandırılan şeyi yapar. Suç raporlarını kullanmak için belirli bir süre zaman, algoritma suç işleme olasılığının en yüksek olduğu alanları belirler. Sistem bu tür alanları şehir haritasında küçük kırmızı karelerle işaretler ve bu veriler anında devriye arabalarına iletilir.

Chicago Polisleri büyük veri teknolojilerini kullanmak biraz farklı bir şekilde. Windy City'deki kolluk kuvvetleri de buna sahiptir, ancak bu, silahlı bir saldırının kurbanı veya katılımcısı olabilecek insanlardan oluşan bir "risk çemberi" oluşturmayı amaçlamaktadır. The New York Times'a göre, bu algoritma bir kişiye suç geçmişine (tutuklamalar ve silahlı saldırıya katılım, suç çetelerine ait) dayalı olarak bir güvenlik açığı puanı atar. Sistemin geliştiricisi, sistemin bireyin suçlu geçmişini incelerken, kişinin ırk, cinsiyet, etnik köken ve konumu gibi ikincil faktörleri dikkate almadığını söylüyor.

6 Büyük Veri teknolojileri şehirlerin gelişmesine nasıl yardımcı olur?


Veniam CEO'su João Barros, Porto kentindeki otobüslerde Wi-Fi yönlendiricilerinin izleme haritasını gösteriyor

Veri analizi, şehirlerin ve ülkelerin yaşamının çeşitli yönlerini iyileştirmek için de kullanılır. Örneğin, Büyük Veri teknolojilerinin tam olarak nasıl ve ne zaman kullanılacağını bilmek, taşıma akışlarını optimize edebilir. Bunun için arabaların çevrimiçi hareketi dikkate alınır, sosyal medya ve meteorolojik veriler analiz edilir. Bugün, birçok şehir, ulaşım altyapısını diğer ulaşım modlarıyla bağlamak için veri analitiğinin kullanılmasında başı çekiyor. araçlar bir bütün halinde. Bu, otobüslerin geç treni beklediği ve trafik ışıklarının trafik sıkışıklığını en aza indirmek için trafik sıkışıklığını tahmin edebildiği akıllı bir şehir konseptidir.

Büyük Veri teknolojilerine dayanan Long Beach şehri, yasadışı sulamayı engellemek için kullanılan "akıllı" su sayaçlarını işletmektedir. Daha önce, özel evlerin su tüketimini azaltmak için kullanılıyorlardı (maksimum sonuç %80'lik bir azalmadır). Tatlı su tasarrufu her zaman güncel bir konudur. Özellikle devlet şimdiye kadar kaydedilen en kötü kuraklığı yaşarken.

Los Angeles Şehri Ulaştırma Bakanlığı temsilcileri, Büyük Veri kullananlar listesine katıldı. Trafik kamera sensörlerinden alınan verilere dayanarak, yetkililer trafik ışıklarının çalışmasını kontrol eder ve bu da trafiğin düzenlenmesine izin verir. Bilgisayarlı sistem, şehir genelinde yaklaşık 4.500.000 trafik ışığını kontrol ediyor. Resmi verilere göre, yeni algoritma tıkanıklığı %16 oranında azaltmaya yardımcı oldu.

7 Pazarlama ve satışta ilerlemenin motoru


Pazarlamada, Büyük Veri araçları, satış döngüsünün belirli bir aşamasında hangi fikirlerin tanıtımını yapmak için en etkili olduğunu belirlemenize olanak tanır. Veri analizi, yatırımların müşteri ilişkileri yönetimini nasıl iyileştirebileceğini, dönüşüm oranlarını artırmak için hangi stratejinin seçilmesi gerektiğini ve müşteri yaşam döngüsünün nasıl optimize edileceğini belirler. Bulut işinde, müşteri edinme maliyetinin nasıl en aza indirileceğini ve müşteri yaşam döngüsünün nasıl artırılacağını bulmak için Büyük Veri algoritmaları kullanılır.

Müşterinin sistem içi seviyesine bağlı olarak fiyatlandırma stratejilerinin farklılaşması, belki de Büyük Veri'nin pazarlama alanında kullanıldığı ana şeydir. McKinsey, ortalama bir firmanın gelirinin yaklaşık %75'inin, %30'unun yanlış fiyatlandırılmış temel ürünlerden geldiğini buldu. %1'lik bir fiyat artışı, faaliyet kârında %8,7'lik bir artışa neden olur.

Forrester araştırma ekibi, veri analizinin pazarlamacıların müşteri ilişkilerini nasıl daha başarılı hale getireceklerine odaklanmasına olanak tanıdığını belirledi. Uzmanlar, müşteri gelişiminin yönünü keşfederek bağlılık düzeylerini değerlendirebilir ve belirli bir şirket bağlamında yaşam döngüsünü uzatabilir.

Satış stratejilerinin optimizasyonu ve jeoanalitiği kullanarak yeni pazarlara girme aşamaları biyofarmasötik endüstrisine yansımaktadır. McKinsey'e göre, ilaç şirketleri kârlarının ortalama %20 ila %30'unu yönetim ve satışlara harcıyor. İşletmeler daha aktif hale gelirse büyük veri kullan En uygun maliyetli ve en hızlı büyüyen pazarları belirlemek için maliyetler anında kısılacaktır.

Veri analitiği, şirketlerin işlerinin temel yönlerinin eksiksiz bir resmini elde etmeleri için bir araçtır. Gelirleri artırmak, maliyetleri azaltmak ve işletme sermayesini azaltmak, modern işletmenin analitik araçların yardımıyla çözmeye çalıştığı üç görevdir.

Son olarak, CMO'ların %58'i Büyük Veri teknolojilerinin uygulanmasının Arama motoru optimizasyonu(SEO), e-posta ve mobil pazarlama, pazarlama programlarının oluşumunda veri analizinin en önemli rolü oynadığı yerlerdir. Ve yalnızca %4 daha az sayıda katılımcı, Büyük Verinin önümüzdeki yıllarda tüm pazarlama stratejilerinde önemli bir rol oynayacağından emin.

8 Küresel veri analizi

Daha az meraklı değil. Makine öğreniminin nihayetinde hassas bir dengeyi koruyabilecek tek güç olması mümkündür. Küresel ısınma üzerindeki insan etkisi konusu hala birçok tartışmaya neden oluyor, bu nedenle yalnızca büyük miktarda verinin analizine dayanan güvenilir tahmin modelleri doğru bir cevap verebilir. Sonuç olarak, emisyonları azaltmak hepimize yardımcı olacak: daha az enerji harcayacağız.

Şimdi Büyük Veri, belki birkaç yıl içinde uygulamasını bulabilecek soyut bir kavram değildir. Bu, tıptan kamu düzenine, pazarlama ve satışa kadar insan faaliyetinin neredeyse tüm alanlarında yararlı olabilecek, tamamen çalışan bir teknoloji setidir. Big Data'nın günlük hayatımıza aktif entegrasyonu aşaması yeni başladı ve Big Data'nın birkaç yıl içinde rolünün ne olacağını kim bilebilir?

Büyük veri, büyük veri kümelerinden bilgi toplamak, düzenlemek ve işlemek için gereken yenilikçi stratejiler ve teknolojiler için geniş bir terimdir. Tek bir bilgisayarın bilgi işlem gücünü veya depolama kapasitesini aşan verilerle uğraşma sorunu yeni olmasa da, bu tür bilgi işlemin ölçeği ve değeri son yıllarda önemli ölçüde genişlemiştir.

Bu yazıda, büyük veriyi keşfederken karşılaşabileceğiniz temel kavramları bulacaksınız. Ayrıca, bu alanda halihazırda kullanılmakta olan bazı süreç ve teknolojileri de tartışmaktadır.

Büyük veri nedir?

"Büyük veri"nin kesin bir tanımını yapmak zordur çünkü projeler, satıcılar, uygulayıcılar ve iş profesyonelleri onu çok farklı şekillerde kullanırlar. Bunu akılda tutarak, büyük veri şu şekilde tanımlanabilir:

  • Büyük veri kümeleri.
  • Büyük veri kümelerini işlemek için kullanılan bir hesaplama stratejileri ve teknolojileri kategorisi.

Bu bağlamda "büyük veri kümesi", geleneksel araçlar kullanılarak veya tek bir bilgisayarda işlenemeyecek veya saklanamayacak kadar büyük olan bir veri kümesi anlamına gelir. Bu, büyük veri kümelerinin genel ölçeğinin sürekli değiştiği ve durumdan duruma önemli ölçüde değişebileceği anlamına gelir.

Büyük veri sistemleri

Büyük verilerle çalışmak için temel gereksinimler, diğer tüm veri kümeleriyle aynıdır. Ancak, sürecin her adımında karşılaşılan büyük ölçek, işlem hızı ve veri özellikleri, araç geliştirmede ciddi yeni zorluklar ortaya çıkarmaktadır. Çoğu büyük veri sisteminin amacı, geleneksel yöntemlerle mümkün olmayacak şekilde büyük miktarda heterojen veriyi anlamak ve bunlarla iletişim kurmaktır.

2001'de Gartner'dan Doug Laney, büyük veri işlemeyi diğer veri işleme türlerinden farklı kılan bazı özellikleri tanımlamak için "büyük verinin üç V'si"ni tanıttı:

  1. Hacim (veri hacmi).
  2. Hız (veri toplama ve işleme hızı).
  3. Çeşitlilik (işlenmiş veri türlerinin çeşitliliği).

veri hacmi

İşlenmekte olan bilginin istisnai ölçeği, büyük veri sistemlerinin tanımlanmasına yardımcı olur. Bu veri kümeleri, işleme ve depolamanın her aşamasında daha fazla dikkat gerektiren geleneksel veri kümelerinden çok daha büyük olabilir.

Gereksinimler tek bir bilgisayarın kapasitesini aştığından, problem genellikle bilgisayar gruplarından kaynakların havuzda toplanması, dağıtılması ve koordine edilmesinde ortaya çıkar. Küme yönetimi ve görevleri daha küçük parçalara ayırabilen algoritmalar bu alanda giderek daha önemli hale geliyor.

Biriktirme ve işlem hızı

Büyük verileri diğer veri sistemlerinden önemli ölçüde ayıran ikinci özellik, bilginin sistem içinde hareket etme hızıdır. Veriler genellikle sisteme birden fazla kaynaktan girer ve sistemin mevcut durumunu güncellemek için gerçek zamanlı olarak işlenmelidir.

Bu vurgu anlık geri bildirim birçok uygulayıcıyı parti odaklı yaklaşımı terk etmeye ve gerçek zamanlı bir akış sistemini tercih etmeye zorladı. Yeni bilgi akışına ayak uydurmak ve değerli verileri en alakalı olduğu erken bir aşamada elde etmek için veriler sürekli olarak eklenir, işlenir ve analiz edilir. Bu, veri hattı boyunca arızalara karşı koruma sağlamak için yüksek oranda kullanılabilir bileşenlere sahip sağlam sistemler gerektirir.

İşlenmiş veri türlerinin çeşitliliği

Büyük veri, işlenen çok çeşitli kaynaklar ve bunların göreceli kalitesi ile ilgili birçok benzersiz zorluğa sahiptir.

Veriler, uygulama ve sunucu günlükleri gibi dahili sistemlerden, sosyal medya kanallarından ve diğer harici API'lerden, sensörlerden gelebilir. fiziksel cihazlar ve diğer kaynaklardan. Büyük veri sistemlerinin amacı, tüm bilgileri tek bir sistemde birleştirerek, kaynağından bağımsız olarak potansiyel olarak yararlı verileri işlemektir.

Medya biçimleri ve türleri de önemli ölçüde değişebilir. Medya dosyaları (görüntüler, video ve ses) metin dosyaları, yapılandırılmış günlükler vb. ile birleştirilir. Daha geleneksel veri işleme sistemleri, verilerin önceden etiketlenmiş, biçimlendirilmiş ve düzenlenmiş boru hattına girmesini bekler, ancak büyük veri sistemleri genellikle verileri alır ve depolar. orijinal durumunu korumaya çalışıyor. İdeal olarak, ham verilerde herhangi bir dönüşüm veya değişiklik, işleme sırasında bellekte gerçekleşir.

Diğer özellikler

Zamanla, bireyler ve kuruluşlar orijinal "üç V'yi" genişletmeyi önerdiler, ancak bu yenilikler büyük verinin özelliklerinden ziyade sorunları tanımlama eğilimindeydi.

  • Doğruluk: Kaynakların çeşitliliği ve işlemenin karmaşıklığı, verilerin kalitesinin (ve dolayısıyla ortaya çıkan analizin kalitesinin) değerlendirilmesinde sorunlara yol açabilir.
  • Değişkenlik (veri değişkenliği): verilerin değiştirilmesi, kalitede büyük değişikliklere yol açar. Düşük kaliteli verilerin belirlenmesi, işlenmesi veya filtrelenmesi, verilerin kalitesini artırmak için ek kaynaklar gerektirebilir.
  • Değer: Büyük verinin nihai hedefi değerdir. Bazen sistemler ve süreçler çok karmaşıktır, bu da verileri kullanmayı ve gerçek değerleri çıkarmayı zorlaştırır.

Büyük veri yaşam döngüsü

Peki büyük veri aslında nasıl işleniyor? Birkaç farklı uygulama yaklaşımı vardır, ancak stratejiler ve yazılım arasında ortak noktalar vardır.

  • Sisteme veri girme
  • Verileri depolamaya kaydetme
  • Veri hesaplama ve analizi
  • Sonuçların görselleştirilmesi

Bu dört iş akışı kategorisine ayrıntılı olarak bakmadan önce, birçok büyük veri işleme aracı tarafından kullanılan önemli bir strateji olan küme hesaplama hakkında konuşalım. Bir hesaplama kümesi oluşturmak, yaşam döngüsünün her aşamasında kullanılan teknolojinin bel kemiğidir.

Küme Bilişim

Büyük verinin kalitesi nedeniyle bireysel bilgisayarlar veri işleme için uygun değildir. Kümeler, büyük verilerin depolama ve bilgi işlem ihtiyaçlarını karşılayabildikleri için bunun için daha uygundur.

Büyük veri kümeleme yazılımı, birçok küçük makinenin kaynaklarını bir araya toplar ve bir dizi fayda sağlamayı amaçlar:

  • Kaynakların konsolidasyonu: Büyük veri kümelerinin işlenmesi, büyük miktarda CPU ve bellek kaynağının yanı sıra çok sayıda kullanılabilir veri depolama alanı gerektirir.
  • Yüksek kullanılabilirlik: Kümeler, veri erişiminin ve işlemenin donanım veya yazılım arızalarından etkilenmemesi için değişen seviyelerde esneklik ve kullanılabilirlik sağlayabilir. Bu, özellikle gerçek zamanlı analitik için önemlidir.
  • Ölçeklenebilirlik: Kümeler, hızlı yatay ölçeklendirmeyi destekler (kümeye yeni makineler ekleyerek).

Bir kümede çalışmak için küme üyeliğini yönetmek, kaynak tahsisini koordine etmek ve bireysel düğümlerle çalışmayı planlamak için araçlara ihtiyacınız vardır. Küme üyeliği ve kaynak tahsisi, Hadoop YARN (Yet Another Resource Negotiator) veya Apache Mesos gibi programlarla gerçekleştirilebilir.

Önceden hazırlanmış bir bilgi işlem kümesi, çoğu zaman, verileri işlemek için bir diğerinin etkileşime girdiği bir temel görevi görür. yazılım. Bir bilgi işlem kümesine katılan makineler de tipik olarak dağıtılmış depolama yönetimi ile ilişkilendirilir.

veri alma

Veri alımı, sisteme ham veri ekleme işlemidir. Bu işlemin karmaşıklığı, büyük ölçüde veri kaynaklarının biçimine ve kalitesine ve verilerin işleme gereksinimlerini nasıl karşıladığına bağlıdır.

Özel araçlar kullanarak sisteme büyük veri ekleyebilirsiniz. Apache Sqoop gibi teknolojiler, ilişkisel veritabanlarından mevcut verileri alıp büyük bir veri sistemine ekleyebilir. Uygulama ve sunucu günlüklerini toplamak ve içe aktarmak için tasarlanmış projeler olan Apache Flume ve Apache Chukwa'yı da kullanabilirsiniz. Apache Kafka gibi mesaj simsarları, çeşitli veri oluşturucular ve bir büyük veri sistemi arasında bir arayüz olarak kullanılabilir. Gobblin gibi çerçeveler, boru hattının sonunda tüm araçların çıktısını birleştirebilir ve optimize edebilir.

Veri alımı sırasında genellikle analiz, sıralama ve etiketleme yapılır. Bu işleme bazen ETL (çıkarma, dönüştürme, yükleme) adı verilir; bu, çıkarma, dönüştürme ve yükleme anlamına gelir. Terim genellikle eski depolama işlemlerine atıfta bulunurken, bazen büyük veri sistemlerine de uygulanır. tipik işlemler, biçimlendirme, kategorilere ayırma ve etiketleme, verileri filtreleme veya doğrulama için gelen verileri değiştirmeyi içerir.

İdeal olarak, gelen veriler minimum biçimlendirmeye tabi tutulur.

Veri depolama

Veriler alındıktan sonra, depolamayı yöneten bileşenlere geçer.

Tipik olarak, ham verileri depolamak için dağıtılmış dosya sistemleri kullanılır. Apache Hadoop'un HDFS'si gibi çözümler, bir kümedeki birden çok düğüme büyük miktarda veri yazmanıza olanak tanır. Bu sistem, verilere erişim sağlayan işlem kaynakları sağlar, bellek işlemleri için verileri küme RAM'ine yükleyebilir ve bileşen arızalarını işleyebilir. Ceph ve GlusterFS dahil olmak üzere HDFS yerine diğer dağıtılmış dosya sistemleri kullanılabilir.

Veriler, daha yapılandırılmış erişim için diğer dağıtılmış sistemlere de aktarılabilir. Dağıtılmış veritabanları, özellikle NoSQL veritabanları, heterojen verileri işleyebildikleri için bu rol için çok uygundur. Verileri nasıl düzenlemek ve sunmak istediğinize bağlı olarak birçok farklı dağıtılmış veri tabanı türü vardır.

Veri hesaplama ve analizi

Veriler mevcut olduğunda, sistem işlemeye başlayabilir. Hesaplama düzeyi, sistemin belki de en özgür kısmıdır, çünkü buradaki gereksinimler ve yaklaşımlar, bilgi türüne bağlı olarak önemli ölçüde farklılık gösterebilir. Veriler genellikle ya tek bir araçla ya da farklı veri türlerini işlemek için bir dizi araçla yeniden işlenir.

Toplu işleme, büyük veri kümelerinde hesaplama yöntemlerinden biridir. Bu süreç, verilerin daha küçük parçalara bölünmesini, her bir parçanın ayrı bir makinede işlenecek şekilde programlanmasını, verilerin veriye göre yeniden düzenlenmesini içerir. ara sonuçlar ve ardından nihai sonucun hesaplanması ve toplanması. Bu strateji, Apache Hadoop'tan MapReduce'u kullanır. Toplu işleme en çok, oldukça fazla hesaplama gerektiren çok büyük veri kümeleriyle çalışırken kullanışlıdır.

Diğer iş yükleri gerçek zamanlı işleme gerektirir. Aynı zamanda, bilgiler derhal işlenmeli ve hazırlanmalı ve yeni bilgiler mevcut olduğunda sistem zamanında yanıt vermelidir. Gerçek zamanlı işlemeyi uygulamanın bir yolu, aşağıdakilerden oluşan sürekli bir veri akışını işlemektir. bireysel elemanlar. Gerçek zamanlı işlemcilerin diğer bir ortak özelliği, diske yazma ihtiyacını ortadan kaldıran verileri kümenin belleğinde hesaplamalarıdır.

Apache Storm, Apache Flink ve Apache Spark teklifi çeşitli yollar gerçek zamanlı işleme uygulamaları. Bu esnek teknolojiler, her biri için en iyi yaklaşımı seçmenize olanak tanır. ayrı konu. Genel olarak, gerçek zamanlı işleme, değişen veya sisteme hızla eklenen küçük veri parçalarını analiz etmek için en uygun yöntemdir.

Bu programların tümü çerçevelerdir. Ancak, bir büyük veri sisteminde verileri hesaplamanın veya analiz etmenin birçok başka yolu vardır. Bu araçlar genellikle yukarıdaki çerçevelere bağlanır ve alttaki katmanlarla etkileşim için ek arabirimler sağlar. Örneğin, Apache Hive, Hadoop için bir veri ambarı arabirimi sağlar; Apache Pig, bir sorgu arabirimi ve bunlarla etkileşimler sağlar. SQL verileri Apache Drill, Apache Impala, Apache Spark SQL ve Presto ile sağlanır. Makine öğrenimi, Apache Spark'tan Apache SystemML, Apache Mahout ve MLlib'i kullanır. Veri ekosistemi tarafından yaygın olarak desteklenen doğrudan analitik programlama için R ve Python kullanılır.

Sonuçların görselleştirilmesi

Çoğu zaman, zaman içindeki verilerdeki eğilimleri veya değişiklikleri tanımak, elde edilen değerlerden daha önemlidir. Veri görselleştirme, eğilimleri belirlemenin ve çok sayıda veri noktasını düzenlemenin en kullanışlı yollarından biridir.

Gerçek zamanlı işleme, uygulama ve sunucu ölçümlerini görselleştirmek için kullanılır. Veriler sıklıkla değişir ve metriklerdeki büyük farklılıklar genellikle sistemlerin veya kuruluşların sağlığı üzerinde önemli bir etkiye işaret eder. Prometheus gibi projeler, veri akışlarını ve zaman serilerini işlemek ve bu bilgileri görselleştirmek için kullanılabilir.

Verileri görselleştirmenin popüler bir yolu, daha önce ELK yığını olarak bilinen Elastik yığındır. Logstash veri toplama, Elasticsearch veri indeksleme ve Kibana görselleştirme için kullanılır. Elastik yığın, büyük verilerle çalışabilir, hesaplamaların sonuçlarını görselleştirebilir veya ham metriklerle etkileşime girebilir. Benzer bir yığın, görselleştirme için Banana adlı bir Kibana çatalını indekslemek için Apache Solr birleştirilerek elde edilebilir. Böyle bir yığına İpek denir.

Belgeler, etkileşimli veri çalışması için başka bir görselleştirme teknolojisidir. Bu projeler, verilerin paylaşılması ve sunulması kolay bir biçimde etkileşimli olarak keşfedilmesini ve görselleştirilmesini sağlar. Bu tür arabirimin popüler örnekleri Jupyter Notebook ve Apache Zeppelin'dir.

Büyük veri sözlüğü

  • Büyük veri, doğru şekilde işlenemeyen veri kümeleri için geniş bir terimdir. geleneksel bilgisayarlar veya araçları, hacimleri, teslimat hızları ve çeşitlilikleri nedeniyle. Terim, aynı zamanda, bu tür verilerle başa çıkmak için teknolojilere ve stratejilere de yaygın olarak uygulanır.
  • Toplu işleme, verilerin büyük kümeler halinde işlenmesini içeren bir hesaplama stratejisidir. Bu yöntem genellikle acil olmayan verilerle uğraşmak için idealdir.
  • Kümelenmiş bilgi işlem, birden çok makinenin kaynaklarını bir araya getirme ve bunları yönetme uygulamasıdır. ortak fırsatlar görevleri tamamlamak için. Bu, tek tek düğümler arasındaki iletişimi yöneten bir küme yönetimi katmanı gerektirir.
  • Veri gölü, nispeten ham bir durumda toplanan verilerin büyük bir deposudur. Terim genellikle yapılandırılmamış ve sıklıkla değişen büyük verileri ifade etmek için kullanılır.
  • Veri madenciliği, büyük veri kümelerinde kalıp bulmanın çeşitli uygulamaları için geniş bir terimdir. Bir veri yığınını daha anlaşılır ve tutarlı bir bilgi kümesi halinde düzenleme girişimidir.
  • Bir veri ambarı, analiz ve raporlama için büyük, organize bir havuzdur. Bir veri gölünün aksine, bir ambar, diğer kaynaklarla bütünleştirilmiş, biçimlendirilmiş ve iyi organize edilmiş verilerden oluşur. Veri ambarlarına genellikle büyük verilerle ilgili olarak atıfta bulunulur, ancak bunlar genellikle geleneksel veri işleme sistemlerinin bileşenleridir.
  • ETL (çıkarma, dönüştürme ve yükleme) - verileri çıkarma, dönüştürme ve yükleme. Ham verileri elde etme ve kullanıma hazırlama süreci bu şekildedir. Veri ambarları ile ilişkilidir, ancak bu sürecin özellikleri aynı zamanda büyük veri sistemlerinin boru hatlarında da bulunur.
  • Hadoop, büyük veriler için açık kaynaklı bir Apache projesidir. HDFS adlı dağıtılmış bir dosya sisteminden ve YARN adlı bir küme ve kaynak zamanlayıcıdan oluşur. Toplu işleme yetenekleri MapReduce hesaplama motoru tarafından sağlanır. MapReduce ile modern Hadoop dağıtımları, diğer bilgi işlem ve analiz sistemlerini çalıştırabilir.
  • Bellek içi hesaplama, çalışan veri kümelerini tamamen kümenin belleğine taşımayı içeren bir stratejidir. Ara hesaplamalar diske yazılmaz, bunun yerine bellekte saklanır. Bu, sistemlere I/O'ya bağlı sistemlere göre büyük bir hız avantajı sağlar.
  • Makine öğrenimi, beslendikleri verilere dayalı olarak öğrenebilen, ayarlayabilen ve geliştirebilen sistemler tasarlama çalışması ve uygulamasıdır. Genellikle bu, tahmine dayalı ve istatistiksel algoritmaların uygulanması anlamına gelir.
  • Harita azaltma (Hadoop'un MapReduce'u ile karıştırılmamalıdır) bir bilgi işlem kümesi zamanlama algoritmasıdır. Süreç, görevin düğümler arasında bölünmesini ve ara sonuçların alınmasını, karıştırılmasını ve ardından her bir küme için tek bir değer çıktısını içerir.
  • NoSQL, geleneksel ilişkisel modelin dışında tasarlanmış veritabanları için geniş bir terimdir. NoSQL veritabanları, esneklikleri ve dağıtılmış mimarileri nedeniyle büyük veriler için çok uygundur.
  • Akış, sistem içinde hareket ederken tek tek veri öğelerini hesaplama uygulamasıdır. Bu, gerçek zamanlı veri analizine izin verir ve yüksek hızlı ölçümler kullanarak zaman açısından kritik işlemlerin işlenmesi için uygundur.
Etiketler: ,

2011'de oluşturulan ve çoğaltılan toplam küresel veri hacminin yaklaşık 1.8 zettabayt (1.8 trilyon gigabayt) olabileceği tahmin edildi - 2006'da oluşturulandan yaklaşık 9 kat daha fazla.

Daha karmaşık tanım

Yine de' Büyük veri` sadece büyük miktarda bilgiyi analiz etmekten daha fazlasını içerir. Sorun, kuruluşların çok büyük miktarda veri oluşturması değil, çoğunun geleneksel yapılandırılmış veritabanı biçimine uymayan bir biçimde sunulmasıdır - bunlar web günlükleri, videolar, metin belgeleri, makine kodu veya örneğin coğrafi veriler. Bütün bunlar, bazen organizasyonun dışında bile birçok farklı havuzda depolanır. Sonuç olarak, şirketler verilerinin büyük bir kısmına erişebilir ve gerekli araçlar Bu veriler arasında ilişkiler kurmak ve onlardan anlamlı sonuçlar çıkarmak. Buna, verilerin artık daha sık güncellendiği gerçeğini ekleyin ve bir durum elde edersiniz. geleneksel yöntemler Bilgi analizi, sürekli olarak güncellenen büyük hacimli verilere ayak uyduramaz, bu da nihayetinde teknolojinin yolunu açar. Büyük veri.

En İyi Tanım

Özünde, kavram Büyük veri iş verimliliğini artırmak, yeni ürünler yaratmak ve rekabet gücünü artırmak için çok sık güncellenen ve farklı kaynaklarda bulunan büyük hacimli ve çeşitli bileşimdeki bilgilerle çalışmayı içerir. Danışmanlık şirketi Forrester kısa ve öz bir şekilde şunu söylüyor: ` Büyük veri pratikliğin en üst sınırında verilerden anlam çıkaran teknikleri ve teknolojileri bir araya getiriyor.

İş zekası ile büyük veri arasındaki fark ne kadar büyük?

Fujitsu Avustralya'nın Baş Pazarlama Sorumlusu ve Baş Teknoloji Sorumlusu Craig Bathy, iş analizinin, bir işletmenin belirli bir zaman diliminde elde ettiği sonuçları analiz etmeye yönelik tanımlayıcı bir süreç olduğuna işaret ederken, işlem hızı Büyük veri Analizi tahmine dayalı hale getirmenize, gelecek için iş önerileri sunabilmenize olanak tanır. Büyük veri teknolojileri, iş zekası araçlarından daha fazla veri türünü analiz etmenize de olanak tanır ve bu da yalnızca yapılandırılmış depolamaya odaklanmayı mümkün kılar.

O "Reilly Radar'dan Matt Slocum, Büyük veri ve iş zekası aynı amaca sahiptir (bir sorunun cevabını bulmak), üç açıdan birbirlerinden farklıdırlar.

  • Büyük veri, iş zekasından daha büyük miktarda bilgiyi işlemek için tasarlanmıştır ve bu, elbette, büyük verinin geleneksel tanımına uygundur.
  • Büyük veri, daha hızlı ve daha hızlı değişen bilgileri işlemek için tasarlanmıştır, bu da derin keşif ve etkileşim anlamına gelir. Bazı durumlarda sonuçlar, web sayfasının yüklenmesinden daha hızlı oluşturulur.
  • Büyük veri, toplayıp depolayabildikten sonra nasıl kullanılacağını henüz keşfetmeye başladığımız yapılandırılmamış verileri işlemek için tasarlanmıştır ve bu dizilerde yer alan eğilimleri bulmayı kolaylaştırmak için algoritmalara ve diyaloglara ihtiyacımız var.

Oracle tarafından yayınlanan Oracle Information Architecture: An Architect's Guide to Big Data teknik incelemesine göre, büyük verilerle çalışırken bilgiye iş analizi yaparken olduğundan daha farklı yaklaşıyoruz.

Büyük verilerle çalışmak, bilinen değerlerin basitçe bir araya getirilmesinin sonuç verdiği tipik bir iş zekası sürecine benzemez: örneğin, birlikte ödenen faturaları eklemek, bir yıllık satış olur. Büyük verilerle çalışırken, sıralı modelleme yoluyla onları temizleme sürecinde sonuç elde edilir: ilk önce bir hipotez ileri sürülür, istatistiksel, görsel veya anlamsal bir model oluşturulur, temelinde öne sürülen hipotezin doğruluğu kontrol edilir. , ve sonra bir sonraki ileri sürülür. Bu süreç, araştırmacının ya görsel anlamları yorumlamasını ya da etkileşimli bilgi tabanlı sorgulamalar yapmasını ya da istenen sonucu üretebilen uyarlanabilir "makine öğrenimi" algoritmaları geliştirmesini gerektirir. Üstelik böyle bir algoritmanın ömrü oldukça kısa olabilir.

Büyük Veri Analiz Teknikleri

İstatistik ve bilgisayar bilimlerinden ödünç alınan araçlara (örneğin, makine öğrenimi) dayanan veri dizilerini analiz etmek için birçok farklı yöntem vardır. Liste eksiksiz olduğunu iddia etmiyor, ancak çeşitli endüstrilerdeki en popüler yaklaşımları yansıtıyor. Aynı zamanda, araştırmacıların yeni yöntemlerin oluşturulması ve mevcut yöntemlerin iyileştirilmesi için çalışmaya devam ettiği anlaşılmalıdır. Ek olarak, listelenen tekniklerden bazıları, yalnızca büyük veriler için geçerli olmayabilir ve daha küçük diziler için başarıyla kullanılabilir (örneğin, A/B testi, regresyon analizi). Tabii ki, dizi ne kadar hacimli ve çeşitlendirilebilirse, çıktıda o kadar doğru ve ilgili veriler elde edilebilir.

A/B testi. Bir kontrol örneğinin sırayla diğerleriyle karşılaştırıldığı bir teknik. Böylece, örneğin bir pazarlama teklifine en iyi tüketici tepkisini elde etmek için en uygun gösterge kombinasyonunu belirlemek mümkündür. Büyük veriçok sayıda yineleme gerçekleştirmeye ve böylece istatistiksel olarak anlamlı bir sonuç elde etmeye izin verir.

birliktelik kuralı öğrenme. İlişkileri tanımlamak için bir dizi teknik, yani. büyük veri dizilerindeki değişkenler arasındaki ilişkilendirme kuralları. Kullanılan veri madenciliği.

sınıflandırma. Belirli bir pazar segmentinde (satın alma kararları, kayıp, tüketim hacmi vb.) tüketici davranışını tahmin etmenize olanak sağlayan bir dizi teknik. Kullanılan veri madenciliği.

küme analizi. Önceden bilinmeyen ortak özellikleri belirleyerek nesneleri gruplara ayırmaya yönelik istatistiksel bir yöntem. Kullanılan veri madenciliği.

kitle kaynak kullanımı. Çok sayıda kaynaktan veri toplama tekniği.

Veri birleştirme ve veri entegrasyonu. Sosyal ağ kullanıcılarının yorumlarını analiz etmenize ve bunları gerçek zamanlı satış sonuçlarıyla karşılaştırmanıza olanak tanıyan bir dizi teknik.

veri madenciliği. Tanıtılan ürün veya hizmet için en duyarlı tüketici kategorilerini belirlemenize, en başarılı çalışanların özelliklerini belirlemenize ve tüketicilerin davranış modelini tahmin etmenize olanak tanıyan bir dizi teknik.

Toplu öğrenme. Bu yöntem, yapılan tahminlerin kalitesini artıran birçok tahmin modeli kullanır.

genetik algoritmalar. Bu teknikte olası çözümler, birleşebilen ve mutasyona uğrayabilen "kromozomlar" olarak temsil edilir. Doğal evrim sürecinde olduğu gibi, en uygun birey hayatta kalır.

makine öğrenme. Ampirik verilerin analizine dayalı kendi kendine öğrenen algoritmalar yaratmayı amaçlayan bilgisayar biliminde bir yön (tarihsel olarak "yapay zeka" adı verilmiştir).

doğal dil işleme (NLP). Bilgisayar bilimi ve dilbilimden ödünç alınan bir dizi doğal dil tanıma tekniği.

Ağ analizi. Ağlardaki düğümler arasındaki bağlantıları analiz etmek için bir dizi teknik. Sosyal ağlarla ilgili olarak, bireysel kullanıcılar, şirketler, topluluklar vb. arasındaki ilişkiyi analiz etmenize olanak tanır.

optimizasyon. Bir veya daha fazla göstergeyi iyileştirmek için karmaşık sistemleri ve süreçleri yeniden tasarlamak için bir dizi sayısal yöntem. Örneğin, pazara sunulan ürün hattının bileşimi, yatırım analizi yapılması vb. gibi stratejik kararlar alınmasına yardımcı olur.

desen tanıma. Tüketicilerin davranışsal modelini tahmin etmek için kendi kendine öğrenme unsurlarına sahip bir dizi teknik.

tahmine dayalı modelleme. oluşturmanıza izin veren bir dizi teknik matematiksel model olayların gelişimi için önceden belirlenmiş olası bir senaryo. Örneğin, aboneleri sağlayıcıları değiştirmeye zorlayacak olası koşullar için CRM sistemi veritabanının analizi.

gerileme. Bir bağımlı değişkendeki ve bir veya daha fazla bağımsız değişkendeki değişiklikler arasındaki kalıpları belirlemek için bir dizi istatistiksel yöntem. Genellikle tahmin ve tahminler için kullanılır. Veri madenciliğinde kullanılır.

duygu analizi. Tüketici duyarlılığını değerlendirme teknikleri, insan doğal dil tanıma teknolojilerine dayanmaktadır. İlgilenilen konuyla (örneğin bir tüketici ürünü) ilgili mesajları genel bilgi akışından ayırmanıza izin verirler. Ardından, yargının kutupluluğunu (olumlu veya olumsuz), duygusallık derecesini vb. değerlendirin.

sinyal işleme. Radyo mühendisliğinden ödünç alınan, bir sinyali gürültü arka planına karşı tanımayı ve onun ileri analizini amaçlayan bir dizi teknik.

Mekansal analiz. Kısmen istatistiklerden ödünç alınan mekansal verileri analiz etmek için bir dizi teknik - alanın topolojisi, coğrafi koordinatlar, nesne geometrisi. kaynak Büyük veri bu durumda coğrafi bilgi sistemleri (GIS) genellikle hareket eder.

  • Devrim Analitiği (matematiksel istatistikler için R dilini temel alır).

Bu listede özellikle ilgi çekici olan, son beş yılda çoğu stok takipçisi tarafından veri analizörü olarak test edilen açık kaynaklı bir yazılım olan Apache Hadoop'tur. Yahoo, Hadoop kodunu açık kaynak topluluğuna açar açmaz, BT endüstrisinde Hadoop'a dayalı ürünler yaratmak için hızla yepyeni bir trend ortaya çıktı. Hemen hemen tüm modern analiz araçları Büyük veri Hadoop ile entegrasyon sağlar. Geliştiricileri hem yeni başlayanlar hem de tanınmış küresel şirketlerdir.

Büyük Veri Yönetimi Çözümleri için Pazarlar

Dijital yığınakla mücadele aracı olarak Büyük Veri Platformları (BDP, Büyük Veri Platformu)

Analiz yeteneği Büyük veri Halk arasında Büyük Veri olarak adlandırılan , bir nimet olarak ve açık bir şekilde algılanır. Ama gerçekten öyle mi? Sınırsız veri birikimi neye yol açabilir? Büyük olasılıkla, bir kişiyle ilgili olarak yerli psikologların patolojik istifleme, syllogomania veya mecazi olarak "Plyushkin sendromu" dediği gerçeği. İngilizce'de, her şeyi toplamanın kısır tutkusuna hording denir (İngiliz istifinden - “yedek”). Akıl hastalığının sınıflandırmasına göre, hording bir akıl hastalığı olarak sınıflandırılır. Dijital çağda, geleneksel malzeme akortlarına dijital (Dijital İstifçilik) eklenir, hem bireyler hem de tüm işletme ve kuruluşlar () bundan zarar görebilir.

Dünya ve Rusya pazarı

Büyük veri ortamı - Ana sağlayıcılar

Toplama, işleme, yönetim ve analiz araçlarına ilgi Büyük veri oldukça doğal olan neredeyse tüm önde gelen BT şirketlerini gösterdi. Birincisi, bu olguyu doğrudan kendi işlerinde yaşarlar ve ikincisi, Büyük veri yeni pazar nişleri geliştirmek ve yeni müşteriler çekmek için mükemmel fırsatlar yaratır.

Piyasada, büyük miktarda veri işleme konusunda iş yapan birçok girişim ortaya çıktı. Bazıları Amazon gibi büyük oyuncular tarafından sağlanan hazır bulut altyapısını kullanıyor.

Endüstrilerde Büyük Veri teorisi ve pratiği

gelişme tarihi

2017

TmaxSoft tahmini: Büyük Verinin bir sonraki "dalgası" DBMS modernizasyonunu gerektirecek

İşletmeler, biriktirdikleri büyük miktarda verinin içerdiğini bilirler. önemli bilgi işleri ve müşterileri hakkında. Firma bu bilgileri başarılı bir şekilde uygulayabilirse rakiplerine göre önemli bir avantaj elde edecek ve onlardan daha iyi ürün ve hizmetler sunabilecektir. Ancak, birçok kuruluş hala etkin bir şekilde kullanamıyor Büyük veri TmaxSoft, eski BT altyapılarının gerekli depolama kapasitesini sağlayamaması nedeniyle, veri alışverişi süreçleri, yardımcı programlar ve uygulamalardan değerli bilgileri çıkarmak için büyük yapılandırılmamış veri dizilerini işlemek ve analiz etmek için gerekli olduğunu belirtti.

Ek olarak, sürekli artan veri hacimlerini analiz etmek için gereken işlem gücünü artırmak, bir kuruluşun eski BT altyapısına önemli yatırımların yanı sıra yeni uygulamalar ve hizmetler geliştirmek için kullanılabilecek ek bakım kaynakları gerektirebilir.

5 Şubat 2015'te Beyaz Saray, şirketlerin nasıl kullandıklarını tartışan bir rapor yayınladı " Büyük veri farklı alıcılar için farklı fiyatlar belirlemek - "fiyat ayrımcılığı" veya "farklı fiyatlandırma" (kişiselleştirilmiş fiyatlandırma) olarak bilinen bir uygulama. Rapor, hem satıcılar hem de alıcılar için "büyük veri"nin faydalarını açıklıyor ve büyük veri ve farklı fiyatlandırmanın ortaya çıkardığı sorunların çoğunun mevcut ayrımcılıkla mücadele yasaları ve yönetmelikleri dahilinde ele alınabileceği sonucuna varıyor. .

Rapor, şu anda şirketlerin bireyselleştirilmiş pazarlama ve farklılaştırılmış fiyatlandırma bağlamında büyük verileri nasıl kullandığına dair yalnızca anekdot niteliğinde kanıtlar bulunduğunu belirtiyor. Bu bilgiler, satıcıların üç kategoriye ayrılabilecek fiyatlandırma yöntemleri kullandığını gösterir:

  • talep eğrisini incelemek;
  • Demografiye dayalı yönlendirme ve farklılaştırılmış fiyatlandırma; ve
  • hedef davranışsal pazarlama (davranışsal hedefleme - davranışsal hedefleme) ve bireyselleştirilmiş fiyatlandırma.

Talep eğrisini incelemek: Talebi anlamak ve tüketici davranışını incelemek için, pazarlamacılar genellikle bu alanda, müşterilere iki olası fiyat kategorisinden birinin rastgele atandığı deneyler yaparlar. "Teknik olarak, bu deneyler, tüm müşterilerin daha yüksek fiyatı "vurmak" için aynı şansa sahip olması anlamında "ayrımcılık yapmasalar" bile, müşteriler için farklı fiyatlara neden oldukları için bir çeşit farklı fiyatlandırma şeklidir.

direksiyon: Belirli bir demografik gruba ait olan ürünlerin tüketicilere sunulması uygulamasıdır. Bu nedenle, bir bilgisayar şirketinin web sitesi aynı dizüstü bilgisayarı sunabilir. farklı şekiller alıcıların kendileri hakkında sağladıkları bilgilere göre farklı fiyatlarla (örneğin, verilen kullanıcı devlet kurumlarının, bilimsel veya ticari kurumların veya bir bireyin temsilcisi) veya coğrafi konumları (örneğin, bir bilgisayarın IP adresi tarafından belirlenir).

Hedeflenen Davranışsal Pazarlama ve Özel Fiyatlandırma: Bu durumlarda, alıcıların kişisel verileri, belirli ürünlerin hedefli reklamı ve kişiselleştirilmiş fiyatlandırması için kullanılır. Örneğin, çevrimiçi reklamverenler toplanan reklam ağları ve üçüncü taraf tanımlama bilgileri aracılığıyla, reklam materyallerini hedeflemek için İnternet'teki kullanıcı etkinliğine ilişkin veriler. Bu yaklaşım, bir yandan, tüketicilerin ilgilerini çeken mal ve hizmetlerin reklamlarını almalarına izin verir, ancak belirli türdeki kişisel verilerini istemeyen tüketiciler için endişeye neden olabilir (ör. tıbbi ve mali konular) onların rızası olmadan toplandı.

Hedefli davranışsal pazarlama yaygın olmasına rağmen, çevrimiçi ortamda bireyselleştirilmiş fiyatlandırmaya ilişkin nispeten az kanıt vardır. Rapor, bunun, yöntemlerin hala geliştirilmekte olduğu veya şirketlerin, muhtemelen tüketicilerin tepkisinden korktukları için bireysel fiyatlandırmayı benimsemeye (veya bu konuda sessiz kalmayı tercih etmeye) isteksiz olmalarından kaynaklanabileceğini tahmin ediyor.

Raporun yazarları, "bireysel tüketici için büyük veri kullanımının şüphesiz hem potansiyel getiriler hem de risklerle ilişkili olduğuna" inanıyor. Rapor, büyük verileri kullanırken şeffaflık ve ayrımcılık sorunları olduğunu kabul etmekle birlikte, mevcut ayrımcılıkla mücadele ve tüketici koruma yasalarının bunları ele almak için yeterli olduğunu savunuyor. Ancak rapor, şirketlerin kullandığı durumlarda “sürekli izleme” ihtiyacının da altını çiziyor. kesin bilgişeffaf olmayan bir şekilde veya mevcut düzenleyici çerçeve tarafından kapsanmayan şekillerde.

Bu rapor, Beyaz Saray'ın internette "büyük veri" kullanımını ve ayrımcı fiyatlandırmayı ve bunun sonucunda Amerikalı tüketiciler için sonuçlarını inceleme çabalarının bir devamı niteliğindedir. Daha önce bildirilmişti ki çalışma Grubu Beyaz Saray Büyük Veri Konuyla ilgili raporunu Mayıs 2014'te yayınladı. Federal Ticaret Komisyonu (FTC), Eylül 2014'teki büyük veri kullanımıyla ilgili ayrımcılık konulu çalıştayında da bu sorunları ele aldı.

2014

Gartner, Büyük Verinin gizemini ortadan kaldırıyor

Gartner'ın 2014 sonbaharı politika özeti, CIO'lar arasında Büyük Veri hakkında bir dizi yaygın efsaneyi listeliyor ve çürütüyor.

  • Herkes Büyük Veri işleme sistemlerini bizden daha hızlı uyguluyor

Gartner analistleri tarafından bu yıl ankete katılan kuruluşların %73'ünün şimdiden yatırım yaptığı veya yapmayı planladığı Büyük Veri teknolojilerine olan ilgi tüm zamanların en yüksek seviyesinde. Ancak bu girişimlerin çoğu hala çok erken aşamalarında ve ankete katılanların yalnızca %13'ü bu tür çözümleri halihazırda uygulamış durumda. En zor kısım, nereden başlayacağınıza karar vererek Büyük Veriden nasıl para kazanılacağını bulmaktır. Birçok kuruluş, bağlantı kuramadıkları için pilot aşamada takılıp kalıyor yeni teknoloji belirli iş süreçlerine

  • O kadar çok veriye sahibiz ki, içindeki küçük hatalar için endişelenmenize gerek yok.

Bazı CIO'lar, verilerdeki küçük kusurların büyük hacimleri analiz etmenin genel sonuçlarını etkilemediğine inanıyor. Analistler, çok fazla veri olduğunda, her hatanın ayrı ayrı sonucu gerçekten daha az etkilediğini, ancak hataların kendilerinin daha büyük hale geldiğini söylüyor. Ek olarak, analiz edilen verilerin çoğu haricidir, bilinmeyen bir yapıya veya kökene sahiptir, bu nedenle hata olasılığı artar. Dolayısıyla Büyük Veri dünyasında kalite aslında çok daha önemlidir.

  • Büyük Veri teknolojileri, veri entegrasyonu ihtiyacını ortadan kaldıracak

Big Data, verileri okundukça otomatik şema oluşturma ile orijinal formatında işleyebilmeyi vaat ediyor. Bunun, birden fazla veri modeli kullanılarak aynı kaynaklardan gelen bilgilerin analizine olanak sağlayacağına inanılmaktadır. Birçoğu, bunun son kullanıcıların herhangi bir veri setini kendi yöntemleriyle yorumlamasını da sağlayacağına inanıyor. Gerçekte, çoğu kullanıcı genellikle verilerin uygun şekilde biçimlendirildiği ve bilgi bütünlüğü düzeyi ve kullanım durumuyla nasıl ilişkilendirilmesi gerektiği konusunda anlaşmanın olduğu geleneksel kullanıma hazır şemayı ister.

  • Veri ambarlarının karmaşık analitik için kullanılması mantıklı değil

Birçok bilgi yönetim sistemi yöneticisi, karmaşık analitik sistemlerin yeni veri türleri kullandığı göz önüne alındığında, bir veri ambarı oluşturmak için zaman harcamanın anlamsız olduğunu düşünüyor. Aslında, birçok karmaşık analitik sistemi, bir veri ambarından gelen bilgileri kullanır. Diğer durumlarda, Büyük Veri işleme sistemlerinde analiz için ek olarak yeni veri türlerinin hazırlanması gerekir; verilerin uygunluğu, birleştirme ilkeleri ve gerekli kalite düzeyi hakkında kararlar alınmalıdır - bu tür hazırlık depo dışında gerçekleştirilebilir.

  • Veri ambarlarının yerini veri gölleri alacak

Gerçekte, satıcılar, veri göllerini depolama yerine veya bir analitik altyapının kritik unsurları olarak konumlandırarak müşterileri yanlış yönlendirir. Veri göllerinin altında yatan teknolojiler, veri ambarlarında bulunan olgunluk ve işlevsellik genişliğinden yoksundur. Bu nedenle, Gartner'a göre, verileri yönetmekten sorumlu liderler, göller aynı gelişme düzeyine ulaşana kadar beklemeli.

Accenture: Büyük veri sistemlerini uygulayanların %92'si sonuçtan memnun

Büyük verilerin ana avantajları arasında, katılımcılar şunları söyledi:

  • "yeni gelir kaynakları aramak" (%56),
  • "müşteri deneyimini geliştirmek" (%51),
  • "yeni ürün ve hizmetler" (%50) ve
  • "yeni müşterilerin akını ve eskilerin sadakatini sürdürme" (%47).

Yeni teknolojileri tanıtırken, birçok şirket geleneksel sorunlarla karşı karşıya kaldı. %51 için tökezleyen engel güvenlik, %47 için bütçe, %41 için gerekli personel eksikliği ve %35 için - entegrasyondaki zorluklardı. mevcut sistem. Ankete katılan şirketlerin neredeyse tamamı (yaklaşık %91'i), sorunu kısa sürede personel sıkıntısıyla çözmeyi ve büyük veri uzmanları işe almayı planlıyor.

Şirketler, büyük veri teknolojilerinin geleceği konusunda iyimser. %89'u işlerini internet kadar değiştireceklerine inanıyor. Ankete katılanların %79'u, büyük veriyle uğraşmayan şirketlerin rekabet avantajlarını kaybedeceğini belirtti.

Ancak, katılımcılar tam olarak neyin büyük veri olarak kabul edilmesi gerektiği konusunda anlaşamadılar. Katılımcıların %65'i bunların "büyük veri dosyaları" olduğuna inanıyor, %60'ı bunun "gelişmiş analitik ve analiz" olduğundan emin ve %50'si bunun "veri görselleştirme araçları" olduğuna inanıyor.

Madrid, büyük veri yönetimine 14,7 milyon avro harcıyor

Temmuz 2014'te Madrid'in kentsel altyapıyı yönetmek için büyük veri teknolojilerini kullanacağı biliniyordu. Projenin maliyeti 14,7 milyon avro ve uygulanacak çözümler büyük veriyi analiz etmeye ve yönetmeye yönelik teknolojilere dayanacak. onların yardımı ile Şehir Yönetimi her bir hizmet sağlayıcı ile çalışmayı yönetecek ve hizmet düzeyine bağlı olarak buna göre ödeme yapacaktır.

Sokakların, aydınlatmanın, sulamanın, yeşil alanların durumunu izleyen, bölgeyi temizleyen ve kaldıran, ayrıca çöpleri işleyen idarenin müteahhitlerinden bahsediyoruz. Proje kapsamında, özel olarak atanan müfettişler için, günlük 1,5 bin çeşitli kontrol ve ölçümün gerçekleştirileceği şehir hizmetlerinin 300 temel performans göstergesi geliştirildi. Ayrıca şehir, Madrid iNTeligente (MiNT) - Smarter Madrid adlı yenilikçi bir teknolojik platform kullanmaya başlayacak.

2013

Uzmanlar: Büyük Veri için modanın zirvesi

İstisnasız, veri yönetimi pazarındaki tüm satıcılar şu anda Büyük Veri yönetimi için teknolojiler geliştiriyor. Bu yeni teknolojik eğilim, hem geliştiriciler hem de endüstri analistleri ve bu tür çözümlerin potansiyel tüketicileri olan profesyonel topluluk tarafından da aktif olarak tartışılmaktadır.

Datashift'in öğrendiği gibi, Ocak 2013 itibariyle, " Büyük veri"akla gelebilecek tüm boyutları aştı. Datashift, sosyal ağlarda Büyük Veri'den bahsedilme sayısını analiz ettikten sonra, 2012 yılında bu terimin dünya çapında yaklaşık 1 milyon farklı yazar tarafından oluşturulan gönderilerde yaklaşık 2 milyar kez kullanıldığını hesapladı. Bu, saatte 260 gönderiye eşdeğerdir ve saatte 3070 söz tepe noktasıdır.

Gartner: Her saniye CIO, Büyük veriye para harcamaya hazır

Gartner, Büyük veri teknolojileri ile birkaç yıl süren deneyler ve 2013'teki ilk uygulamalardan sonra, bu tür çözümlerin uyarlanmasının önemli ölçüde artacağını tahmin ediyor. Araştırmacılar, dünya çapındaki BT liderlerini araştırdı ve ankete katılanların %42'sinin halihazırda Büyük veri teknolojilerine yatırım yaptığını veya gelecek yıl içinde bu tür yatırımları yapmayı planladığını tespit etti (veriler Mart 2013 itibariyle).

Şirketler işleme teknolojilerine para harcamak zorunda kalıyor Büyük veri Bilgi ortamı hızla değiştiğinden, bilgi işlemeye yönelik yeni yaklaşımlara ihtiyacım var. Birçok şirket, büyük verinin kritik olduğunu çoktan anladı ve onunla çalışmak, geleneksel bilgi kaynakları ve onu işleme yöntemleri kullanılarak elde edilemeyen faydalar elde etmenize olanak tanıyor. Buna ek olarak, medyada "büyük veri" konusunun sürekli abartılması, ilgili teknolojilere olan ilgiyi körüklüyor.

Gartner'ın başkan yardımcısı Frank Buytendijk, bazıları büyük verinin geliştirilmesinde rakiplerinin gerisinde kaldıklarından endişe duydukları için şirketleri heveslerini azaltmaya bile çağırdı.

"Endişelenmeye gerek yok, büyük veri teknolojilerine dayalı fikirleri gerçekleştirme olanakları neredeyse sınırsız" dedi.

Gartner, 2015 yılına kadar Global 1000 şirketlerinin %20'sinin stratejik olarak "bilgi altyapısı"na odaklanacağını tahmin ediyor.

Büyük veri işleme teknolojilerinin getireceği yeni fırsatları öngören birçok kuruluş, çeşitli türlerdeki bilgileri toplama ve saklama sürecini şimdiden organize ediyor.

Eğitim ve devlet kurumları ile sektördeki şirketler için, iş dönüşümü için en büyük potansiyel, birikmiş verilerin sözde karanlık verilerle (kelimenin tam anlamıyla - “karanlık veriler”) birleşiminde yatmaktadır, ikincisi mesajları içerir E-posta, multimedya ve diğer benzer içerikler. Gartner'a göre, çok çeşitli bilgi kaynaklarıyla nasıl başa çıkacağını öğrenenler veri yarışını kazanacak.

Anket Cisco: Büyük Veri, BT bütçelerini artırmaya yardımcı olacak

Bağımsız analist firması InsightExpress tarafından 18 ülkede yürütülen Cisco Connected World Teknoloji Raporu (Bahar 2013), 1.800 üniversite öğrencisi ve 18 ila 30 yaşları arasındaki eşit sayıda genç profesyonelle anket yaptı. Anket, BT departmanlarının projelerin uygulanmasına hazır olma düzeyini öğrenmek için yapılmıştır. Büyük veri ve bu tür projelerin ilgili zorlukları, teknolojik kusurları ve stratejik değeri hakkında bir anlayış kazanın.

Çoğu şirket verileri toplar, kaydeder ve analiz eder. Ancak rapora göre, birçok şirket Büyük Veri ile bağlantılı olarak bir dizi karmaşık iş ve bilgi teknolojisi sorunuyla karşı karşıya. Örneğin, ankete katılanların yüzde 60'ı Büyük Veri çözümlerinin karar verme süreçlerini iyileştirebileceğini ve rekabet gücünü artırabileceğini kabul ediyor, ancak yalnızca yüzde 28'i birikmiş bilgilerden halihazırda gerçek stratejik faydalar elde ettiklerini söyledi.

Ankete katılan CIO'ların yarısından fazlası, teknoloji, personel ve profesyonel beceriler konusunda artan talepler olacağından Büyük Veri projelerinin kuruluşlarındaki BT bütçelerini artırmaya yardımcı olacağına inanıyor. Aynı zamanda, katılımcıların yarısından fazlası bu tür projelerin 2012'de şirketlerindeki BT bütçelerini artıracağını düşünüyor. Yüzde 57'si, Büyük Veri'nin önümüzdeki üç yıl içinde bütçelerini artıracağından emin.

Ankete katılanların yüzde 81'i, tüm (veya en azından bazı) Büyük Veri projelerinin bulut bilişim kullanımını gerektireceğini söyledi. yani yayılma bulut teknolojileri Büyük Veri çözümlerinin dağıtım hızını ve bu çözümlerin işletme için değerini etkileyebilir.

Şirketler en çok veri toplar ve kullanır farklı şekiller hem yapılandırılmış hem de yapılandırılmamış. İşte anket katılımcılarının veri aldığı kaynaklar (Cisco Connected World Technology Report):

CIO'ların yaklaşık yarısı (yüzde 48), ağlarındaki yükün önümüzdeki iki yıl içinde iki katına çıkacağını tahmin ediyor. (Bu, ankete katılanların yüzde 68'inin bu bakış açısına sahip olduğu Çin'de ve yüzde 60'ının Almanya'da özellikle doğrudur.) Ankete katılanların yüzde 23'ü ağ trafiğinin önümüzdeki iki yıl içinde üç katına çıkmasını bekliyor. Aynı zamanda, yanıt verenlerin yalnızca yüzde 40'ı ağ trafiğinde patlamaya hazır bir büyümeye hazır olduklarını beyan etti.

Ankete katılanların yüzde 27'si daha iyi BT politikalarına ve bilgi güvenliği önlemlerine ihtiyaçları olduğunu kabul etti.

Yüzde 21'i daha fazla bant genişliğine ihtiyaç duyuyor.

Büyük Veri, BT departmanlarının değer yaratması ve geliri artırmak ve bir şirketin kârlılığını güçlendirmek için iş birimleriyle yakın ilişkiler kurması için yeni fırsatlar açar. Büyük Veri projeleri, BT departmanlarını iş departmanlarının stratejik ortağı haline getirir.

Ankete katılanların yüzde 73'üne göre, Büyük Veri stratejisinin uygulanmasında ana motor BT departmanı olacak. Aynı zamanda, katılımcılar diğer departmanların da bu stratejinin uygulanmasına dahil olacağına inanmaktadır. Her şeyden önce bu, finans departmanları (katılımcıların yüzde 24'ü tarafından adlandırılmıştır), araştırma ve geliştirme (yüzde 20), operasyonlar (yüzde 20), mühendislik (yüzde 19), pazarlama (yüzde 15) ve satış (yüzde 15) ile ilgilidir. yüzde 14).

Gartner: Büyük verileri yönetmek için milyonlarca yeni işe ihtiyaç var

Küresel BT harcamaları, 2012'deki BT harcamalarına göre %3,8 artarak 2013'e kadar 3,7 milyar dolara ulaşacak (yıl sonu tahmini 3,6 milyar dolar). segment Büyük veri(büyük veri) bir Gartner raporuna göre çok daha hızlı bir şekilde gelişecek.

2015 yılına kadar sahada 4,4 milyon iş Bilişim Teknolojileri 1,9 milyonu istihdam olmak üzere büyük veriye hizmet etmek için oluşturulacak. Dahası, bu tür işlerin her biri üç ek BT ​​dışı iş yaratacak, böylece yalnızca ABD'de önümüzdeki dört yıl içinde bilgi ekonomisini desteklemek için 6 milyon kişi çalışacak.

Gartner uzmanlarına göre asıl sorun, sektörde bunun için yeterli yeteneğin olmaması: Örneğin Amerika Birleşik Devletleri'ndeki hem özel hem de kamu eğitim sistemleri, sektöre yeterli sayıda kalifiye personel sağlayamıyor. . Yani BT'de bahsi geçen yeni işlerden sadece üçte birine personel sağlanacak.

Analistler, nitelikli BT personeli yetiştirme rolünün, doğrudan onlara çok ihtiyaç duyan şirketler tarafından üstlenilmesi gerektiğine inanıyor, çünkü bu tür çalışanlar onlar için geleceğin yeni bilgi ekonomisine geçiş kapısı olacak.

2012

Büyük Veri hakkında ilk şüphecilik

Ovum ve Gartner'dan analistler, 2012'de moda olan bir konu için şunu öne sürüyorlar: Büyük veri yanılsamaları bırakmanın zamanı gelmiş olabilir.

Şu anda "Büyük Veri" terimi, genellikle sosyal medyadan, sensör ağlarından ve diğer kaynaklardan çevrimiçi olarak gelen ve sürekli artan bilgi hacminin yanı sıra verileri işlemek ve önemli işletmeleri tanımlamak için kullanılan artan araç yelpazesini ifade eder. -trendler.

Ovum analisti Tony Bayer, "Büyük veri fikrini çevreleyen yutturmaca nedeniyle (veya buna rağmen), 2012'de üreticiler bu eğilime büyük umutla baktılar" dedi.

Bayer, DataSift'in Türkiye'deki büyük veri referanslarının geriye dönük bir analizini yaptığını söyledi.

Büyük Veri (veya Büyük Veri), büyük miktarlarda yapılandırılmış veya yapılandırılmamış bilgi ile çalışmak için bir dizi yöntemdir. Büyük veri uzmanları, görsel, insan tarafından algılanabilir sonuçlar elde etmek için işlenmesi ve analizi ile ilgilenmektedir. Look At Me profesyonellerle konuştuk ve Rusya'da büyük veri işleme ile ilgili durumun ne olduğunu, bu alanda çalışmak isteyenler için nerede ve ne okumanın daha iyi olduğunu öğrendik.

Alexey Ryvkin, büyük veri, müşterilerle iletişim ve sayıların dünyası alanındaki ana yönler hakkında

Moskova Enstitüsü'nde okudum elektronik Mühendisliği. Oradan çıkmayı başardığım en önemli şey, temel fizik ve matematik bilgisiydi. Çalışmalarımla eş zamanlı olarak, güvenli veri iletimi için hata düzeltici kodlama algoritmalarının geliştirilmesi ve uygulanmasıyla uğraştığım Ar-Ge merkezinde çalıştım. Lisanstan mezun olduktan sonra İktisat Yüksek Okulu'nda işletme bilişimi yüksek lisans programına girdim. Ondan sonra IBS'de çalışmak istedim. o zamanlar şanslıydım çünkü büyük miktar projelerde, ek bir stajyer alımı vardı ve birkaç görüşmeden sonra en büyüklerinden biri olan IBS'de çalışmaya başladım. Rus şirketleri bu alan. Üç yıl içinde stajyerlikten kurumsal çözümler mimarına geçtim. Şimdi finans ve telekomünikasyon sektörlerinden müşteri şirketleri için Büyük Veri teknolojilerinin uzmanlığını geliştiriyorum.

Büyük verilerle çalışmak isteyenler için iki ana uzmanlık vardır: büyük verilerle çalışmak için teknolojiler oluşturan analistler ve BT danışmanları. Ayrıca Big Data Analyst'in mesleği, yani müşterinin BT platformuyla doğrudan veri ile çalışan kişiler hakkında da konuşulabilir. Daha önce, bunlar istatistik ve matematik bilen ve istatistiksel yazılımların yardımıyla veri analizi problemlerini çözen sıradan matematiksel analistlerdi. Günümüzde istatistik ve matematik bilgisine ek olarak, teknoloji ve verilerin yaşam döngüsü hakkında da bilgi sahibi olunması gerekmektedir. Bence bu, modern Veri Analisti ile daha önce olan analistler arasındaki farktır.

Uzmanlığım BT danışmanlığı, yani müşterilere BT teknolojilerini kullanarak iş sorunlarını çözmenin yollarını sunuyorum. Danışmanlığa farklı deneyime sahip kişiler gelir, ancak bu meslek için en önemli nitelikler, müşterinin ihtiyaçlarını anlama yeteneği, kişi ve kuruluşlara yardım etme arzusu, iyi iletişim ve ekip becerileridir (çünkü her zaman müşteri ve müşteri ile çalışmaktır). bir takımda), iyi analitik beceriler. İç motivasyon çok önemlidir: Rekabetçi bir ortamda çalışıyoruz ve müşteri alışılmadık çözümler ve işe ilgi bekliyor.

Zamanımın çoğu, müşterilerle iletişim kurmak, iş ihtiyaçlarını resmileştirmek ve en uygun teknoloji mimarisini geliştirmeye yardımcı olmak için harcanıyor. Buradaki seçim kriterlerinin kendine has özellikleri vardır: işlevsellik ve TCO (Toplam sahip olma maliyeti - toplam sahip olma maliyeti), sistem için işlevsel olmayan gereksinimler çok önemlidir, çoğu zaman yanıt süresi, bilgi işleme süresidir. Müşteriyi ikna etmek için genellikle kavram kanıtı yaklaşımını kullanırız - teknolojinin çalıştığından emin olmak için teknolojiyi bazı görevlerde, dar bir veri kümesinde ücretsiz olarak "test etmeyi" teklif ederiz. Çözüm, ek faydalar elde ederek (örneğin, x-sell , çapraz satış) müşteri için bir rekabet avantajı yaratmalı veya bazı iş problemlerini çözmelidir, diyelim ki, azaltın. yüksek seviye kredi dolandırıcılığı

Müşteriler hazır bir görevle gelse çok daha kolay olurdu, ancak birkaç yıl içinde piyasayı değiştirebilecek devrim niteliğinde bir teknoloji olduğunu anlayana kadar

Hangi sorunlarla yüzleşmek zorundasın? Pazar henüz büyük veri teknolojilerini kullanmaya hazır değil. Müşteriler hazır bir görevle gelse çok daha kolay olurdu, ancak şu ana kadar birkaç yıl içinde pazarı değiştirebilecek devrim niteliğinde bir teknolojinin ortaya çıktığını anlamıyorlar. Bu yüzden aslında başlangıç ​​modunda çalışıyoruz - sadece teknoloji satmıyoruz, müşterileri bu çözümlere yatırım yapmaları gerektiğine her ikna ettiğimizde. Bu, vizyonerlerin pozisyonudur - müşterilere, veri ve BT'nin katılımıyla işlerini nasıl değiştirebileceklerini gösteriyoruz. Bu yeni pazarı yaratıyoruz - Büyük Veri alanında ticari BT danışmanlığı pazarı.

Bir kişi Büyük Veri alanında veri analizi veya BT danışmanlığı yapmak istiyorsa, önemli olan ilk şey, iyi bir matematiksel altyapıya sahip bir matematik veya teknik eğitimdir. SAS, Hadoop, R dili veya IBM çözümleri gibi belirli teknolojilerde uzmanlaşmak da yararlıdır. Ek olarak, Büyük Veri için uygulanan görevlerle aktif olarak ilgilenmeniz gerekir - örneğin, bir bankada veya yönetimde daha iyi kredi puanlaması için nasıl kullanılabilecekleri yaşam döngüsü müşteri. Bu ve diğer bilgiler mevcut kaynaklardan elde edilebilir: örneğin Coursera ve Big Data University. Ayrıca Wharton University of Pennsylvania'da birçok ilginç materyalin yayınlandığı bir Müşteri Analitiği Girişimi de bulunmaktadır.

Alanımızda çalışmak isteyenler için ciddi bir sorun, Big Data hakkında net bir bilgi eksikliğidir. Bir kitapçıya veya bir web sitesine gidemez ve örneğin, bankalardaki Büyük Veri teknolojilerinin tüm uygulamaları hakkında kapsamlı bir vaka koleksiyonu elde edemezsiniz. Böyle rehberler yok. Bilgilerin bir kısmı kitaplarda bulunur, bir kısmı konferanslarda toplanır ve bir kısmını da kendi başınıza çözmeniz gerekir.

Diğer bir sorun ise, analistlerin sayılar dünyasında rahat olmaları, ancak iş dünyasında her zaman rahat olmamalarıdır. Bu insanlar genellikle içe dönüktür, iletişim kurmakta zorluk çekerler ve bu nedenle araştırma sonuçlarını müşterilere ikna edici bir şekilde iletmeyi zor bulurlar. Bu becerileri geliştirmek için Piramit İlkesi, Diyagramların Dilini Konuş gibi kitapları tavsiye ederim. Düşüncelerinizi kısa ve net bir şekilde ifade ederek sunum becerilerinin geliştirilmesine yardımcı olurlar.

Ekonomi Yüksek Okulu'nda okurken çeşitli vaka şampiyonalarına katılmak bana çok yardımcı oldu. Vaka şampiyonaları, iş sorunlarını incelemeniz ve onlara çözümler önermeniz gereken öğrenciler için entelektüel yarışmalardır. İki şekilde gelirler: McKinsey, BCG, Accenture gibi danışmanlık firması vaka şampiyonlukları ve Changellenge gibi bağımsız vaka şampiyonlukları. Onlara katılırken görmeyi ve karar vermeyi öğrendim. zorlu görevler- sorunu tanımlamaktan ve yapılandırmaktan, çözüm önerilerini savunmaya kadar.

Oleg Mikhalsky, Rusya pazarı ve büyük veri alanında yeni bir ürün yaratmanın özellikleri hakkında

Acronis'e katılmadan önce, diğer şirketlerde pazara yeni ürünler sunmakla ilgileniyordum. Aynı anda hem ilginç hem de zor, bu yüzden hemen üzerinde çalışma fırsatıyla ilgilendim. bulut hizmetleri ve depolama çözümleri. Bu alanda, kendi başlangıç ​​projem I-hızlandırıcı da dahil olmak üzere, BT endüstrisindeki tüm önceki deneyimlerim işe yaradı. Temel mühendisliğe ek olarak işletme eğitimi (MBA) almaya da yardımcı oldu.

Rusya'da büyük şirketler - bankalar, mobil operatörler vs. - Büyük veri analizine ihtiyaç var, bu nedenle ülkemizde bu alanda çalışmak isteyenler için umutlar var. Doğru, birçok proje artık entegrasyon, yani yabancı gelişmeler veya açık kaynak teknolojileri temelinde yapılıyor. Bu tür projelerde temelde yeni yaklaşımlar ve teknolojiler oluşturulmamakta, bunun yerine mevcut gelişmeler uyarlanmaktadır. Acronis'te farklı bir yol izledik ve mevcut alternatifleri analiz ettikten sonra kendi gelişimimize yatırım yapmaya karar verdik ve sonuçta bir sistem ortaya çıktı. güvenli depolamaörneğin Amazon S3'ten daha düşük maliyetli olmayan, ancak güvenilir ve verimli ve çok daha küçük bir ölçekte çalışan büyük veriler için. Büyük İnternet şirketlerinin de büyük veri konusunda kendi gelişmeleri var, ancak dış müşterilerin ihtiyaçlarını karşılamaktan daha çok iç ihtiyaçlara odaklanıyorlar.

Büyük veri işleme alanını etkileyen eğilimleri ve ekonomik güçleri anlamak önemlidir. Bunu yapmak için çok okumanız, BT endüstrisindeki yetkili uzmanların konuşmalarını dinlemeniz, tematik konferanslara katılmanız gerekir. Artık hemen hemen her konferansın Büyük Veri hakkında bir bölümü var, ancak hepsi farklı bir açıdan konuşuyor: teknoloji, iş veya pazarlama açısından. Bu konuda halihazırda projeleri olan bir şirkette proje işine veya staja gidebilirsiniz. Yeteneklerinize güveniyorsanız, Büyük Veri alanında bir startup kurmak için geç kalmış sayılmazsınız.

Pazarla sürekli temas olmadan yeni gelişme sahiplenilmeme riski

Doğru, yeni bir üründen sorumlu olduğunuzda, müşteriler ve ihtiyaçları hakkında çok şey bilen potansiyel müşteriler, ortaklar, profesyonel analistlerle pazar analizi ve iletişim için çok zaman harcanır. Pazarla sürekli temas olmadan, yeni bir gelişme, sahiplenilmeme riskini taşır. Her zaman birçok belirsizlik vardır: ilk kullanıcıların kim olacağını (erken benimseyenler), onlar için neyin değerli olduğunu ve daha sonra kitleleri nasıl çekeceğinizi anlamalısınız. İkinci en önemli görev, geliştiricilere, bazı gereksinimlerin hala değişebileceği ve önceliklerin ilk müşterilerden gelen geri bildirimlere bağlı olduğu bu koşullarda çalışmaya motive etmek için nihai ürün hakkında net ve bütünsel bir vizyon oluşturmak ve iletmektir. Bu nedenle, önemli bir görev, bir yandan müşterilerin, diğer yandan geliştiricilerin beklentilerini yönetmektir. Böylece ikisi de ilgisini kaybetmez ve projeyi tamamlamaz. İlk başarılı projeden sonra, daha kolay hale gelir ve asıl görev, yeni iş için doğru büyüme modelini bulmak olacaktır.

Büyük veri- İngilizce. "Büyük veri". Terim, DBMS'ye bir alternatif olarak ortaya çıktı ve endüstri devlerinin çoğu - IBM, Microsoft, HP, Oracle ve diğerleri bu kavramı stratejilerinde kullanmaya başladığında ana BT altyapı trendlerinden biri haline geldi. Büyük Veri, geleneksel yöntemlerle işlenemeyen çok büyük (yüzlerce terabayt) veri dizisi olarak anlaşılır; bazen - bu verileri işlemek için araçlar ve yöntemler.

Büyük Veri kaynaklarına örnekler: RFID olayları, sosyal ağlardaki mesajlar, meteorolojik istatistikler, mobil ağların abonelerinin konumu hakkında bilgiler hücresel iletişim ve ses/video kayıt cihazlarından gelen veriler. Bu nedenle, "büyük veri", üretim, sağlık, kamu yönetimi, İnternet işinde - özellikle hedef kitlenin analizinde yaygın olarak kullanılmaktadır.

karakteristik

Büyük verinin işaretleri "üç V" olarak tanımlanır: Hacim - hacim (gerçekten büyük); çeşitlilik - heterojenlik, küme; hız - hız (çok hızlı işlem gerektirir).

Büyük veri çoğu zaman yapılandırılmamıştır ve onu işlemek için özel algoritmalara ihtiyaç vardır. Büyük veri analiz yöntemleri şunları içerir:

  • ("veri madenciliği") - standart yöntemlerle elde edilemeyen gizli yararlı bilgileri keşfetmeye yönelik bir dizi yaklaşım;
  • Kitle kaynak kullanımı (kalabalık - “kalabalık”, kaynak bulma - kaynak olarak kullanma) - önemli görevlerin, bağlayıcı bir iş sözleşmesi ve ilişkiler içinde olmayan gönüllülerin ortak çabalarıyla çözümü, BT araçlarını kullanarak faaliyetleri koordine etmek;
  • Veri Birleştirme ve Entegrasyon ("verilerin karıştırılması ve dahil edilmesi") - derin analizin bir parçası olarak birden çok kaynağı birbirine bağlamak için bir dizi yöntem;
  • Makine Öğrenimi ("makine öğrenimi"), istatistiksel analiz kullanma ve temel modellere dayalı tahminler elde etme yöntemlerini inceleyen yapay zeka araştırmasının bir alt bölümüdür;
  • örüntü tanıma (örneğin, bir kameranın veya video kameranın vizöründe yüz tanıma);
  • mekansal analiz - veri oluşturmak için topoloji, geometri ve coğrafya kullanımı;
  • veri görselleştirme - çıktı analitik bilgi sonuçları izlemek ve daha fazla izleme için bir temel oluşturmak için etkileşimli araçlar ve animasyonlar içeren çizimler ve diyagramlar şeklinde.

Bilgilerin depolanması ve analizi şurada gerçekleştirilir: çok sayıda yüksek performanslı sunucular. Anahtar teknoloji, açık kaynak kodlu Hadoop'tur.

Bilgi miktarı sadece zamanla artacağından, zorluk veriyi elde etmekte değil, maksimum fayda ile nasıl işleneceğinde yatmaktadır. Genel olarak, Büyük Veri ile çalışma süreci şunları içerir: bilgi toplama, onu yapılandırma, içgörüler ve bağlamlar oluşturma ve eylem için öneriler geliştirme. İlk aşamadan önce bile, çalışmanın amacını açıkça tanımlamak önemlidir: örneğin, ürünün hedef kitlesini belirlemek için verilerin tam olarak ne gerekli olduğu. Aksi takdirde, tam olarak nasıl kullanılabileceğini anlamadan çok fazla bilgi edinme riski vardır.