Data besar data besar. Big Data: analitik dan solusi

Anda tahu lelucon terkenal ini? Big Data seperti seks di bawah 18 tahun:

semua orang memikirkannya;
semua orang membicarakannya;
semua orang mengira teman mereka melakukannya;
hampir tidak ada yang melakukannya;
orang yang melakukannya melakukannya dengan buruk;
semua orang berpikir akan lebih baik lain kali;
tidak ada yang mengambil langkah-langkah keamanan;
siapa pun malu untuk mengakui bahwa dia tidak tahu sesuatu;
jika seseorang berhasil, itu selalu membuat banyak kebisingan.

Tapi jujur saja, dengan hype apa pun akan selalu ada rasa ingin tahu yang biasa: keributan macam apa dan apakah ada sesuatu yang sangat penting di sana? Singkatnya, ya, ada. Detailnya ada di bawah. Kami telah memilihkan untuk Anda aplikasi teknologi Big Data yang paling menakjubkan dan menarik. Riset pasar kecil tentang contoh yang jelas ini menghadapi fakta sederhana: masa depan tidak datang, tidak perlu "menunggu n tahun lagi dan keajaiban akan menjadi kenyataan." Tidak, itu sudah tiba, tetapi masih tidak terlihat oleh mata dan oleh karena itu sintering singularitas belum begitu membakar titik pasar tenaga kerja yang terkenal. Pergi.

1 Bagaimana teknologi Big Data diterapkan di tempat asalnya

Perusahaan IT besar adalah tempat lahirnya ilmu data, jadi jeroan mereka paling menarik di bidang ini. Rumah bagi paradigma Pengurangan Peta, Kampanye Google memiliki satu-satunya tujuan untuk mendidik pemrogramnya dalam teknologi pembelajaran mesin. Dan di sinilah letak keunggulan kompetitif mereka: setelah mendapatkan pengetahuan baru, karyawan akan menerapkan metode baru dalam proyek Google tempat mereka terus bekerja. Bayangkan daftar besar area di mana kampanye dapat merevolusi. Salah satu contoh: jaringan saraf digunakan.

Korporasi juga menerapkan pembelajaran mesin di semua produknya. Keunggulannya adalah adanya ekosistem yang besar, yang mencakup semua perangkat digital yang digunakan dalam kehidupan sehari-hari. Ini memungkinkan Apple mencapai tingkat yang mustahil: kampanye memiliki data pengguna sebanyak yang lain. Pada saat yang sama, kebijakan privasi sangat ketat: perusahaan selalu membual bahwa mereka tidak menggunakan data pelanggan untuk tujuan periklanan. Dengan demikian, informasi pengguna dienkripsi sehingga pengacara Apple atau bahkan FBI dengan surat perintah tidak dapat membacanya. Oleh Anda akan menemukan gambaran yang bagus pengembangan AI Apple.

2 Data Besar di 4 Roda

Mobil modern adalah akumulator informasi: ia mengumpulkan semua data tentang pengemudi, lingkungan, perangkat yang terhubung, dan tentang dirinya sendiri. Segera satu kendaraan, yang terhubung ke jaringan seperti ini, akan menghasilkan hingga 25 GB data per jam.

Telematika transportasi telah digunakan oleh pembuat mobil selama bertahun-tahun, tetapi metode pengumpulan data yang lebih canggih sedang dilobi yang memanfaatkan Big Data sepenuhnya. Artinya, teknologi sekarang dapat memperingatkan pengemudi akan kondisi jalan yang buruk dengan mengaktifkan sistem pengereman dan slip anti-lock secara otomatis.

Kekhawatiran lain, termasuk BMW, menggunakan teknologi Big Data, dikombinasikan dengan informasi yang dikumpulkan dari prototipe uji, memori kesalahan dalam mobil dan keluhan pelanggan, untuk mengidentifikasi kelemahan dalam model di awal produksi. Sekarang, alih-alih mengevaluasi data secara manual yang membutuhkan waktu berbulan-bulan, algoritme modern diterapkan. Kesalahan dan biaya pemecahan masalah berkurang, yang mempercepat alur kerja analisis informasi di BMW.

Menurut perkiraan ahli, pada tahun 2019 omset pasar mobil yang terhubung akan mencapai $ 130 miliar Ini tidak mengherankan mengingat kecepatan integrasi oleh pembuat mobil teknologi yang merupakan bagian integral dari kendaraan.

Penggunaan Big Data membantu membuat mesin lebih aman dan lebih fungsional. Misalnya, Toyota dengan menyematkan modul komunikasi informasi (DCM). Alat ini, yang digunakan untuk Big Data, memproses dan menganalisis data yang dikumpulkan oleh DCM untuk mendapatkan manfaat lebih lanjut darinya.

3 Penerapan Big Data dalam Kedokteran

Penerapan teknologi Big Data di bidang medis memungkinkan dokter mempelajari penyakit ini secara lebih menyeluruh dan memilih pengobatan yang efektif untuk kasus tertentu. Dengan menganalisis informasi, menjadi lebih mudah bagi penyedia layanan kesehatan untuk memprediksi kekambuhan dan mengambil tindakan pencegahan. Hasilnya adalah diagnosis yang lebih akurat dan perawatan yang lebih baik.

Teknik baru memungkinkan untuk melihat masalah pasien dari sudut yang berbeda, yang mengarah pada penemuan sumber masalah yang sebelumnya tidak diketahui. Misalnya, beberapa ras secara genetik lebih rentan terhadap penyakit jantung daripada kelompok etnis lainnya. Sekarang, ketika seorang pasien mengeluh tentang penyakit tertentu, dokter memperhitungkan data anggota rasnya yang mengeluhkan masalah yang sama. Mengumpulkan dan menganalisis data memungkinkan Anda untuk belajar lebih banyak tentang pasien: dari preferensi makanan dan gaya hidup hingga struktur genetik DNA dan metabolit sel, jaringan, organ. Misalnya, Center for Pediatric Genomic Medicine di Kansas City menggunakan pasien dan menganalisis mutasi pada kode genetik yang menyebabkan kanker. Pendekatan individu untuk setiap pasien, dengan mempertimbangkan DNA-nya, akan meningkatkan efektivitas pengobatan ke tingkat yang baru secara kualitatif.

Memahami bagaimana Big Data digunakan adalah perubahan pertama dan terpenting di bidang medis. Ketika seorang pasien menjalani perawatan, rumah sakit atau fasilitas kesehatan lainnya dapat memperoleh banyak informasi yang berarti tentang orang tersebut. Informasi yang dikumpulkan digunakan untuk memprediksi kekambuhan penyakit dengan tingkat akurasi tertentu. Misalnya, jika seorang pasien telah menderita stroke, dokter mempelajari informasi tentang waktu kecelakaan serebrovaskular, menganalisis periode peralihan antara preseden sebelumnya (jika ada), memberikan perhatian khusus pada situasi stres dan aktivitas fisik yang berat dalam hidup pasien. Berdasarkan data tersebut, pihak rumah sakit memberikan pasien rencana tindakan yang jelas untuk mencegah kemungkinan terjadinya stroke di kemudian hari.

Perangkat wearable juga berperan dalam membantu mengidentifikasi masalah kesehatan, bahkan jika seseorang tidak memiliki gejala penyakit tertentu yang jelas. Alih-alih menilai kondisi pasien melalui pemeriksaan yang panjang, dokter dapat menarik kesimpulan berdasarkan informasi yang dikumpulkan oleh pelacak kebugaran atau jam tangan pintar.

Salah satu contoh terbaru adalah. Sementara pasien sedang diperiksa untuk kejang baru karena melewatkan pengobatan, dokter menemukan bahwa pria itu memiliki masalah kesehatan yang jauh lebih serius. Masalah ini ternyata adalah fibrilasi atrium. Diagnosis dibuat berkat fakta bahwa staf departemen memperoleh akses ke telepon pasien, yaitu ke aplikasi yang dipasangkan dengan pelacak kebugarannya. Data dari aplikasi tersebut ternyata menjadi faktor kunci dalam menentukan diagnosis, karena pada saat pemeriksaan, pria tersebut tidak memiliki kelainan jantung.

Ini hanyalah salah satu dari sedikit kasus yang menunjukkan mengapa menggunakan Big Data di bidang medis saat ini memainkan peran yang begitu signifikan.

4 Analisis data telah menjadi tulang punggung ritel

Memahami kueri dan penargetan pengguna adalah salah satu area penggunaan alat Big Data terbesar dan paling banyak dipublikasikan. Big Data membantu menganalisis kebiasaan pelanggan agar lebih memahami kebutuhan konsumen di masa mendatang. Perusahaan mencari untuk memperluas kumpulan data tradisional dengan media sosial dan riwayat pencarian browser untuk menciptakan gambaran pelanggan yang paling lengkap. Terkadang organisasi besar memilih untuk membuat model prediksi mereka sendiri sebagai tujuan global.

Misalnya, toko rantai Target dengan bantuan analisis data mendalam dan sistem perkiraan mereka sendiri berhasil menentukan dengan akurasi tinggi -. Setiap klien diberikan ID, yang pada gilirannya terkait dengan kartu kredit, nama atau email. Pengidentifikasi berfungsi sebagai semacam keranjang belanja, tempat informasi disimpan tentang segala sesuatu yang pernah dibeli seseorang. Spesialis jaringan telah menemukan bahwa wanita dalam posisi aktif membeli produk tanpa rasa sebelum trimester kedua kehamilan, dan selama 20 minggu pertama mereka bersandar pada suplemen kalsium, seng dan magnesium. Berdasarkan data yang diterima, Target mengirimkan kupon produk bayi kepada pelanggan. Diskon yang sama untuk barang-barang untuk anak-anak "diencerkan" dengan kupon untuk produk lain, sehingga tawaran untuk membeli tempat tidur bayi atau popok tidak terlihat terlalu mengganggu.

Bahkan departemen pemerintah telah menemukan cara untuk menggunakan teknologi Big Data untuk mengoptimalkan kampanye pemilu. Beberapa percaya bahwa kemenangan Barack Obama dalam pemilihan presiden AS 2012 adalah karena kerja luar biasa dari tim analisnya, yang memproses sejumlah besar data dengan cara yang benar.

5 Data besar untuk menjaga hukum dan ketertiban

Selama beberapa tahun terakhir, lembaga penegak hukum telah menemukan bagaimana dan kapan menggunakan Big Data. Sudah menjadi rahasia umum bahwa Badan Keamanan Nasional menggunakan teknologi Big Data untuk mencegah serangan teroris. Badan-badan lain menggunakan metodologi progresif untuk mencegah kejahatan yang lebih kecil.

Departemen Kepolisian Los Angeles sedang melamar. Dia terlibat dalam apa yang biasa disebut sebagai penegakan hukum proaktif. Menggunakan laporan kejahatan untuk periode tertentu waktu, algoritme mengidentifikasi area di mana kemungkinan melakukan pelanggaran paling besar. Sistem menandai area seperti itu di peta kota dengan kotak merah kecil dan data ini segera dikirimkan ke mobil patroli.

polisi chicago menggunakan teknologi Big Data dengan cara yang sedikit berbeda. Penegakan hukum City of Winds memiliki hal yang sama, tetapi bertujuan untuk menggambarkan "lingkaran risiko" orang-orang yang mungkin menjadi korban atau peserta dalam serangan bersenjata. Menurut The New York Times, algoritma ini memberikan peringkat kerentanan kepada seseorang berdasarkan sejarah kriminalnya (penangkapan dan partisipasi dalam penembakan, milik geng kriminal). Pengembang sistem memastikan bahwa sementara sistem mempelajari sejarah kriminal individu, tidak memperhitungkan faktor sekunder seperti ras, jenis kelamin, etnis dan lokasi seseorang.

6 Bagaimana teknologi Big Data membantu kota berkembang

CEO Veniam João Barros mendemonstrasikan peta pelacakan router Wi-Fi di bus Porto

Analisis data juga digunakan untuk meningkatkan sejumlah aspek fungsi kota dan negara. Misalnya, mengetahui dengan tepat bagaimana dan kapan menggunakan teknologi Big Data, Anda dapat mengoptimalkan aliran transportasi. Untuk ini, pergerakan kendaraan online diperhitungkan, media sosial dan data meteorologi dianalisis. Saat ini, sejumlah kota telah memulai penggunaan analisis data untuk mengintegrasikan infrastruktur transportasi dengan jenis lain keperluan menjadi satu kesatuan. Ini adalah konsep kota pintar di mana bus menunggu kereta terlambat dan lampu lalu lintas mampu memprediksi kemacetan lalu lintas untuk meminimalkan kemacetan.

Long Beach menggunakan teknologi Big Data untuk mengoperasikan meter air pintar yang digunakan untuk mengekang irigasi ilegal. Sebelumnya, mereka digunakan untuk mengurangi konsumsi air oleh rumah tangga pribadi (hasil maksimum adalah pengurangan 80%). Menghemat air bersih selalu menjadi isu topikal. Apalagi ketika sebuah negara sedang mengalami kekeringan terparah yang pernah tercatat.

Perwakilan dari Departemen Transportasi Los Angeles telah bergabung dalam daftar mereka yang menggunakan Big Data. Berdasarkan data yang diterima dari sensor kamera lalu lintas, pihak berwenang memantau pengoperasian lampu lalu lintas, yang pada gilirannya memungkinkan pengaturan lalu lintas. Di bawah kendali sistem komputerisasi, ada sekitar 4.500.000 lampu lalu lintas di seluruh kota. Menurut angka resmi, algoritma baru membantu mengurangi kemacetan sebesar 16%.

7 Mesin kemajuan dalam pemasaran dan penjualan

Dalam pemasaran, alat Big Data memungkinkan Anda mengidentifikasi ide mana yang paling efektif pada tahap tertentu dari siklus penjualan. Analisis data mengidentifikasi bagaimana investasi dapat meningkatkan manajemen hubungan pelanggan, strategi apa yang harus dipilih untuk meningkatkan tingkat konversi, dan cara mengoptimalkan siklus hidup pelanggan. Dalam bisnis cloud, algoritma Big Data digunakan untuk mencari cara meminimalkan biaya akuisisi pelanggan dan meningkatkan siklus hidup pelanggan.

Diferensiasi strategi penetapan harga tergantung pada tingkat intra-sistem klien mungkin merupakan hal utama yang digunakan Big Data di bidang pemasaran. McKinsey menemukan bahwa sekitar 75% dari pendapatan rata-rata perusahaan berasal dari produk dasar, 30% di antaranya diberi harga yang salah. Kenaikan harga sebesar 1% berarti peningkatan laba operasi sebesar 8,7%.

Tim peneliti Forrester menentukan bahwa analisis data memungkinkan pemasar untuk fokus pada cara meningkatkan hubungan pelanggan. Dengan memeriksa arah pengembangan pelanggan, spesialis dapat menilai tingkat loyalitas mereka, serta memperpanjang siklus hidup dalam konteks perusahaan tertentu.

Mengoptimalkan strategi penjualan dan langkah memasuki pasar baru menggunakan geo-analitik tercermin dalam industri biofarmasi. Menurut McKinsey, perusahaan obat menghabiskan rata-rata 20 hingga 30% dari keuntungan mereka untuk administrasi dan penjualan. Jika bisnis mulai lebih aktif gunakan data besar untuk mengidentifikasi pasar yang paling menguntungkan dan paling cepat berkembang, biaya akan segera dipotong.

Analisis data adalah sarana bagi perusahaan untuk mendapatkan pemahaman yang lengkap tentang aspek-aspek kunci dari bisnis mereka. Meningkatkan pendapatan, menurunkan biaya, dan mengurangi modal kerja adalah tiga tantangan yang coba dipecahkan oleh bisnis modern dengan alat analisis.

Terakhir, 58% CMO mengklaim bahwa penerapan teknologi Big Data dapat dilacak di Optimisasi Mesin Pencari(SEO), email dan pemasaran seluler, di mana analisis data memainkan peran paling signifikan dalam membentuk program pemasaran. Dan hanya 4% lebih sedikit responden yang yakin bahwa Big Data akan memainkan peran penting dalam semua strategi pemasaran selama bertahun-tahun.

8 Menganalisis data pada skala planet

Tidak kalah penasarannya adalah. Ada kemungkinan bahwa pembelajaran mesin pada akhirnya akan menjadi satu-satunya kekuatan yang mampu menjaga keseimbangan yang rapuh. Topik pengaruh manusia terhadap pemanasan global masih menjadi kontroversi, sehingga hanya model prediksi yang dapat diandalkan berdasarkan analisis sejumlah besar data yang dapat memberikan jawaban yang akurat. Pada akhirnya, mengurangi emisi juga akan membantu kita semua: kita akan menghabiskan lebih sedikit energi.

Sekarang Big Data bukanlah konsep abstrak yang mungkin menemukan penerapannya dalam beberapa tahun. Ini adalah seperangkat teknologi yang berfungsi sempurna yang dapat berguna di hampir semua bidang aktivitas manusia: mulai dari kedokteran dan kepolisian hingga pemasaran dan penjualan. Tahap integrasi aktif Big Data ke dalam kehidupan kita sehari-hari baru saja dimulai, dan siapa yang tahu apa peran Big Data dalam beberapa tahun ke depan?

Data besar adalah istilah luas untuk strategi dan teknologi tidak konvensional yang diperlukan untuk mengumpulkan, mengatur, dan memproses informasi dari kumpulan data besar. Sementara masalah berurusan dengan data yang melebihi daya pemrosesan atau kapasitas penyimpanan dari satu komputer bukanlah hal baru, skala dan nilai dari jenis komputasi ini telah berkembang secara signifikan dalam beberapa tahun terakhir.

Dalam artikel ini, Anda akan menemukan konsep dasar yang mungkin Anda temui saat menjelajahi data besar. Ini juga membahas beberapa proses dan teknologi yang saat ini digunakan di area ini.

Apa itu BigData?

Definisi yang tepat dari Big Data sulit untuk diartikulasikan karena proyek, vendor, praktisi, dan profesional bisnis menggunakannya dengan cara yang sangat berbeda. Dengan pemikiran ini, data besar dapat didefinisikan sebagai:

Kumpulan data besar.
Kategori strategi dan teknologi komputasi yang digunakan untuk memproses kumpulan data besar.

Dalam konteks ini, "set data besar" berarti kumpulan data yang terlalu besar untuk diproses atau disimpan menggunakan alat tradisional atau pada satu komputer. Ini berarti bahwa skala keseluruhan dari kumpulan data besar terus berubah dan dapat bervariasi secara signifikan dari kasus ke kasus.

Sistem data besar

Persyaratan dasar untuk bekerja dengan data besar sama dengan kumpulan data lainnya. Namun, skala besar, kecepatan pemrosesan, dan karakteristik data yang dihadapi pada setiap tahap proses menghadirkan tantangan baru yang besar dalam desain alat. Tujuan dari sebagian besar sistem data besar adalah untuk memahami dan berhubungan dengan sejumlah besar data heterogen, yang tidak mungkin dilakukan dengan metode konvensional.

Pada tahun 2001, Doug Laney dari Gartner memperkenalkan "Tiga Vs Data Besar" untuk menjelaskan beberapa karakteristik yang membedakan pemrosesan Big Data dari jenis pemrosesan data lainnya:

Volume (volume data).
Velocity (kecepatan pengumpulan dan pemrosesan data).
Ragam (berbagai jenis data yang diolah).

volume data

Skala informasi yang diproses membantu menentukan sistem data besar. Kumpulan data ini bisa lebih besar dari kumpulan data tradisional, yang membutuhkan lebih banyak perhatian di setiap tahap pemrosesan dan penyimpanan.

Karena persyaratan melebihi kemampuan satu komputer, seringkali sulit untuk menggabungkan, mengalokasikan, dan mengoordinasikan sumber daya dari kelompok komputer. Kontrol cluster dan algoritme yang mampu memecah tugas menjadi bagian-bagian yang lebih kecil menjadi semakin penting di area ini.

Akumulasi dan kecepatan pemrosesan

Karakteristik kedua yang secara signifikan membedakan data besar dari sistem data lain adalah kecepatan di mana informasi bergerak melalui sistem. Data sering kali masuk ke sistem dari berbagai sumber dan harus diproses secara real time untuk memperbarui status sistem saat ini.

Ini fokus pada instan masukan telah memaksa banyak praktisi untuk meninggalkan pendekatan berorientasi batch dan memilih sistem streaming real-time. Data terus ditambahkan, diproses, dan dianalisis untuk mengimbangi masuknya informasi baru dan mendapatkan data berharga pada tahap awal, saat paling relevan. Ini membutuhkan sistem yang andal dengan komponen yang sangat tersedia untuk melindungi dari kegagalan di sepanjang jalur pipa data.

Berbagai jenis data yang diproses

Ada banyak tantangan unik dalam big data terkait dengan luasnya cakupan sumber yang diproses dan kualitas relatifnya.

Data dapat berasal dari sistem internal seperti log aplikasi dan server, dari saluran media sosial dan API eksternal lainnya, dari sensor perangkat fisik dan dari sumber lain. Tujuan dari sistem data besar adalah untuk memproses data yang berpotensi berguna, terlepas dari asalnya, dengan menggabungkan semua informasi ke dalam satu sistem.

Format dan jenis media juga dapat sangat bervariasi. Media (gambar, video, dan audio) digabungkan dengan file teks, log terstruktur, dan sebagainya Sistem pemrosesan data yang lebih tradisional mengharapkan data masuk ke jalur pipa yang sudah diberi tag, diformat, dan diatur, tetapi sistem data besar biasanya menerima dan menyimpan data dengan mencoba mempertahankan keadaan aslinya. Idealnya, setiap transformasi atau perubahan pada data mentah akan terjadi di memori selama pemrosesan.

Karakteristik lain

Seiring waktu, para ahli dan organisasi telah mengusulkan untuk memperluas Tiga V asli, meskipun inovasi ini cenderung menggambarkan masalah daripada karakteristik data besar.

Kebenaran: Keragaman sumber dan kompleksitas pemrosesan dapat menyebabkan masalah dalam menilai kualitas data (dan oleh karena itu kualitas analisis yang dihasilkan).
Variabilitas: Mengubah data menghasilkan perubahan besar dalam kualitas. Mengidentifikasi, memproses, atau memfilter data berkualitas rendah mungkin memerlukan sumber daya tambahan yang dapat meningkatkan kualitas data.
Nilai: Tujuan akhir dari big data adalah nilai. Terkadang sistem dan proses sangat kompleks, sehingga sulit untuk menggunakan data dan mengekstrak nilai sebenarnya.

Siklus hidup data besar

Jadi bagaimana sebenarnya big data diproses? Ada beberapa pendekatan berbeda untuk implementasi, tetapi ada kesamaan dalam strategi dan perangkat lunak.

Memasukkan data ke dalam sistem
Menyimpan data ke penyimpanan
Perhitungan dan analisis data
Visualisasi hasil

Sebelum kita menyelam jauh ke dalam empat kategori alur kerja ini, mari kita bicara tentang komputasi cluster, strategi penting yang digunakan oleh banyak alat data besar. Menyiapkan cluster komputasi adalah tulang punggung teknologi yang digunakan pada setiap tahap siklus hidup.

Komputasi klaster

Karena kualitas data besar komputer terpisah tidak cocok untuk pengolahan data. Cluster lebih cocok untuk ini, karena mereka dapat mengatasi kebutuhan penyimpanan dan komputasi data besar.

Perangkat lunak pengelompokan data besar mengumpulkan sumber daya dari banyak mesin kecil, yang bertujuan untuk memberikan sejumlah manfaat:

Pengumpulan sumber daya: Memproses kumpulan data besar membutuhkan sumber daya prosesor dan memori dalam jumlah besar, serta banyak ruang penyimpanan yang tersedia.
Ketersediaan tinggi: Cluster dapat menyediakan berbagai tingkat toleransi kesalahan dan ketersediaan sehingga kegagalan perangkat keras atau perangkat lunak tidak memengaruhi akses dan pemrosesan data. Ini sangat penting untuk analitik waktu nyata.
Skalabilitas: Cluster mendukung penskalaan cepat (menambahkan mesin baru ke cluster).

Bekerja dalam klaster memerlukan alat untuk mengelola keanggotaan klaster, mengoordinasikan alokasi sumber daya, dan menjadwalkan pekerjaan dengan masing-masing node. Keanggotaan cluster dan alokasi sumber daya dapat ditangani menggunakan program seperti Hadoop YARN (Yet Another Resource Negotiator) atau Apache Mesos.

Sebuah cluster komputasi prefabrikasi sering bertindak sebagai dasar yang lain berinteraksi untuk memproses data. perangkat lunak... Mesin yang berpartisipasi dalam cluster komputasi juga biasanya terkait dengan pengelolaan sistem penyimpanan terdistribusi.

Mengambil data

Penerimaan data adalah proses penambahan data mentah ke dalam sistem. Kompleksitas operasi ini sangat tergantung pada format dan kualitas sumber data dan seberapa baik data memenuhi persyaratan untuk diproses.

Anda dapat menambahkan data besar ke sistem menggunakan alat khusus. Teknologi seperti Apache Sqoop dapat mengambil data yang ada dari database relasional dan menambahkannya ke sistem data besar. Anda juga dapat menggunakan Apache Flume dan Apache Chukwa - proyek yang dirancang untuk menggabungkan dan mengimpor log aplikasi dan server. Pialang pesan seperti Apache Kafka dapat digunakan sebagai antarmuka antara berbagai generator data dan sistem data besar. Kerangka kerja seperti Gobblin dapat menggabungkan dan mengoptimalkan output dari semua alat di akhir jalur pipa.

Analisis, penyortiran, dan pelabelan biasanya dilakukan selama pengumpulan data. Proses ini kadang-kadang disebut ETL (extract, transform, load), yang berarti mengekstrak, mengubah, dan memuat. Meskipun istilah ini biasanya mengacu pada proses penyimpanan lama, istilah ini terkadang juga diterapkan pada sistem data besar. Operasi umum termasuk memodifikasi data yang masuk untuk memformat, mengkategorikan dan memberi label, memfilter atau memvalidasi data untuk kepatuhan.

Idealnya, data yang masuk melewati pemformatan minimal.

Penyimpanan data

Setelah diterima, data diteruskan ke komponen yang mengelola penyimpanan.

Biasanya sistem file terdistribusi digunakan untuk menyimpan data mentah. Solusi seperti HDFS dari Apache Hadoop memungkinkan sejumlah besar data ditulis di beberapa node dalam sebuah cluster. Sistem ini menyediakan sumber daya komputasi dengan akses ke data, dapat memuat data ke dalam cluster RAM untuk operasi memori, dan menangani kegagalan komponen. Sistem file terdistribusi lainnya dapat digunakan sebagai pengganti HDFS, termasuk Ceph dan GlusterFS.

Data juga dapat diimpor ke sistem terdistribusi lain untuk akses yang lebih terstruktur. Database terdistribusi, terutama database NoSQL, sangat cocok untuk peran ini karena dapat menangani data yang heterogen. Ada banyak tipe database terdistribusi, tergantung pada bagaimana Anda ingin mengatur dan menyajikan data Anda.

Perhitungan dan analisis data

Setelah data tersedia, sistem dapat mulai memproses. Lapisan komputasi mungkin merupakan bagian paling bebas dari sistem, karena persyaratan dan pendekatan di sini dapat berbeda secara signifikan tergantung pada jenis informasinya. Data sering diproses ulang, baik dengan satu alat, atau dengan berbagai alat untuk memproses berbagai jenis data.

Pemrosesan batch adalah salah satu metode untuk menghitung kumpulan data yang besar. Proses ini termasuk memecah data menjadi bagian-bagian yang lebih kecil, menjadwalkan pemrosesan setiap bagian pada mesin yang terpisah, menyusun ulang data berdasarkan hasil antara dan kemudian menghitung dan mengumpulkan hasil akhir. Strategi ini digunakan oleh MapReduce dari Apache Hadoop. Pemrosesan batch paling berguna saat bekerja dengan kumpulan data yang sangat besar yang membutuhkan banyak komputasi.

Beban kerja lainnya memerlukan pemrosesan waktu nyata. Dalam hal ini, informasi harus segera diproses dan disiapkan, dan sistem harus merespons secara tepat waktu saat informasi baru tersedia. Salah satu cara untuk mengimplementasikan pemrosesan waktu nyata adalah dengan memproses aliran data yang berkelanjutan yang terdiri dari: elemen individu... Karakteristik umum lainnya dari prosesor real-time adalah komputasi data dalam memori cluster, yang menghindari kebutuhan untuk menulis ke disk.

Penawaran Apache Storm, Apache Flink, dan Apache Spark cara yang berbeda implementasi pemrosesan waktu nyata. Teknologi fleksibel ini memungkinkan Anda memilih pendekatan terbaik untuk masing-masing masalah terpisah... Secara umum, pemrosesan waktu nyata paling cocok untuk menganalisis potongan kecil data yang berubah atau ditambahkan dengan cepat ke sistem.

Semua program ini adalah kerangka kerja. Namun, ada banyak cara lain untuk menghitung atau menganalisis data dalam sistem data besar. Alat-alat ini sering dihubungkan ke kerangka kerja di atas dan menyediakan antarmuka tambahan untuk berinteraksi dengan lapisan yang mendasarinya. Misalnya, Apache Hive menyediakan antarmuka penyimpanan data untuk Hadoop, Apache Pig menyediakan antarmuka kueri, dan interaksi dengan data SQL disediakan dengan Apache Drill, Apache Impala, Apache Spark SQL, dan Presto. Pembelajaran mesin menggunakan Apache SystemML, Apache Mahout, dan MLlib dari Apache Spark. Untuk pemrograman analitik langsung, yang didukung secara luas oleh ekosistem data, digunakan R dan Python.

Visualisasi hasil

Mengenali tren atau perubahan data dari waktu ke waktu seringkali lebih penting daripada nilai yang diperoleh. Visualisasi data adalah salah satu cara paling berguna untuk mengidentifikasi tren dan mengatur sejumlah besar titik data.

Pemrosesan waktu nyata digunakan untuk memvisualisasikan metrik aplikasi dan server. Data sering berubah, dan lonjakan besar dalam metrik biasanya menunjukkan dampak signifikan pada kesehatan sistem atau organisasi. Proyek seperti Prometheus dapat digunakan untuk memproses dan memvisualisasikan aliran data dan deret waktu.

Salah satu cara populer untuk memvisualisasikan data adalah tumpukan Elastis, sebelumnya dikenal sebagai tumpukan ELK. Logstash digunakan untuk mengumpulkan data, Elasticsearch untuk mengindeks data, dan Kibana untuk visualisasi. Tumpukan elastis dapat bekerja dengan data besar, memvisualisasikan hasil perhitungan, atau berinteraksi dengan metrik mentah. Tumpukan serupa dapat dicapai dengan menggabungkan Apache Solr untuk pengindeksan dengan garpu Kibana yang disebut Banana untuk rendering. Tumpukan ini disebut Silk.

Teknologi visualisasi lain untuk pekerjaan data interaktif adalah dokumen. Proyek semacam itu memungkinkan eksplorasi interaktif dan visualisasi data dalam format yang mudah dibagikan dan disajikan data. Contoh populer dari jenis antarmuka ini adalah Jupyter Notebook dan Apache Zeppelin.

Daftar Istilah Big Data

Data besar adalah istilah luas untuk kumpulan data yang tidak dapat diproses dengan benar komputer konvensional atau instrumen karena volumenya, tingkat masuknya, dan variasinya. Istilah ini juga biasa diterapkan pada teknologi dan strategi untuk bekerja dengan data tersebut.
Pemrosesan batch adalah strategi komputasi yang melibatkan pemrosesan data melalui kumpulan data yang besar. Biasanya metode ini ideal untuk menangani data yang tidak mendesak.
Komputasi berkerumun adalah praktik menyatukan sumber daya dari banyak mesin dan mengelolanya kemampuan bersama untuk menyelesaikan tugas. Ini membutuhkan lapisan manajemen cluster yang menangani komunikasi antara node individu.
Data lake adalah gudang besar data yang dikumpulkan dalam keadaan yang relatif mentah. Istilah ini sering digunakan untuk merujuk pada data besar yang tidak terstruktur dan sering berubah.
Data mining adalah istilah luas untuk berbagai praktik menemukan pola dalam kumpulan data besar. Ini adalah upaya untuk mengatur massa data menjadi kumpulan informasi yang lebih dapat dipahami dan koheren.
Gudang data adalah penyimpanan besar yang dipesan untuk analisis dan pelaporan. Tidak seperti data lake, gudang terdiri dari data yang diformat dan tertata dengan baik yang terintegrasi dengan sumber lain. Gudang data sering disebut dalam kaitannya dengan data besar, tetapi mereka sering menjadi komponen sistem pemrosesan data konvensional.
ETL (extract, transform, and load) - ekstraksi, transformasi, dan pemuatan data. Seperti inilah proses memperoleh dan menyiapkan data mentah untuk digunakan. Ini terkait dengan gudang data, tetapi karakteristik proses ini juga ditemukan di saluran pipa sistem data besar.
Hadoop adalah proyek Apache open source untuk data besar. Ini terdiri dari sistem file terdistribusi yang disebut HDFS dan cluster dan penjadwal sumber daya yang disebut YARN. Kemampuan pemrosesan batch disediakan oleh mesin komputasi MapReduce. Sistem komputasi dan analitik lainnya dapat berjalan dengan MapReduce dalam penerapan Hadoop modern.
Komputasi dalam memori adalah strategi yang melibatkan pemindahan semua kumpulan data yang berfungsi ke dalam memori cluster. Perhitungan menengah tidak ditulis ke disk, melainkan disimpan dalam memori. Ini memberi sistem keuntungan kecepatan yang sangat besar dibandingkan sistem terkait I / O.
Pembelajaran mesin adalah penelitian dan praktik merancang sistem yang dapat dipelajari, diubah, dan ditingkatkan berdasarkan data yang diteruskan ke sana. Ini biasanya berarti penerapan algoritma prediksi dan statistik.
Pengurangan peta (jangan dikelirukan dengan MapReduce Hadoop) adalah algoritme untuk menjadwalkan cluster komputasi. Prosesnya termasuk membagi tugas antara node dan memperoleh hasil antara, mengacak dan kemudian mengeluarkan satu nilai untuk setiap set.
NoSQL adalah istilah luas untuk database yang dikembangkan di luar model relasional tradisional. Basis data NoSQL sangat cocok untuk data besar karena fleksibilitas dan arsitektur terdistribusinya.
Streaming adalah praktik menghitung potongan data individual saat mereka bergerak melalui sistem. Ini memungkinkan analisis data waktu nyata dan cocok untuk menangani transaksi mendesak menggunakan metrik berkecepatan tinggi.

Tag:,

Diperkirakan bahwa total volume global dari data yang dibuat dan direplikasi pada tahun 2011 bisa menjadi sekitar 1,8 zettabytes (1,8 triliun gigabytes) - sekitar 9 kali lebih banyak dari yang dibuat pada tahun 2006.

Definisi yang lebih kompleks

Namun, ` data besar`melibatkan lebih dari sekadar menganalisis sejumlah besar informasi. Masalahnya bukanlah organisasi membuat data dalam jumlah besar, tetapi sebagian besar disajikan dalam format yang tidak sesuai dengan format database terstruktur tradisional - ini adalah log web, rekaman video, dokumen teks, kode mesin, atau data geospasial misalnya. Semua ini disimpan di banyak repositori yang berbeda, kadang-kadang bahkan di luar organisasi. Akibatnya, perusahaan dapat memiliki akses ke sejumlah besar data mereka dan tidak memiliki alat yang diperlukan untuk membangun hubungan antara data ini dan menarik kesimpulan yang berarti dari mereka. Tambahkan ke fakta bahwa data sekarang semakin sering diperbarui, dan Anda memiliki situasi di mana metode tradisional analisis informasi tidak dapat mengikuti volume besar data yang terus diperbarui, yang pada akhirnya membuka jalan bagi teknologi data besar.

Definisi terbaik

Pada intinya konsep data besar berarti bekerja dengan informasi dengan volume besar dan komposisi yang beragam, sangat sering diperbarui dan ditempatkan di berbagai sumber untuk meningkatkan efisiensi kerja, menciptakan produk baru, dan meningkatkan daya saing. Perusahaan konsultan Forrester merangkum: ` Data besar menggabungkan teknik dan teknologi yang membuat data masuk akal pada batas kegunaan yang ekstrem. '

Seberapa besar perbedaan antara intelijen bisnis dan data besar?

Craig Batey, Chief Marketing Officer dan Chief Technology Officer, Fujitsu Australia, menunjukkan bahwa analisis bisnis adalah proses deskriptif menganalisis hasil yang dicapai oleh bisnis selama periode waktu tertentu, sementara kecepatan pemrosesan data besar memungkinkan Anda untuk membuat analisis prediktif, mampu menawarkan rekomendasi bisnis untuk masa depan. Data besar juga memungkinkan Anda menganalisis lebih banyak jenis data daripada alat intelijen bisnis, memungkinkan Anda untuk fokus pada lebih dari sekadar penyimpanan terstruktur.

Matt Slocum dari O "Reilly Radar percaya bahwa meskipun data besar dan intelijen bisnis memiliki tujuan yang sama (menemukan jawaban atas sebuah pertanyaan), mereka berbeda satu sama lain dalam tiga aspek.

Data besar dirancang untuk menangani lebih banyak informasi daripada intelijen bisnis, dan ini, tentu saja, sejalan dengan definisi tradisional tentang data besar.
Big data dirancang untuk memproses informasi yang diterima dan diubah lebih cepat, yang berarti eksplorasi dan interaktivitas yang mendalam. Dalam beberapa kasus, hasil yang dihasilkan lebih cepat daripada halaman web dimuat.
Data besar dirancang untuk menangani data tidak terstruktur, cara yang baru mulai kami jelajahi setelah kami dapat mengumpulkan dan menyimpannya, dan kami membutuhkan algoritme dan kemampuan untuk berdialog untuk memfasilitasi pencarian tren yang terkandung dalam susunan ini.

Menurut buku putih Oracle Information Architecture: An Architect's Guide to Big Data yang diterbitkan oleh Oracle, kami mendekati informasi secara berbeda saat bekerja dengan data besar daripada saat melakukan analisis bisnis.

Bekerja dengan data besar tidak seperti proses intelijen bisnis biasa, di mana penambahan sederhana dari nilai-nilai yang diketahui menghasilkan hasil: misalnya, jumlah data pada faktur yang dibayar menjadi penjualan tahunan. Saat bekerja dengan data besar, hasil diperoleh dalam proses pembersihannya melalui pemodelan sekuensial: pertama, hipotesis diajukan, model statistik, visual atau semantik dibangun, atas dasar kebenaran yang dimasukkan hipotesis maju diperiksa, dan kemudian yang berikutnya diajukan. Proses ini mengharuskan peneliti untuk menginterpretasikan nilai visual atau menyusun kueri interaktif berdasarkan pengetahuan, atau mengembangkan algoritme pembelajaran mesin adaptif yang mampu memperoleh hasil yang diinginkan. Selain itu, masa pakai algoritma semacam itu bisa sangat singkat.

Teknik analisis data besar

Ada banyak metode berbeda untuk menganalisis kumpulan data, yang didasarkan pada alat yang dipinjam dari statistik dan ilmu komputer (misalnya, pembelajaran mesin). Daftar ini tidak mengklaim lengkap, tetapi mencerminkan pendekatan paling populer di berbagai industri. Pada saat yang sama, harus dipahami bahwa para peneliti terus bekerja untuk menciptakan metode baru dan meningkatkan yang sudah ada. Selain itu, beberapa teknik yang tercantum di atas tidak selalu berlaku secara eksklusif untuk data besar dan dapat berhasil digunakan untuk array yang lebih kecil (misalnya, pengujian A / B, analisis regresi). Tentu saja, semakin banyak dan beragam array dianalisis, semakin akurat dan relevan data yang dapat diperoleh pada output.

Pengujian A/B... Sebuah teknik di mana sampel kontrol dibandingkan satu per satu dengan yang lain. Dengan demikian, adalah mungkin untuk mengidentifikasi kombinasi indikator yang optimal untuk mencapai, misalnya, tanggapan konsumen terbaik terhadap proposal pemasaran. Data besar memungkinkan Anda untuk melakukan sejumlah besar iterasi dan dengan demikian memperoleh hasil yang andal secara statistik.

Pembelajaran aturan asosiasi... Seperangkat teknik untuk mengidentifikasi hubungan, mis. aturan asosiasi, antara variabel dalam kumpulan data yang besar. Digunakan dalam penambangan data.

Klasifikasi... Seperangkat teknik yang memungkinkan Anda untuk memprediksi perilaku konsumen di segmen pasar tertentu (membuat keputusan tentang pembelian, arus keluar, konsumsi, dll.). Digunakan dalam penambangan data.

Analisis klaster... Metode statistik untuk mengklasifikasikan objek ke dalam kelompok dengan mengidentifikasi fitur umum yang sebelumnya tidak diketahui. Digunakan dalam penambangan data.

Crowdsourcing... Metodologi untuk mengumpulkan data dari sejumlah besar sumber.

Fusi data dan integrasi data... Serangkaian teknik yang memungkinkan Anda menganalisis komentar dari pengguna jejaring sosial dan membandingkannya dengan hasil penjualan secara real time.

Penambangan data... Serangkaian metode yang memungkinkan Anda menentukan kategori konsumen yang paling reseptif untuk produk atau layanan yang dipromosikan, untuk mengidentifikasi karakteristik karyawan yang paling sukses, dan untuk memprediksi model perilaku konsumen.

Belajar ansambel... Metode ini menggunakan berbagai model prediksi, sehingga meningkatkan kualitas prediksi.

Algoritme genetika... Dalam teknik ini, solusi yang mungkin disajikan dalam bentuk 'kromosom', yang dapat bergabung dan bermutasi. Seperti dalam proses evolusi alam, yang terkuat bertahan.

Pembelajaran mesin... Arah dalam informatika (secara historis nama `kecerdasan buatan` terjebak di belakangnya), yang bertujuan untuk membuat algoritma belajar mandiri berdasarkan analisis data empiris.

Pemrosesan bahasa alami (NLP). Seperangkat teknik untuk mengenali bahasa alami seseorang yang dipinjam dari ilmu komputer dan linguistik.

Analisis jaringan... Satu set metode untuk menganalisis koneksi antara node dalam jaringan. Diterapkan ke jejaring sosial, ini memungkinkan Anda untuk menganalisis hubungan antara pengguna individu, perusahaan, komunitas, dll.

Optimasi... Serangkaian metode numerik untuk mendesain ulang sistem dan proses yang kompleks untuk meningkatkan satu atau lebih metrik. Membantu dalam pengambilan keputusan strategis, misalnya komposisi lini produk yang diperkenalkan ke pasar, melakukan analisis investasi, dll.

Pengenalan pola... Seperangkat teknik dengan elemen belajar mandiri untuk memprediksi pola perilaku konsumen.

Pemodelan prediktif... Satu set teknik yang memungkinkan Anda untuk membuat model matematika skenario kemungkinan yang telah ditentukan sebelumnya dari perkembangan peristiwa. Misalnya, menganalisis database sistem CRM untuk kemungkinan kondisi yang akan mendorong pelanggan untuk mengubah penyedia mereka.

Regresi... Satu set metode statistik untuk mengidentifikasi pola antara perubahan variabel dependen dan satu atau lebih variabel independen. Hal ini sering digunakan untuk peramalan dan prediksi. Digunakan dalam penambangan data.

Analisis sentimen... Metode untuk menilai sentimen konsumen didasarkan pada teknologi untuk mengenali bahasa alami seseorang. Mereka memungkinkan Anda untuk mengisolasi dari pesan arus informasi umum yang terkait dengan subjek yang diminati (misalnya, produk konsumen). Selanjutnya, menilai polaritas penilaian (positif atau negatif), tingkat emosionalitas, dan sebagainya.

Pemrosesan sinyal... Seperangkat teknik yang dipinjam dari teknik radio, yang mengejar tujuan mengenali sinyal dengan latar belakang kebisingan dan analisis lebih lanjut.

Analisis spasial... Seperangkat metode untuk menganalisis data spasial, sebagian dipinjam dari statistik - topologi medan, koordinat geografis, geometri benda. Sumber data besar dalam hal ini, sistem informasi geografis (SIG) sering digunakan.

Revolution Analytics (berdasarkan bahasa R untuk statistik matematika).

Yang menarik dalam daftar ini adalah Apache Hadoop, perangkat lunak sumber terbuka yang telah dicoba dan diuji sebagai penganalisis data oleh sebagian besar pelacak saham selama lima tahun terakhir. Segera setelah Yahoo membuka kode Hadoop untuk komunitas open source, lini produk Hadoop yang sama sekali baru segera muncul di industri TI. Hampir semua alat analisis modern data besar menyediakan alat untuk berintegrasi dengan Hadoop. Pengembang mereka adalah perusahaan rintisan dan perusahaan global yang terkenal.

Pasar untuk solusi manajemen data besar

Platform data besar (BDP, Platform Data Besar) sebagai sarana untuk memerangi chording digital

Kemampuan menganalisis data besar, bahasa sehari-hari disebut Big Data, dianggap sebagai berkah, dan jelas. Tapi benarkah demikian? Apa yang dapat menyebabkan akumulasi data yang merajalela? Kemungkinan besar untuk apa yang disebut psikolog domestik sebagai penimbunan patologis seseorang, silogomania, atau secara kiasan "sindrom Plyushkin". Dalam bahasa Inggris, hasrat ganas untuk mengumpulkan semuanya disebut hording (dari timbunan bahasa Inggris - "saham"). Menurut klasifikasi penyakit mental, Hording diklasifikasikan sebagai gangguan mental. Di era digital, digital (Digital Hoarding) ditambahkan ke chording bahan tradisional, baik individu maupun seluruh perusahaan dan organisasi dapat menderita karenanya ().

Pasar dunia dan Rusia

Lanskap data besar - Pemasok Utama

Minat dalam pengumpulan, pemrosesan, manajemen, dan alat analisis data besar menunjukkan hampir semua perusahaan IT terkemuka, yang cukup alami. Pertama, mereka dihadapkan langsung dengan fenomena ini dalam bisnis mereka sendiri, dan kedua, data besar membuka peluang yang sangat baik untuk mengembangkan ceruk pasar baru dan menarik pelanggan baru.

Banyak startup telah muncul di pasar yang melakukan bisnis dengan memproses data dalam jumlah besar. Beberapa dari mereka menggunakan infrastruktur cloud siap pakai yang disediakan oleh pemain besar seperti Amazon.

Teori dan Praktik Big Data di Industri

Sejarah perkembangan

2017

Perkiraan TmaxSoft: "gelombang" Big Data berikutnya akan membutuhkan modernisasi DBMS

Bisnis tahu bahwa sejumlah besar data yang mereka kumpulkan mengandung informasi penting tentang bisnis dan pelanggan mereka. Jika sebuah perusahaan dapat berhasil menerapkan informasi ini, maka ia akan memiliki keunggulan yang signifikan dalam persaingan, dan ia akan dapat menawarkan produk dan layanan yang lebih baik daripada milik mereka. Namun, banyak organisasi masih tidak dapat secara efektif menggunakan data besar karena fakta bahwa infrastruktur TI warisan mereka tidak dapat menyediakan kapasitas penyimpanan yang diperlukan, proses pertukaran data, utilitas dan aplikasi yang diperlukan untuk memproses dan menganalisis sejumlah besar data tidak terstruktur untuk mengekstrak informasi berharga dari mereka, kata TmaxSoft.

Selain itu, peningkatan kekuatan pemrosesan yang diperlukan untuk menganalisis jumlah data yang terus meningkat dapat memerlukan investasi yang signifikan dalam infrastruktur TI warisan organisasi, serta sumber daya pemeliharaan tambahan yang dapat digunakan untuk mengembangkan aplikasi dan layanan baru.

Pada tanggal 5 Februari 2015, Gedung Putih merilis laporan yang membahas bagaimana perusahaan menggunakan “ data besar"Untuk menetapkan harga yang berbeda untuk pembeli yang berbeda - praktik yang dikenal sebagai" diskriminasi harga "atau" penetapan harga yang berbeda "(penetapan harga yang dipersonalisasi). Laporan tersebut menjelaskan manfaat "data besar" bagi penjual dan pembeli, dan penulisnya menyimpulkan bahwa banyak masalah bermasalah yang muncul sehubungan dengan munculnya data besar dan penetapan harga diferensial dapat diselesaikan dalam kerangka anti- undang-undang dan undang-undang diskriminasi, melindungi hak-hak konsumen.

Saat ini, laporan tersebut mencatat bahwa hanya ada bukti anekdot tentang bagaimana perusahaan menggunakan data besar dalam konteks pemasaran yang dipersonalisasi dan penetapan harga yang berbeda. Informasi ini menunjukkan bahwa penjual menggunakan metode penetapan harga yang dapat dibagi menjadi tiga kategori:

mempelajari kurva permintaan;
Mengemudi dan membedakan harga berdasarkan data demografis; dan
penargetan perilaku dan harga individual.

Studi Kurva Permintaan: Pemasar sering bereksperimen dengan permintaan dan perilaku konsumen dengan menetapkan pelanggan secara acak ke salah satu dari dua kemungkinan tingkatan harga. "Eksperimen ini secara teknis merupakan bentuk penetapan harga diferensial karena menghasilkan harga yang berbeda bagi pelanggan, bahkan jika itu 'non-diskriminatif' dalam arti bahwa semua pelanggan memiliki kemungkinan yang sama untuk 'mencapai' harga yang lebih tinggi."

Pengemudian: Ini adalah praktik menyajikan produk kepada konsumen berdasarkan kelompok demografis mereka. Misalnya, situs web perusahaan komputer mungkin menawarkan laptop yang sama. jenis yang berbeda pembeli dengan harga berbeda yang ditetapkan berdasarkan informasi yang mereka berikan tentang diri mereka sendiri (misalnya, tergantung pada apakah pengguna yang diberikan oleh perwakilan lembaga pemerintah, lembaga ilmiah atau komersial, atau individu) atau dari lokasi geografis mereka (misalnya, ditentukan oleh alamat IP komputer).

Pemasaran perilaku yang ditargetkan dan harga yang dipersonalisasi: Dalam kasus ini, data pribadi pembeli digunakan untuk iklan bertarget dan harga produk tertentu yang dipersonalisasi. Misalnya, pengiklan online menggunakan koleksi jaringan iklan dan melalui cookie pihak ketiga, data tentang aktivitas pengguna di Internet untuk mengirim materi iklan yang ditargetkan. Pendekatan ini, di satu sisi, memungkinkan konsumen untuk menerima iklan barang dan jasa yang menarik bagi mereka, dengan masalah medis dan keuangan) bertemu tanpa persetujuan mereka.

Sementara pemasaran perilaku yang ditargetkan tersebar luas, hanya ada sedikit bukti tentang penetapan harga yang dipersonalisasi di lingkungan online. Laporan tersebut menunjukkan bahwa ini mungkin karena fakta bahwa metode yang tepat masih dikembangkan, atau fakta bahwa perusahaan tidak terburu-buru untuk menggunakan penetapan harga individual (atau lebih memilih untuk diam tentang hal itu) - mungkin karena takut akan reaksi balik dari konsumen.

Penulis laporan percaya bahwa "untuk konsumen individu, penggunaan data besar tidak diragukan lagi terkait dengan potensi pengembalian dan risiko." Meskipun mengakui bahwa ada masalah transparansi dan diskriminasi dalam penggunaan data besar, laporan tersebut berpendapat bahwa undang-undang anti-diskriminasi dan perlindungan konsumen yang ada sudah cukup untuk mengatasinya. Namun, laporan tersebut juga menyoroti perlunya “pemantauan berkelanjutan” di mana perusahaan menggunakan informasi rahasia dengan cara yang tidak jelas atau dengan cara yang tidak tercakup oleh kerangka peraturan yang ada.

Laporan ini merupakan perpanjangan dari upaya Gedung Putih untuk memeriksa penggunaan data besar dan penetapan harga yang diskriminatif di Internet, dan implikasinya bagi konsumen Amerika. Sebelumnya diberitakan bahwa kelompok kerja White House Big Data merilis laporannya tentang masalah ini pada Mei 2014. Komisi Perdagangan Federal (FTC) juga membahas masalah ini selama seminar September 2014 tentang diskriminasi terkait penggunaan data besar.

2014

Gartner Menghilangkan Mitos Data Besar

Ringkasan Kebijakan Musim Gugur 2014 Gartner mencantumkan sejumlah mitos umum tentang Big Data di antara CIO dan membantahnya.

Semua orang menerapkan sistem pemrosesan Big Data lebih cepat dari kami

Minat terhadap teknologi Big Data mencapai rekor tertinggi: 73% organisasi yang disurvei oleh analis Gartner tahun ini sudah berinvestasi dalam proyek terkait atau akan berinvestasi. Tetapi sebagian besar inisiatif ini masih dalam tahap awal, dan hanya 13% dari mereka yang disurvei yang telah menerapkan solusi tersebut. Bagian tersulit adalah mencari tahu bagaimana menghasilkan pendapatan dari Big Data, memutuskan dari mana harus memulai. Banyak organisasi terjebak dalam fase percontohan karena mereka tidak dapat melampirkan teknologi baru untuk proses bisnis tertentu.

Kami memiliki begitu banyak data sehingga tidak perlu khawatir tentang kesalahan kecil di dalamnya.

Beberapa CIO percaya bahwa kesenjangan data yang kecil tidak mempengaruhi hasil keseluruhan dari analisis volume besar. Ketika ada banyak data, setiap kesalahan individu benar-benar mempengaruhi hasil lebih sedikit, kata para analis, tetapi kesalahan itu sendiri menjadi lebih banyak. Selain itu, sebagian besar data yang dianalisis bersifat eksternal, dengan struktur atau asal yang tidak diketahui, sehingga kemungkinan kesalahan meningkat. Jadi, di dunia Big Data, kualitas sebenarnya jauh lebih penting.

Teknologi data besar akan menghilangkan kebutuhan akan integrasi data

Big Data menjanjikan kemampuan untuk memproses data dalam format aslinya dengan pembuatan skema otomatis saat dibaca. Diyakini bahwa ini akan memungkinkan analisis informasi dari sumber yang sama menggunakan beberapa model data. Banyak yang percaya bahwa ini juga akan memungkinkan pengguna akhir untuk menafsirkan kumpulan data apa pun sesuai keinginan mereka. Pada kenyataannya, sebagian besar pengguna sering membutuhkan pendekatan berbasis skema tradisional di mana data diformat dengan tepat dan ada kesepakatan tentang tingkat integritas informasi dan bagaimana hal itu harus dikaitkan dengan use case.

Tidak ada gunanya menggunakan gudang data untuk analitik yang kompleks

Banyak administrator sistem manajemen informasi percaya bahwa tidak ada gunanya membuang waktu untuk membangun gudang data, mengingat sistem analitik yang kompleks menggunakan jenis data baru. Faktanya, banyak sistem analitik yang kompleks menggunakan informasi dari gudang data. Dalam kasus lain, tipe data baru perlu disiapkan tambahan untuk analisis dalam sistem pemrosesan Big Data; Anda harus membuat keputusan tentang kesesuaian data, prinsip agregasi, dan tingkat kualitas yang diperlukan - persiapan semacam itu dapat dilakukan di luar gudang.

Data lake akan menggantikan gudang data

Pada kenyataannya, vendor menyesatkan pelanggan dengan memposisikan data lake sebagai pengganti penyimpanan atau sebagai infrastruktur analitik penting. Teknologi data lake yang mendasarinya tidak memiliki kematangan dan luasnya fungsionalitas yang melekat dalam penyimpanan. Oleh karena itu, para pemimpin manajemen data harus menunggu hingga danau mencapai tingkat perkembangan yang sama, menurut Gartner.

Accenture: 92% pengadopsi big data senang dengan hasilnya

Di antara manfaat utama big data, responden menyebutkan:

“Mencari sumber pendapatan baru” (56%),
"Meningkatkan pengalaman pelanggan" (51%),
"Produk dan layanan baru" (50%) dan
“Masuknya pelanggan baru dan retensi loyalitas pelanggan lama” (47%).

Banyak perusahaan menghadapi tantangan tradisional ketika memperkenalkan teknologi baru. Untuk 51%, batu sandungan adalah keamanan, untuk 47% - anggaran, untuk 41% - kurangnya personel yang diperlukan, dan untuk 35% - kesulitan dalam berintegrasi dengan sistem yang ada... Hampir semua perusahaan yang disurvei (sekitar 91%) berencana untuk segera menyelesaikan masalah dengan kekurangan personel dan mempekerjakan spesialis big data.

Perusahaan optimis tentang masa depan teknologi data besar. 89% percaya mereka akan mengubah bisnis sebanyak internet. 79% responden menyatakan bahwa perusahaan yang tidak melakukan big data akan kehilangan daya saingnya.

Namun, para responden tidak setuju tentang apa yang sebenarnya harus dianggap sebagai data besar. 65% responden percaya itu adalah "file data besar", 60% percaya itu adalah "analisis dan analisis lanjutan", dan 50% percaya bahwa itu adalah "data dari alat visualisasi".

Madrid menghabiskan € 14,7 juta untuk manajemen data besar

Pada Juli 2014, diketahui bahwa Madrid akan menggunakan teknologi big data untuk mengelola infrastruktur perkotaan. Biaya proyek - 14,7 juta euro, dasar dari solusi yang diterapkan adalah teknologi untuk analisis dan pengelolaan data besar. Dengan bantuan mereka Administrasi Kota akan mengelola pekerjaan dengan masing-masing penyedia layanan dan membayar sesuai dengan tingkat layanan.

Kita berbicara tentang kontraktor administrasi, yang memantau kondisi jalan, penerangan, irigasi, ruang hijau, membersihkan wilayah dan membuang, serta mendaur ulang sampah. Selama proyek, 300 indikator kinerja utama layanan kota dikembangkan untuk inspektur yang ditunjuk khusus, yang dengannya 1,5 ribu berbagai pemeriksaan dan pengukuran akan dilakukan setiap hari. Selain itu, kota ini akan mulai menggunakan platform teknologi inovatif yang disebut Madrid iNTeligente (MiNT) - Smarter Madrid.

2013

Pakar: Mode Puncak Data Besar

Tanpa kecuali, semua vendor di pasar manajemen data sedang mengembangkan teknologi untuk manajemen Big Data saat ini. Tren teknologi baru ini juga secara aktif dibahas oleh komunitas profesional, baik pengembang maupun analis industri dan calon konsumen solusi tersebut.

Seperti yang diketahui Datashift, pada Januari 2013, ada gelombang diskusi seputar “ data besar"Telah melampaui semua dimensi yang bisa dibayangkan. Setelah menganalisis jumlah penyebutan Big Data di jejaring sosial, Datashift menghitung bahwa pada tahun 2012 istilah ini digunakan sekitar 2 miliar kali dalam postingan yang dibuat oleh sekitar 1 juta penulis berbeda di seluruh dunia. Itu setara dengan 260 posting per jam, dengan puncak 3.070 mention per jam.

Gartner: Setiap detik CIO siap dibelanjakan untuk Big data

Setelah beberapa tahun bereksperimen dengan teknologi Big data dan implementasi pertama pada tahun 2013, adaptasi dari solusi tersebut akan meningkat secara signifikan, prediksi Gartner. Para peneliti mensurvei para pemimpin TI di seluruh dunia dan menemukan bahwa 42% responden telah berinvestasi dalam teknologi Big data atau berencana untuk melakukan investasi tersebut dalam tahun depan (data per Maret 2013).

Perusahaan terpaksa mengeluarkan uang untuk teknologi pemrosesan data besar karena lanskap informasi berubah dengan cepat, saya memerlukan pendekatan baru untuk pemrosesan informasi. Banyak perusahaan telah menyadari bahwa data besar sangat penting, dan bekerja dengannya memungkinkan Anda mencapai manfaat yang tidak tersedia dengan menggunakan sumber informasi tradisional dan metode pemrosesannya. Selain itu, topik "big data" yang terus-menerus dilebih-lebihkan di media memicu minat pada teknologi yang relevan.

Frank Buytendijk, wakil presiden Gartner, bahkan mendesak perusahaan untuk memoderasi semangat mereka, karena beberapa khawatir bahwa mereka tertinggal dari pesaing dalam akuisisi Big Data.

“Tidak perlu khawatir, kemungkinan untuk mengimplementasikan ide-ide berdasarkan teknologi Big Data hampir tidak terbatas,” katanya.

Gartner memperkirakan bahwa pada tahun 2015, 20% dari 1000 perusahaan Global akan memiliki fokus strategis pada "infrastruktur informasi."

Untuk mengantisipasi peluang baru yang akan dibawa oleh teknologi pemrosesan Big Data, banyak organisasi telah mengatur proses pengumpulan dan penyimpanan berbagai jenis informasi.

Untuk organisasi pendidikan dan pemerintah, serta perusahaan di industri, potensi terbesar untuk transformasi bisnis terletak pada kombinasi akumulasi data dengan apa yang disebut data gelap (secara harfiah - "data gelap"), yang terakhir termasuk pesan Surel, multimedia, dan konten serupa lainnya. Dalam perlombaan data, Gartner berpendapat, mereka yang belajar menangani berbagai sumber informasi yang akan menang.

Survei Cisco: Big Data Akan Membantu Meningkatkan Anggaran TI

Dalam survei Musim Semi 2013, Cisco Connected World Technology Report, dilakukan di 18 negara oleh firma analitik independen InsightExpress, 1.800 mahasiswa dan sejumlah profesional muda berusia 18-30 yang disurvei. Survei dilakukan untuk mengetahui tingkat kesiapan departemen TI untuk melaksanakan proyek Data besar dan dapatkan wawasan tentang tantangan terkait, kesenjangan teknologi, dan nilai strategis dari proyek semacam itu.

Sebagian besar perusahaan mengumpulkan, merekam, dan menganalisis data. Meskipun demikian, laporan tersebut mengatakan, banyak perusahaan menghadapi berbagai tantangan bisnis dan teknologi informasi yang kompleks terkait dengan Big Data. Misalnya, 60 persen dari mereka yang disurvei mengakui bahwa solusi Big Data dapat meningkatkan proses pengambilan keputusan dan meningkatkan daya saing, tetapi hanya 28 persen yang mengatakan bahwa mereka telah menerima manfaat strategis yang nyata dari akumulasi informasi.

Lebih dari setengah eksekutif TI yang disurvei percaya bahwa proyek Big Data akan membantu meningkatkan anggaran TI di organisasi mereka, karena akan ada peningkatan persyaratan untuk teknologi, personel, dan keterampilan profesional. Pada saat yang sama, lebih dari setengah responden berharap bahwa proyek-proyek tersebut akan meningkatkan anggaran TI di perusahaan mereka pada awal tahun 2012. 57 persen yakin bahwa Big Data akan meningkatkan anggaran mereka selama tiga tahun ke depan.

81 persen responden mengatakan bahwa semua (atau setidaknya beberapa) proyek Big Data akan membutuhkan komputasi awan. Dengan demikian, penyebaran teknologi awan dapat mempengaruhi kecepatan distribusi solusi Big Data dan nilai solusi ini untuk bisnis.

Perusahaan mengumpulkan dan menggunakan data dari sebagian besar jenis yang berbeda, baik terstruktur maupun tidak terstruktur. Berikut adalah sumber dari mana peserta survei mendapatkan data mereka (Cisco Connected World Technology Report):

Hampir setengah (48 persen) CIO memperkirakan bahwa beban pada jaringan mereka akan berlipat ganda selama dua tahun ke depan. (Hal ini terutama berlaku di Cina, di mana 68 persen dari mereka yang disurvei memiliki pandangan ini, dan Jerman, 60 persen.) 23 persen responden memperkirakan beban jaringan akan meningkat tiga kali lipat selama dua tahun ke depan. Pada saat yang sama, hanya 40 persen responden yang menyatakan kesiapan mereka untuk pertumbuhan volume lalu lintas jaringan yang eksplosif.

27 persen dari mereka yang disurvei mengakui bahwa mereka membutuhkan kebijakan TI dan langkah-langkah keamanan informasi yang lebih baik.

21 persen membutuhkan lebih banyak bandwidth.

Big Data membuka peluang baru bagi departemen TI untuk menambah nilai dan membangun hubungan yang kuat dengan unit bisnis, meningkatkan pendapatan dan memperkuat posisi keuangan perusahaan. Proyek Big Data menjadikan departemen TI sebagai mitra strategis bagi departemen bisnis.

Menurut 73 persen responden, departemen TI-lah yang akan menjadi lokomotif utama penerapan strategi Big Data. Pada saat yang sama, responden percaya bahwa departemen lain juga akan terlibat dalam penerapan strategi ini. Pertama-tama, ini menyangkut departemen keuangan (disebut oleh 24 persen responden), penelitian dan pengembangan (20 persen), operasi (20 persen), teknik (19 persen), serta pemasaran (15 persen) dan penjualan (14 persen).

Gartner: Jutaan Pekerjaan Baru Dibutuhkan untuk Mengelola Big Data

Pengeluaran TI dunia akan mencapai $ 3,7 miliar pada tahun 2013, yang 3,8% lebih banyak dari pengeluaran untuk teknologi informasi pada tahun 2012 (perkiraan untuk akhir tahun adalah $ 3,6 miliar). Segmen data besar(data besar) akan tumbuh dengan kecepatan yang jauh lebih cepat, menurut laporan Gartner.

Pada tahun 2015, 4,4 juta pekerjaan di teknologi Informasi akan dibuat untuk melayani data besar, yang mencakup 1,9 juta pekerjaan. Selain itu, setiap pekerjaan tersebut akan menciptakan tiga pekerjaan tambahan di luar sektor TI, sehingga di Amerika Serikat saja dalam empat tahun ke depan, 6 juta orang akan bekerja untuk mendukung ekonomi informasi.

Menurut para ahli Gartner, masalah utama adalah bahwa tidak ada cukup bakat di industri untuk ini: baik sistem pendidikan swasta dan publik, misalnya, di Amerika Serikat, tidak mampu memasok industri dengan jumlah yang cukup berkualitas. personil. Jadi dari pekerjaan baru di bidang IT tersebut, hanya satu dari tiga yang akan dilengkapi dengan personel.

Analis percaya bahwa peran mengembangkan personel TI yang berkualitas harus diambil langsung oleh perusahaan yang sangat membutuhkan mereka, karena karyawan tersebut akan menjadi pintu gerbang bagi mereka menuju ekonomi informasi baru di masa depan.

2012

Skeptisisme pertama tentang Big Data

Analis di Ovum dan Gartner menyarankan itu untuk tema 2012 yang trendi data besar mungkin sudah waktunya untuk melepaskan ilusi.

Istilah "Big Data" saat ini biasanya mengacu pada volume informasi yang terus meningkat yang datang dari media sosial, dari jaringan sensor dan sumber lainnya, serta semakin banyaknya alat yang digunakan untuk memproses data dan mengidentifikasi bisnis penting - tren.

“Karena hype (atau terlepas dari itu) gagasan big data, produsen pada 2012 melihat tren ini dengan harapan besar,” kata Tony Bayer, seorang analis di Ovum.

Bayer mengatakan DataSift telah melakukan analisis retrospektif dari penyebutan data besar di

Big data (atau Big Data) adalah kumpulan metode untuk bekerja dengan sejumlah besar informasi terstruktur atau tidak terstruktur. Pakar data besar memproses dan menganalisisnya untuk mendapatkan hasil visual yang dapat dibaca manusia. Look At Me berbicara dengan para profesional dan mencari tahu bagaimana situasi pemrosesan data besar di Rusia, di mana dan apa yang lebih baik bagi mereka yang ingin bekerja di bidang ini untuk belajar.

Alexey Ryvkin tentang arahan utama di bidang data besar, komunikasi dengan pelanggan, dan dunia angka

Saya belajar di Institut Moskow teknologi elektronik... Hal utama yang berhasil saya dapatkan dari sana adalah pengetahuan dasar dalam fisika dan matematika. Bersamaan dengan studi saya, saya bekerja di pusat R&D, di mana saya terlibat dalam pengembangan dan implementasi algoritma pengkodean kekebalan kebisingan untuk transmisi data yang aman. Setelah menyelesaikan gelar Sarjana saya, saya memasuki Magister Informatika Bisnis di Sekolah Tinggi Ekonomi. Setelah itu, saya ingin bekerja di IBS. Saya beruntung saat itu karena jumlah besar proyek, ada rekrutmen magang tambahan, dan setelah beberapa wawancara saya mulai bekerja di IBS, salah satu yang terbesar perusahaan Rusia area ini. Dalam tiga tahun saya telah berubah dari magang menjadi arsitek solusi perusahaan. Sekarang saya mengembangkan keahlian teknologi Big Data untuk perusahaan pelanggan dari sektor keuangan dan telekomunikasi.

Ada dua spesialisasi utama bagi orang yang ingin bekerja dengan data besar: analis dan konsultan TI yang menciptakan teknologi untuk bekerja dengan data besar. Selain itu, Anda juga bisa berbicara tentang profesi Big Data Analyst, yaitu orang yang langsung bekerja dengan data, dengan platform TI pelanggan. Sebelumnya, ini adalah analis-ahli matematika biasa yang mengetahui statistik dan matematika dan menggunakan perangkat lunak statistik untuk memecahkan masalah analisis data. Saat ini, selain pengetahuan tentang statistik dan matematika, pemahaman tentang teknologi dan siklus hidup data juga diperlukan. Ini, menurut saya, adalah perbedaan antara Analis Data modern dan para analis sebelumnya.

Spesialisasi saya adalah konsultasi TI, yaitu, saya menemukan dan menawarkan cara kepada pelanggan untuk memecahkan masalah bisnis menggunakan teknologi TI. Orang dengan pengalaman yang berbeda datang ke konsultasi, tetapi kualitas yang paling penting untuk profesi ini adalah kemampuan untuk memahami kebutuhan klien, keinginan untuk membantu orang dan organisasi, komunikasi yang baik dan keterampilan tim (karena ini selalu bekerja dengan klien dan dalam tim), kemampuan analisis yang baik. Motivasi intrinsik sangat penting: kami bekerja dalam lingkungan yang kompetitif, dan pelanggan mengharapkan solusi dan minat yang tidak biasa dalam pekerjaan.

Sebagian besar waktu saya dihabiskan untuk berbicara dengan pelanggan, merumuskan kebutuhan bisnis mereka, dan membantu merancang arsitektur teknologi yang paling tepat. Kriteria seleksi di sini memiliki kekhasan tersendiri: selain Kegunaan dan TCO (Total biaya kepemilikan), persyaratan non-fungsional untuk sistem sangat penting, paling sering adalah waktu respons, waktu pemrosesan informasi. Untuk meyakinkan pelanggan, kami sering menggunakan pendekatan bukti konsep - kami menawarkan untuk "menguji" teknologi secara gratis pada beberapa masalah, pada kumpulan data yang sempit, untuk memastikan bahwa teknologi tersebut berfungsi. Solusinya harus menciptakan keunggulan kompetitif bagi pelanggan dengan memperoleh manfaat tambahan (misalnya, x-sell, cross-selling) atau memecahkan beberapa masalah dalam bisnis, katakanlah, mengurangi level tinggi penipuan kredit.

Akan jauh lebih mudah jika klien datang dengan tugas yang sudah jadi, tetapi sejauh ini mereka tidak mengerti bahwa teknologi revolusioner telah muncul yang dapat mengubah pasar dalam beberapa tahun

Masalah apa yang harus Anda hadapi? Pasar belum siap untuk menggunakan teknologi big data. Akan jauh lebih mudah jika pelanggan datang dengan tugas yang sudah jadi, tetapi mereka belum menyadari bahwa teknologi revolusioner telah muncul yang dapat mengubah pasar dalam beberapa tahun. Itulah sebabnya kami, pada kenyataannya, bekerja dalam mode startup - kami tidak hanya menjual teknologi, tetapi juga setiap kali kami meyakinkan klien bahwa mereka perlu berinvestasi dalam solusi ini. Ini adalah posisi visioner - kami menunjukkan kepada pelanggan bagaimana mereka dapat mengubah bisnis mereka dengan keterlibatan data dan TI. Kami menciptakan pasar baru ini - pasar untuk konsultasi TI komersial di bidang Big Data.

Jika seseorang ingin berkecimpung dalam analisis data atau konsultasi IT di bidang Big Data, maka hal pertama yang penting adalah pendidikan matematika atau teknis dengan pelatihan matematika yang baik. Hal ini juga membantu untuk menjadi akrab dengan teknologi tertentu seperti SAS, Hadoop, R, atau solusi IBM. Selain itu, Anda harus secara aktif tertarik pada masalah yang diterapkan untuk Big Data - misalnya, bagaimana mereka dapat digunakan untuk meningkatkan penilaian kredit di bank atau manajemen lingkaran kehidupan klien. Pengetahuan ini dan lainnya dapat diperoleh dari sumber yang tersedia: misalnya Coursera dan Big Data University. Ada juga Inisiatif Analisis Pelanggan di Wharton University of Pennsylvania, di mana banyak materi menarik telah diterbitkan.

Masalah serius bagi mereka yang ingin bekerja di bidang kami adalah kurangnya informasi tentang Big Data. Anda tidak dapat pergi ke toko buku atau situs web tertentu dan mendapatkan, misalnya, kumpulan kasus yang lengkap tentang semua aplikasi teknologi Big Data di bank. Tidak ada buku referensi seperti itu. Sebagian informasi ada di buku, sebagian lagi dikumpulkan di konferensi, dan sebagian harus dicapai sendiri.

Masalah lain adalah bahwa analis baik-baik saja di dunia angka, tetapi tidak selalu nyaman dalam bisnis. Orang-orang ini seringkali tertutup, mengalami kesulitan berkomunikasi, dan karena itu mengalami kesulitan mengkomunikasikan hasil penelitian secara meyakinkan kepada klien. Untuk mengembangkan keterampilan ini, saya akan merekomendasikan buku-buku seperti The Pyramid Principle, Speak the Language of Diagrams. Mereka membantu mengembangkan keterampilan presentasi, secara ringkas dan jelas mengungkapkan pikiran Anda.

Partisipasi dalam berbagai kejuaraan kasus selama studi saya di Sekolah Tinggi Ekonomi banyak membantu saya. Kejuaraan kasus adalah kompetisi intelektual bagi siswa untuk mempelajari masalah bisnis dan mengusulkan solusi. Mereka datang dalam dua rasa: kejuaraan kasus untuk perusahaan konsultan seperti McKinsey, BCG, Accenture, dan kejuaraan kasus independen seperti Changellenge. Selama partisipasi saya di dalamnya, saya belajar untuk melihat dan memutuskan tugas yang menantang- dari identifikasi masalah dan penataannya hingga perlindungan rekomendasi untuk solusinya.

Oleg Mikhalskiy di pasar Rusia dan spesifikasi pembuatan produk baru di bidang data besar

Sebelum bergabung dengan Acronis, saya sudah terlibat dalam peluncuran produk baru di perusahaan lain. Itu selalu menarik dan sulit pada saat yang sama, jadi saya langsung tertarik pada kesempatan untuk mengerjakannya layanan awan dan solusi penyimpanan. Di area ini, semua pengalaman saya sebelumnya di industri TI sangat berguna, termasuk akselerator proyek startup saya sendiri. Memiliki pendidikan bisnis (MBA) selain teknik dasar juga terbantu.

Di Rusia, perusahaan besar - bank, operator seluler dll - ada kebutuhan untuk analisis data besar, jadi ada prospek di negara kita bagi mereka yang ingin bekerja di bidang ini. Benar, banyak proyek sekarang terintegrasi, yaitu, dibuat berdasarkan perkembangan asing atau teknologi sumber terbuka. Dalam proyek semacam itu, pada dasarnya pendekatan dan teknologi baru tidak dibuat, melainkan perkembangan yang ada diadaptasi. Di Acronis, kami mengambil jalan yang berbeda dan, setelah menganalisis alternatif yang tersedia, memutuskan untuk berinvestasi dalam pengembangan kami sendiri, membuat sistem penyimpanan yang aman untuk data besar, yang tidak kalah dengan biaya, misalnya, Amazon S3, tetapi bekerja dengan andal dan efisien dan pada skala yang jauh lebih kecil. Perusahaan Internet besar juga memiliki perkembangannya sendiri pada big data, tetapi mereka lebih fokus pada kebutuhan internal daripada memenuhi kebutuhan pelanggan eksternal.

Penting untuk memahami tren dan kekuatan ekonomi yang memengaruhi bidang pemrosesan data besar. Untuk melakukan ini, Anda perlu banyak membaca, mendengarkan pidato para ahli otoritatif di industri TI, menghadiri konferensi tematik. Sekarang hampir setiap konferensi memiliki bagian tentang Big Data, tetapi mereka semua membicarakannya dari sudut yang berbeda: dalam hal teknologi, bisnis, atau pemasaran. Anda dapat pergi untuk pekerjaan proyek atau magang di perusahaan yang sudah melakukan proyek tentang topik ini. Jika Anda yakin dengan kemampuan Anda, maka belum terlambat untuk menata startup di bidang Big Data.

Tanpa kontak konstan dengan pasar pengembangan baru menanggung risiko tidak diklaim

Namun, ketika Anda bertanggung jawab atas produk baru, banyak waktu dihabiskan untuk analisis pasar dan komunikasi dengan klien potensial, mitra, analis profesional yang tahu banyak tentang klien dan kebutuhan mereka. Tanpa kontak terus-menerus dengan pasar, perkembangan baru berisiko tidak diklaim. Selalu ada banyak ketidakpastian: Anda harus memahami siapa yang akan menjadi pengguna pertama (pengadopsi awal), apa yang Anda miliki berharga bagi mereka dan bagaimana kemudian menarik audiens massal. Tugas terpenting kedua adalah membentuk dan menyampaikan kepada pengembang visi yang jelas dan holistik dari produk akhir untuk memotivasi mereka bekerja dalam kondisi seperti itu ketika beberapa persyaratan mungkin masih berubah, dan prioritas bergantung pada umpan balik dari pelanggan pertama. Oleh karena itu, tugas penting adalah mengelola harapan pelanggan di satu sisi dan pengembang di sisi lain. Sehingga tidak ada yang kehilangan minat dan menyelesaikan proyek. Setelah proyek pertama yang sukses, menjadi lebih mudah dan tantangan utamanya adalah menemukan model pertumbuhan yang tepat untuk bisnis baru.

Data besar- Bahasa Inggris. "Data besar". Istilah ini muncul sebagai alternatif DBMS dan menjadi salah satu tren utama dalam infrastruktur TI, ketika sebagian besar raksasa industri - IBM, Microsoft, HP, Oracle, dan lainnya mulai menggunakan konsep ini dalam strategi mereka. Big Data dipahami sebagai array data besar (ratusan terabyte) yang tidak dapat diproses menggunakan metode tradisional; terkadang - alat dan metode untuk memproses data ini.

Contoh sumber Data Besar: Peristiwa RFID, pesan di jejaring sosial, statistik meteorologi, informasi tentang lokasi pelanggan jaringan seluler seluler dan data dari alat perekam audio/video. Oleh karena itu, "data besar" banyak digunakan di bidang manufaktur, perawatan kesehatan, pemerintahan, bisnis Internet - khususnya, ketika menganalisis audiens target.

Ciri

Tanda-tanda data besar didefinisikan sebagai "tiga Vs": Volume - volume (sangat besar); variasi - keragaman, banyak; kecepatan - kecepatan (pemrosesan yang sangat cepat diperlukan).

Data besar seringkali tidak terstruktur dan membutuhkan algoritma khusus untuk memprosesnya. Metode analisis data besar meliputi:

("Data mining") - seperangkat pendekatan untuk menemukan pengetahuan berguna yang tersembunyi yang tidak dapat diperoleh dengan metode standar;
Crowdsourcing (crowd - "crowd", sourcing - gunakan sebagai sumber) - memecahkan masalah signifikan dengan upaya bersama para sukarelawan yang tidak terikat dalam kontrak dan hubungan kerja wajib, mengoordinasikan kegiatan menggunakan perangkat TI;
Penggabungan & Integrasi Data - seperangkat metode untuk menghubungkan berbagai sumber dalam kerangka analisis mendalam;
Pembelajaran Mesin ("pembelajaran mesin") - subbagian dari penelitian kecerdasan buatan, mempelajari metode menggunakan analisis statistik dan memperoleh prakiraan berdasarkan model dasar;
pengenalan pola (misalnya, pengenalan wajah di jendela bidik kamera atau camcorder);
analisis spasial - penggunaan topologi, geometri dan geografi untuk membangun data;
visualisasi data - keluaran informasi analitis dalam bentuk ilustrasi dan diagram dengan alat interaktif dan animasi untuk melacak hasil dan membangun landasan untuk pemantauan lebih lanjut.

Penyimpanan dan analisis informasi dilakukan pada jumlah yang besar server berkinerja tinggi. Teknologi kuncinya adalah Hadoop, open source.

Karena jumlah informasi hanya akan bertambah dari waktu ke waktu, kesulitannya bukan pada perolehan datanya, tetapi pada bagaimana mengolahnya dengan manfaat yang maksimal. Secara umum, proses bekerja dengan Big Data meliputi: mengumpulkan informasi, menyusunnya, menciptakan wawasan dan konteks, mengembangkan rekomendasi untuk tindakan. Bahkan sebelum tahap pertama, penting untuk mendefinisikan dengan jelas tujuan pekerjaan: untuk apa sebenarnya data itu, misalnya, menentukan audiens target produk. Jika tidak, ada risiko mendapatkan banyak informasi tanpa memahami bagaimana tepatnya informasi itu dapat digunakan.