کلان داده کلان داده. کلان داده: تجزیه و تحلیل و راه حل ها

این شوخی معروف را می شناسید؟ بیگ دیتا مانند رابطه جنسی زیر 18 سال است:

همه در مورد آن فکر می کنند ؛
همه در مورد آن صحبت می کنند ؛
همه فکر می کنند دوستانشان این کار را انجام می دهند.
تقریباً هیچ کس این کار را نمی کند ؛
کسی که این کار را می کند بد عمل می کند ؛
همه فکر می کنند دفعه بعد وضعیت بهتر می شود ؛
هیچ کس اقدامات امنیتی را انجام نمی دهد ؛
هر کس شرم دارد اعتراف کند که چیزی نمی داند.
اگر کسی موفق شود ، همیشه سر و صدای زیادی ایجاد می کند.

اما بیایید صادق باشیم ، با هر گونه هیاهو در اطراف همیشه کنجکاوی معمول وجود خواهد داشت: چه جنجالی است و آیا واقعا چیز مهمی در آنجا وجود دارد؟ به طور خلاصه ، بله ، وجود دارد. جزئیات در زیر آمده است. ما شگفت انگیزترین و جالب ترین کاربردهای فناوری های Big Data را برای شما انتخاب کرده ایم. این تحقیقات کوچک بازار در مورد نمونه های روشن با یک واقعیت ساده روبرو می شود: آینده نمی آید ، نیازی به "یک سال دیگر صبر کردن نیست و جادو به واقعیت تبدیل می شود". نه ، قبلاً آمده است ، اما هنوز هم برای چشم نامحسوس است ، و بنابراین پختن تکینگی هنوز نقطه شناخته شده بازار کار را چندان نمی سوزاند. برو.

1 نحوه استفاده از فناوری های کلان داده در جایی که بوجود آمده اند

شرکت های بزرگ فناوری اطلاعات در آنجا متولد شده اند ، بنابراین درونی آنها در این زمینه جالب ترین است. کمپین Google ، محل پارادایم کاهش نقشه ، که تنها هدف آن آموزش برنامه نویسان خود در زمینه فن آوری های یادگیری ماشین است. و این مزیت رقابتی آنها است: پس از کسب دانش جدید ، کارکنان روشهای جدیدی را در پروژه های Google که در آنها دائماً کار می کنند پیاده سازی می کنند. لیست عظیمی از مناطق را که کمپین می تواند انقلابی در آنها ایجاد کند ، تصور کنید. یک مثال: از شبکه های عصبی استفاده می شود.

این شرکت همچنین یادگیری ماشین را در همه محصولات خود پیاده می کند. مزیت آن وجود یک اکوسیستم بزرگ است که شامل تمام دستگاه های دیجیتال مورد استفاده در زندگی روزمره است. این به اپل اجازه می دهد تا به یک سطح غیرممکن برسد: این کمپین به اندازه سایر اطلاعات کاربر اطلاعات دارد. در عین حال ، سیاست حفظ حریم خصوصی بسیار سخت است: این شرکت همیشه مفتخر است که از داده های مشتریان برای اهداف تبلیغاتی استفاده نمی کند. بر این اساس ، اطلاعات کاربران رمزگذاری شده است به طوری که وکلای اپل یا حتی FBI با حکم نمی توانند آن را بخوانند. توسط شما پیدا خواهید کرد مروری عالیتوسعه هوش مصنوعی اپل

2 بیگ دیتا روی 4 چرخ

یک ماشین مدرن تجمع اطلاعات است: تمام داده های مربوط به راننده ، محیط ، دستگاه های متصل و خود را جمع آوری می کند. به زودی ، یک وسیله نقلیه که به شبکه ای مانند این متصل است ، حداکثر 25 گیگابایت داده در ساعت تولید می کند.

تلهماتیک حمل و نقل سالهاست که توسط خودروسازان مورد استفاده قرار می گیرد ، اما روش جمع آوری داده های پیچیده تری در حال لابی شدن است که از کل داده ها نهایت استفاده را می برد. این بدان معناست که فناوری اکنون می تواند با فعال کردن خودکار سیستم های ترمز ضد قفل و لغزش ، راننده را از وضعیت نامناسب جاده آگاه کند.

نگرانی های دیگر ، از جمله بی ام و ، استفاده از فناوری داده های بزرگ ، همراه با اطلاعات جمع آوری شده از نمونه های اولیه آزمایشی ، سیستم حافظه خطا در خودرو و شکایات مشتریان ، برای شناسایی نقاط ضعف در مدل اولیه تولید است. اکنون ، به جای ارزیابی دستی داده ها که ماه ها طول می کشد ، یک الگوریتم مدرن استفاده می شود. خطاها و هزینه های عیب یابی کاهش می یابد ، که باعث تسریع جریان کار تجزیه و تحلیل اطلاعات در BMW می شود.

طبق برآوردهای کارشناسان ، تا سال 2019 گردش مالی خودروهای متصل به 130 میلیارد دلار خواهد رسید.با توجه به سرعت یکپارچه سازی خودروسازان از فناوری هایی که جزء لاینفک خودرو هستند ، تعجب آور نیست.

استفاده از Big Data به ایمنی و عملکرد بیشتر دستگاه کمک می کند. بنابراین ، تویوتا با تعبیه ماژول های ارتباطی اطلاعات (DCM). این ابزار ، که برای داده های بزرگ استفاده می شود ، داده های جمع آوری شده توسط DCM را پردازش و تجزیه و تحلیل می کند تا از مزایای بیشتری برخوردار شود.

3 کاربرد داده های بزرگ در پزشکی

پیاده سازی فناوری های کلان داده در حوزه پزشکی به پزشکان این امکان را می دهد که بیماری را به طور کامل مطالعه کرده و یک دوره درمانی موثر را برای یک مورد خاص انتخاب کنند. با تجزیه و تحلیل اطلاعات ، پیش بینی عود و انجام اقدامات پیشگیرانه برای کارکنان مراقبت های بهداشتی آسان تر می شود. نتیجه تشخیص دقیق تر و بهبود درمان است.

این تکنیک جدید امکان بررسی مشکلات بیماران را از منظر دیگری فراهم کرد که منجر به کشف منابع ناشناخته قبلی این مشکل شد. به عنوان مثال ، برخی از نژادها از نظر ژنتیکی بیشتر مستعد ابتلا به بیماری های قلبی هستند تا سایر اقوام. اکنون ، هنگامی که یک بیمار از بیماری خاصی شکایت می کند ، پزشکان داده های اعضای نژاد وی را که از مشکل مشابه شکایت کرده اند ، در نظر می گیرند. جمع آوری و تجزیه و تحلیل داده ها به شما امکان می دهد اطلاعات بیشتری در مورد بیماران کسب کنید: از ترجیحات غذایی و شیوه زندگی گرفته تا ساختار ژنتیکی DNA و متابولیت های سلول ها ، بافت ها ، اندام ها. به عنوان مثال ، مرکز پزشکی ژنومیک کودکان در کانزاس سیتی از بیماران و تجزیه و تحلیل جهش در کد ژنتیکی که باعث سرطان می شود ، استفاده می کند. یک رویکرد فردی برای هر بیمار ، با در نظر گرفتن DNA وی ، اثربخشی درمان را به سطح کیفی جدیدی افزایش می دهد.

درک نحوه استفاده از داده های بزرگ اولین و مهمترین تغییر در زمینه پزشکی است. هنگامی که بیمار تحت درمان است ، بیمارستان یا سایر م institutionسسات مراقبت های بهداشتی می توانند اطلاعات معنادار زیادی در مورد فرد به دست آورند. اطلاعات جمع آوری شده برای پیش بینی عود بیماری با درجه خاصی از دقت استفاده می شود. به عنوان مثال ، اگر بیمار دچار سکته مغزی شده باشد ، پزشکان اطلاعات مربوط به زمان تصادف عروق مغزی را مطالعه می کنند ، دوره میانی بین نمونه های قبلی (در صورت وجود) را تجزیه و تحلیل می کنند و توجه ویژه ای به موقعیت های استرس زا و فعالیت بدنی سنگین در زندگی بیمار دارند. بر اساس این داده ها ، بیمارستانها یک برنامه عملی واضح به بیمار می دهند تا از احتمال سکته در آینده جلوگیری شود.

دستگاه های پوشیدنی نیز در تشخیص مشکلات سلامتی نقش دارند ، حتی اگر فردی علائم واضح یک بیماری خاص را نداشته باشد. به جای ارزیابی وضعیت بیمار از طریق یک دوره طولانی معاینات ، پزشک می تواند بر اساس اطلاعات جمع آوری شده توسط ردیاب تناسب اندام یا ساعت هوشمند نتیجه گیری کند.

یکی از جدیدترین نمونه ها این است. در حالی که بیمار در حال بررسی تشنج جدید به دلیل داروی از دست رفته بود ، پزشکان دریافتند که این مرد دارای مشکل سلامتی بسیار جدی تری است. این مشکل فیبریلاسیون دهلیزی بود. این تشخیص به لطف این واقعیت است که کارکنان بخش به تلفن بیمار ، یعنی برنامه ای که با ردیاب تناسب اندام او مرتبط است ، دسترسی پیدا کردند. معلوم شد که اطلاعات حاصل از برنامه عامل کلیدی در تعیین تشخیص است ، زیرا در زمان معاینه ، این مرد هیچ گونه اختلال قلبی نداشت.

این تنها یکی از معدود مواردی است که نشان می دهد چرا از Big Data استفاده می شودامروزه در زمینه پزشکی چنین نقش مهمی ایفا می کند.

4 تجزیه و تحلیل داده ها در حال حاضر به ستون فقرات خرده فروشی تبدیل شده است

درک سوالات کاربران و هدف گذاری یکی از بزرگترین و گسترده ترین حوزه های کاربردی ابزارهای داده بزرگ است. Big Data به منظور درک بهتر نیازهای مصرف کنندگان در آینده به تجزیه و تحلیل عادات مشتری کمک می کند. شرکت ها به دنبال گسترش مجموعه داده سنتی با رسانه های اجتماعی و سابقه جستجوی مرورگر هستند تا تصویر مشتری کامل را ایجاد کنند. گاهی اوقات سازمان های بزرگ انتخاب مدل پیش بینی خود را به عنوان یک هدف جهانی انتخاب می کنند.

به عنوان مثال ، فروشگاه های زنجیره ای Target با کمک تجزیه و تحلیل داده های عمیق و سیستم پیش بینی خود موفق به تعیین با دقت بالا می شوند -. به هر مشتری یک شناسه اختصاص داده می شود که به نوبه خود به کارت اعتباری ، نام یا ایمیل متصل می شود. شناسه به عنوان نوعی سبد خرید عمل می کند ، جایی که اطلاعات مربوط به همه چیزهایی که شخص خریداری کرده ذخیره می شود. متخصصان شبکه دریافتند که زنان در این موقعیت قبل از سه ماهه دوم بارداری به طور فعال محصولات غیر معطر خریداری می کنند و در 20 هفته اول از مکمل های کلسیم ، روی و منیزیم استفاده می کنند. بر اساس داده های دریافتی ، Target کوپن های محصولات نوزاد را برای مشتریان ارسال می کند. تخفیف های مشابه برای کالاهای مخصوص کودکان با کوپن سایر محصولات "رقیق" می شود ، به طوری که پیشنهادات خرید تخت یا پوشک چندان مزاحم به نظر نمی رسد.

حتی ادارات دولتی راهی برای استفاده از فناوری های داده بزرگ برای بهینه سازی مبارزات انتخاباتی پیدا کرده اند. برخی معتقدند که پیروزی باراک اوباما در انتخابات ریاست جمهوری 2012 آمریکا به دلیل عملکرد عالی تیم تحلیلگران وی بود که حجم عظیمی از داده ها را به روش صحیح پردازش کردند.

5 داده های بزرگ در مورد نظم و قانون

طی چند سال گذشته ، سازمان های اجرای قانون نحوه و زمان استفاده از Big Data را کشف کرده اند. این یک آگاهی عمومی است که آژانس امنیت ملی از فناوری داده های بزرگ برای جلوگیری از حملات تروریستی استفاده می کند. سایر سازمانها از روشهای پیشرونده برای جلوگیری از جنایات کوچکتر استفاده می کنند.

اداره پلیس لس آنجلس درخواست می کند. او در چیزی که معمولاً از آن به عنوان اجرای قانون پیشگیرانه یاد می شود ، مشارکت دارد. این الگوریتم با استفاده از گزارشات جرم برای یک دوره زمانی خاص ، مناطقی را که احتمال ارتکاب جنایت در آن بیشتر است ، مشخص می کند. این سیستم چنین مناطقی را در نقشه شهر با مربع های قرمز کوچک مشخص می کند و این داده ها بلافاصله به خودروهای گشت زنی منتقل می شود.

پلیس شیکاگو استفاده از فناوری های کلان دادهبه شیوه ای کمی متفاوت نیروی انتظامی شهر ویندوز نیز همین کار را دارد ، اما هدف آن تعیین "حلقه خطر" افرادی است که ممکن است قربانی یا شرکت کننده در حمله مسلحانه باشند. به گفته نیویورک تایمز ، این الگوریتم بر اساس سابقه جنایی فرد (دستگیری و مشارکت در تیراندازی ، متعلق به گروه های جنایتکار) ، درجه آسیب پذیری را به فرد اختصاص می دهد. توسعه دهنده سیستم اطمینان می دهد که در حالی که سیستم سابقه جنایی یک فرد را مطالعه می کند ، عوامل ثانویه مانند نژاد ، جنسیت ، قومیت و مکان فرد را در نظر نمی گیرد.

6 فناوریهای کلان داده چگونه به توسعه شهرها کمک می کند

مدیرعامل ونیام ، ژائو باروس ، نقشه ردیابی روترهای Wi-Fi در اتوبوس های پورتو را نشان می دهد.

تجزیه و تحلیل داده ها همچنین برای بهبود تعدادی از جنبه های عملکرد شهرها و کشورها استفاده می شود. برای مثال ، با اطلاع دقیق از نحوه و زمان استفاده از فناوری های Big Data ، می توانید جریانهای حمل و نقل را بهینه کنید. برای این منظور ، حرکت آنلاین وسایل نقلیه در نظر گرفته می شود ، رسانه های اجتماعی و داده های هواشناسی مورد تجزیه و تحلیل قرار می گیرد. امروزه ، تعدادی از شهرها از تجزیه و تحلیل داده ها برای ادغام زیرساخت های حمل و نقل با سایر خدمات شهری در یک مجموعه منسجم استفاده کرده اند. این یک مفهوم شهر هوشمند است که در آن اتوبوس ها منتظر قطار دیرهنگام هستند و چراغ های راهنمایی می توانند ازدحام ترافیک را پیش بینی کنند تا ازدحام را به حداقل برسانند.

لانگ بیچ از فناوری های Big Data برای عملکرد کنتورهای آب هوشمند استفاده می کند که برای جلوگیری از آبیاری غیرقانونی استفاده می شود. قبلاً از آنها برای کاهش مصرف آب توسط خانوارهای خصوصی استفاده می شد (حداکثر نتیجه کاهش 80 است). صرفه جویی در مصرف آب شیرین همیشه یک موضوع موضوعی است. به ویژه زمانی که این ایالت بدترین خشکسالی را تجربه کرده است.

نمایندگان اداره حمل و نقل لس آنجلس به لیست افرادی که از Big Data استفاده می کنند پیوستند. بر اساس داده های دریافتی از سنسورهای دوربین های راهنمایی و رانندگی ، مقامات بر عملکرد چراغ های راهنمایی نظارت می کنند ، که به نوبه خود امکان تنظیم ترافیک را می دهد. تحت کنترل یک سیستم کامپیوتری ، حدود 4 میلیون و 500 هزار چراغ راهنمایی در سراسر شهر وجود دارد. طبق ارقام رسمی ، الگوریتم جدید به کاهش تراکم تا 16 درصد کمک کرد.

7 موتور پیشرفت در بازاریابی و فروش

در بازاریابی ، ابزارهای Big Data به شما این امکان را می دهند که مشخص کنید کدام ایده ها در مرحله خاصی از چرخه فروش موثرتر هستند. تجزیه و تحلیل داده ها نشان می دهد که چگونه سرمایه گذاری می تواند مدیریت ارتباط با مشتری را بهبود بخشد ، از چه استراتژی ای برای افزایش نرخ تبدیل استفاده می کند و چگونه می توان چرخه عمر مشتری را بهینه کرد. در تجارت ابری ، از الگوریتم های Big Data برای تعیین چگونگی به حداقل رساندن هزینه جذب مشتری و افزایش چرخه عمر آن استفاده می شود.

تمایز استراتژی های قیمت گذاری بسته به سطح درون سیستم مشتری ، شاید اصلی ترین چیزی است که از Big Data در زمینه بازاریابی استفاده می شود. مک کینزی دریافت که حدود 75 درصد از درآمد متوسط شرکت از محصولات اصلی تأمین می شود که 30 درصد از آنها قیمت نادرستی دارند. افزایش 1 درصدی قیمت به معنی افزایش 8.7 درصدی سود عملیاتی است.

تیم تحقیقاتی فارستر تشخیص داد که تجزیه و تحلیل داده ها به بازاریابان اجازه می دهد تا بر نحوه بهبود روابط با مشتریان تمرکز کنند. با بررسی جهت توسعه مشتری ، متخصصان می توانند میزان وفاداری خود را ارزیابی کنند و همچنین چرخه عمر را در زمینه یک شرکت خاص افزایش دهند.

بهینه سازی استراتژی های فروش و مراحل ورود به بازارهای جدید با استفاده از ژئوآنالیز در صنعت داروهای زیستی منعکس شده است. به گفته مک کینزی ، شرکت های دارویی به طور متوسط 20 تا 30 درصد از سود خود را صرف مدیریت و فروش می کنند. اگر مشاغل فعال تر شروع می شوند از Big Data استفاده کنیدبرای شناسایی سودآورترین و سریع ترین بازارهای در حال رشد ، هزینه ها بلافاصله کاهش می یابد.

تجزیه و تحلیل داده ها وسیله ای برای شرکت ها است تا درک کاملی از جنبه های کلیدی تجارت خود کسب کنند. افزایش درآمدها ، کاهش هزینه ها و کاهش سرمایه در گردش سه چالشی است که مشاغل مدرن با ابزارهای تحلیلی سعی در حل آن دارند.

در نهایت ، 58 C از CMO ها ادعا می کنند که پیاده سازی فناوری های کلان داده را می توان در بهینه سازی موتورهای جستجو (SEO) ، پست الکترونیکی و بازاریابی تلفن همراه جستجو کرد ، جایی که تجزیه و تحلیل داده ها مهمترین نقش را در شکل گیری برنامه های بازاریابی ایفا می کند. و تنها 4 few پاسخ دهندگان کمتر اطمینان دارند که Big Data نقش مهمی در همه استراتژی های بازاریابی برای سالهای آینده ایفا خواهد کرد.

8 تجزیه و تحلیل داده ها در مقیاس سیاره ای

کمتر کنجکاو نیست. ممکن است یادگیری ماشینی در نهایت تنها نیرویی باشد که می تواند تعادل ظریفی را حفظ کند. موضوع تأثیر انسان بر گرمایش زمین هنوز محل بحث و جدل زیادی است ، بنابراین تنها مدلهای پیش بینی معتبر بر اساس تجزیه و تحلیل حجم زیادی از داده ها می توانند پاسخ دقیقی بدهند. در نهایت ، کاهش انتشار گازهای گلخانه ای به همه ما نیز کمک می کند: ما انرژی کمتری صرف خواهیم کرد.

در حال حاضر کلان داده یک مفهوم انتزاعی نیست که ممکن است در چند سال آینده کاربرد خود را پیدا کند. این یک مجموعه کاملاً کارآمد از فناوری است که می تواند تقریباً در همه زمینه های فعالیت انسان مفید باشد: از پزشکی و پلیس گرفته تا بازاریابی و فروش. مرحله ادغام فعال Big Data در زندگی روزمره ما به تازگی آغاز شده است و چه کسی می داند نقش Big Data در چند سال آینده چگونه خواهد بود؟

کلان داده یک اصطلاح گسترده برای استراتژی ها و فناوری های غیرمتعارف مورد نیاز برای جمع آوری ، سازماندهی و پردازش اطلاعات از مجموعه داده های بزرگ است. در حالی که مشکل برخورد با داده هایی که از قدرت پردازش یا ظرفیت ذخیره سازی یک رایانه فراتر می روند جدید نیست ، در سال های اخیر دامنه و ارزش این نوع محاسبات به طور قابل توجهی گسترش یافته است.

در این مقاله ، مفاهیم اولیه ای را که ممکن است هنگام کاوش در داده های بزرگ با آنها مواجه شوید ، خواهید یافت. همچنین برخی از فرایندها و فناوری هایی که در حال حاضر در این زمینه استفاده می شود مورد بحث قرار می گیرد.

بیگ دیتا چیست؟

تعریف دقیق داده های بزرگ دشوار است زیرا پروژه ها ، فروشندگان ، پزشکان و متخصصان تجارت از آن به روش های بسیار متفاوتی استفاده می کنند. با این حساب ، کلان داده را می توان به صورت زیر تعریف کرد:

مجموعه داده های بزرگ
دسته ای از استراتژی ها و فناوری های محاسباتی که برای پردازش مجموعه داده های بزرگ استفاده می شود.

در این زمینه ، "مجموعه داده بزرگ" به معنای مجموعه داده ای است که برای پردازش یا ذخیره با استفاده از ابزارهای سنتی یا روی یک رایانه بسیار بزرگ است. این بدان معناست که مقیاس کلی مجموعه داده های بزرگ دائما در حال تغییر است و می تواند در مورد به مورد به طور قابل توجهی متفاوت باشد.

سیستم های داده بزرگ

الزامات اساسی برای کار با داده های بزرگ مانند سایر مجموعه های داده مشابه است. با این حال ، مقیاس عظیم ، سرعت پردازش و ویژگی های داده هایی که در هر مرحله از فرآیند با آن روبرو می شویم ، چالش های اساسی جدیدی را در طراحی ابزار ایجاد می کند. هدف اکثر سیستم های داده بزرگ ، درک و ارتباط با حجم زیادی از داده های ناهمگن است ، که با روش های متداول امکان پذیر نیست.

در سال 2001 ، داگ لنی گارتنر "سه Vs داده های بزرگ" را برای توصیف برخی از ویژگیهایی که پردازش داده های بزرگ را از سایر انواع پردازش داده ها متمایز می کند ، معرفی کرد:

حجم (حجم داده).
سرعت (سرعت تجمع و پردازش داده ها).
تنوع (انواع داده های پردازش شده).

حجم داده

مقیاس بسیار زیاد اطلاعات پردازش شده به تعریف سیستم های داده بزرگ کمک می کند. این مجموعه داده ها می توانند مرتبه ای بزرگتر از مجموعه داده های سنتی باشند که در هر مرحله از پردازش و ذخیره سازی نیاز به توجه بیشتری دارند.

از آنجا که الزامات از قابلیت های یک رایانه فراتر می رود ، ترکیب ، تخصیص و هماهنگی منابع گروه های رایانه اغلب دشوار است. کنترل خوشه ای و الگوریتم های قادر به تقسیم وظایف به قطعات کوچکتر در این زمینه اهمیت فزاینده ای پیدا می کنند.

سرعت انباشت و پردازش

دومین ویژگی که داده های بزرگ را به طور قابل توجهی از سایر سیستم های داده متمایز می کند ، سرعت حرکت اطلاعات در سیستم است. داده ها اغلب از منابع متعدد وارد سیستم می شوند و برای به روز رسانی وضعیت فعلی سیستم باید در زمان واقعی پردازش شوند.

این تمرکز بر آنی است بازخوردبسیاری از تمرین کنندگان را مجبور کرده است که روش دسته ای را رها کرده و یک سیستم پخش همزمان را انتخاب کنند. داده ها دائماً در حال افزودن ، پردازش و تجزیه و تحلیل هستند تا همگام با هجوم اطلاعات جدید و دریافت داده های ارزشمند در مراحل اولیه ، زمانی که بیشترین اهمیت را دارند ، باشند. این امر به سیستم های قابل اعتماد با اجزای بسیار در دسترس برای محافظت در برابر خرابی در امتداد خط لوله نیاز دارد.

انواع داده های پردازش شده

بسیاری از چالش های منحصر به فرد در داده های بزرگ مربوط به طیف گسترده ای از منابع پردازش شده و کیفیت نسبی آنها است.

داده ها می توانند از سیستم های داخلی مانند گزارش برنامه و سرور ، از کانال های رسانه های اجتماعی و سایر API های خارجی ، از حسگرها تهیه شوند. دستگاه های فیزیکیو از منابع دیگر هدف سیستم های داده بزرگ ، پردازش داده های بالقوه مفید ، صرف نظر از مبدا ، با ترکیب همه اطلاعات در یک سیستم واحد است.

فرمت ها و انواع رسانه ها نیز می تواند به میزان قابل توجهی متفاوت باشد. رسانه ها (تصاویر ، ویدئو و صدا) با فایل های متنی ، گزارش های ساختاری و غیره ترکیب می شوند. سیستم های پردازش داده های سنتی بیشتر انتظار دارند که داده ها وارد خط لوله ای شوند که قبلاً برچسب گذاری ، قالب بندی و سازماندهی شده اند ، اما سیستم های داده بزرگ معمولاً داده ها را پذیرفته و ذخیره می کنند. با تلاش برای حفظ حالت اولیه خود در حالت ایده آل ، هرگونه تغییر یا تغییر در داده های خام در طول پردازش در حافظه رخ می دهد.

سایر خصوصیات

با گذشت زمان ، کارشناسان و سازمانها پیشنهاد گسترش سه V اصلی را داده اند ، اگرچه این نوآوریها بیشتر مشکلات را توصیف می کنند تا ویژگیهای داده های بزرگ.

صحت: تنوع منابع و پیچیدگی پردازش می تواند منجر به ایجاد مشکل در ارزیابی کیفیت داده ها (و در نتیجه کیفیت تجزیه و تحلیل حاصله) شود.
تنوع: تغییر داده ها منجر به تغییرات گسترده ای در کیفیت می شود. شناسایی ، پردازش یا فیلتر کردن داده های با کیفیت پایین ممکن است به منابع بیشتری نیاز داشته باشد که می تواند کیفیت داده ها را بهبود بخشد.
ارزش: هدف نهایی کلان داده ، ارزش است. گاهی اوقات سیستم ها و فرایندها بسیار پیچیده هستند و استفاده از داده ها و استخراج مقادیر واقعی را دشوار می کند.

چرخه عمر داده های بزرگ

بنابراین چگونه داده های بزرگ در واقع پردازش می شوند؟ چندین روش مختلف برای پیاده سازی وجود دارد ، اما شباهت هایی در استراتژی ها و نرم افزار وجود دارد.

وارد کردن اطلاعات به سیستم
ذخیره داده ها در ذخیره سازی
محاسبه و تجزیه و تحلیل داده ها
تجسم نتایج

قبل از بررسی دقیق این چهار دسته گردش کار ، بیایید در مورد محاسبه خوشه ای صحبت کنیم ، یک استراتژی مهم که توسط بسیاری از ابزارهای داده بزرگ مورد استفاده قرار می گیرد. راه اندازی یک خوشه محاسباتی ، ستون فقرات فناوری مورد استفاده در هر مرحله از چرخه زندگی است.

محاسبه خوشه ای

به دلیل کیفیت داده های بزرگ ، رایانه های شخصی برای پردازش داده ها مناسب نیستند. خوشه ها برای این کار مناسب تر هستند ، زیرا می توانند با ذخیره سازی و نیازهای محاسباتی کلان داده کنار بیایند.

نرم افزار خوشه بندی داده های بزرگ منابع بسیاری از ماشین های کوچک را جمع آوری می کند و تعدادی از مزایا را ارائه می دهد:

جمع آوری منابع: پردازش مجموعه داده های بزرگ به مقدار زیادی پردازنده و منابع حافظه و همچنین فضای ذخیره سازی زیاد نیاز دارد.
در دسترس بودن بالا: خوشه ها می توانند سطوح مختلف تحمل خطا و در دسترس بودن را ارائه دهند تا خرابی های سخت افزاری یا نرم افزاری بر دسترسی و پردازش داده ها تأثیر نگذارد. این امر به ویژه برای تجزیه و تحلیل زمان واقعی اهمیت دارد.
مقیاس پذیری: خوشه ها از مقیاس سریع (اضافه کردن ماشین های جدید به خوشه) پشتیبانی می کنند.

کار در یک خوشه به ابزارهایی برای مدیریت عضویت در خوشه ، هماهنگی تخصیص منابع و برنامه ریزی کار با گره های جداگانه نیاز دارد. عضویت در خوشه و تخصیص منابع را می توان با استفاده از برنامه هایی مانند Hadoop YARN (هنوز یک منبع دیگر مذاکره کننده منابع) یا Apache Mesos انجام داد.

یک خوشه محاسباتی از پیش ساخته شده اغلب به عنوان پایه ای عمل می کند که دیگری برای پردازش داده ها با آن تعامل دارد. نرم افزار... ماشینهای شرکت کننده در یک خوشه محاسباتی نیز معمولاً با مدیریت یک سیستم ذخیره سازی توزیع شده مرتبط هستند.

بازیابی داده ها

دریافت داده فرآیند افزودن داده های خام به سیستم است. پیچیدگی این عملیات تا حد زیادی به قالب و کیفیت منابع داده و میزان مطابقت داده ها با الزامات پردازش بستگی دارد.

می توانید داده های بزرگ را با استفاده از ابزارهای ویژه به سیستم اضافه کنید. فناوری هایی مانند Apache Sqoop می توانند داده های موجود را از پایگاه داده های رابطه ای گرفته و به یک سیستم داده بزرگ اضافه کنند. همچنین می توانید از Apache Flume و Apache Chukwa - پروژه هایی برای جمع آوری و وارد کردن گزارش برنامه ها و سرورها استفاده کنید. کارگزاران پیام مانند آپاچی کافکا می توانند به عنوان رابط بین تولیدکنندگان مختلف داده و سیستم کلان داده استفاده شوند. چارچوبی مانند Gobblin می تواند خروجی همه ابزارها را در انتهای خط لوله ترکیب و بهینه کند.

تجزیه و تحلیل ، مرتب سازی و برچسب زدن معمولاً در هنگام جمع آوری داده ها انجام می شود. این فرایند گاهی ETL (استخراج ، تبدیل ، بارگذاری) نامیده می شود که به معنی استخراج ، تبدیل و بارگذاری است. در حالی که این اصطلاح معمولاً به فرایندهای ذخیره سازی داده های قدیمی اشاره دارد ، گاهی اوقات برای سیستم های داده بزرگ نیز کاربرد دارد. عملیات معمولی شامل تغییر داده های ورودی برای قالب بندی ، طبقه بندی و برچسب گذاری ، فیلتر یا اعتبار داده ها برای انطباق است.

در حالت ایده آل ، داده های ورودی از حداقل قالب بندی عبور می کنند.

ذخیره سازی داده ها

پس از دریافت ، داده ها به اجزای مدیریت کننده فروشگاه منتقل می شود.

فایل سیستم های توزیع شده معمولاً برای ذخیره داده های خام استفاده می شوند. راه حل هایی مانند HDFS از Apache Hadoop اجازه می دهد حجم زیادی از داده ها در چندین گره در یک خوشه نوشته شوند. این سیستم منابع محاسباتی با دسترسی به داده ها را فراهم می کند ، می تواند داده ها را برای عملکرد حافظه در RAM خوشه بارگذاری کند و خرابی های قطعات را برطرف کند. سایر فایلهای سیستم توزیع شده را می توان به جای HDFS ، از جمله Ceph و GlusterFS استفاده کرد.

همچنین می توان داده ها را برای دسترسی ساختارمندتر به سایر سیستم های توزیع شده وارد کرد. پایگاه های داده توزیع شده ، به ویژه پایگاه های داده NoSQL ، برای این نقش مناسب هستند زیرا می توانند داده های ناهمگن را اداره کنند. انواع مختلفی از پایگاه های داده توزیع شده وجود دارد ، انتخاب به نحوه سازماندهی و ارائه داده های شما بستگی دارد.

محاسبه و تجزیه و تحلیل داده ها

پس از در دسترس بودن داده ها ، سیستم می تواند پردازش را آغاز کند. لایه محاسباتی شاید آزادترین قسمت سیستم باشد ، زیرا الزامات و رویکردهای اینجا بسته به نوع اطلاعات می تواند تفاوت چشمگیری داشته باشد. داده ها اغلب با یک ابزار واحد یا با طیف وسیعی از ابزارها برای پردازش انواع مختلف داده ها دوباره پردازش می شوند.

پردازش دسته ای یکی از روشهای محاسبه مجموعه داده های بزرگ است. این فرایند شامل تجزیه داده ها به قطعات کوچکتر ، برنامه ریزی پردازش هر قطعه بر روی یک دستگاه جداگانه ، تنظیم مجدد داده ها بر اساس نتایج متوسطو سپس محاسبه و جمع آوری نتیجه نهایی. این استراتژی توسط MapReduce از Apache Hadoop استفاده می شود. پردازش دسته ای در هنگام کار با مجموعه داده های بسیار بزرگ که نیاز به محاسبات زیادی دارند بسیار مفید است.

بارهای دیگر نیاز به پردازش زمان واقعی دارند. در این حالت ، اطلاعات باید بلافاصله پردازش و آماده شوند ، و با در دسترس قرار گرفتن اطلاعات جدید ، سیستم باید به موقع پاسخ دهد. یکی از راه های پیاده سازی پردازش در زمان واقعی ، پردازش یک جریان مداوم از داده ها است عناصر فردی... یکی دیگر از ویژگی های مشترک پردازنده های زمان واقعی محاسبه داده ها در حافظه خوشه است که از نیاز به نوشتن روی دیسک جلوگیری می کند.

Apache Storm ، Apache Flink و Apache Spark ارائه می دهند روش های مختلفپیاده سازی پردازش در زمان واقعی این فناوری های انعطاف پذیر به شما امکان می دهد برای هر کدام بهترین رویکرد را انتخاب کنید یک مشکل جداگانه... به طور کلی ، پردازش زمان واقعی برای تجزیه و تحلیل قطعات کوچک داده ای که تغییر می کنند یا به سرعت به سیستم اضافه می شوند ، مناسب است.

همه این برنامه ها چارچوبی هستند. با این حال ، روش های بسیار دیگری برای محاسبه یا تجزیه و تحلیل داده ها در یک سیستم داده بزرگ وجود دارد. این ابزارها اغلب به چارچوب های بالا متصل می شوند و رابط های بیشتری برای تعامل با لایه های زیرین ارائه می دهند. به عنوان مثال ، Apache Hive یک رابط انبار داده برای Hadoop ، Apache Pig رابط پرس و جو و تعامل با داده های SQLارائه شده با Apache Drill ، Apache Impala ، Apache Spark SQL و Presto. یادگیری ماشین از Apache SystemML ، Apache Mahout و MLlib از Apache Spark استفاده می کند. برای برنامه نویسی تحلیلی مستقیم ، که به طور گسترده توسط اکوسیستم داده پشتیبانی می شود ، از R و پایتون استفاده می شود.

تجسم نتایج

تشخیص روندها یا تغییرات داده ها در طول زمان اغلب مهمتر از مقادیر بدست آمده است. تجسم داده ها یکی از مفیدترین روش ها برای شناسایی روندها و سازماندهی تعداد زیادی از نقاط داده است.

پردازش زمان واقعی برای تجسم معیارهای برنامه و سرور استفاده می شود. داده ها به طور مکرر تغییر می کنند و گسترش گسترده در معیارها معمولاً نشان دهنده تأثیر قابل توجهی بر سلامت سیستم ها یا سازمان ها است. از پروژه هایی مانند پرومته می توان برای پردازش و تجسم جریان داده ها و سری های زمانی استفاده کرد.

یکی از روشهای رایج برای تجسم داده ها ، پشته الاستیک است که قبلاً به عنوان پشته ELK شناخته می شد. Logstash برای جمع آوری داده ها ، Elasticsearch برای نمایه سازی داده ها و Kibana برای تجسم استفاده می شود. پشته الاستیک می تواند با داده های بزرگ کار کند ، نتایج محاسبات را تجسم کند یا با معیارهای خام تعامل داشته باشد. یک پشته مشابه را می توان با ترکیب Apache Solr برای نمایه سازی با یک چنگال کیبانا به نام Banana برای ارائه بدست آورد. این پشته Silk نام دارد.

یکی دیگر از فناوری های تجسم برای کار داده های تعاملی ، اسناد است. چنین پروژه هایی امکان کاوش و تجسم متقابل داده ها را در قالبی فراهم می کند که به اشتراک گذاری و ارائه داده ها آسان است. نمونه های محبوب این نوع رابط ها Jupyter Notebook و Apache Zeppelin هستند.

واژه نامه کلان داده ها

کلان داده یک اصطلاح گسترده برای مجموعه داده است که نمی تواند به درستی پردازش شود کامپیوترهای معمولییا ابزارها به دلیل حجم ، میزان ورود و تنوع. این اصطلاح همچنین معمولاً در مورد فن آوری ها و استراتژی های کار با چنین داده هایی کاربرد دارد.
پردازش دسته ای یک استراتژی محاسباتی است که شامل پردازش داده ها در مجموعه داده های بزرگ است. به طور معمول این روش برای برخورد با داده های غیر فوری ایده آل است.
محاسبات خوشه ای تجمیع منابع چندین ماشین و مدیریت قابلیت های مشترک آنها برای تکمیل وظایف است. این نیاز به یک لایه مدیریت خوشه ای دارد که ارتباط بین گره های جداگانه را مدیریت می کند.
دریاچه داده مخزن بزرگی از داده های جمع آوری شده در وضعیت نسبتاً خام است. این اصطلاح اغلب برای اشاره به داده های بزرگ بدون ساختار و اغلب تغییر می کند.
داده کاوی یک اصطلاح گسترده برای شیوه های مختلف یافتن الگوها در مجموعه داده های بزرگ است. این تلاش برای سازماندهی انبوهی از داده ها به مجموعه ای از اطلاعات قابل درک و منسجم است.
یک انبار داده یک ذخیره بزرگ و منظم برای تجزیه و تحلیل و گزارش است. برخلاف دریاچه داده ، یک انبار شامل داده های قالب بندی شده و منظم است که با منابع دیگر ادغام شده است. اغلب به انبارهای داده در ارتباط با داده های بزرگ اشاره می شود ، اما اغلب اجزای سیستم های پردازش داده معمولی هستند.
ETL (استخراج ، تبدیل و بارگیری) - استخراج ، تبدیل و بارگذاری داده ها. روند بدست آوردن و آماده سازی داده های خام برای استفاده به این شکل است. این مربوط به انبارهای داده است ، اما ویژگی های این فرایند در خط لوله سیستم های داده بزرگ نیز یافت می شود.
Hadoop یک پروژه آپاچی منبع باز برای داده های بزرگ است. این شامل یک سیستم فایل توزیع شده به نام HDFS و یک زمانبند خوشه ای و منابع به نام YARN است. قابلیت های پردازش دسته ای توسط موتور محاسبه MapReduce ارائه می شود. سایر سیستم های محاسبه و تجزیه و تحلیل می توانند با MapReduce در استقرارهای مدرن Hadoop اجرا شوند.
محاسبه درون حافظه یک استراتژی است که شامل انتقال همه مجموعه داده های فعال به حافظه خوشه ای است. محاسبات متوسط بر روی دیسک نوشته نمی شوند ، بلکه در حافظه ذخیره می شوند. این به سیستم ها مزیت سرعت زیادی نسبت به سیستم های مرتبط با ورودی / خروجی می دهد.
یادگیری ماشین مطالعه و تمرین طراحی سیستم هایی است که می توانند بر اساس داده های منتقل شده به آن یاد بگیرند ، تغییر دهند و بهبود دهند. معمولاً این به معنای پیاده سازی الگوریتم های پیش بینی و آماری است.
کاهش نقشه (نباید با Hadoop's MapReduce اشتباه گرفته شود) یک الگوریتم برای زمانبندی یک خوشه محاسبه است. این فرایند شامل تقسیم کار بین گره ها و بدست آوردن نتایج میانی ، مخلوط کردن و سپس خروج یک مقدار واحد برای هر مجموعه است.
NoSQL یک اصطلاح گسترده برای پایگاه های داده است که خارج از مدل رابطه سنتی ساخته شده است. پایگاه های داده NoSQL به دلیل انعطاف پذیری و معماری توزیع شده برای داده های بزرگ مناسب هستند.
جریان جریان محاسبه تک تک داده ها در حین حرکت در سیستم است. این امکان تجزیه و تحلیل داده های زمان واقعی را فراهم می کند و برای رسیدگی به معاملات فوری با استفاده از معیارهای سرعت بالا مناسب است.

برچسب ها :،

پیش بینی شده بود که حجم کلی داده های ایجاد شده و تکثیر شده در سال 2011 می تواند حدود 1.8 زتابایت (1.8 تریلیون گیگابایت) باشد - حدود 9 برابر بیشتر از آنچه در سال 2006 ایجاد شد.

تعریف پیچیده تر

با این حال ، ` اطلاعات بزرگ`شامل تجزیه و تحلیل حجم وسیعی از اطلاعات نیست. مشکل این نیست که سازمانها حجم عظیمی از داده ها را ایجاد می کنند ، بلکه بیشتر آنها در قالبی ارائه می شوند که به خوبی با قالب پایگاه داده ساختار یافته سنتی مطابقت ندارد ، مانند وبلاگ ها ، فیلم ها ، اسناد متنی ، کد ماشین یا ، برای مثال ، داده های جغرافیایی. ... همه اینها در مخازن مختلف ، گاهی حتی در خارج از سازمان ذخیره می شود. در نتیجه ، شرکت ها ممکن است به حجم عظیمی از داده های خود دسترسی داشته باشند و از ابزار لازم برای برقراری ارتباط بین آن داده ها و نتیجه گیری معنی دار از آن ، بی بهره باشند. این را به این واقعیت اضافه کنید که داده ها اکنون بیشتر و بیشتر به روز می شوند و وضعیتی به دست می آید که در آن روش های سنتی تجزیه و تحلیل اطلاعات نمی توانند با حجم عظیمی از داده های دائماً به روز شده همگام شوند ، که در نهایت راه را برای فناوری باز می کند. اطلاعات بزرگ.

بهترین تعریف

در اصل ، مفهوم اطلاعات بزرگبه معنای کار با اطلاعات حجم وسیع و ترکیب متنوع است که اغلب به روز می شود و در منابع مختلف قرار می گیرد تا کارایی کار افزایش یابد ، محصولات جدید ایجاد شود و رقابت پذیری افزایش یابد. شرکت مشاوره ای Forrester خلاصه می کند: ` اطلاعات بزرگترکیبی از تکنیک ها و فناوری هایی که به داده ها در حد بسیار محدود قابلیت استفاده می پردازد. '

تفاوت بین هوش تجاری و کلان داده چقدر است؟

کریگ باتی ، مدیر بازاریابی و مدیر ارشد فناوری فوجیتسو استرالیا ، اشاره کرد که تجزیه و تحلیل کسب و کار یک فرایند توصیفی از تجزیه و تحلیل نتایج حاصله از یک کسب و کار در یک دوره زمانی و در عین حال سرعت پردازش است. اطلاعات بزرگبه شما امکان می دهد تجزیه و تحلیل را پیش بینی کنید و بتوانید توصیه های تجاری را برای آینده ارائه دهید. داده های بزرگ همچنین به شما امکان می دهد انواع بیشتری از داده ها را در مقایسه با ابزارهای هوش تجاری تجزیه و تحلیل کنید ، که این امکان را برای تمرکز بر مواردی بیشتر از ذخیره سازی ساختار یافته فراهم می کند.

مت اسلوکوم از O "Reilly Radar معتقد است که اگرچه اطلاعات بزرگو هوش تجاری دارای یک هدف هستند (یافتن پاسخ به یک س )ال) ، آنها از سه جنبه با یکدیگر تفاوت دارند.

کلان داده به گونه ای طراحی شده است که اطلاعات بیشتری را نسبت به هوش تجاری اداره می کند و البته این مطابق با تعریف سنتی کلان داده است.
کلان داده برای پردازش اطلاعات دریافت شده و سریعتر طراحی شده است ، که به معنی اکتشاف و تعامل عمیق است. در برخی موارد ، نتایج سریعتر از بارگذاری صفحه وب تولید می شوند.
داده های بزرگ برای رسیدگی به داده های بدون ساختار طراحی شده است ، روشهایی که ما تنها پس از آنکه توانستیم آنها را جمع آوری و ذخیره کنیم ، شروع به کاوش می کنیم و برای تسهیل جستجوی روندهای موجود در این آرایه ها به الگوریتم ها و توانایی گفتگو نیاز داریم.

با توجه به معماری اطلاعات اوراکل: راهنمای معمار در زمینه داده های بزرگ که توسط اوراکل منتشر شده است ، ما هنگام کار با داده های بزرگ نسبت به هنگام تجزیه و تحلیل کسب و کار به طور متفاوتی با اطلاعات برخورد می کنیم.

کار با داده های بزرگ مانند فرایند معمول هوش تجاری نیست ، جایی که افزودن ساده مقادیر شناخته شده نتیجه ای را ایجاد می کند: به عنوان مثال ، مجموع داده های فاکتورهای پرداخت شده به حجم فروش سال تبدیل می شود. هنگام کار با داده های بزرگ ، نتیجه در فرایند تمیز کردن آن از طریق مدل سازی متوالی به دست می آید: ابتدا یک فرضیه مطرح می شود ، یک مدل آماری ، بصری یا معنایی ساخته می شود که بر اساس آن صحت فرضیه ارائه شده بررسی می شود ، و سپس مورد بعدی ارائه می شود. این فرایند از محقق می خواهد که ارزشهای بصری را تفسیر کند یا پرسشهای تعاملی را بر اساس دانش بسازد ، یا الگوریتم های یادگیری ماشین تطبیقی ایجاد کند که بتواند نتیجه دلخواه را به دست آورد. علاوه بر این ، عمر چنین الگوریتمی می تواند بسیار کوتاه باشد.

تکنیک های تجزیه و تحلیل داده های بزرگ

روشهای مختلفی برای تجزیه و تحلیل مجموعه داده ها وجود دارد که مبتنی بر ابزارهایی است که از آمار و علوم رایانه (به عنوان مثال یادگیری ماشین) گرفته شده است. این فهرست ادعا نمی کند که کامل است ، اما منعکس کننده محبوب ترین رویکردها در صنایع مختلف است. در عین حال ، باید درک کرد که محققان به کار بر روی ایجاد روشهای جدید و بهبود روشهای موجود ادامه می دهند. علاوه بر این ، برخی از روشهای ذکر شده در بالا لزوماً منحصراً برای داده های بزرگ کاربرد ندارند و می توانند با موفقیت برای آرایه های کوچکتر استفاده شوند (به عنوان مثال ، آزمایش A / B ، تحلیل رگرسیون). البته ، هرچه آرایه حجیم تر و متنوع تر تجزیه و تحلیل شود ، می توان داده های دقیق تر و مرتبط تری را در خروجی به دست آورد.

تست A / B... تکنیکی که در آن یک نمونه کنترل یک به یک با دیگران مقایسه می شود. بنابراین ، می توان ترکیب بهینه شاخص ها را شناسایی کرد تا به عنوان مثال ، بهترین پاسخ مصرف کننده به یک پیشنهاد بازاریابی را بدست آورد. اطلاعات بزرگبه شما امکان می دهد تعداد زیادی تکرار را انجام دهید و بنابراین نتیجه آماری قابل اعتماد را بدست آورید.

یادگیری قوانین انجمن... مجموعه ای از تکنیک ها برای شناسایی روابط ، به عنوان مثال قوانین ارتباط بین متغیرها در مجموعه داده های بزرگ مورد استفاده در داده کاوی.

طبقه بندی... مجموعه ای از تکنیک ها که به شما امکان می دهد رفتار مصرف کننده را در بخش خاصی از بازار (تصمیم گیری در مورد خرید ، خروج ، مصرف و غیره) پیش بینی کنید. مورد استفاده در داده کاوی.

آنالیز خوشه ای... یک روش آماری برای طبقه بندی اشیاء به گروه ها با شناسایی ویژگی های مشترک ناشناخته قبلی. مورد استفاده در داده کاوی.

جمع آوری اطلاعات... روش جمع آوری داده ها از تعداد زیادی از منابع.

ادغام داده ها و ادغام داده ها... مجموعه ای از تکنیک ها که به شما امکان می دهد نظرات کاربران شبکه های اجتماعی را تجزیه و تحلیل کرده و آنها را با نتایج فروش در زمان واقعی مقایسه کنید.

داده کاوی... مجموعه ای از روشها که به شما امکان می دهد دسته بندی مصرف کنندگان را که بیشترین استقبال را برای محصول یا خدمات مورد نظر دارند ، تعیین کنید ، ویژگی های موفق ترین کارکنان را مشخص کرده و مدل رفتاری مصرف کنندگان را پیش بینی کنید.

یادگیری گروهی... این روش از انواع مدل های پیش بینی استفاده می کند و در نتیجه کیفیت پیش بینی ها را بهبود می بخشد.

الگوریتم های ژنتیک... در این تکنیک ، راه حل های ممکن در قالب "کروموزوم" ارائه می شود ، که می تواند ترکیب شده و جهش یابد. همانطور که در روند تکامل طبیعی ، قوی ترین آنها زنده می مانند.

فراگیری ماشین... جهت در انفورماتیک (از لحاظ تاریخی ، نام "هوش مصنوعی" به آن اختصاص داده شد) ، که هدف آن ایجاد الگوریتم های خودآموزی بر اساس تجزیه و تحلیل داده های تجربی است.

پردازش زبان طبیعی (NLP) مجموعه ای از تکنیک ها برای تشخیص زبان طبیعی افراد وام گرفته از علوم کامپیوتر و زبان شناسی.

تجزیه و تحلیل شبکه... مجموعه ای از تکنیک ها برای تجزیه و تحلیل ارتباطات بین گره ها در شبکه ها. با توجه به شبکه های اجتماعی ، به شما امکان می دهد روابط بین کاربران ، شرکت ها ، جوامع و غیره را تجزیه و تحلیل کنید.

بهینه سازی... مجموعه ای از روش های عددی برای طراحی مجدد سیستم ها و فرآیندهای پیچیده برای بهبود یک یا چند معیار. به تصمیمات استراتژیک کمک می کند ، به عنوان مثال ، ترکیب خط تولید معرفی شده به بازار ، انجام تجزیه و تحلیل سرمایه گذاری و غیره.

الگو شناسی... مجموعه ای از تکنیک ها با عناصر خودآموزی برای پیش بینی الگوهای رفتاری مصرف کننده.

مدل سازی پیش بینی کننده... مجموعه ای از تکنیک ها که به شما امکان ایجاد می دهد مدل ریاضیسناریوی احتمالی از پیش تعیین شده برای توسعه رویدادها. به عنوان مثال ، تجزیه و تحلیل پایگاه داده یک سیستم CRM برای شرایط احتمالی که مشترکان را مجبور به تغییر ارائه دهنده خود می کند.

پسرفت... مجموعه ای از روشهای آماری برای شناسایی الگوهای بین تغییر متغیر وابسته و یک یا چند متغیر مستقل. اغلب برای پیش بینی و پیش بینی استفاده می شود. در داده کاوی استفاده می شود.

تجزیه و تحلیل احساسات... روشهای ارزیابی احساسات مصرف کننده مبتنی بر فناوری هایی برای تشخیص زبان طبیعی افراد است. آنها به شما امکان می دهند پیامهای کلی جریان اطلاعات مربوط به موضوع مورد علاقه (به عنوان مثال ، یک محصول مصرفی) را جدا کنید. در مرحله بعد ، قطبیت قضاوت (مثبت یا منفی) ، میزان احساسی بودن و غیره را ارزیابی کنید.

پردازش سیگنال... مجموعه ای از تکنیک ها از مهندسی رادیو وام گرفته شده است ، که هدف از شناسایی سیگنال در برابر سر و صدا و تجزیه و تحلیل بیشتر آن را دنبال می کند.

تجزیه و تحلیل فضایی... مجموعه ای از روش ها برای تجزیه و تحلیل داده های فضایی ، تا حدی از آمار وام گرفته شده است - توپولوژی زمین ، مختصات جغرافیایی، هندسه اجسام. منبع اطلاعات بزرگدر این مورد ، اغلب از سیستم های اطلاعات جغرافیایی (GIS) استفاده می شود.

انقلاب تجزیه و تحلیل (بر اساس زبان R برای آمار ریاضی).

Apache Hadoop ، یک نرم افزار منبع باز است که در پنج سال گذشته به عنوان یک تجزیه و تحلیل داده ثابت شده است. به محض اینکه یاهو کد Hadoop را برای جامعه منبع باز باز کرد ، یک خط جدید Hadoop در صنعت فناوری اطلاعات وجود داشت. تقریباً همه ابزارهای تجزیه و تحلیل مدرن اطلاعات بزرگابزارهایی را برای ادغام با Hadoop ارائه دهید. توسعه دهندگان آنها هم استارتاپ هستند و هم شرکت های معروف جهانی.

بازارهای مدیریت داده های بزرگ

پلتفرم های کلان داده (BDP ، بستر داده بزرگ) به عنوان وسیله ای برای مقابله با آکورد های دیجیتال

توانایی تجزیه و تحلیل اطلاعات بزرگ، که در محاوره ای Big Data نامیده می شود ، به عنوان یک نعمت تلقی می شود و بدون ابهام. اما آیا واقعاً اینطور است؟ تجمع بی رویه داده ها می تواند به چه چیزی منجر شود؟ به احتمال زیاد به آنچه روانشناسان داخلی از آن به عنوان احتکار پاتولوژیک فرد ، سیلوگمانیا یا به طور مجازی "سندرم پلوشکین" یاد می کنند ، یاد می کنند. در انگلیسی ، اشتیاق شریرانه برای جمع آوری همه چیز را هوردینگ می گویند (از انگلیسی hoard - "سهام"). با توجه به طبقه بندی بیماری های روانی ، هوردینگ به عنوان یک اختلال روانی طبقه بندی می شود. در عصر دیجیتال ، دیجیتال (Digital Hoarding) به گفته های سنتی اضافه می شود ، هم افراد و هم کل شرکت ها و سازمان ها می توانند از آن رنج ببرند ().

بازار جهانی و روسیه

چشم انداز داده های بزرگ - تامین کنندگان عمده

علاقه به ابزارهای جمع آوری ، پردازش ، مدیریت و تجزیه و تحلیل اطلاعات بزرگتقریباً همه شرکت های برجسته فناوری اطلاعات را نشان داد ، که کاملاً طبیعی است. اولا ، آنها مستقیماً در تجارت خود با این پدیده روبرو می شوند ، و ثانیاً ، اطلاعات بزرگفرصتهای بسیار خوبی را برای توسعه بازارهای جدید و جذب مشتریان جدید باز کنید.

استارتاپ های زیادی در بازار ظاهر شده اند که در زمینه پردازش حجم عظیمی از داده ها فعالیت می کنند. برخی از آنها از زیرساخت ابری خارج از قفسه استفاده می کنند که توسط بازیگران اصلی مانند آمازون ارائه شده است.

نظریه و عملکرد کلان داده در صنایع

تاریخچه توسعه

2017

پیش بینی TmaxSoft: "موج" بعدی داده های بزرگ نیاز به نوسازی DBMS دارد

مشاغل می دانند که حجم عظیمی از داده هایی که جمع آوری کرده اند شامل می شود اطلاعات مهمدر مورد تجارت و مشتریان خود اگر شرکتی بتواند این اطلاعات را با موفقیت به کار گیرد ، مزیت قابل توجهی نسبت به رقبا خواهد داشت و می تواند محصولات و خدمات بهتری نسبت به آنها ارائه دهد. با این حال ، بسیاری از سازمان ها هنوز قادر به استفاده موثر نیستند اطلاعات بزرگبه دلیل این واقعیت که زیرساخت فناوری اطلاعات قدیمی آنها قادر به ارائه ظرفیت ذخیره سازی لازم ، فرآیندهای تبادل داده ، ابزارها و برنامه های کاربردی لازم برای پردازش و تجزیه و تحلیل حجم زیادی از داده های بدون ساختار برای استخراج اطلاعات ارزشمند از آنها نیست ، که در TmaxSoft نشان داده شده است.

علاوه بر این ، افزایش قدرت پردازشی مورد نیاز برای تجزیه و تحلیل مقادیر روزافزون داده ها می تواند به سرمایه گذاری قابل توجهی در زیرساخت فناوری اطلاعات سازمانی و همچنین منابع نگهداری اضافی که می تواند برای توسعه برنامه ها و خدمات جدید استفاده شود ، نیاز داشته باشد.

در 5 فوریه 2015 ، کاخ سفید گزارشی منتشر کرد که در آن نحوه استفاده شرکت ها از " اطلاعات بزرگ"برای تعیین قیمت های مختلف برای خریداران مختلف - عملی که به" تبعیض قیمت "یا" قیمت گذاری متمایز "(قیمت گذاری شخصی) معروف است. این گزارش مزایای "کلان داده" را برای فروشندگان و خریداران شرح می دهد و نویسندگان آن به این نتیجه می رسند که بسیاری از مسائل مشکل زایی که در ارتباط با ظهور کلان داده و قیمت گذاری متفاوت بوجود آمده است ، می تواند در چارچوب روشهای موجود ضد مشکل حل شود. قوانین و قوانین تبعیض. حمایت از حقوق مصرف کننده.

در این زمان ، این گزارش اشاره می کند که شواهد کمی در مورد نحوه استفاده شرکت ها از داده های بزرگ در زمینه بازاریابی شخصی و قیمت گذاری متفاوت وجود دارد. این اطلاعات نشان می دهد که فروشندگان از روش های قیمت گذاری استفاده می کنند که می تواند به سه دسته تقسیم شود:

مطالعه منحنی تقاضا ؛
هدایت و قیمت گذاری متفاوت بر اساس داده های جمعیت شناختی ؛ و
هدف گذاری رفتاری و قیمت گذاری فردی.

بررسی منحنی تقاضا: بازاریابان اغلب با تقاضا و رفتار مصرف کننده با اختصاص تصادفی مشتریان به یکی از دو ردیف قیمت احتمالی آزمایش می کنند. از نظر فنی ، این آزمایش ها نوعی قیمت گذاری متفاوت هستند ، زیرا قیمت های متفاوتی را برای مشتریان به دنبال دارند ، حتی اگر "بدون تبعیض" نباشند ، به این معنا که همه مشتریان به همان اندازه احتمال دارد "قیمت بالاتری" را وارد کنند. "

فرمان: این عمل ارائه محصولات به مصرف کنندگان بر اساس گروه جمعیتی آنها است. به عنوان مثال ، وب سایت یک شرکت کامپیوتری ممکن است همان لپ تاپ را ارائه دهد. انواع متفاوتخریداران با قیمت های مختلف بر اساس اطلاعاتی که در مورد خود ارائه می دهند (به عنوان مثال ، بسته به اینکه این کاربر نماینده سازمان های دولتی ، موسسات علمی یا تجاری یا شخص خصوصی باشد) یا موقعیت جغرافیایی آنها (برای مثال ، توسط IP -آدرس رایانه تعیین می شود).

بازاریابی رفتاری هدفمند و قیمت گذاری شخصی: در این موارد ، از اطلاعات شخصی خریداران برای تبلیغات هدفمند و قیمت گذاری شخصی محصولات خاص استفاده می شود. به عنوان مثال ، تبلیغ کنندگان آنلاین از جمع آوری شده استفاده می کنند شبکه های تبلیغاتیو از طریق کوکی های شخص ثالث ، اطلاعات مربوط به فعالیت کاربران در اینترنت به منظور ارسال مطالب تبلیغاتی هدفمند. این رویکرد ، از یک سو ، مصرف کنندگان را قادر می سازد تا تبلیغات کالاها و خدمات مورد علاقه خود را دریافت کنند. با این حال ، ممکن است باعث نگرانی آن دسته از مصرف کنندگان شود که انواع خاصی از داده های شخصی خود را نمی خواهند (مانند اطلاعات مربوط به بازدید از وب سایت های متصل با مسائل پزشکی و مالی) بدون رضایت آنها ملاقات کردند.

در حالی که بازاریابی رفتاری هدفمند گسترده است ، شواهد نسبتاً کمی در مورد قیمت گذاری شخصی در محیط آنلاین وجود دارد. این گزارش نشان می دهد که این ممکن است به این دلیل باشد که هنوز روشهای مناسب در حال توسعه است یا این واقعیت که شرکتها برای استفاده از قیمت گذاری فردی عجله ندارند (یا ترجیح می دهند در مورد آن سکوت نکنند) - شاید از ترس واکنش منفی مصرف کنندگان. به

نویسندگان گزارش معتقدند که "برای مصرف کننده فردی ، استفاده از داده های بزرگ بدون شک با بازده بالقوه و خطرات همراه است." این گزارش ضمن تشخیص اینکه در استفاده از داده های بزرگ مسائل شفافیت و تبعیض وجود دارد ، استدلال می کند که قوانین موجود علیه تبعیض و حمایت از حقوق مصرف کنندگان برای رسیدگی به آنها کافی است. با این حال ، این گزارش همچنین بر ضرورت "نظارت مستمر" در زمانی که شرکت ها از اطلاعات محرمانه به روش مبهم یا به شیوه هایی که تحت پوشش چارچوب مقررات موجود نیستند ، تأکید می کند.

این گزارش پیگیری تلاش های کاخ سفید برای بررسی استفاده از داده های بزرگ و قیمت گذاری تبعیض آمیز در اینترنت و پیامدهای آنها برای مصرف کنندگان آمریکایی است. پیشتر گزارش شده بود که گروه کاری کاخ سفید در زمینه داده های بزرگ گزارش خود را در این مورد در ماه مه 2014 منتشر کرد. کمیسیون تجارت فدرال (FTC) نیز در سمینار سپتامبر 2014 خود در زمینه تبعیض در رابطه با استفاده از داده های بزرگ به این مسائل پرداخت.

2014

گارتنر افسانه های Big Data را از بین می برد

خلاصه خط مشی Gartner's Fall 2014 تعدادی از افسانه های رایج درباره Big Data را در میان CIO ها فهرست کرده و آنها را رد می کند.

همه سیستم های پردازش داده های بزرگ را سریعتر از ما پیاده سازی می کنند

علاقه به فناوری های کلان داده در بالاترین حد خود قرار دارد: 73 درصد از سازمان هایی که امسال توسط تحلیلگران گارتنر مورد بررسی قرار گرفته اند ، در حال سرمایه گذاری در پروژه های مرتبط هستند یا قصد انجام آن را دارند. اما اکثر این ابتکارات هنوز در مراحل اولیه خود هستند و تنها 13 درصد از افرادی که مورد بررسی قرار گرفته اند چنین راه حل هایی را پیاده کرده اند. سخت ترین بخش این است که بدانید چگونه از Big Data درآمد ایجاد کنید ، تصمیم بگیرید که از کجا شروع کنید. بسیاری از سازمانها در مرحله آزمایشی گیر می افتند زیرا نمی توانند پیوست شوند تکنولوژی جدیدبه فرآیندهای تجاری خاص

ما آنقدر داده داریم که نیازی به نگرانی در مورد خطاهای کوچک در آن نیست.

برخی از CIO ها معتقدند که شکاف داده های کوچک بر نتایج کلی حجم زیادی از تجزیه و تحلیل تأثیر نمی گذارد. تحلیلگران می گویند وقتی داده های زیادی وجود داشته باشد ، هر خطای فردی واقعاً بر نتیجه کمتر تأثیر می گذارد ، اما خود خطاها بیشتر می شوند. علاوه بر این ، اکثر داده های تجزیه و تحلیل شده خارجی ، با ساختار یا منشأ ناشناخته هستند ، بنابراین احتمال خطاها افزایش می یابد. بنابراین ، در دنیای Big Data ، کیفیت در واقع بسیار مهمتر است.

فناوری های کلان داده نیاز به یکپارچه سازی داده ها را برطرف می کند

Big Data توانایی پردازش داده ها در قالب بومی با ایجاد طرحواره خودکار را هنگام خواندن وعده می دهد. اعتقاد بر این است که این امر امکان تجزیه و تحلیل اطلاعات از منابع مشابه با استفاده از مدلهای داده متعدد را فراهم می آورد. بسیاری معتقدند که این امر به کاربران نهایی این امکان را می دهد تا هر مجموعه داده ای را که مناسب می دانند تفسیر کنند. در واقع ، اغلب کاربران اغلب به رویکرد سنتی مبتنی بر طرح واره نیاز دارند که در آن داده ها به طور مناسب قالب بندی شده اند و توافقاتی در زمینه یکپارچگی اطلاعات و نحوه ارتباط آنها با مورد استفاده وجود دارد.

استفاده از انبارهای داده برای تجزیه و تحلیل پیچیده فایده ای ندارد

بسیاری از مدیران سیستم های مدیریت اطلاعات معتقدند که با توجه به اینکه سیستم های تحلیلی پیچیده از انواع جدید داده ها استفاده می کنند ، هدر دادن زمان برای ساخت یک انبار داده هیچ فایده ای ندارد. در واقع ، بسیاری از سیستم های تجزیه و تحلیل پیچیده از اطلاعات یک انبار داده استفاده می کنند. در موارد دیگر ، انواع جدید داده ها باید برای تجزیه و تحلیل در سیستم های پردازش داده های بزرگ آماده شوند. شما باید در مورد مناسب بودن داده ها ، اصول تجمیع و سطح مورد نیاز کیفیت تصمیم بگیرید - چنین آماده سازی می تواند در خارج از انبار انجام شود.

دریاچه های داده جایگزین انبارهای داده می شود

در واقع ، فروشندگان با قرار دادن دریاچه های داده به عنوان جایگزین ذخیره سازی یا زیرساخت های تحلیلی مهم ، مشتریان را گمراه می کنند. فن آوری های زیر بنایی دریاچه فاقد بلوغ و وسعت عملکرد ذاتی در ذخیره سازی است. بنابراین ، به گفته گارتنر ، رهبران مدیریت داده باید منتظر بمانند تا دریاچه ها به همان سطح توسعه برسند.

Accenture: 92٪ از کسانی که سیستم های داده بزرگ را پیاده سازی کرده اند از نتیجه راضی هستند

از جمله مزایای اصلی کلان داده ، پاسخ دهندگان موارد زیر را ذکر کردند:

"جستجوی منابع جدید درآمد" (56)) ،
"بهبود تجربه مشتری" (51) ،
"محصولات و خدمات جدید" (50) و
"هجوم مشتریان جدید و حفظ وفاداری مشتریان قدیمی" (47).

بسیاری از شرکت ها هنگام معرفی فناوری های جدید با چالش های سنتی روبرو شده اند. برای 51، ، مانع برای امنیت ، برای 47 - - بودجه ، برای 41 - - فقدان پرسنل لازم و برای 35 - - مشکلات ادغام با سیستم موجود بود. تقریباً همه شرکت های مورد بررسی (حدود 91 درصد) قصد دارند به زودی مشکل را با کمبود پرسنل حل کرده و متخصصان کلان داده را استخدام کنند.

شرکتها نسبت به آینده فناوری کلان داده خوشبین هستند. 89 درصد معتقدند که تجارت را به اندازه اینترنت تغییر خواهند داد. 79 درصد از پاسخ دهندگان خاطرنشان کردند که شرکت هایی که داده های بزرگ انجام نمی دهند ، مزیت رقابتی خود را از دست خواهند داد.

با این حال ، پاسخ دهندگان در مورد اینکه دقیقاً چه چیزی باید داده بزرگ محسوب شود ، اختلاف نظر داشتند. 65٪ از پاسخ دهندگان معتقدند که این "پرونده های داده بزرگ" است ، 60٪ معتقدند که "تجزیه و تحلیل و تجزیه و تحلیل پیشرفته" است و 50٪ معتقدند که "داده های ابزار تجسم" است.

مادرید 14.7 میلیون یورو برای مدیریت داده های بزرگ هزینه می کند

در جولای 2014 مشخص شد که مادرید از فناوری های کلان داده برای مدیریت زیرساخت های شهری استفاده خواهد کرد. هزینه پروژه 14.7 میلیون یورو است ، اساس راه حل های اجرا شده فناوری هایی برای تجزیه و تحلیل و مدیریت داده های بزرگ خواهد بود. با کمک آنها مدیریت شهریکار با هر ارائه دهنده خدمات را مدیریت می کند و بسته به سطح خدمات ، بر اساس آن هزینه می پردازد.

ما در مورد پیمانکاران دولت صحبت می کنیم که وضعیت خیابان ها ، روشنایی ، آبیاری ، فضاهای سبز ، تمیز کردن منطقه و حذف و بازیافت زباله را زیر نظر دارند. در طول پروژه ، 300 شاخص کلیدی عملکرد خدمات شهری برای بازرسان ویژه تعیین شد که بر اساس آنها روزانه 1.5 هزار بررسی و اندازه گیری مختلف انجام می شود. علاوه بر این ، شهر استفاده از یک پلت فرم فناوری نوآورانه به نام Madrid iNTeligente (MiNT) - Smarter Madrid را آغاز خواهد کرد.

2013

کارشناسان: Big Data Peak Fashion

بدون استثنا ، همه فروشندگان در بازار مدیریت داده در حال توسعه فناوری هایی برای مدیریت داده های بزرگ هستند. این روند جدید تکنولوژیکی همچنین به طور فعال توسط جامعه حرفه ای مورد بحث قرار گرفته است ، هم توسعه دهندگان و هم تحلیلگران صنعت و مصرف کنندگان احتمالی چنین راه حل هایی.

همانطور که Datashift دریافت ، از ژانویه 2013 ، موجی از بحث در مورد " اطلاعات بزرگ"از همه ابعاد قابل تصور فراتر رفته است. پس از تجزیه و تحلیل تعداد ذکر داده های بزرگ در شبکه های اجتماعی ، Datashift محاسبه کرد که در سال 2012 این اصطلاح در پست های ایجاد شده توسط حدود 1 میلیون نویسنده مختلف در سراسر جهان حدود 2 میلیارد بار استفاده شده است. این برابر است با 260 پست در ساعت ، با حداکثر 3070 اشاره در ساعت.

گارتنر: هر دومین CIO آماده است که برای داده های بزرگ هزینه کند

گارتنر پیش بینی می کند ، پس از چندین سال آزمایش با فناوری های داده های بزرگ و اولین اجرای آن در سال 2013 ، سازگاری چنین راه حل هایی به میزان قابل توجهی افزایش می یابد. محققان با بررسی رهبران فناوری اطلاعات در سراسر جهان دریافتند که 42 درصد از پاسخ دهندگان قبلاً در فناوری های داده بزرگ سرمایه گذاری کرده اند یا قصد دارند چنین سرمایه گذاری هایی را در سال آینده انجام دهند (داده ها از مارس 2013).

شرکت ها مجبورند برای فناوری های پردازش هزینه کنند اطلاعات بزرگاز آنجا که چشم انداز اطلاعات به سرعت در حال تغییر است ، من نیاز به رویکردهای جدیدی برای پردازش اطلاعات دارم. بسیاری از شرکت ها قبلاً متوجه شده اند که داده های بزرگ بسیار مهم هستند و کار با آنها به شما امکان می دهد با استفاده از منابع سنتی اطلاعات و روشهای پردازش آن به مزایایی دست پیدا کنید. علاوه بر این ، اغراق مستمر در موضوع "کلان داده" در رسانه ها علاقه به فناوری های مرتبط را افزایش می دهد.

فرانک بوتیدنیک ، نایب رئیس گارتنر ، حتی از شرکت ها خواست تا اشتیاق خود را تعدیل کنند ، زیرا برخی نگران هستند که در پذیرش داده های بزرگ از رقبا عقب هستند.

او گفت: "هیچ نگرانی وجود ندارد ، امکانات پیاده سازی ایده ها بر اساس فناوری های داده بزرگ تقریباً بی پایان است."

گارتنر پیش بینی می کند که تا سال 2015 ، 20 درصد از شرکت های 1000 گلوبال تمرکز استراتژیک خود را بر "زیرساخت اطلاعات" خواهند گذاشت.

در انتظار فرصت های جدیدی که فناوری های پردازش داده های بزرگ به ارمغان خواهد آورد ، بسیاری از سازمان ها در حال حاضر فرآیند جمع آوری و ذخیره انواع مختلف اطلاعات را سازماندهی کرده اند.

برای سازمانهای آموزشی و دولتی و همچنین شرکتهای صنعت ، بزرگترین پتانسیل تحول در کسب و کار در ترکیب داده های انباشته با داده های به اصطلاح تاریک (به معنای واقعی کلمه - "داده های تاریک") نهفته است ، دومی شامل پیام ها می شود. پست الکترونیک، چند رسانه ای و سایر مطالب مشابه. به گفته گارتنر ، این کسانی هستند که یاد می گیرند با انواع مختلف منابع اطلاعاتی کار کنند ، برنده مسابقه داده خواهند شد.

بررسی سیسکو: داده های بزرگ به افزایش بودجه فناوری اطلاعات کمک می کند

در یک نظرسنجی بهار 2013 ، Cisco Connected World Technology Report که در 18 کشور توسط شرکت تحلیلی مستقل InsightExpress انجام شد ، 1800 دانشجوی کالج و تعداد مشابهی از متخصصان جوان 18 تا 30 ساله مورد بررسی قرار گرفتند. این نظرسنجی برای آگاهی از میزان آمادگی بخش های فناوری اطلاعات برای اجرای پروژه ها انجام شد اطلاعات بزرگو در مورد چالش های مرتبط ، شکاف های فناوری و ارزش استراتژیک چنین پروژه هایی بینش کسب کنید.

اکثر شرکت ها داده ها را جمع آوری ، ثبت و تحلیل می کنند. با این وجود ، در گزارش آمده است ، بسیاری از شرکت ها با مجموعه ای از چالش های پیچیده تجاری و فناوری اطلاعات در ارتباط با Big Data مواجه هستند. به عنوان مثال ، 60 درصد از شرکت کنندگان در نظرسنجی اذعان دارند که راه حل های داده بزرگ می تواند فرآیندهای تصمیم گیری را بهبود بخشد و رقابت پذیری را افزایش دهد ، اما تنها 28 درصد اظهار داشتند که از اطلاعات انباشته مزایای استراتژیک واقعی دریافت می کنند.

بیش از نیمی از مدیران فناوری اطلاعات مورد بررسی معتقدند که پروژه های Big Data به افزایش بودجه فناوری اطلاعات در سازمان های آنها کمک می کند ، زیرا نیازهای بیشتری برای فن آوری ، پرسنل و مهارت های حرفه ای وجود دارد. در عین حال ، بیش از نیمی از پاسخ دهندگان انتظار دارند که چنین پروژه هایی بودجه فناوری اطلاعات را در شرکت های آنها تا سال 2012 افزایش دهند. 57 درصد اطمینان دارند که Big Data بودجه خود را طی سه سال آینده افزایش می دهد.

81 درصد از پاسخ دهندگان گفتند که همه (یا حداقل برخی) پروژه های Big Data به محاسبه ابری نیاز دارند. بنابراین ، گسترش فناوری های ابری می تواند بر سرعت توزیع راه حل های داده بزرگ و ارزش این راه حل ها برای تجارت تأثیر بگذارد.

شرکت ها انواع مختلفی از داده ها ، ساختار یافته و بدون ساختار را جمع آوری و استفاده می کنند. در اینجا منابعی وجود دارد که شرکت کنندگان در نظرسنجی داده های خود را از آنها دریافت می کنند (گزارش فناوری Cisco Connected World Technology):

تقریباً نیمی (48 درصد) از مدیران اطلاعات پیش بینی می کنند که بار شبکه های آنها طی دو سال آینده دو برابر می شود. (این امر به ویژه در چین صادق است ، جایی که 68 درصد از افراد مورد بررسی این نظر را دارند و آلمان ، 60 درصد.) 23 درصد از پاسخ دهندگان انتظار دارند بار شبکه در دو سال آینده سه برابر شود. در همان زمان ، تنها 40 درصد از پاسخ دهندگان آمادگی خود را برای رشد انفجاری حجم ترافیک شبکه اعلام کردند.

27 درصد از شرکت کنندگان در نظرسنجی اعتراف کردند که به سیاست های فناوری اطلاعات و اقدامات امنیتی اطلاعات بهتر نیاز دارند.

21 درصد به پهنای باند بیشتری نیاز دارند.

Big Data فرصت های جدیدی را برای بخش های فناوری اطلاعات ایجاد می کند تا ارزش ایجاد کرده و روابط قوی با واحدهای تجاری ایجاد کند و به آنها اجازه می دهد درآمد را افزایش داده و موقعیت مالی شرکت را تقویت کنند. پروژه های کلان داده ها بخش فناوری اطلاعات را به شریک استراتژیک واحدهای تجاری تبدیل می کند.

به گفته 73 درصد از پاسخ دهندگان ، این بخش فناوری اطلاعات است که به محرک اصلی استراتژی کلان داده تبدیل خواهد شد. در عین حال ، پاسخ دهندگان معتقدند که بخش های دیگر نیز در اجرای این استراتژی مشارکت خواهند داشت. اول از همه ، این مربوط به بخش های مالی است (24 درصد از پاسخ دهندگان نام آن را اعلام کردند) ، تحقیق و توسعه (20 درصد) ، عملیات (20 درصد) ، مهندسی (19 درصد) و همچنین بازاریابی (15 درصد) و فروش (14 درصد)

گارتنر: میلیون ها شغل جدید برای مدیریت کلان داده ها مورد نیاز است

هزینه های فناوری اطلاعات جهانی تا سال 2013 به 3.7 میلیارد دلار می رسد که 3.8 درصد بیشتر از هزینه های فناوری اطلاعات در سال 2012 است (پیش بینی شده برای پایان سال 3.6 میلیارد دلار است). بخش اطلاعات بزرگبر اساس گزارش گارتنر (داده های بزرگ) با سرعت بسیار بیشتری رشد خواهد کرد.

تا سال 2015 ، 4.4 میلیون شغل در زمینه فناوری اطلاعات برای سرویس داده های بزرگ ایجاد می شود که 1.9 میلیون شغل در آن ایجاد می شود. علاوه بر این ، هر یک از این مشاغل مستلزم ایجاد سه شغل اضافی در خارج از بخش فناوری اطلاعات است ، به طوری که تنها در ایالات متحده در چهار سال آینده ، 6 میلیون نفر برای حمایت از اقتصاد اطلاعات کار خواهند کرد.

به گفته کارشناسان گارتنر ، مشکل اصلی این است که استعداد کافی در صنعت برای این کار وجود ندارد: هر دو سیستم آموزشی خصوصی و دولتی ، به عنوان مثال ، در ایالات متحده ، قادر نیستند صنعت را با تعداد کافی واجد شرایط تأمین کنند. پرسنل بنابراین از مشاغل جدید ذکر شده در فناوری اطلاعات ، تنها یکی از این سه نفر دارای پرسنل خواهد بود.

تحلیلگران بر این باورند که نقش پرورش پرسنل واجد شرایط فناوری اطلاعات باید مستقیماً توسط شرکتهایی که به شدت به آنها نیاز دارند ، انجام شود ، زیرا چنین کارمندانی برای آنها دروازه ای برای اقتصاد اطلاعاتی جدید در آینده خواهند بود.

2012

اولین شک در مورد داده های بزرگ

تحلیلگران Ovum و Gartner پیشنهاد می کنند که برای تم 2012 شیک باشد اطلاعات بزرگممکن است زمان رهایی توهم فرا رسیده باشد.

اصطلاح "داده های بزرگ" در آن زمان معمولاً به حجم روزافزون اطلاعاتی که از رسانه های اجتماعی به صورت آنلاین از شبکه های حسگر و منابع دیگر و همچنین طیف وسیعی از ابزارهایی که برای پردازش داده ها و شناسایی مشاغل مهم استفاده می شود اشاره می کند. گرایش ها

تونی بایر ، تحلیلگر Ovum ، می گوید: "به دلیل تبلیغات (یا علیرغم آن) در مورد ایده کلان داده ، تولیدکنندگان در سال 2012 با امیدواری زیادی به این روند نگاه کردند."

بایر گفت که DataSift تجزیه و تحلیل گذشته نگر از داده های بزرگ در

کلان داده (یا کلان داده) مجموعه ای از روش ها برای کار با حجم عظیمی از اطلاعات ساختار یافته یا بدون ساختار است. متخصصان داده های بزرگ آن را پردازش و تجزیه و تحلیل می کنند تا نتایج بصری و قابل خواندن برای انسان به دست آید. Look at Me با متخصصان صحبت کرد و متوجه شد که وضعیت پردازش داده های بزرگ در روسیه چگونه است ، برای کسانی که می خواهند در این زمینه کار کنند بهتر است بیاموزند.

الکسی ریوکین در زمینه های اصلی در زمینه داده های بزرگ ، ارتباط با مشتریان و دنیای اعداد

من در موسسه فناوری الکترونیک مسکو تحصیل کردم. اصلی ترین چیزی که من توانستم از آنجا خارج شوم ، دانش بنیادی در فیزیک و ریاضیات بود. همزمان با مطالعاتم ، در مرکز تحقیق و توسعه کار کردم ، جایی که درگیر توسعه و پیاده سازی الگوریتم های کدگذاری سر و صدا برای انتقال امن داده ها بودم. پس از اتمام دوره کارشناسی ، در مقطع کارشناسی ارشد در رشته انفورماتیک کسب و کار در دانشکده عالی اقتصاد وارد شدم. پس از آن ، من می خواستم در IBS کار کنم. من خوش شانس بودم که در آن زمان به دلیل مقدار زیادپروژه ها ، استخدام اضافی کارآموزان وجود داشت و پس از چندین مصاحبه ، من برای IBS ، یکی از بزرگترین شرکت های روسی در این زمینه ، کار کردم. طی سه سال ، من از کارآموز به معمار راه حل های سازمانی تبدیل شدم. اکنون من در حال توسعه تخصص فناوری های کلان داده برای شرکت های مشتری از بخش های مالی و مخابرات هستم.

دو تخصص اصلی برای افرادی که می خواهند با داده های بزرگ کار کنند وجود دارد: تحلیلگران و مشاوران فناوری اطلاعات که فناوری هایی را برای کار با داده های بزرگ ایجاد می کنند. علاوه بر این ، می توانید در مورد حرفه تحلیلگر داده بزرگ ، یعنی افرادی که مستقیماً با داده ها کار می کنند ، با پلت فرم فناوری اطلاعات مشتری صحبت کنید. پیش از این ، آنها تحلیلگران و ریاضیدانان معمولی بودند که آمار و ریاضیات را می دانستند و از نرم افزارهای آماری برای حل مشکلات تجزیه و تحلیل داده ها استفاده می کردند. امروزه علاوه بر دانش آمار و ریاضیات ، شناخت فناوری و چرخه حیات داده ها نیز مورد نیاز است. به نظر من این تفاوت بین تحلیلگر داده مدرن و آنالیزورهای قبلی است.

تخصص من مشاوره فناوری اطلاعات است ، یعنی راه هایی را برای حل مشکلات تجاری با استفاده از فناوری های اطلاعاتی به مشتریان ارائه می دهم. افراد با تجربه های مختلف به مشاوره می آیند ، اما مهمترین ویژگیهای این حرفه توانایی درک نیازهای مشتری ، تمایل به کمک به افراد و سازمانها ، ارتباطات خوب و مهارتهای تیمی است (زیرا این همیشه با مشتری کار می کند و در یک تیم) ، مهارت های تحلیلی خوبی دارد. انگیزه داخلی بسیار مهم است: ما در یک محیط رقابتی کار می کنیم و مشتری انتظار راه حل های غیر معمول و علاقه به کار را دارد.

بیشتر وقت من صرف صحبت با مشتریان ، رسمی شدن نیازهای تجاری آنها و کمک به طراحی مناسب ترین معماری فناوری می شود. معیارهای انتخاب در اینجا ویژگی خاص خود را دارد: علاوه بر این عملکردو TCO (هزینه کل مالکیت) ، الزامات غیر کاربردی برای سیستم بسیار مهم است ، اغلب زمان پاسخگویی ، زمان پردازش اطلاعات است. برای متقاعد کردن مشتری ، ما اغلب از رویکرد اثبات مفهوم استفاده می کنیم - ما پیشنهاد می کنیم که فناوری را به صورت رایگان در برخی مشکلات ، روی مجموعه ای محدود از داده ها "آزمایش" کنیم تا از کارکرد این فناوری اطمینان حاصل کنیم. این راه حل باید با به دست آوردن مزایای اضافی (به عنوان مثال ، فروش x ، فروش متقابل) برای مشتری مزیت رقابتی ایجاد کند یا برخی از مشکلات را در تجارت حل کند ، مثلاً کاهش دهد. سطح بالاتقلب در اعتبار

اگر مشتریان با یک کار آماده همراه شوند ، بسیار آسان تر خواهد بود ،اما تا کنون آنها نمی فهمند که یک فناوری انقلابی ظاهر شده است که می تواند بازار را در چند سال تغییر دهد

با چه مشکلاتی روبرو هستید؟ بازار هنوز آمادگی استفاده از فناوری های کلان داده را ندارد. اگر مشتریان با یک کار آماده همراه شوند ، بسیار آسان تر خواهد بود ، اما آنها هنوز متوجه نیستند که یک فناوری انقلابی ظاهر شده است که می تواند بازار را در چند سال تغییر دهد. به همین دلیل است که ما در واقع در حالت راه اندازی کار می کنیم - ما فقط فناوری نمی فروشیم ، بلکه هر بار که مشتریان را متقاعد می کنیم که باید در این راه حل ها سرمایه گذاری کنند. این موقعیت بینندگان است - ما به مشتریان نشان می دهیم که چگونه می توانند با مشارکت داده ها و فناوری اطلاعات کسب و کار خود را تغییر دهند. ما این بازار جدید را ایجاد می کنیم - بازار مشاوره تجاری IT در زمینه داده های بزرگ.

اگر فردی می خواهد در زمینه داده های بزرگ در تجزیه و تحلیل داده ها یا مشاوره فناوری اطلاعات شرکت کند ، اولین چیزی که مهم است آموزش ریاضی یا فنی با آموزش ریاضی خوب است. همچنین آشنایی با فناوری های خاص مانند راه حل های SAS ، Hadoop ، R یا IBM مفید است. علاوه بر این ، شما باید به طور جدی به مشکلات کاربردی برای داده های بزرگ علاقه مند باشید - به عنوان مثال ، چگونه می توان از آنها برای بهبود نمره گذاری اعتبار در بانک یا مدیریت استفاده کرد. چرخه زندگیمشتری. این و سایر دانش را می توان از منابع موجود بدست آورد: برای مثال ، Coursera و Big Data University. همچنین یک طرح تجزیه و تحلیل مشتری در دانشگاه وارتون پنسیلوانیا وجود دارد ، که در آن مطالب جالب زیادی منتشر شده است.

یک مشکل جدی برای کسانی که می خواهند در زمینه ما کار کنند ، فقدان آشکار اطلاعات در مورد Big Data است. شما نمی توانید به یک کتابفروشی یا برخی از وب سایت ها بروید و به عنوان مثال ، مجموعه ای جامع از موارد مربوط به همه کاربردهای فناوری داده های بزرگ در بانک ها را دریافت کنید. چنین کتابهای مرجعی وجود ندارد. بخشی از اطلاعات در کتاب ها آمده است ، بخشی دیگر در کنفرانس ها جمع آوری شده است ، و برخی دیگر باید توسط خود ما به دست آید.

مشکل دیگر این است که تحلیلگران در دنیای اعداد خوب هستند ، اما همیشه در تجارت راحت نیستند. این افراد اغلب درون گرا هستند ، در برقراری ارتباط مشکل دارند و بنابراین در انتقال متقاعد کننده نتایج تحقیقات به مشتریان با مشکل روبرو هستند. برای توسعه این مهارت ها ، من کتاب هایی مانند اصل هرم ، صحبت کردن با نمودارها را توصیه می کنم. آنها به توسعه مهارت های ارائه کمک می کنند ، به طور مختصر و واضح افکار شما را بیان می کنند.

شرکت در مسابقات قهرمانی مختلف در طول تحصیل در مدرسه عالی اقتصاد به من بسیار کمک کرد. مسابقات قهرمانی موردی مسابقات فکری برای دانش آموزان برای مطالعه مشکلات تجاری و ارائه راه حل است. آنها در دو نوع عرضه می شوند: مسابقات قهرمانی برای شرکت های مشاوره مانند McKinsey ، BCG ، Accenture و مسابقات قهرمانی مستقل مانند Changellenge. در طول شرکت در آنها ، من یاد گرفتم که ببینم و تصمیم بگیرم کارهای چالش برانگیز- از شناسایی مشکل و ساختار آن تا حفاظت از توصیه هایی برای حل آن.

اولگ میخالسکی در بازار روسیه و ویژگی های ایجاد محصول جدید در زمینه داده های بزرگ

قبل از پیوستن به Acronis ، من قبلاً در راه اندازی محصولات جدید در شرکت های دیگر شرکت داشتم. این همیشه جالب و در عین حال دشوار است ، بنابراین من بلافاصله به فرصتی برای کار علاقه مند شدم خدمات ابریو راه حل های ذخیره سازی در این زمینه ، تمام تجربیات قبلی من در صنعت IT مفید بود ، از جمله پروژه راه اندازی خودم I-accelerator. داشتن تحصیلات تجاری (MBA) علاوه بر مهندسی پایه نیز به این امر کمک کرد.

در روسیه ، شرکت های بزرگ - بانک ها ، اپراتورهای تلفن همراه و غیره - نیاز به تجزیه و تحلیل داده های بزرگ دارند ، بنابراین چشم اندازهایی در کشور ما برای کسانی که مایل به کار در این زمینه هستند وجود دارد. درست است که بسیاری از پروژه ها در حال حاضر ادغام شده اند ، یعنی بر اساس پیشرفت های خارجی یا فناوری های منبع باز ساخته شده اند. در چنین پروژه هایی ، اساساً روشها و فناوریهای جدیدی ایجاد نمی شود ، بلکه پیشرفتهای موجود تطبیق داده می شود. در Acronis ، ما راه دیگری را طی کردیم و با تجزیه و تحلیل گزینه های موجود ، تصمیم گرفتیم در توسعه خود سرمایه گذاری کنیم و در نتیجه یک سیستم ایجاد کنیم ذخیره سازی ایمنبرای داده های بزرگ ، که از نظر هزینه نسبت به Amazon S3 کمتر نیست ، اما به طور قابل اعتماد و کارآمد و در مقیاس قابل توجهی کوچکتر کار می کند. شرکت های بزرگ اینترنتی نیز پیشرفت های خود را در زمینه داده های بزرگ دارند ، اما تمرکز آنها بیشتر بر نیازهای داخلی است تا برآورده ساختن نیازهای مشتریان خارجی.

درک روندها و نیروهای اقتصادی که بر حوزه پردازش داده های بزرگ تأثیر می گذارد بسیار مهم است. برای انجام این کار ، باید زیاد بخوانید ، به صحبت های متخصصان معتبر در صنعت فناوری اطلاعات گوش دهید ، در کنفرانس های موضوعی شرکت کنید. در حال حاضر تقریباً در هر کنفرانسی بخشی در مورد داده های بزرگ وجود دارد ، اما همه آنها از زاویه متفاوتی در مورد آن صحبت می کنند: از نظر فناوری ، تجارت یا بازاریابی. می توانید برای شغل پروژه ای یا کارآموزی در شرکتی که پروژه هایی را در این زمینه انجام می دهد ، بروید. اگر به توانایی های خود اطمینان دارید ، پس برای سازماندهی استارتاپ در زمینه داده های بزرگ دیر نیست.

بدون تماس مداوم با بازارتوسعه جدید خطر عدم ادعای خود را دارد

با این حال ، هنگامی که شما مسئول یک محصول جدید هستید ، زمان زیادی صرف تجزیه و تحلیل بازار و ارتباط با مشتریان احتمالی ، شرکا ، تحلیلگران حرفه ای می شود که اطلاعات زیادی در مورد مشتریان و نیازهای آنها دارند. بدون تماس مداوم با بازار ، یک توسعه جدید خطر عدم ادعای خود را دارد. همیشه بسیاری از عدم قطعیت ها وجود دارد: شما باید بفهمید که اولین کاربران (پذیرندگان اولیه) چه کسانی هستند ، چه چیزی برای آنها ارزشمند است و چگونه می توانید مخاطبان زیادی را جذب کنید. دومین مهمترین وظیفه این است که یک دیدگاه واضح و جامع از محصول نهایی ایجاد کرده و به توسعه دهندگان ارائه دهید تا آنها را ترغیب به کار در چنین شرایطی کند ، در حالی که هنوز برخی الزامات ممکن است تغییر کنند و اولویت ها به بازخورد مشتریان اول بستگی دارد. بنابراین ، یک وظیفه مهم مدیریت انتظارات مشتریان از یک سو و توسعه دهندگان از سوی دیگر است. به طوری که نه یکی و نه دیگری علاقه خود را از دست ندهند و پروژه را به سرانجام برسانند. پس از اولین پروژه موفق ، آسان تر می شود و چالش اصلی پیدا کردن مدل رشد مناسب برای تجارت جدید خواهد بود.

اطلاعات بزرگ- انگلیسی. "اطلاعات بزرگ". این اصطلاح به عنوان جایگزینی برای DBMS ظاهر شد و به یکی از گرایش های اصلی زیرساخت فناوری اطلاعات تبدیل شد ، هنگامی که اکثر غول های صنعت - IBM ، مایکروسافت ، HP ، اوراکل و دیگران از این مفهوم در استراتژی های خود استفاده کردند. داده های بزرگ به عنوان یک مجموعه داده عظیم (صدها ترابایت) قابل درک است که نمی توان با روشهای سنتی پردازش کرد. گاهی اوقات - ابزارها و روشهای پردازش این داده ها.

نمونه هایی از منابع داده بزرگ: رویدادهای RFID ، پیام ها در شبکه های اجتماعی ، آمار هواشناسی ، اطلاعات مربوط به محل مشترکین شبکه های تلفن همراه ارتباطات سلولیو داده های دستگاه های ضبط صدا / تصویر. بنابراین ، "داده های بزرگ" به طور گسترده در تولید ، مراقبت های بهداشتی ، دولت ، تجارت اینترنتی - به ویژه هنگام تجزیه و تحلیل مخاطبان مورد استفاده قرار می گیرد.

مشخصه

علائم بزرگ داده به عنوان "سه V" تعریف می شوند: حجم - حجم (واقعاً بزرگ) ؛ تنوع - تنوع ، بسیاری ؛ سرعت - سرعت (پردازش بسیار سریع مورد نیاز است).

داده های بزرگ اغلب بدون ساختار هستند و برای پردازش آنها به الگوریتم های خاصی نیاز دارند. روشهای تجزیه و تحلیل داده های بزرگ عبارتند از:

("داده کاوی") - مجموعه ای از رویکردها برای کشف دانش مفید پنهان که با روشهای استاندارد قابل دستیابی نیست.
جمع آوری منابع (جمع - "جمعیت" ، منابع - استفاده به عنوان منبع) - حل مشکلات مهم با تلاش مشترک داوطلبان که در قرارداد و روابط کاری اجباری نیستند ، هماهنگی فعالیتها با استفاده از ابزارهای فناوری اطلاعات ؛
ادغام و ادغام داده ها ("مخلوط کردن و جاسازی داده ها") - مجموعه ای از روشها برای اتصال منابع متعدد در چارچوب تجزیه و تحلیل عمیق.
یادگیری ماشین ("یادگیری ماشین") - زیرمجموعه ای از تحقیقات هوش مصنوعی ، که روش های تجزیه و تحلیل آمار و بدست آوردن پیش بینی ها را بر اساس مدل های اساسی مورد مطالعه قرار می دهد.
تشخیص الگو (به عنوان مثال ، تشخیص چهره در منظره یاب دوربین یا دوربین فیلمبرداری) ؛
تجزیه و تحلیل فضایی - استفاده از توپولوژی ، هندسه و جغرافیا برای ساخت داده ها.
تجسم داده - خروجی اطلاعات تحلیلی در قالب تصاویر و نمودارها با استفاده از ابزارها و انیمیشن های تعاملی برای ردیابی نتایج و ایجاد زمینه برای نظارت بیشتر.

ذخیره و تجزیه و تحلیل اطلاعات بر روی تعداد زیادی سرور با عملکرد بالا انجام می شود. فناوری اصلی Hadoop ، منبع باز است.

از آنجا که میزان اطلاعات فقط در طول زمان افزایش می یابد ، مشکل در به دست آوردن داده ها نیست ، بلکه نحوه پردازش آن با حداکثر سود است. به طور کلی ، فرایند کار با کلان داده شامل: جمع آوری اطلاعات ، ساختاردهی به آنها ، ایجاد بینش و زمینه ها و ارائه توصیه هایی برای اقدام است. حتی قبل از مرحله اول ، مهم است که به طور واضح هدف کار را مشخص کنید: داده ها دقیقاً برای چیست ، به عنوان مثال ، تعیین مخاطب هدف محصول. در غیر این صورت ، خطر بدست آوردن اطلاعات زیادی بدون درک نحوه دقیق استفاده از آن وجود دارد.