آماده سازی داده ها در فرآیند استخراج داده ها. فناوری داده کاوی

داده کاوی به دو گروه بزرگ بر اساس اصل کار با داده های یادگیری منبع تقسیم می شود. در این طبقه بندی مرحله بالاتر تعیین شده بر اساس اینکه آیا داده ها پس از استخراج داده ذخیره می شوند، یا برای استفاده بعدی تقطیر می شوند.

1. استفاده مستقیم از داده ها، یا ذخیره داده ها.

در این مورد، داده های اولیه در یک فرم دقیق آشکار ذخیره می شود و به طور مستقیم در مراحل و / یا استفاده می شود تجزیه و تحلیل استثنائات. مشکل این گروه از روش ها - زمانی که استفاده می شود، ممکن است تجزیه و تحلیل پایگاه های فوق العاده بالا باشد.

روش های این گروه: تجزیه و تحلیل خوشه ای، نزدیکترین روش همسایه، روش K نزدیکترین همسایه، استدلال به صورت مشابه.

2. تشخیص و استفاده از رسمی قوانین، یا قالب های تقطیر.

با تکنولوژی قالب های تقطیر یک نمونه (قالب) اطلاعات از داده های منبع استخراج می شود و به برخی از ساختارهای رسمی تبدیل می شود، نوع آن بستگی به روش داده کاوی مورد استفاده دارد. این روند در مرحله انجام می شود. جستجوی رایگان، در اولین گروه روش ها این مرحله در اصل وجود ندارد. در مراحل مدل سازی پیش آگهی و تجزیه و تحلیل استثنائات نتایج مرحله استفاده می شود جستجوی رایگان، آنها به طور قابل توجهی در پایگاه های داده به طور قابل توجهی جمع می شوند. به یاد بیاورید که طرح های این مدل ها را می توان تحلیلگر یا بی رحمانه ("جعبه سیاه") تفسیر کرد.

روش های این گروه: روش های منطقی؛ روش های تجسم؛ روش های متقاطع جدول روش ها بر اساس معادلات.

روش های منطقی یا روشهای القاء منطقی عبارتند از: درخواست های فازی و تجزیه و تحلیل؛ قوانین نمادین؛ درختان راه حل؛ الگوریتم های ژنتیک

روش های این گروه احتمالا تفسیر شده است - آنها الگوهای یافت شده را در اغلب موارد، در یک فرم نسبتا شفاف از نقطه نظر کاربر می گیرند. قوانین به دست آمده ممکن است شامل متغیرهای مداوم و گسسته باشد. لازم به ذکر است که درختان راه حل ها را می توان به راحتی به مجموعه ای از قوانین نمادین تبدیل کرد، با تولید یک قاعده در مسیر از ریشه درخت به آن رأس ترمینال. درختان راه حل ها و قوانین در واقع هستند روش های مختلف راه حل های یک کار و تنها در توانایی های آنها متفاوت است. علاوه بر این، اجرای قوانین توسط الگوریتم های کندتر انجام می شود از القای تصمیم گیری درختان.

روش های متقابل برگه: نمایندگان، شبکه Baiec (اعتماد)، تجسم متقابل جدول. آخرین روش کاملا به یکی از خواص داده کاوی - جستجوی مستقل پاسخ نمی دهد قوانین سیستم تحلیلی. با این حال، ارائه اطلاعات به شکل جدول متقابل، اجرای وظیفه اصلی داده کاوی را تضمین می کند - جستجو برای قالب ها، بنابراین این روش همچنین می تواند یکی از روش های داده کاوی را در نظر بگیرد.

روش ها بر اساس معادلات.

روش های این گروه الگوهای شناسایی شده را به صورت عبارات ریاضی بیان می کند - معادلات. بنابراین، آنها فقط می توانند با متغیرهای عددی کار کنند و متغیرهای دیگر باید بر اساس آن کدگذاری شوند. این تا حدودی محدود کردن استفاده از روش های این گروه، با این حال، آنها به طور گسترده ای در حل وظایف مختلف، به ویژه پیش بینی وظایف استفاده می شود.

روش های اصلی این گروه: روش های آماری و شبکه های عصبی

روش های آماری اغلب برای حل وظایف پیش بینی استفاده می شود. روش های بسیاری از تجزیه و تحلیل آماری داده ها، از میان آنها، تجزیه و تحلیل همبستگی رگرسیون، همبستگی سری پویایی، شناسایی روند سری پویا، تجزیه و تحلیل هارمونیک وجود دارد.

طبقه بندی دیگر تمام انواع روش های داده کاوی را به دو گروه تقسیم می کند: روش های آماری و سایبرنتیک. این طرح جدایی بر اساس رویکردهای مختلف یادگیری است. مدل های ریاضی.

لازم به ذکر است که دو روش برای ارزیابی روش های آماری برای داده کاوی وجود دارد. اول از آنها با روش های آماری و داده کاوی مخالف است، حامیان آن روش های آماری کلاسیک را به یک جهت جداگانه تجزیه و تحلیل داده ها در نظر می گیرند. با توجه به رویکرد دوم، روش های تجزیه و تحلیل آماری بخشی از داده های داده های ریاضی ابزار ریاضی است. بیشتر منابع معتبر به رویکرد دوم پایبند هستند.

در این طبقه بندی، دو گروه از روش ها را تشخیص می دهد:

  • روش های آماری مبتنی بر استفاده از تجربی تجمع میانگین، که در داده های گذشته نگر منعکس شده است؛
  • روش های سایبرنتیک که شامل بسیاری از رویکردهای ریاضی ناهمگن هستند.

فقدان چنین طبقه بندی: هر دو الگوریتم آماری و سایبرنتیک در یک راه و یا در غیر این صورت به مقایسه تجربه آماری با نتایج نظارت بر وضعیت فعلی تکیه می کنند.

مزیت چنین طبقه بندی راحتی آن برای تفسیر است - این در توصیف ابزار ریاضی یک رویکرد مدرن به آن استفاده می شود استخراج دانش از آرایه مشاهدات منبع (عملیاتی و گذشته نگر)، I.E. در وظایف داده کاوی.

جزئیات بیشتر گروه های فوق را در نظر بگیرید.

روش های آماری داده کاوی

این روش ها چهار بخش مرتبط با هم هستند:

  • تجزیه و تحلیل اولیه از ماهیت داده های آماری (بازرسی از فرضیه استقامت، عادی، استقلال، یکنواختی، ارزیابی نوع تابع توزیع، پارامترهای آن، و غیره)؛
  • تشخیص اتصالات I. قوانین (تجزیه و تحلیل رگرسیون خطی و غیر خطی، تجزیه و تحلیل همبستگی، و غیره)؛
  • تجزیه و تحلیل آماری چند بعدی (تجزیه و تحلیل خطی و غیر خطی، تجزیه و تحلیل خوشه ای، تجزیه و تحلیل مولفه، تجزیه و تحلیل عامل و غیره.)؛
  • مدل های پویا و پیش آگهی بر اساس سری زمانی.

آرسنال روش های آماری داده کاوی برای چهار گروه از روش ها طبقه بندی می شود:

  1. تجزیه و تحلیل توصیفی و شرح داده های منبع.
  2. تجزیه و تحلیل رابطه (تجزیه و تحلیل همبستگی و رگرسیون، تجزیه و تحلیل عامل, تجزیه پراکندگی).
  3. تجزیه و تحلیل آماری چند بعدی (تجزیه و تحلیل مولفه، تجزیه و تحلیل تشخیص، تجزیه و تحلیل رگرسیون چند بعدی، همبستگی های کانونی، و غیره).
  4. تجزیه و تحلیل سری موقت ( مدل های پویا و پیش بینی)

روش های Cybernetic داده کاوی

جهت دوم داده کاوی، بسیاری از رویکردها، ایده ریاضیات کامپیوتری و استفاده از نظریه هوش مصنوعی است.

داده کاوی) و بر روی یک تجزیه و تحلیل اکتشافی "درشت" که اساس پردازش داده های تحلیلی عملیاتی (پردازش آنلاین تحلیلی، OLAP) را تشکیل می دهد، در حالی که یکی از مقررات اصلی داده کاوی - جستجو برای غیر واضح قوانین. ابزارهای داده کاوی ممکن است چنین مقررات را به طور مستقل و همچنین به طور مستقل فرضیه های مربوط به روابط را ایجاد کنند. از آنجایی که این فرمول یک فرضیه نسبت به وابستگی ها بیشتر است وظیفه چالش برانگیزمزیت داده کاوی نسبت به سایر روش های تجزیه و تحلیل واضح است.

اکثر روش های آماری برای شناسایی ارتباطات در داده ها از مفهوم میانگین میانگین بر روی نمونه استفاده می کنند که منجر به عملیات بر ارزش های غیر موجود می شود، در حالی که داده کاوی با ارزش واقعی عمل می کند.

OLAP مناسب تر برای درک داده های گذشته نگر است، داده کاوی به داده های گذشته نگر متکی است تا پاسخ به سوالات مربوط به آینده را به دست آورد.

چشم انداز تکنولوژی داده کاوی

پتانسیل داده کاوی به "نور سبز" می دهد تا مرزهای کاربرد تکنولوژی را گسترش دهد. با توجه به چشم انداز داده کاوی، جهت توسعه زیر امکان پذیر است:

  • تخصیص انواع موضوعات موضوع با اکتشافات مربوطه، رسم سازی آن راه حل وظایف معادن مربوط به داده های مربوط به این مناطق را تسهیل می کند؛
  • ایجاد زبان های رسمی و ابزارهای منطقی که استدلال آنها رسمی خواهد شد و اتوماسیون آن ابزار برای حل وظایف داده کاوی در مناطق خاص خاص خواهد بود؛
  • ایجاد روش های داده کاوی که قادر به نه تنها برای استخراج این الگوها نیستند، بلکه باید نظریه های خاصی را بر اساس داده های تجربی تشکیل دهند؛
  • غلبه بر عقب ماندگی ضروری از امکانات ابزارها داده کاوی از دستاوردهای نظری در این منطقه.

اگر آینده داده کاوی را در کوتاه مدت در نظر بگیرید، واضح است که توسعه این تکنولوژی بیشتر به زمینه های مربوط به کسب و کار هدایت می شود.

در کوتاه مدت، محصولات داده کاوی می تواند به عنوان عادی و ضروری باشد پست الکترونیکبرای مثال، استفاده شده توسط کاربران برای جستجوی بیشتر قیمت های پایین در یک محصول خاص یا ارزان ترین بلیط ها.

در دراز مدت، آینده داده کاوی واقعا هیجان انگیز است - می تواند جستجو برای عوامل فکری به عنوان انواع جدیدی از درمان بیماری های مختلف و درک جدیدی از ماهیت جهان باشد.

با این حال، داده کاوی به خودی خود و یک خطر بالقوه است - پس از همه، مقدار روزافزون اطلاعات از طریق شبکه جهانی گسترده، از جمله اطلاعات خصوصی، در دسترس است، و بیشتر و بیشتر دانش از آن امکان پذیر است:

نه چندان دور، بزرگترین فروشگاه آنلاین "آمازون" در مرکز رسوایی در مورد ثبت اختراع دریافت شده توسط او بود "روش ها و سیستم ها برای کمک به کاربران هنگام خرید کالا"، که چیزی بیش از محصول دیگری از داده کاوی مورد نظر برای جمع آوری شخصی نیست داده ها در مورد بازدید کنندگان فروشگاه. تکنیک جدید اجازه می دهد تا شما را به پیش بینی درخواست های آینده بر اساس خرید، و همچنین نتیجه گیری در مورد هدف آنها. هدف از این تکنیک چیزی است که در بالا ذکر شد - به دست آوردن امکان پذیر است بیشتر اطلاعات در مورد مشتریان، از جمله طبیعت خصوصی (جنسیت، سن، ترجیحات، و غیره). بنابراین، داده های مربوط به حریم خصوصی خریداران فروشگاه، و همچنین اعضای خانواده هایشان، از جمله کودکان جمع آوری می شوند. این قانون توسط قوانین بسیاری از کشورها ممنوع است - مجموعه اطلاعاتی در مورد افراد زیر سن قانونی تنها با اجازه والدین امکان پذیر است.

مطالعات ذکر شده است که هر دو راه حل موفقیت آمیز وجود دارد که از داده کاوی و تجربه ناموفق استفاده از این تکنولوژی استفاده می کنند. مناطقی که استفاده از تکنولوژی داده کاوی به احتمال زیاد موفق خواهد بود، چنین ویژگی هایی دارند:

  • نیاز به راه حل های مبتنی بر دانش؛
  • یک محیط در حال تغییر داشته باشید
  • داده های قابل دسترس، کافی و قابل توجه داشته باشند
  • سود سهام بالا را از راه حل های مناسب ارائه دهید.

رویکردهای موجود برای تجزیه و تحلیل

برای مدت زمان طولانی، رشته داده کاوی به عنوان یک منطقه مستقل کامل از تجزیه و تحلیل داده ها به رسمیت شناخته نشده است، گاهی اوقات آن را "حیاط های آماری" نامیده می شود (Pregibon، 1997).

تا به امروز، چندین دیدگاه در مورد داده کاوی تعیین شد. حامیان یکی از آنها میراث خود را در نظر می گیرند، توجه خود را از تجزیه و تحلیل کلاسیک منحرف می کنند

داده کاوی چیست؟

یتیم خانه هر سازمانی مدرن معمولا شامل مجموعه ای از جداول است که سوابق را در مورد حقایق یا اشیاء خاص ذخیره می کنند (به عنوان مثال، در مورد کالاها، فروش، مشتریان، حساب ها). به عنوان یک قاعده، هر ورودی در یک جدول مشابه، برخی از موارد خاص یا واقعیت را توصیف می کند. به عنوان مثال، یک رکورد در جدول فروش نشان دهنده این واقعیت است که چنین محصولی به چنین مشتری فروخته می شود و سپس چیزی شبیه یک مدیر و به اندازه کافی، چیزی جز این اطلاعات نیست. با این حال، تعداد کل چنین سوابق که طی چندین سال انباشته شده می تواند منبع اطلاعات اضافی، بسیار ارزشمند باشد، که نمی تواند بر اساس یک رکورد خاص، یعنی اطلاعات مربوط به الگوها، روند یا وابستگی های متقابل بین هر داده، به دست آید. نمونه هایی از چنین اطلاعاتی اطلاعاتی در مورد نحوه فروش یک محصول خاص به روز هفته، زمان روز یا فصل، کدام دسته از خریداران اغلب یک محصول یا یک محصول را به دست می آورند، که بخشی از خریداران یک محصول خاص است محصول محصول خاصی را به دست می آورد، که اغلب مشتریان اغلب وام را به دست نمی آورند.

چنین اطلاعاتی معمولا در پیش بینی، برنامه ریزی استراتژیک، تجزیه و تحلیل ریسک استفاده می شود و ارزش آن برای شرکت بسیار زیاد است. ظاهرا، روند جستجوی آن و نام داده معدن داده شده (معدن به زبان انگلیسی به معنای "معدن معدن" است، و جستجوی منظم در یک مجموعه عظیمی از داده های واقعی واقعا شبیه به این است). معادله داده های اصطلاح، تکنولوژی خاصی را به عنوان فرایند پیدا کردن همبستگی، روند، روابط و الگوهای از طریق الگوریتم های مختلف ریاضی و آماری: خوشه بندی، ایجاد زیردریایی، رگرسیون و تجزیه و تحلیل همبستگی نشان نمی دهد. هدف از این جستجو این است که داده ها را به صورت یک فرایندهای کسب و کار به وضوح بازتابنده ارائه دهیم، و همچنین ساخت یک مدل، که می توانید فرآیندهای خود را پیش بینی کنید، برای برنامه ریزی کسب و کار (به عنوان مثال، پویایی تقاضا برای کالاها یا خدمات خاص " یا وابستگی آنها به خرید آنها از هر ویژگی مصرف کننده).

توجه داشته باشید که سنتی آمار ریاضی، برای مدت زمان طولانی، ابزار اصلی تجزیه و تحلیل داده ها، و همچنین ابزار پردازش داده های تحلیلی عملیاتی (پردازش تجزیه و تحلیل آنلاین، OLAP)، که ما بارها نوشتیم (به مواد در این موضوع در CD ما مراجعه کنید)، همیشه نمی تواند با موفقیت باشد برای حل این وظایف اعمال می شود. به طور معمول، روش های آماری و OLAP برای بررسی پیش فرض های پیشنهادی مورد استفاده قرار می گیرند. با این حال، اغلب این است که اصطلاح این فرضیه دقیقا سخت ترین وظیفه در اجرای تجزیه و تحلیل کسب و کار برای تصمیم گیری های بعدی است، از آنجا که دور از تمام الگوهای داده ها در یک نگاه واضح است.

پایه ای فن آوری پیشرفته داده کاوی مفهوم قالب های منعکس کننده الگوهای ذاتی موجود در ورق های داده است. جستجو برای قالب ها توسط روشهایی ساخته شده است که از پیش فرض های پیشین در مورد این زیرزمینی استفاده نمی کنند. اگر، با تجزیه و تحلیل آماری یا هنگام استفاده از OLAP، مسائل نوع "میانگین تعداد حساب های پرداخت نشده با مشتریان این سرویس چیست؟" استفاده از داده کاوی به عنوان یک قاعده، به این معنی است که پاسخ به نوع "وجود دارد معمول است دسته بندی مشتریانی که برای حساب ها پرداخت نمی کنند؟ " در عین حال، این پاسخ به سوال دوم است که اغلب یک رویکرد غیر معمول را به سیاست های بازاریابی و سازماندهی کار با مشتریان تضمین می کند.

یکی از ویژگی های مهم استخراج داده ها غیر استاندارد و غیر قابل مشاهده قالب های مورد نظر است. به عبارت دیگر، ابزارهای داده کاوی از ابزارهای آماری داده ها و ابزارهای OLAP متفاوت هستند و به جای آزمایش به طور مداوم ادعا شده اند که به طور مستقل ادعا می کنند، آنها قادر به یافتن چنین وابستگی متقابل هستند و فرضیه های مربوط به شخصیت خود را ایجاد می کنند.

لازم به ذکر است که استفاده از ابزارهای داده کاوی استفاده از استفاده از ابزار آماری و بودجه OLAP را حذف نمی کند، زیرا نتایج پردازش داده ها با استفاده از دومی، به عنوان یک قاعده، به درک بهتر ماهیت الگوهای که باید کمک کند دنبال شود

داده های منبع برای داده کاوی

استفاده از داده کاوی موجه است اگر مقدار زیادی از داده ها وجود داشته باشد، به طور مطلوب موجود در انبار داده های به درستی طراحی شده (در واقع، داده های داده ها معمولا برای حل تجزیه و تحلیل و پیش بینی وظایف مربوط به پشتیبانی تصمیم گیری) ایجاد می شود. در اصول ساختمان مجازی سازی، ما همچنین بیش از یک بار نوشتیم؛ مواد مربوطه را می توان در CD ما یافت، بنابراین ما در این مورد متوقف نخواهیم شد. ما فقط به شما یادآوری می کنیم که داده ها در ذخیره سازی یک مجموعه پر شده است، یکی برای کل شرکت ها و اجازه می دهد تا شما را به بازگرداندن تصویر از فعالیت های خود را در هر زمان. ما همچنین توجه داریم که ساختار داده های ذخیره سازی به گونه ای طراحی شده است که اجرای درخواست ها به آن به صورت موثر مورد استفاده قرار می گیرد. با این حال، ابزار داده کاوی وجود دارد که قادر به جستجو برای الگوها، همبستگی ها و روند نه تنها در انبارهای داده، بلکه در مکعب های OLAP، یعنی در مجموعه ای از داده های آماری پیش پردازش شده است.

انواع الگوهای شناسایی شده توسط روش های داده کاوی

v.A. Dyuku اعلام کرد پنج نوع استاندارد از الگوهای شناسایی شده توسط روش های داده کاوی:

انجمن احتمال بالایی از ارتباطات رویدادها با یکدیگر است (به عنوان مثال، یک محصول اغلب همراه با دیگری خریداری می شود)؛

دنباله احتمال بالایی از رویدادهای مربوط به زنجیره ای است (به عنوان مثال، در طی یک دوره مشخص پس از خرید یک محصول با درجه بالایی از احتمال)؛

طبقه بندی - نشانه هایی وجود دارد که نشان می دهد گروهی که یک رویداد یا یک رویداد دیگر یا یک شی (معمولا بر اساس تجزیه و تحلیل رویدادهای طبقه بندی شده در حال حاضر طبقه بندی شده است، برخی از قوانین فرموله شده اند)؛

خوشه بندی یک الگوی شبیه به طبقه بندی است و از آن متفاوت است که گروه خودشان مشخص نشده اند - آنها به طور خودکار در پردازش داده ها شناسایی می شوند؛

الگوهای موقت - حضور قالب ها در پویایی رفتار داده های خاص (نمونه ای معمول - نوسانات فصلی تقاضا برای کالاها یا خدمات خاص) برای پیش بینی استفاده می شود.

روش های تحقیق داده ها در داده کاوی

این زیبا است! تعداد زیادی از انواع روش های تحقیق داده ها. بر اساس طبقه بندی فوق پیشنهاد شده توسط V.A. Dyuk، در میان آنها شما می توانید اختصاص دهید:

رگرسیون، تجزیه و تحلیل پراکندگی و همبستگی (اجرا شده در اکثر بسته های آماری مدرن، به ویژه در محصولات شرکت SAS موسسه، Statsoft، و غیره)؛

روش های تجزیه و تحلیل در یک موضوع خاص بر اساس مدل های تجربی (اغلب اعمال می شود، به عنوان مثال، در بودجه کم هزینه از تجزیه و تحلیل مالی)؛

الگوریتم های شبکه عصبی، ایده ای که بر اساس اثرات بافت عصبی است و در این واقعیت است که پارامترهای اولیه به عنوان سیگنال های تبدیل شده با توجه به روابط موجود بین "نورون ها"، و به عنوان یک پاسخ در نظر گرفته می شود نتیجه تجزیه و تحلیل است، با پاسخ کل شبکه به داده های اولیه در نظر گرفته می شود. ارتباطات در این مورد با استفاده از آموزش به اصطلاح شبکه با استفاده از نمونه برداری از مقدار زیادی حاوی داده های منبع و پاسخ های صحیح ایجاد می شود؛

الگوریتم ها انتخاب یک آنالوگ نزدیک از داده های منبع از داده های تاریخی موجود هستند. همچنین روش "نزدیکترین همسایه" نامیده می شود؛

درختان راه حل - یک ساختار سلسله مراتبی بر اساس مجموعه ای از سوالات است که به این معنی پاسخ "بله" یا "نه"؛ با اينكه این روش پردازش داده ها دور از همیشه به طور کامل الگوهای موجود را پیدا می کند، به طور معمول در سیستم های پیش بینی شده به دلیل دید پاسخ دریافت شده استفاده می شود؛

مدل های خوشه ای (گاهی اوقات همچنین مدل های تقسیم بندی نامیده می شود) برای ترکیب رویدادهای مشابه در گروه ها بر اساس مقادیر مشابه چندین فیلدهای مختلف در مجموعه داده ها استفاده می شود؛ همچنین هنگام ایجاد سیستم های پیش بینی بسیار محبوب است.

الگوریتم های یکپارچه محدود، محاسبه فرکانس های ترکیبی از رویدادهای منطقی ساده در زیرگروه داده ها؛

برنامه نویسی تکاملی - جستجو و نسل الگوریتم بیان وابستگی متقابل داده ها بر اساس الگوریتم در ابتدا اصلاح شده در طول جستجو؛ گاهی اوقات جستجو برای وابستگی های متقابل در میان انواع خاصی از توابع (به عنوان مثال، چندجملهای) انجام می شود.

اطلاعات بیشتر در مورد این و دیگر الگوریتم های داده کاوی، و همچنین در مورد ابزار خود را، شما می توانید در کتاب "داده کاوی: دوره آموزشی"V.A. Dooky و A.P. Samolenko، صادر شده توسط Peter Publishing House در سال 2001. امروز این یکی از چند کتاب در روسیه در مورد مشکل است.

تولید کنندگان سرب داده Ming

استراحت داده کاوی، مانند بسیاری از صندوق های اطلاعاتی کسب و کار، به طور سنتی متعلق به ابزارهای نرم افزاری گران قیمت است - قیمت برخی از آنها به چند ده هزار دلار می رسد. بنابراین، تا همین اواخر، مصرف کنندگان اصلی این فناوری، بانک ها، شرکت های مالی و بیمه، شرکت های بزرگ تجاری بودند و وظایف اصلی نیاز به استفاده از داده کاوی، ارزیابی اعتبار و خطرات بیمه و سیاست های بازاریابی مورد بررسی قرار گرفت. برنامه های تعرفه و اصول دیگر کار با مشتریان. در سال های اخیر، وضعیت تغییرات خاصی را انجام داده است: در بازار نرم افزار ابزار داده کاوی نسبتا ارزان قیمت از چندین تولید کننده وجود داشت که این تکنولوژی را برای کسب و کارهای کوچک و متوسط \u200b\u200bدر دسترس قرار داد، قبلا در مورد آن فکر نکرد.

ابزارهای اطلاعات کسب و کار مدرن عبارتند از: گزارش ژنراتورهای گزارش، ابزار تجزیه و تحلیل داده ها، ابزار توسعه دو طرفه (سیستم عامل های BI) و به اصطلاح Enterprise Bi سوئیت ها - تجزیه و تحلیل تجزیه و تحلیل تجزیه و تحلیل و ابزار پردازش داده ای است که به شما اجازه می دهد مجموعه ای از داده های مربوط به تجزیه و تحلیل داده ها را انجام دهید ایجاد گزارش ها، و اغلب شامل یک ابزار دوبعدی یکپارچه و ابزار توسعه دوگانه است. دومی، به عنوان یک قاعده، شامل ترکیب و ابزار ساخت و ساز و بودجه OLAP و اغلب - و داده کاوی است.

به گفته تحلیلگران گروه گارتنر، رهبران بازار برای تجزیه و تحلیل و پردازش داده ها مقیاس های شرکت، شرکت های اشیاء کسب و کار، Cognos، سازندگان اطلاعات هستند و ادعا می کنند رهبری نیز مایکروسافت و اوراکل را ادعا می کنند (شکل 1). در مورد توسعه دو طرفه، متقاضیان اصلی رهبری در این منطقه، موسسه مایکروسافت و SAS هستند (شکل 2).

توجه داشته باشید که صندوق های اطلاعاتی کسب و کار مایکروسافت به محصولات نسبتا ارزان در دسترس برای طیف گسترده ای از شرکت ها اشاره دارد. به همین دلیل است که ما قصد داریم برخی از جنبه های عملی استفاده از داده کاوی را در مثال محصولات این شرکت در بخش های بعدی این مقاله در نظر بگیریم.

ادبیات:

1. DUKE V.A. داده کاوی - تجزیه و تحلیل داده های هوشمند. - http://www.olap.ru/basic/dm2.asp.

2. دوک V.A.، Samoilenko A.P. داده کاوی: دوره آموزشی. - SPB: پیتر، 2001.

3. B. de Ville. داده های مایکروسافت داده ها مطبوعات دیجیتال، 2001.

داده کاوی (داده کاوی)

داده کاوی یک روش شناسی و فرآیند تشخیص در آرایه های داده های بزرگ انباشته شده است سیستم های اطلاعاتی شرکت ها، قبلا ناشناخته، غیر انتفاعی، عملا مفید و قابل دسترس برای تفسیر دانش لازم برای تصمیم گیری در زمینه های مختلف فعالیت های انسانی است. داده کاوی یکی از مراحل کشف دانش در مقیاس بزرگ در روش های پایگاه داده است.

دانش کشف شده در فرایند داده کاوی باید غیر بی اهمیت باشد و قبلا ناشناخته باشد. عدم پذیرش فرض می کند که چنین دانش را نمی توان با تجزیه و تحلیل بصری ساده تشخیص داد. آنها باید رابطه بین خواص اشیاء کسب و کار را توصیف کنند، مقادیر برخی از علائم بر اساس دیگران و غیره را پیش بینی کنند. دانش یافت شده باید برای اشیاء جدید قابل استفاده باشد.

سودمندی عملی دانش به دلیل امکان استفاده از آنها در فرآیند حمایت از پذیرش تصمیمات مدیریت و بهبود فعالیت های شرکت است.

دانش باید در قالب ارائه شود که قابل درک به کاربران است که آموزش های ریاضی خاصی ندارند. به عنوان مثال، طرح های منطقی "اگر، پس از آن" آسان تر از نظر فرد درک می شود. علاوه بر این، چنین قوانینی را می توان در DBM های مختلف به عنوان SQL سوابق استفاده کرد. در مورد زمانی که دانش آموخته شده برای کاربر مبهم است، باید یک روش پس از پردازش وجود داشته باشد که به آنها اجازه می دهد آنها را به شکل قابل تفسیر به ارمغان بیاورد.

داده کاوی یک نیست، اما تعداد زیادی از روش های مختلف تشخیص دانش تمام وظایف حل شده توسط روش های داده کاوی می تواند به شش نوع تقسیم شود:

داده کاوی Mediidisciplinary است، زیرا شامل عناصر روش های عددی، آمار ریاضی و نظریه احتمالی، نظریه اطلاعات و منطق ریاضی، هوش مصنوعی و یادگیری ماشین.

وظایف تجزیه و تحلیل کسب و کار به روش های مختلف فرموله شده است، اما راه حل بسیاری از آنها به یک یا چند کار داده کاوی یا ترکیبی آنها می رسد. به عنوان مثال، ارزیابی ریسک راه حل مشکل رگرسیون یا طبقه بندی، تقسیم بندی بازار - خوشه بندی، ارتقاء تقاضا - قوانین انجمنی است. در حقیقت، وظایف داده کاوی عناصری است که از آن می توانید راه حل بیشترین وظایف کسب و کار واقعی را جمع آوری کنید.

برای حل اشیاء که در بالا شرح داده شده، روش های مختلف و الگوریتم های داده کاوی مورد استفاده قرار می گیرند. با توجه به این واقعیت که داده کاوی توسعه یافته و توسعه یافته است در یک رشته از رشته هایی مانند آمار ریاضی، نظریه اطلاعات، یادگیری ماشین و پایگاه های داده، کاملا طبیعی است که اکثر الگوریتم ها و روش های معدنی داده ها بر اساس گوناگون توسعه یافته است روش های این رشته ها. به عنوان مثال، الگوریتم خوشه بندی K-means از آمار قرض گرفته شد.

کار خوب خود را در پایگاه دانش ساده کنید. از فرم زیر استفاده کنید

دانش آموزان، دانشجویان تحصیلات تکمیلی، دانشمندان جوان که از پایگاه دانش خود در مطالعات خود استفاده می کنند، از شما بسیار سپاسگزار خواهند بود.

اسناد مشابه

    شرح عملکرد فن آوری داده کاوی به عنوان فرآیندهای تشخیص داده های ناشناخته. مطالعه سیستم های خروجی قوانین انجمنی و مکانیسم الگوریتم های شبکه عصبی. شرح الگوریتم خوشه بندی و استفاده از داده کاوی.

    معاینه، 06/14/2013 اضافه شده است

    مبانی برای خوشه بندی با استفاده از داده کاوی به عنوان راهی برای "تشخیص دانش در پایگاه های داده". انتخاب الگوریتم های خوشه بندی. دریافت اطلاعات از مخزن پایگاه داده کارگاه فاصله. خوشه بندی دانش آموزان و وظایف.

    کار دوره، اضافه شده 07/10/2017

    بهبود تکنولوژی های ذخیره سازی و ذخیره سازی داده ها. خاصیت الزامات مدرن برای پردازش اطلاعات اطلاعات. مفهوم قالب ها منعکس کننده قطعات روابط چند بعدی در داده ها بر اساس تکنولوژی معدن داده های مدرن است.

    معاینه، اضافه شده 09.09.2010

    داده کاوی، تاریخچه توسعه داده کاوی و کشف دانش. عناصر تکنولوژیکی و روش های داده کاوی. مراحل کشف دانش. تغییر و تشخیص انحراف. رشته های مرتبط، بازیابی اطلاعات و استخراج متن.

    گزارش، اضافه شده 06/16/2012

    داده کاوی به عنوان یک فرآیند پشتیبانی تصمیم گیری بر اساس جستجو در این الگوهای پنهان (قالب های اطلاعاتی). قوانین و مراحل پیاده سازی او، تاریخ توسعه این تکنولوژی، ارزیابی مزایا و معایب، امکانات.

    مقاله، اضافه شده 12/17/2014

    طبقه بندی وظایف دنیا. ایجاد گزارش ها و نتایج. امکانات داده شده معدنچیان در Statistica. وظیفه طبقه بندی، خوشه بندی و رگرسیون. تجزیه و تحلیل داده های آماری آمار. وظایف ماهیت برای قوانین انجمنی جستجو می کنند. تجزیه و تحلیل پیش بینی کننده های بقا.

    کار دوره، 19.05.2011 اضافه شده است

    جهت گیری چشم انداز تجزیه و تحلیل داده ها: تجزیه و تحلیل اطلاعات متن، تجزیه و تحلیل داده های هوشمند. تجزیه و تحلیل اطلاعات ساختاری ذخیره شده در پایگاه های داده. فرآیند تجزیه و تحلیل اسناد متنی. ویژگی های پیش پردازش داده ها.

    خلاصه، 13.02.2014 اضافه شده است

    طبقه بندی وظایف معدن داده ها. وظیفه خوشه بندی و جستجو برای قوانین انجمنی. تعریف یک کلاس شیء توسط خواص و ویژگی های آن. پیدا کردن وابستگی های مکرر بین اشیاء یا رویدادها. پردازش داده های تحلیلی عملیاتی.

    معاینه، اضافه شده 01/13/2013