روشهای پردازش داده های تحلیلی برای پشتیبانی تصمیم پردازش داده های تحلیلی آنلاین (OLAP)

3.4 روشهای پردازش داده های تحلیلی

برای اینکه انبارهای داده موجود تصویب تصمیمات مدیریت را تسهیل کنند ، اطلاعات باید به شکل مورد نیاز به تحلیلگر ارائه شود ، یعنی او باید ابزارهایی برای دسترسی و پردازش داده ها در انبار توسعه داده باشد.

اغلب ، سیستم های اطلاعاتی و تحلیلی که با انتظار استفاده مستقیم تصمیم گیرندگان ایجاد می شوند بسیار آسان هستند ، اما از نظر عملکرد بسیار محدود هستند. چنین سیستمهای ایستایی سیستمهای اطلاعات اجرایی (EIS) نامیده می شوند. آنها شامل پرسش های زیادی هستند و از آنجا که برای بررسی روزمره کافی هستند ، قادر به پاسخگویی به همه سالاتی که هنگام تصمیم گیری ممکن است ایجاد شود ، نیستند. نتیجه کار چنین سیستمی ، به عنوان یک قاعده ، گزارشهای چند صفحه ای است ، پس از مطالعه دقیق ، که تحلیلگران مجموعه جدیدی از سوالات را دارند. با این حال ، هر درخواست جدیدی که در طراحی چنین سیستمی پیش بینی نشده است ، ابتدا باید به طور رسمی توصیف شود ، توسط برنامه نویس کدگذاری شده و تنها پس از آن اجرا شود. زمان انتظار در این حالت می تواند ساعت ها و روزها باشد که همیشه قابل قبول نیست.

پردازش تحلیلی آنلاین... یا پردازش تحلیلی آنلاین ، OLAP جزء کلیدی سازمان انبار داده است. مفهوم OLAP در سال 1993 توسط ادگار کد توصیف شد و الزامات زیر را برای برنامه های تجزیه و تحلیل چند متغیره دارد:

- نمایش مفهومی چند بعدی داده ها ، از جمله پشتیبانی کامل از سلسله مراتب و سلسله مراتب متعدد (یک نیاز اصلی OLAP) ؛

- ارائه نتایج تجزیه و تحلیل به کاربر در زمان معقول (معمولاً بیش از 5 ثانیه) ، حتی به قیمت تجزیه و تحلیل کمتر جزئی ؛

- توانایی انجام هرگونه تجزیه و تحلیل منطقی و آماری ، معمولی برای این برنامه ، و ذخیره آن در شکلی که برای کاربر نهایی قابل دسترسی است.

- دسترسی چند کاربر به داده ها با پشتیبانی از مکانیزم های قفل مناسب و وسایل دسترسی مجاز ؛

- امکان دسترسی به هرگونه اطلاعات ضروری ، صرف نظر از حجم و محل ذخیره آن.

یک سیستم OLAP از اجزای زیادی تشکیل شده است. در بالاترین سطح ارائه ، سیستم شامل یک منبع داده ، یک پایگاه داده چند بعدی (MDB) است که توانایی پیاده سازی یک موتور گزارش دهی بر اساس فناوری OLAP ، یک سرور OLAP و یک سرویس گیرنده را فراهم می کند. این سیستم بر اساس اصل سرویس گیرنده و سرویس گیرنده ساخته شده است و دسترسی از راه دور و چند کاربر به سرور MDB را فراهم می کند.

اجزای یک سیستم OLAP را در نظر بگیرید.

منابعمنبع در سیستم های OLAP سروری است که داده ها را برای تجزیه و تحلیل ارائه می دهد. بسته به دامنه استفاده از محصول OLAP ، منبع می تواند یک انبار داده ، یک پایگاه داده ارثی حاوی داده های کلی ، یک مجموعه باشد

جداول حاوی داده های مالی یا ترکیبی از موارد فوق.

ذخیره اطلاعات. داده های خام در مخزنی که مطابق با اصول ساختمان انبارهای داده طراحی شده است ، جمع آوری و ذخیره می شوند. HD یک پایگاه داده رابطه ای (RDB) است. جدول اصلی CD (جدول واقعیت) شامل مقادیر عددی شاخص هایی است که اطلاعات آماری برای آنها جمع آوری شده است.

پایگاه داده چند بعدیذخیره اطلاعات به عنوان ارائه دهنده اطلاعات برای پایگاه داده چند بعدی ، که مجموعه ای از اشیاء است ، عمل می کند. کلاسهای اصلی این اشیاء ابعاد و اندازه ها هستند. ابعاد شامل مجموعه ای از مقادیر (پارامترها) است که بر اساس آنها داده ها نمایه می شوند ، به عنوان مثال ، زمان ، مناطق ، نوع موسسه و غیره. هر بعد با مقادیری از جداول ابعاد مربوطه در انبار داده ها پر می شود. مجموعه اندازه گیری ها فضای فرآیند مورد بررسی را مشخص می کند. اندازه گیری ها مکعب داده های چند بعدی (ابر مکعب) هستند. ابر مکعب شامل خود داده ها و همچنین مقادیر مجموع ابعادی است که بخشی از نشانگر هستند. شاخص ها محتوای اصلی MDB را تشکیل می دهند و مطابق جدول واقعیت ها پر می شوند. در امتداد هر محور از ابر مکعب ، داده ها را می توان در یک سلسله مراتب که سطوح مختلف جزئیات را نشان می دهد ، سازماندهی کرد. این به شما امکان می دهد تا ابعاد سلسله مراتبی ایجاد کنید ، که برای تجمیع یا تجزیه و تحلیل داده ها در طول تجزیه و تحلیل داده های بعدی مورد استفاده قرار می گیرد. یک مثال معمولی از بعد سلسله مراتبی لیستی از اشیاء سرزمینی است که بر اساس مناطق ، مناطق ، ولسوالی ها گروه بندی شده اند.

سرورسرور OLAP بخش کاربردی سیستم OLAP است. این جزء همه کارها را انجام می دهد (بسته به مدل سیستم) و تمام اطلاعاتی که دسترسی فعال به آنها ارائه می شود را در خود ذخیره می کند. معماری سرور توسط مفاهیم مختلفی اداره می شود. به طور خاص ، ویژگی اصلی عملکرد محصولات OLAP استفاده از MDB یا RDB برای ذخیره داده است.

برنامه مشتری. داده هایی که بر این اساس تنظیم شده و در MDB ذخیره می شوند با استفاده از برنامه مشتری برای تجزیه و تحلیل در دسترس هستند. کاربر این امکان را دارد که از راه دور به داده ها دسترسی داشته باشد ، پرس و جوهای پیچیده ای را ایجاد کند ، گزارش تهیه کند و زیر مجموعه های دلخواه از داده ها را دریافت کند. دریافت گزارش به انتخاب مقادیر اندازه گیری خاص و ساخت قسمتی از ابر مکعب خلاصه می شود. سطح مقطع با مقادیر اندازه گیری انتخاب شده تعیین می شود. داده های بقیه ابعاد خلاصه شده است.

OLAPروی سرویس گیرنده و سرورتجزیه و تحلیل داده های چند بعدی را می توان با استفاده از ابزارهای مختلف انجام داد ، که می توانند به طور مشروط به ابزارهای OLAP سرویس گیرنده و سرور تقسیم شوند.

ابزارهای سرویس گیرنده OLAP (به عنوان مثال ، Pivot Tables در اکسل 2000 از Microsoft یا ProClarity از Knosys) برنامه هایی هستند که داده های کلی را محاسبه و نمایش می دهند. در این مورد ، داده های کلی خود در حافظه پنهان داخل فضای آدرس چنین ابزار OLAP قرار دارند.

اگر داده های منبع در DBMS رومیزی وجود داشته باشد ، محاسبه کل داده ها توسط خود ابزار OLAP انجام می شود. اگر منبع داده اصلی یک DBMS سرور باشد ، بسیاری از ابزارهای سرویس گیرنده OLAP درخواست های SQL را به سرور ارسال می کنند و در نتیجه ، داده های جمع آوری شده روی سرور را دریافت می کنند.

به طور معمول ، قابلیت OLAP در ابزارهای پردازش داده های آماری و در برخی از صفحات گسترده اجرا می شود.

بسیاری از ابزارهای توسعه شامل کتابخانه هایی از کلاس ها یا اجزا هستند که به شما امکان می دهد برنامه هایی ایجاد کنید که ساده ترین عملکرد OLAP را پیاده سازی کنند (مانند اجزای مکعب تصمیم گیری در Borland Delphi و Borland C ++ Builder). علاوه بر این ، بسیاری از شرکت ها کنترل ActiveX و کتابخانه های دیگری را ارائه می دهند که عملکرد مشابهی را ارائه می دهند.

از ابزارهای OLAP مشتری ، به عنوان یک قاعده ، با تعداد کمی ابعاد (معمولاً بیش از شش عدد) و مقادیر کمی برای این پارامترها استفاده می شود - زیرا داده های جمع آوری شده به دست آمده باید در فضای آدرس چنین ابزاری قرار گیرند. ، و تعداد آنها با افزایش تعداد ابعاد به صورت تصاعدی رشد می کند.

بسیاری از ابزارهای سرویس گیرنده OLAP به شما امکان می دهند محتویات حافظه پنهان را با داده های جمع آوری شده به عنوان یک فایل ذخیره کنید تا دوباره محاسبه نشوند. با این حال ، این فرصت اغلب برای بیگانه سازی داده های کل به منظور انتقال آنها به سازمان های دیگر یا برای انتشار استفاده می شود.

ایده ذخیره حافظه پنهان با داده های جمع آوری شده در یک فایل بیشتر در ابزارهای OLAP سرور (به عنوان مثال Oracle Express Server یا Microsoft OLAP Services) توسعه یافت که در آن ذخیره و تغییر داده های کل و همچنین حفظ فضای ذخیره سازی حاوی آنها ، توسط یک برنامه یا فرآیند جداگانه به نام سرور OLAP انجام می شود. برنامه های مشتری می توانند چنین ذخیره سازی چند بعدی را درخواست کرده و داده های خاصی را در پاسخ دریافت کنند. برخی از برنامه های سرویس گیرنده نیز می توانند چنین مخازن ایجاد کرده یا آنها را با توجه به داده های منبع تغییر یافته به روز کنند.

مزایای استفاده از ابزارهای OLAP مبتنی بر سرور در مقایسه با ابزارهای OLAP سرویس گیرنده مشابه مزایای استفاده از DBMS های سمت سرور در مقایسه با ابزارهای رومیزی است: در مورد استفاده از ابزارهای مبتنی بر سرور ، محاسبه و ذخیره کل داده ها در سرور ، و برنامه سرویس گیرنده فقط نتایج درخواست ها را به آنها می دهد ، که به طور کلی می تواند ترافیک شبکه ، زمان اجرای پرس و جو و منابع مورد نیاز برای برنامه مشتری را کاهش دهد.

3.5 جنبه های فنی ذخیره سازی داده های چند بعدی

چند بعدی بودن برنامه های OLAP را می توان به سه سطح تقسیم کرد:

1... نمایش داده های چند بعدی- ابزارهای کاربر نهایی که تجسم چند بعدی و دستکاری داده ها را ارائه می دهد. لایه MDI از ساختار داده های فیزیکی انتزاع می کند و داده ها را چند بعدی می داند.

پردازش چند بعدی- ابزاری (زبان) برای تنظیم پرس و جوهای چند بعدی (زبان سنتی SQL رابطه ای در اینجا نامناسب است) و پردازنده ای که می تواند چنین پرس و جو را پردازش و اجرا کند.

ذخیره سازی چند بعدی- وسایل سازماندهی فیزیکی داده ها ، اطمینان از اجرای کارآمد پرس و جوهای چند بعدی.

دو سطح اول در همه ابزارهای OLAP اجباری است. سطح سوم ، اگرچه گسترده است ، ضروری نیست ، زیرا داده های نمای چند بعدی نیز می تواند از ساختارهای رابطه ای معمولی بازیابی شود. پردازنده پرس و جو چند بعدی ، در این مورد ، پرس و جوهای چند بعدی را به پرس و جوهای SQL که توسط DBMS رابطه ای اجرا می شوند ، ترجمه می کند.

در هر انبار داده - معمولی و چند بعدی - به همراه داده های دقیق بازیابی شده از سیستم های عملیاتی ، شاخص های تجمیع شده (کل شاخص ها) نیز ذخیره می شوند ، مانند مجموع حجم فروش بر اساس ماه ، بر اساس طبقه بندی محصول و غیره. تنها هدف تسریع در اجرای پرس و جوها است. در واقع ، از یک سو ، به عنوان یک قاعده ، حجم بسیار زیادی از داده ها در انبار انباشته می شود ، و از سوی دیگر ، تحلیلگران در بیشتر موارد به شاخص های دقیق ، اما تعمیم یافته علاقه مند نیستند. و اگر میلیون ها فروش جداگانه برای محاسبه فروش سالانه جمع آوری شود ، به احتمال زیاد سرعت غیرقابل قبول خواهد بود. بنابراین ، هنگام بارگذاری داده ها در پایگاه داده چند بعدی ، همه شاخص های خلاصه یا بخشی از آنها محاسبه و ذخیره می شوند.

با این حال ، استفاده از داده های جمع آوری شده دارای معایبی است. معایب اصلی افزایش میزان اطلاعات ذخیره شده است (هنگام افزودن ابعاد جدید ، مقدار داده ای که یک مکعب را تشکیل می دهد به طور تصاعدی افزایش می یابد) و زمان لازم برای بارگیری آنها. علاوه بر این ، میزان اطلاعات می تواند ده ها و حتی صدها برابر افزایش یابد. به عنوان مثال ، در یکی از آزمایش های استاندارد منتشر شده ، تعداد کل 10 مگابایت داده خام به 2.4 گیگابایت نیاز داشت ، یعنی داده ها 240 برابر رشد کردند!

میزان افزایش میزان داده ها هنگام محاسبه دانه ها به تعداد ابعاد مکعب و ساختار این ابعاد بستگی دارد ، یعنی نسبت تعداد "والدین" و "فرزندان" در سطوح مختلف ابعاد . برای حل مشکل ذخیره سازی دانه ها ، از طرح های پیچیده ای استفاده می شود که به هنگام محاسبه دور از همه مصالح احتمالی ، به افزایش قابل توجهی در عملکرد پرس و جو کمک می کند.

هم داده های اولیه و هم داده های جمع را می توان در هر یک ذخیره کرد

رابطه ای یا در ساختارهای چند بعدی. در این راستا ، از سه روش ذخیره داده های چند بعدی استفاده می شود:

MOLAP (OLAP چند بعدی) - داده های منبع و تجمیع در یک پایگاه داده چند بعدی ذخیره می شود. ذخیره داده ها در ساختارهای چند بعدی به شما امکان می دهد داده ها را به عنوان یک آرایه چند بعدی دستکاری کنید ، بنابراین سرعت محاسبه مقادیر کل برای هر یک از ابعاد یکسان است. با این حال ، در این مورد ، پایگاه داده چند بعدی اضافی به نظر می رسد ، زیرا داده های چند بعدی به طور کامل حاوی داده های رابطه اصلی است.

این سیستم ها یک چرخه کامل از پردازش OLAP را ارائه می دهند. آنها یا علاوه بر م componentلفه سرور ، رابط سرویس گیرنده یکپارچه خود را شامل می شوند ، یا از برنامه های صفحه گسترده خارجی برای ارتباط با کاربر استفاده می کنند.

رولپ (OLAP رابطه ای) - داده های اصلی در همان پایگاه داده رابطه ای که در ابتدا در آن قرار داشت باقی می ماند. مجموع داده ها در جداول خدماتی که مخصوص ذخیره سازی آنها در همان پایگاه داده ایجاد شده است قرار می گیرد.

HOLAP (ترکیبی OLAP) - داده های اصلی در همان پایگاه داده رابطه ای که در ابتدا در آن قرار داشت باقی می ماند و داده های کلی در پایگاه داده چند بعدی ذخیره می شود.

برخی از ابزارهای OLAP از ذخیره داده ها فقط در ساختارهای رابطه ای ، برخی فقط در ساختارهای چند بعدی پشتیبانی می کنند. با این حال ، اکثر ابزارهای مدرن مبتنی بر سرور OLAP از هر سه روش ذخیره داده پشتیبانی می کنند. انتخاب روش ذخیره سازی بستگی به اندازه و ساختار داده های منبع ، الزامات سرعت اجرای پرس و جوها و فراوانی به روز رسانی مکعب های OLAP دارد.

3.6 داده کاوی (داده هامعدن)

اصطلاح داده کاوی فرایند یافتن همبستگی ها ، روندها و روابط را از طریق الگوریتم های مختلف ریاضی و آماری نشان می دهد: خوشه بندی ، تحلیل رگرسیون و همبستگی و غیره برای سیستم های پشتیبانی تصمیم. در این حالت ، اطلاعات انباشته شده به طور خودکار به اطلاعاتی تعمیم داده می شود که می توان آنها را دانش دانست.

فناوری مدرن داده کاوی مبتنی بر مفهوم الگوهایی است که الگوهای ذاتی نمونه های داده را منعکس می کند و به اصطلاح دانش پنهان را تشکیل می دهد.

جستجوی الگوها با استفاده از روش هایی انجام می شود که از هیچ فرض پیشینی در مورد این نمونه ها استفاده نمی کند. یکی از ویژگیهای مهم داده کاوی ، استاندارد نبودن و عدم آشکار بودن الگوهای مورد نظر است. به عبارت دیگر ، ابزارهای داده کاوی با ابزارهای پردازش داده های آماری و ابزارهای OLAP تفاوت دارند زیرا به جای بررسی روابط فرض شده توسط کاربران از قبل ،

بین داده ها ، براساس داده های موجود ، آنها می توانند به طور مستقل چنین روابطی را بیابند و همچنین فرضیه هایی در مورد ماهیت آنها ایجاد کنند.

به طور کلی ، فرآیند داده کاوی شامل سه مرحله است

شناسایی الگوها (جستجوی رایگان) ؛

استفاده از الگوهای آشکار برای پیش بینی مقادیر ناشناخته (مدل سازی پیش بینی) ؛

تجزیه و تحلیل استثنا ، برای شناسایی و تفسیر ناهنجاری ها در الگوهای یافت شده طراحی شده است.

گاهی اوقات یک مرحله متوسط برای بررسی قابلیت اطمینان الگوهای یافت شده بین یافتن و استفاده از آنها (مرحله اعتبار سنجی) به صراحت مشخص می شود.

پنج نوع استاندارد از الگوها با روش های داده کاوی وجود دارد:

1. انجمنبه شما امکان می دهد گروههای پایداری از اشیاء را انتخاب کنید که بین آنها پیوندهای مشخصی وجود دارد. فراوانی وقوع یک مورد یا گروه از اقلام ، که به صورت درصد بیان می شود ، شیوع نامیده می شود. میزان شیوع پایین (کمتر از یک هزارم درصد) نشان می دهد که چنین ارتباطی قابل توجه نیست. انجمن ها در قالب قوانین نوشته می شوند: آ=> ب، جایی که ولی -بسته ، که در -نتیجه. برای تعیین اهمیت هر یک از قوانین ارتباطی بدست آمده ، باید مقدار را محاسبه کرد که به آن اطمینان گفته می شود ولیبه که در(یا رابطه الف و ب).اعتماد نشان می دهد که چند وقت یکبار ولیظاهر می شود که در.به عنوان مثال ، اگر d (A / B)= 20، ، این بدان معناست که هنگام خرید یک محصول ولیدر هر پنجمین مورد ، کالا نیز خریداری می شود که در.

یک مثال معمولی از استفاده از انجمن تجزیه و تحلیل ساختار خریدها است. به عنوان مثال ، هنگام انجام مطالعه در سوپر مارکت ، می توان ثابت کرد که 65 درصد از افرادی که چیپس سیب زمینی خریداری کرده اند ، کوکاکولا نیز مصرف می کنند و اگر برای چنین مجموعه ای تخفیف وجود داشته باشد ، کولا در 85 درصد موارد خریداری می شود. این نتایج در شکل گیری استراتژی های بازاریابی ارزشمند است.

2. دنباله - این یک روش برای شناسایی ارتباطات در زمان است. در این مورد ، قوانینی تعریف می شود که وقوع متوالی گروه های خاصی از رویدادها را توصیف می کند. این قوانین برای ساختن اسکریپت ضروری است. بعلاوه ، می توان از آنها برای مثال مجموعه ای معمولی از فروشهای قبلی استفاده کرد که ممکن است مستلزم فروش بعدی یک محصول خاص باشد.

3. طبقه بندی - ابزار تعمیم این به شما امکان می دهد از در نظر گرفتن اشیاء واحد به مفاهیم کلی که برخی از مجموعه اشیا را مشخص می کنند و برای تشخیص اشیاء متعلق به این مجموعه ها (کلاس ها) کافی هستند ، بروید. ماهیت فرآیند شکل گیری مفهوم ، یافتن الگوهای ذاتی در کلاس ها است. بسیاری از ویژگی های مختلف (ویژگی ها) برای توصیف اشیاء استفاده می شود. مشکل شکل گیری مفهوم بر اساس توصیف ویژگی ها توسط M.M. بونگارت. راه حل آن بر اساس استفاده از دو روش اساسی است: آموزش و آزمایش. در روش های آموزشی ، یک قاعده طبقه بندی بر اساس پردازش مجموعه ای از اشیاء آموزشی ایجاد می شود. روش تأیید (معاینه) شامل استفاده از قانون طبقه بندی بدست آمده برای تشخیص اشیاء از یک نمونه (معاینه) جدید است. اگر نتایج آزمایش رضایت بخش باشد ، فرآیند یادگیری به پایان می رسد ، در غیر این صورت قانون طبقه بندی در طول فرایند یادگیری مجدد اصلاح می شود.

4 خوشه بندی آیا توزیع اطلاعات (سوابق) از پایگاه داده به گروهها (خوشه ها) یا بخشها با تعیین همزمان این گروهها است. در مقابل طبقه بندی ، در اینجا ، برای تجزیه و تحلیل ، هیچ تعیین اولیه کلاس ها مورد نیاز نیست.

5 پیش بینی سری زمانی ابزاری برای تعیین روند تغییرات در ویژگیهای اشیاء مورد بررسی در طول زمان است. تجزیه و تحلیل رفتار سری های زمانی امکان پیش بینی مقادیر ویژگی های مورد مطالعه را ممکن می سازد.

برای حل چنین مشکلاتی ، از روش ها و الگوریتم های مختلف داده کاوی استفاده می شود. با توجه به اینکه داده کاوی در تقاطع رشته هایی مانند آمار ، نظریه اطلاعات ، یادگیری ماشین ، نظریه پایگاه داده توسعه یافته و توسعه یافته است ، طبیعی است که اکثر الگوریتم ها و روش های داده کاوی بر اساس روش های مختلف این رشته ها توسعه یافته اند. .

از انواع روش های داده کاوی موجود ، موارد زیر را می توان تشخیص داد:

تحلیل رگرسیون ، واریانس و همبستگی(در اکثر بسته های آماری مدرن ، به ویژه در محصولات شرکتهای SAS Institute ، StatSoft و غیره اجرا می شود) ؛

روشهای تجزیه و تحلیلدر یک زمینه موضوعی خاص ، بر اساس مدلهای تجربی (اغلب استفاده می شود ، به عنوان مثال ، در ابزارهای تحلیل مالی ارزان).

الگوریتم های شبکه عصبی- روشی برای شبیه سازی فرآیندها و پدیده ها که امکان تولید وابستگی های پیچیده را فراهم می کند. این روش بر اساس استفاده از یک مدل ساده شده از مغز بیولوژیکی است و در این واقعیت نهفته است که پارامترهای اولیه به عنوان سیگنال هایی در نظر گرفته می شوند که مطابق با اتصالات موجود بین "نورون ها" و واکنش کل شبکه به داده های اولیه به عنوان پاسخ حاصل از تجزیه و تحلیل در نظر گرفته می شود. در این مورد ، اتصالات با استفاده از اصطلاح آموزش شبکه با استفاده از یک نمونه بزرگ که حاوی داده های اولیه و پاسخ های صحیح است ایجاد می شود. شبکه های عصبی به طور گسترده ای برای حل مسائل طبقه بندی استفاده می شوند.

منطق فازیبرای پردازش داده ها با مقادیر حقیقت فازی که می توانند توسط انواع متغیرهای زبانی نمایش داده شوند ، استفاده می شود. برای نشان دادن مشکلات طبقه بندی و پیش بینی ، به عنوان مثال ، در سیستم XpertRule Miner (Attar Software Ltd. ، UK) ، و همچنین در AIS ، NeuFuz و غیره ، بازنمایی دانش فازی به طور گسترده ای برای حل مشکلات طبقه بندی و پیش بینی استفاده می شود.

سرنخهای استقراییبه شما امکان می دهد کلیات واقعیات ذخیره شده در پایگاه داده را بدست آورید. در فرایند یادگیری استقرایی ، متخصصی که فرضیه ها را ارائه می دهد ، ممکن است درگیر شود. به این می گویند یادگیری تحت نظارت. جستجوی قوانین تعمیم را می توان بدون معلم با ایجاد فرضیه ها به طور خودکار انجام داد. در نرم افزارهای مدرن ، به عنوان یک قاعده ، هر دو روش ترکیبی هستند و از روش های آماری برای آزمون فرضیه ها استفاده می شود. نمونه ای از سیستم هایی که از سرنخ های استقرایی استفاده می کنند ، XpertRule Miner است که توسط Attar Software Ltd. توسعه یافته است. (بریتانیای کبیر)؛

استدلال بر اساس موارد مشابه(روش "نزدیکترین همسایه") (استدلال مبتنی بر مورد - CBR) مبتنی بر جستجو در پایگاه داده برای موقعیت هایی است که توصیفات آنها در تعدادی از ویژگی ها مشابه یک موقعیت خاص است. اصل قیاس به ما این امکان را می دهد که فرض کنیم نتایج موقعیتهای مشابه نیز نزدیک به هم خواهد بود. نقطه ضعف این روش این است که هیچ مدل یا قانونی ایجاد نمی کند که تجربیات قبلی را تعمیم دهد. علاوه بر این ، قابلیت اطمینان نتایج خروجی بستگی به کامل بودن توصیف موقعیت ها دارد ، مانند فرایندهای استنتاج استقرایی. نمونه هایی از سیستم هایی که از CBR استفاده می کنند عبارتند از: KATE Tools (Acknosoft ، فرانسه) ، Workbench تشخیص الگو (Unica ، ایالات متحده آمریکا) ؛

درختان تصمیم گیری- روشی برای ساختاربندی یک کار به شکل نمودار درختی ، رأس آن مطابق با قوانین تولید است که امکان طبقه بندی داده ها یا تجزیه و تحلیل پیامدهای تصمیمات را فراهم می کند. این روش یک نمایش بصری از سیستم طبقه بندی قوانین را ارائه می دهد ، اگر قوانین زیادی وجود نداشته باشد. مشکلات ساده با استفاده از این روش بسیار سریعتر از استفاده از شبکه های عصبی حل می شوند. برای مشکلات پیچیده و برای برخی از انواع داده ها ، درخت تصمیم گیری ممکن است مناسب نباشد. علاوه بر این ، این روش دارای مشکل اهمیت است. یکی از پیامدهای خوشه بندی سلسله مراتبی داده ها عدم وجود تعداد زیادی نمونه آموزشی برای بسیاری از موارد خاص است و بنابراین طبقه بندی را نمی توان معتبر در نظر گرفت. روش های درخت تصمیم گیری در بسیاری از ابزارهای نرم افزاری اجرا می شوند ، یعنی: С5.0 (RuleQuest ، استرالیا) ، Clementine (Integral Solutions ، UK) ، SIPINA (دانشگاه لیون ، فرانسه) ، IDIS (کشف اطلاعات ، ایالات متحده) ؛

برنامه نویسی تکاملی- جستجو و ایجاد یک الگوریتم بیان کننده وابستگی متقابل داده ها ، بر اساس الگوریتم مشخص شده اولیه ، تغییر یافته در فرایند جستجو ؛ گاهی اوقات جستجو برای وابستگی های متقابل در میان انواع خاصی از توابع (به عنوان مثال ، چند جمله ای) انجام می شود.

الگوریتم های جستجوی محدودکه ترکیبی از رویدادهای منطقی ساده را در زیرگروه داده محاسبه می کند.

3.7 ادغامOLAPوداده هامعدن

پردازش تحلیلی آنلاین (OLAP) و داده کاوی دو بخش از فرایند پشتیبانی تصمیم هستند. با این حال ، امروزه اکثر سیستم های OLAP تنها بر روی دسترسی به داده های چند بعدی تمرکز می کنند و اکثر ابزارهای داده کاوی که در زمینه الگوها کار می کنند با دیدگاه داده های یک بعدی سروکار دارند. برای افزایش کارایی پردازش داده ها برای سیستم های پشتیبانی تصمیم ، این دو نوع تحلیل باید با هم ترکیب شوند.

در حال حاضر ، یک اصطلاح ترکیبی "OLAP Data Mining" (استخراج چند بعدی) برای نشان دادن چنین ترکیبی وجود دارد.

سه روش اصلی برای تشکیل "OLAP Data Mining" وجود دارد:

"مکعب و سپس استخراج". توانایی انجام تجزیه و تحلیل ماینینگ باید در هر نتیجه ای از یک پرس و جو در یک نمایش مفهومی چند بعدی ، یعنی در هر قطعه ای از پیش بینی یک ابر مکعب از شاخص ها ارائه شود.

استخراج و سپس مکعب کردن. مانند داده های استخراج شده از یک مخزن ، نتایج استخراج باید برای تجزیه و تحلیل چند متغیره بعدی به صورت هایپرکوبیک ارائه شود.

"لوله گذاری هنگام استخراج". این روش انعطاف پذیر یکپارچه سازی به شما امکان می دهد در نتیجه هر مرحله از تجزیه و تحلیل چند متغیره (گذار) بین سطوح تعمیم ، استخراج قطعه جدیدی از ابر مکعب و غیره) به طور خودکار یک نوع مکانیسم پردازش هوشمند را فعال کنید.

نجوم برای 11 کلاس [متن ... آنهاچگونه بخشتمام سیستم های ... استادیار ... چبوکساری، 2009. شماره 10. S. 44 -49 .... نویسندگان- کامپایلرها: ن ... خلاصه داستانسخنرانی ها, ...

راهنمای مطالعه
... سخنرانی ها... آموزش سخنرانی هاریاضیات نوشتن خلاصه داستانسخنرانی ها سخنرانی ها... استفاده اطلاعاتفن آوری ها ...
I k kondaurova with v lebedeva
راهنمای مطالعه
... سخنرانی ها... آموزش سخنرانی هاریاضیات نوشتن خلاصه داستانسخنرانی ها... تهیه وسایل کمکی بصری. تکنیک خواندن سخنرانی ها... استفاده اطلاعاتفن آوری ها ...
MEDIA MONITORING مدرنیزاسیون آموزش حرفه ای مارس - آگوست 2011
خلاصه
... 11 .08.2011 "Souls Dead-2" در RNIMU آنها ... 3,11 -3,44 ... ... عمومی سخنرانی هارهبران ... چبوکساری... و خط خطی خلاصه داستانحضار - ... اطلاعاتسیستم هایو فن آوری. ... سیستممی گوید ، آموزش و پرورش استادیار ... کامپایلرها ... قطعاتافزایش واقعی محتوا ...

موضوع 6

سیستم های اطلاعاتی شرکت برای پردازش اطلاعات اقتصادی

مفهوم فناوری اطلاعات شرکت

ماهیت و اهمیت فناوری اطلاعات شرکت ها

در میان برنامه های متنوع برای تجارت ، اصطلاح "فناوری اطلاعات در حاکمیت شرکتی" به طور سنتی به عنوان "سیستم های اتوماسیون مدیریت یکپارچه" شناخته می شود. نامهای دیگر آنها نیز شناخته شده است - سیستم های مقیاس سازمانی ، سیستم های اطلاعات شرکت (CIS) ، سیستم های مدیریت شرکتی (یا یکپارچه) (KSU) ، سیستم های کنترل خودکار (ACS).

به عنوان یک قاعده ، سیستم های اتوماسیون کنترل پیچیده "اساسی" راه حل های جهانی مناسب برای انواع مختلف شرکت ها هستند ، در درجه اول مدیریت مالی ، مدیریت موجودی ، مدیریت خرید و فروش. اما این سیستم ها اغلب دارای راه حل های صنعتی هستند که یک یا چند ویژگی دیگر را منعکس می کند و شامل یک پایگاه نظارتی و مرجع مناسب

به عنوان مثال ، راه حل سیستم SAP R / 3 برای صنعت هوانوردی از حسابداری و کنترل شماره سریال تمام قطعات هواپیما ، عمر مفید آنها ، تعویض یا تعمیر برنامه ریزی شده پشتیبانی می کند ، که نه تنها قابلیت اطمینان تولید ، بلکه ایمنی هواپیماها را نیز تضمین می کند. مسافران

از آنجا که سیستمهای مدیریت یکپارچه در درجه اول بر شرکتهای بزرگ حاوی ساختارهای چند رشته ای متمرکز هستند ، آنها نه تنها مجموعه ای از عملکردها را ارائه می دهند ، بلکه ذخیره و پردازش قابل اعتماد مقادیر زیادی اطلاعات را با استفاده از بسترهای قدرتمند و ابزارهای سیستم برای کارهای چند کاربره ارائه می دهند. ..

فناوری های اطلاعاتی مدرن ، ارتباطات و اینترنت به حل مشکلات دسترسی از راه دور به یک پایگاه داده واحد ، که برای حاکمیت شرکتی نیز مهم است ، می پردازد.

ساخت مفهوم

اگرچه اکثر توسعه دهندگان محصولات نرم افزاری خود را مدیریتی (شرکت ، انبار ، امور مالی و غیره) می نامند ، اما در اصل ، تقریباً همه ابزارهای نرم افزاری مورد استفاده در حاکمیت شرکتی ، ثبت حقایق و اسناد فعالیت های مالی و اقتصادی ، سیستم های حسابداری با قابلیت تهیه گزارشات و منابع در بخشهای مجاز با ویژگیهای تحلیلی. یعنی اطلاعات ساختار یافته در پایگاه داده وارد می شوند. این ساختار تا حدودی توسط کتابهای مرجع به هم پیوسته ، طبقه بندی کننده ها ، پارامترها و اشکال اسناد استاندارد تنظیم شده است. با توجه به اطلاعات موجود در پایگاه داده ، به اصطلاح "برش" "ساخته" ، "بیرون کشیده" ، "جمع آوری" با ابزار است. با دریافت گزارش ها و مراجع ، اغلب گزارش های تحلیلی ، بر اساس چنین داده هایی ، مدیریت می تواند تصمیم گیری کند. این مفهوم معمولی و فناوری معمولی برای کار با سیستم های کلاس مورد نظر است.

تصادفی نیست که از نظر محتوای کاربردی ، راه حل های سیستم ، هدف و استفاده از نرم افزارهای "مدیریت" مانند روشهای تعامل با سیستم ها "Galaktika" ، "BEST" و "1C: Enterprise" متفاوت است.

با این وجود ، شرکتها ، به عنوان مثال ، OJSC "Uralelectromed" ، چنین الزامات سخت و متنوعی را برای ابزارهای حاکمیت شرکتی مطرح کردند که ایجاد آنها بر اساس چند سطح ضروری می شود. معمولاً هسته اصلی سیستم ، که فقط شامل کدهای برنامه است ، مرکزی است. عنصر مهم بعدی بعدی ، جعبه ابزار داخلی سیستم است که به شما اجازه می دهد بدون تغییر کدهای برنامه ، حداقل آن را در محل کار پیکربندی کنید ، عملیات خاصی را انجام دهید ، اشکال جدید و اسناد موجود را تغییر دهید و از آنها استفاده کنید. سایر ابزارهای تنظیم پارامتری سیستمهای پیشرفته تر دارای ابزارهای داخلی برای ایجاد مدلهای مختلف یک شرکت هستند: اطلاعاتی ، سازمانی ، عملکردی و غیره و در نهایت ، خود پایگاه داده.

پردازش اطلاعات تحلیلی

برنامه ریزی فعالیت های یک شرکت ، به دست آوردن اطلاعات عملیاتی و تصمیم گیری صحیح بر اساس تجزیه و تحلیل آن ، با پردازش حجم زیادی از داده ها همراه است. گزارشهای ایجاد شده در سیستمهای حسابداری شرکتها معمولاً انعطاف پذیر نیستند. آنها نمی توانند "چرخش" ، "گسترش" یا "جمع شدن" برای بدست آوردن نمایش داده مورد نظر ، از جمله موارد گرافیکی ، باشند. هرچه تعداد "برش ها" و "برش ها" بیشتر باشد ، واقع بینانه تر می توانید تصویری از شرکت تصور کنید و بهترین تصمیم را در مورد مدیریت فرایندهای کسب و کار بگیرید. برای انجام این نوع وظایف ، مدل سازی ریاضی و اقتصادی و همچنین عملکرد بالا مورد نیاز است. ماژول تحلیلی در سیستم "RepKo" موجود است ، و بیشتر شناخته شده سیستم "Triumph -Analytica" (شرکت "PARUS" - "مرکز تورات") است. به نظر می رسد که سیستم های حسابداری بر اساس اطلاعات ذخیره شده در پایگاه داده ، مرجع هایی را در "بخش" های مختلف ایجاد می کنند ، آنها به سادگی آنچه را که هست نشان می دهند. و سیستم های تحلیلی اطلاعات جدیدی را با توجه به پارامترها یا معیارهای مشخص ایجاد می کنند و آن را برای اهداف خاص بهینه می کنند. بنابراین ، بیشتر اوقات برای مشاهده و تجسم اطلاعات به یک ابزار خاص نیاز دارید که پردازش تحلیلی آنلاین (OLAP) است. این مجموعه مجموعه ای از ابزارهای راحت و سریع برای دسترسی ، مشاهده و تجزیه و تحلیل چند بعدی اطلاعات جمع آوری شده در ذخیره سازی را فراهم می کند.

فناوری های OLAP برای مدل سازی وضعیت مطابق طرح "چه می شود اگر ..." و برای تهیه انواع گزارش های تحلیلی استفاده می شود. محصولات نرم افزاری تخصصی غربی وجود دارد.

به طور معمول ، اطلاعات سیستم های مدیریت شرکت به برنامه های تخصصی برای پردازش داده های تحلیلی منتقل می شود. بسیاری از توسعه دهندگان داخلی سعی می کنند این مشکلات را به تنهایی حل کنند ، به عنوان مثال ، Nikos-Soft (سیستم NS-2000) ، Cepheus (سیستم مدیریت شرکت Etalon) ، KOMSOFT (KOMSOFT-STANDARD "2.0) و غیره.

6.4 چشم اندازهای توسعه و استفاده از فن آوری های اطلاعات شرکت

علاوه بر توسعه و استفاده از ابزارها و بسترهای مدرن و همچنین ابزارهای سیستم ، توسعه سیستم های شرکتی داخلی مستلزم اشباع عملکردی آنها ، به ویژه از نظر تولید است.

علیرغم اشتیاق فراوان برای پیاده سازی استانداردهای مدیریت ، بازیگران پیشرو در بازار نرم افزار داخلی در حال توسعه راه حل های صنعتی برای انواع صنایع هستند.

ترس شرکت ها از افشای "محرمانه بودن" تحولات آنها در حال کاهش است ، که به تقویت تلاش های آنها برای ادغام محصولات آنها کمک می کند ، نه اینکه همه چیز را از "a" تا "z" به تنهایی توسعه دهند. امروزه هیچ کس منابع کافی ندارد. درک مفهوم جدید ، توسعه پروژه و سیستم ، یعنی سیستمی که کیفیت آن را بسته به آنچه در آن است تغییر می دهد ، سالها طول می کشد. علاوه بر این ، الزامات ادغام محصولات نرم افزاری نیز توسط شرکتهایی که مایل به ادامه کار هستند ، به عنوان یک سیستم تخصصی ، ارائه شده و به صورت اطلاعاتی آنها را با سیستمهای جدید خریداری شده ترکیب می کند.

ادغام همچنین برای محصولات تولید کنندگان مختلف لازم است - به نام ترکیب راه حل های پیچیده با تخصص:

- بودجه بندی ، تجزیه و تحلیل مالی و اقتصادی ، خدمات به مشتریان ، پردازش داده های تحلیلی و غیره.

لازم به ذکر است که نه خود سیستم های کنترل امیدوار کننده تر هستند ، بلکه یک ابزار ساده و جهانی برای ایجاد آنها هستند ، که برای واسطه های واجد شرایط بین توسعه دهنده و کاربر نهایی در نظر گرفته شده است. اکنون این عملکردها توسط مدیران و تحلیلگران سیستم انجام می شود.

اگر چنین ابزاری در دسترس باشد ، راه حل های استاندارد "آماده" برای همه شرکت ها در همه صنایع مورد تقاضا خواهد بود.

اینترنت به عنوان یک ابزار اضافی برای توسعه مشاغل تنها در صورت وجود یک سیستم مدیریت یکپارچه می تواند به طور مثر مورد استفاده قرار گیرد.

اگرچه فناوری های اطلاعاتی و ارتباطی مدرن ، از جمله اینترنت ، سازماندهی اجاره نرم افزار را ممکن می سازد ، اما صحبت درباره چشم انداز نزدیک استفاده از چنین فرصت هایی ، به ویژه در کشور ما ، زودهنگام است. و نه به دلایل محرمانه بودن به دلیل عدم نظم و وسایل ارتباطی قابل اعتماد.

تلاش برای پیاده سازی و تجربه در استفاده ، حتی نه به طور کامل ، از فناوری اطلاعات در شرکتهای داخلی در عمل ثابت کرده است که "هرج و مرج را نمی توان خودکار کرد". سازماندهی اولیه کسب و کار و خود شرکت و همچنین ایجاد مقررات (دستورالعمل) مدیریت ضروری است. برای کارکنان شرکت دشوار است که به تنهایی با چنین کاری کنار بیایند. به ویژه با توجه به عامل زمان در شرایط بازار. بنابراین ، عمل تعامل با شرکت های مشاوره در همه جا در حال توسعه است ، که به شرکت ها کمک می کند و به کارکنان خود آموزش می دهد "گلوگاه ها را گسترش دهند" ، فرایند اصلی تجارت را ایجاد کنند ، فناوری را توسعه دهند ، جریان اطلاعات را ایجاد کنند و غیره. خودکارسازی یک فرآیند ساده تر ، آسان تر ، ارزان تر ، سریعتر است.

هر کس باید کار خود را انجام دهد. حسابدار ، انبار دار ، مدیر فروش و سایر متخصصان "موضوعی" نباید به دلیل تغییر در قوانین یا طرح های تجاری ، فرم اسناد را بهبود بخشند ، ستون ها را گسترش دهند یا مکان خود را تغییر دهند. بنابراین ، بازار نرم افزار به تدریج از "محصول" به "خدمات" تبدیل می شود. برون سپاری شروع به توسعه می کند - انتقال برخی از عملکردهای شرکت به متخصصان شرکت های درگیر. آنها در تعمیر و نگهداری تجهیزات ، نرم افزار سیستم ، اصلاح بخش کاربردی (عملکردی) سیستم ها و غیره مشغول هستند.

فناوری اطلاعات و خدمات روش شناختی برای کاربران و مصرف کنندگان آنها در استفاده از سیستم های مدیریت شرکتی به مهمترین و موضعی تبدیل شده است.

8.3.1 ابزارهای پردازش تحلیلی آنلاین (OLAP)

پردازش تحلیلی آنلاین وسیله ای برای پردازش تحلیلی عملیاتی (زمان واقعی) اطلاعات است که با هدف حمایت از تصمیم گیری و کمک به تحلیلگران در پاسخ به این س "ال که "چرا اشیاء ، محیط ها و نتایج تعامل آنها چنین هستند و دیگران نیستند؟" در این مورد ، خود تحلیلگر نسخه هایی از رابطه بین مجموعه ای از اطلاعات را تشکیل می دهد و آنها را بر اساس داده های موجود در پایگاه های داده مربوطه اطلاعات ساختار یافته بررسی می کند.

سیستم های ERP با حضور اجزای تحلیلی به عنوان بخشی از زیر سیستم های عملکردی مشخص می شوند. آنها شکل گیری اطلاعات تحلیلی را در زمان واقعی ارائه می دهند. این اطلاعات اساس اکثر تصمیمات مدیریتی است.

فناوری های OLAP از ابر مکعب ها استفاده می کنند - داده های ساختار یافته ویژه (در غیر این صورت مکعب های OLAP نامیده می شوند). در ساختار داده های ابر مکعب ، موارد زیر متمایز می شوند:

اقدامات - شاخص های کمی (الزامات - اساس) مورد استفاده برای ایجاد نتایج خلاصه آماری.

ابعاد - دسته های توصیفی (ویژگی ها - ویژگی ها) ، که در زمینه آنها اندازه گیری ها تجزیه و تحلیل می شود.

ابعاد هایپر مکعب با تعداد ابعاد یک اندازه گیری تعیین می شود. به عنوان مثال ، ابر مکعب SALES حاوی داده ها است:

ابعاد: مصرف کنندگان ، تاریخ عملیات ، گروه کالاها ، نامگذاری ، تغییرات ، بسته ها ، انبارها ، انواع پرداخت ، انواع حمل و نقل ، نرخ ، ارز ، سازمانها ، بخشها ، مسئول ، کانالهای توزیع ، مناطق ، شهرها ؛

اقدامات: مقدار برنامه ریزی شده ، مقدار واقعی ، مقدار برنامه ریزی شده ، مقدار واقعی ، پرداخت های برنامه ریزی شده ، پرداخت های واقعی ، موجودی برنامه ریزی شده ، موجودی واقعی ، قیمت فروش ، زمان اجرای سفارش ، مبلغ بازپرداخت.

چنین ابر مکعبی برای گزارش های تحلیلی در نظر گرفته شده است:

طبقه بندی مصرف کنندگان با توجه به حجم خرید ؛

طبقه بندی کالاهای فروخته شده به روش ABC ؛

تجزیه و تحلیل شرایط اجرای سفارشات مصرف کنندگان مختلف ؛

تجزیه و تحلیل حجم فروش بر اساس دوره ها ، کالاها و گروه های کالا ، مناطق و مصرف کنندگان ، بخشهای داخلی ، مدیران و کانالهای فروش ؛

پیش بینی تسویه حساب متقابل با مصرف کنندگان ؛

تجزیه و تحلیل بازگشت کالا از مصرف کنندگان ؛ و غیره.

گزارشات تحلیلی می توانند ترکیبی دلخواه از ابعاد و اندازه ها داشته باشند ، آنها برای تجزیه و تحلیل تصمیمات مدیریت استفاده می شوند. پردازش تحلیلی با ابزارهای ابزاری و زبانی انجام می شود. در صفحه گسترده MS Excel که در دسترس عموم است ، فناوری اطلاعات "جداول محوری" ارائه شده است ، داده های اولیه برای ایجاد آنها عبارتند از:

لیست (پایگاه داده) MS Excel - جدول رابطه ؛

جدول محوری دیگر MS Excel ؛

محدوده تلفیقی سلولهای MS Excel که در کتابهای کار یکسان یا متفاوت قرار دارند.

پایگاه داده رابطه ای خارجی یا مکعب OLAP ، منبع داده (فایل ها در قالب .dsn ، .ode).

برای ایجاد جداول محوری بر اساس پایگاه داده های خارجی ، از درایورهای ODBC و همچنین برنامه MS Query استفاده کنید. جدول خلاصه برای پایگاه داده اصلی MS Excel دارای ساختار زیر است (شکل 8.3).

طرح جدول محوری دارای ساختار داده زیر است (شکل 8.4): ابعاد - کد بخش ، موقعیت ؛ اقدامات - سابقه کار ، حقوق و پاداش. در زیر یک جدول خلاصه آمده است. 8.2 ، که به شما امکان می دهد رابطه میان تجربه کاری متوسط و دستمزد ، میانگین سابقه کار و پاداش ها ، حقوق و پاداش ها را تجزیه و تحلیل کنید.

جدول 8.2

جدول محوری برای تجزیه و تحلیل پیوندها

انتهای جدول. 8.2

برای ادامه تجزیه و تحلیل با استفاده از جدول محوری ، می توانید:

جمع جدید (به عنوان مثال ، متوسط حقوق ، متوسط پاداش و غیره) ؛

از فیلتر کردن سوابق و مجموع جدول محوری استفاده کنید (به عنوان مثال ، با ویژگی "جنسیت" ، که در طرح در منطقه * صفحه قرار داده شده است) ؛

محاسبه شاخص های ساختاری (به عنوان مثال ، توزیع وجوه دستمزد و صندوق های پاداش بر اساس بخش ها - با استفاده از پردازش اضافی جداول محوری ، سهام مبلغ بر اساس ستون) ؛ و غیره.

مجموعه MS Office به شما امکان می دهد داده های صفحه گسترده ، از جمله جداول محوری و نمودارها را در قالب XTML منتشر کنید.

اجزای وب مایکروسافت آفیس از کار با داده های منتشر شده در محیط اینترنت اکسپلورر پشتیبانی می کند و امکان تجزیه و تحلیل بیشتر (تغییرات در ساختار داده های جدول محوری ، محاسبه مجموع خلاصه جدید) را فراهم می کند.

8.3.2. ابزارهای داده کاوی (DM)

ابزارهای DM دلالت بر استخراج ("حفاری" ، "استخراج") داده ها دارند و به منظور شناسایی رابطه بین اطلاعات ذخیره شده در پایگاه های داده دیجیتال شرکت هستند ، که تحلیلگر می تواند از آنها برای ایجاد مدل هایی استفاده کند که میزان تأثیر عوامل را تعیین می کند. علاقه. علاوه بر این ، چنین ابزارهایی می توانند برای ایجاد فرضیه در مورد ماهیت احتمالی روابط اطلاعاتی در پایگاه های داده دیجیتال یک شرکت مفید باشند.

فناوری استخراج متن (TM) مجموعه ای از ابزارها است که به شما امکان می دهد مجموعه وسیعی از اطلاعات را در جستجوی روندها ، الگوها و روابط تجزیه و تحلیل کنید که می تواند به شما در تصمیم گیری استراتژیک کمک کند.

فناوری استخراج تصویر (IM) شامل ابزارهایی برای تشخیص و طبقه بندی تصاویر بصری مختلف ذخیره شده در پایگاه های داده شرکت یا در نتیجه جستجوی آنلاین از منابع اطلاعات خارجی است.

برای حل مشکلات پردازش و ذخیره همه داده ها ، از روش های زیر استفاده می شود:

1) ایجاد چندین سیستم پشتیبان یا یک سیستم مدیریت سند توزیع شده که به شما امکان می دهد داده ها را ذخیره کنید ، اما به درخواست کاربر به اطلاعات ذخیره شده دسترسی کند دارند.

2) ساخت سیستم های اینترنتی که بسیار انعطاف پذیر هستند ، اما برای پیاده سازی جستجو و ذخیره اسناد متنی مناسب نیستند.

3) معرفی پرتال های اینترنتی که به خوبی درخواست های کاربر را هدف گرفته اند ، اما اطلاعات توصیفی در مورد داده های متنی که در آنها بارگذاری شده است ندارند.

سیستم های پردازش متن عاری از مشکلات ذکر شده در بالا را می توان به دو دسته تقسیم کرد: سیستم های تحلیل زبانی و سیستم های تجزیه و تحلیل داده های متنی.

عناصر اصلی فناوری Text Mining عبارتند از:

خلاصه سازی؛

استخراج ویژگی

خوشه بندی

طبقه بندی

پاسخ به سوالات (پاسخ به سوالات) ؛

نمایه سازی موضوعی ؛

جستجو بر اساس کلمات کلیدی (جستجوی کلمات کلیدی) ؛

ایجاد و نگهداری اصطلاحات و اصطلاحنامه ها.

محصولات نرم افزاری که از فناوری Text Mining استفاده می کنند عبارتند از:

استخراج کننده هوشمند IBM برای متن - مجموعه ای از ابزارهای خط فرمان فردی ، یا پرش می کند. مستقل از یکدیگر (تأکید اصلی بر مکانیزم های داده کاوی - بازیابی اطلاعات) است.

Oracle InterMedia Text - مجموعه ای ادغام شده در DBMS که به شما امکان می دهد با درخواست های کاربر به طور مثر کار کنید (به شما امکان می دهد با DBMS ارتباطی مدرن در زمینه جستجوی چند منظوره و تجزیه و تحلیل داده های متن کار کنید).

Megaputer Text Analyst مجموعه ای از اشیاء COM است که در برنامه برای حل وظایف Text Mining ساخته شده است.

8.3.3. فناوری اطلاعات هوشمند

امروزه ، در زمینه اتوماسیون کنترل ، تجزیه و تحلیل اطلاعات در مرحله اولیه آماده سازی تصمیمات - پردازش اطلاعات اولیه ، تجزیه وضعیت مشکل ، که به شما امکان می دهد فقط قطعات و جزئیات فرآیندها را یاد بگیرید ، و نه وضعیت به طور کلی ، غالب است. برای غلبه بر این اشکال ، باید یاد بگیرید که با استفاده از تجربه بهترین متخصصان ، پایگاه های دانش بسازید و همچنین دانش مفقوده را ایجاد کنید.

استفاده از فناوری های اطلاعاتی در حوزه های مختلف فعالیت های بشری ، رشد تصاعدی حجم اطلاعات و نیاز به پاسخ سریع در هر شرایطی ، جستجوی راه حل های مناسب برای مشکلات نوظهور را می طلبد. م effectiveثرترین آنها روش روشنفکری فناوری اطلاعات است.

زیر فناوری اطلاعات هوشمند(ITT) معمولاً به عنوان چنین فناوری اطلاعاتی در نظر گرفته می شود که قابلیت های زیر را ارائه می دهد:

وجود پایگاه های دانش منعکس کننده تجربه افراد خاص ، گروه ها ، جوامع ، به عنوان یک کل بشریت ، در حل مشکلات خلاق در زمینه های خاص فعالیت ، به طور سنتی از اختیارات هوش انسانی محسوب می شود (به عنوان مثال ، وظایف ضعیف رسمی مانند تصمیم گیری ، طراحی ، معنی استخراج ، توضیح ، آموزش و غیره) ؛

وجود مدل های تفکر بر اساس دانش: قوانین و نتیجه گیری منطقی ، استدلال و استدلال ، تشخیص و طبقه بندی موقعیت ها ، تعمیم و درک و غیره.

توانایی تصمیم گیری کاملاً واضح بر اساس داده های فازی ، شل ، ناقص و تعیین نشده ؛

توانایی توضیح نتیجه گیری و تصمیم گیری ، یعنی وجود مکانیسم توضیح ؛

توانایی یادگیری ، آموزش مجدد و بنابراین توسعه.

فن آوری های جستجوی غیررسمی برای الگوهای پنهان در داده ها و اطلاعات کشف دانش (KD) بر اساس آخرین فن آوری ها برای شکل گیری و ساختار تصاویر اطلاعاتی از اشیاء ، که نزدیکترین اصل به پردازش اطلاعات توسط سیستم های هوشمند است ، شکل گرفته است.

پشتیبانی اطلاعات تصمیم گیری (DS) فناوری اطلاعات یک پوسته متخصص است.

سیستم ها یا سیستم های تخصصی متخصص که به تحلیلگران امکان می دهد روابط و روابط بین ساختارهای اطلاعاتی را در اساس اطلاعات ساختار یافته شرکت تعیین کنند و همچنین نتایج احتمالی تصمیم گیری را پیش بینی کنند.

روندهای توسعه IIT سیستم های ارتباطی و ارتباطی.شبکه های اطلاعاتی جهانی و IIT می توانند درک ما را از شرکت ها و کار ذهنی به طور اساسی تغییر دهند. حضور کارکنان در محل کار تقریباً غیر ضروری خواهد شد. افراد می توانند در خانه کار کنند و در صورت نیاز از طریق شبکه با یکدیگر ارتباط برقرار کنند. به عنوان مثال ، تجربه موفق ایجاد یک اصلاح جدید در هواپیمای بوئینگ -747 توسط یک تیم توزیع شده از متخصصان که از طریق اینترنت با یکدیگر تعامل دارند ، شناخته شده است. موقعیت شرکت کنندگان در هر توسعه ای نقش کوچکتر ایفا خواهد کرد ، اما اهمیت سطح شایستگی شرکت کنندگان افزایش می یابد. یکی دیگر از دلایلی که توسعه سریع IIT را تعیین می کند با پیچیدگی سیستم های ارتباطی و وظایف بر اساس آنها حل می شود. سطح کیفی جدیدی از "روشنفکری" محصولات نرم افزاری مانند سیستم های تجزیه و تحلیل داده های ناهمگن و غیر دقیق ، اطمینان از امنیت اطلاعات ، تصمیم گیری در سیستم های توزیع شده و غیره انجام شد.

تحصیلات... امروزه ، آموزش از راه دور نقش مهمی را در آموزش و پرورش آغاز می کند و معرفی IIT این روند را متناسب با نیازها و توانایی های هر دانش آموز به طور قابل توجهی شخصی می کند.

زندگی روزمره... غیررسمی سازی زندگی روزمره در حال حاضر آغاز شده است ، اما با توسعه IIT ، اساساً فرصتهای جدیدی ظاهر می شود. به تدریج ، همه عملکردهای جدید به رایانه منتقل می شود: کنترل سلامت کاربر ، کنترل لوازم خانگی مانند مرطوب کننده ، خوشبو کننده هوا ، بخاری ، یونیزه ، مراکز موسیقی ، تشخیص پزشکی و غیره. به عبارت دیگر ، سیستم ها همچنین تشخیص دهنده وضعیت فرد و خانه او خواهند بود. یک فضای اطلاعاتی راحت در محل ایجاد می شود ، جایی که محیط اطلاعات بخشی از محیط انسان می شود.

چشم اندازهای توسعه IIT... به نظر می رسد که در حال حاضر IIT به مرحله جدیدی از توسعه خود نزدیک شده است. بنابراین ، طی 10 سال گذشته ، قابلیت های IIT به دلیل توسعه انواع جدید مدل های منطقی ، ظهور مدل های جدید ، به میزان قابل توجهی گسترش یافته است.

نظریه ها و مفاهیم نکات کلیدی در توسعه IIT عبارتند از:

گذار از استنباط منطقی به مدل های استدلال و استدلال ؛

جستجوی دانش مرتبط و تولید توضیحات ؛

درک و ترکیب متون ؛

گرافیک شناختی ، یعنی ارائه گرافیکی و تصویری دانش ؛

سیستم های چند عاملی ؛

مدلهای شبکه هوشمند ؛

محاسبات بر اساس منطق فازی ، شبکه های عصبی ، الگوریتم های ژنتیک ، محاسبات احتمالی (در ترکیب های مختلف با یکدیگر و با سیستم های متخصص اجرا می شود).

مشکل فرا دانش

سیستم های چند عاملی به یک الگوی جدید برای ایجاد IIT های امیدوار کننده تبدیل شده اند. در اینجا فرض بر این است که عامل یک سیستم فکری مستقل است که دارای سیستم تعیین هدف و انگیزه ، حوزه عمل و مسئولیت خاص خود است. تعامل بین عوامل توسط یک سیستم سطح بالاتر - فرا هوش ارائه می شود. در سیستم های چند عاملی ، یک جامعه مجازی از عوامل هوشمند مدل می شود - اشیایی که خود مختار ، فعال هستند و وارد روابط مختلف اجتماعی می شوند - همکاری و همکاری (دوستی) ، رقابت ، رقابت ، دشمنی و غیره. جنبه اجتماعی حل مشکلات مدرن ویژگی اساسی تازگی مفهومی فناوری های فکری پیشرفته - سازمان های مجازی ، جامعه مجازی است.

(؟) س questionsالات و وظایف را کنترل کنید

1. شرحی از شرکت به عنوان هدف اطلاع رسانی ارائه دهید. شاخصهای اصلی توسعه سیستم مدیریت شرکت چیست؟

2. مدیریت فناوری اطلاعات پیشرو در بنگاه های صنعتی را لیست کنید.

3. فناوریهای اطلاعاتی اصلی توسعه سازمانی و استراتژیک بنگاهها (شرکتها) کدامند.

4- استانداردهای مدیریت استراتژیک با هدف بهبود فرایندهای تجاری چیست؟ نسبت فناوری اطلاعات BPM و BPI چقدر است؟

5. فلسفه مدیریت کیفیت جامع (TQM) را تعریف کنید. مراحل توسعه کیفیت و فناوری اطلاعات چگونه با هم ارتباط دارند؟

6. مفاد اصلی توسعه سازمانی شرکت را نام ببرید ، مراحل مدیریت استراتژیک را شرح دهید. استراتژی های گروهی چیست؟

7. مدل کسب و کار شرکت چگونه ایجاد می شود؟ رویکردهای اصلی برای ارزیابی اثربخشی مدل کسب و کار چیست؟

8. کارت امتیازی متوازن چیست؟ اجزای اصلی BSC چیست؟ روابط متقابل گروههای شاخص BSC چیست؟

9. مبانی روش شناختی ایجاد سیستم های اطلاعاتی را فهرست کنید. رویکرد سیستمی چیست؟

10. رویکرد اطلاعاتی برای شکل گیری سیستم ها و فناوری های اطلاعاتی چیست؟

11. رویکرد استراتژیک برای شکل گیری سیستم ها و فناوری های اطلاعاتی چیست؟

12. محتوای رویکرد شی گرا برای توصیف رفتار نمایندگان در بازار چیست؟ تعریف شی را ارائه دهید ، آنالوگ های سیستم عامل را نشان دهید.

13. اصول روش شناختی برای بهبود مدیریت شرکت براساس فناوری اطلاعات و ارتباطات چیست؟ هدف ICT چیست؟

14. تعاریف یک سند ، جریان سند ، جریان سند ، سیستم مدیریت سند را ارائه دهید.

15. طرح بندی فرم سند چگونه طراحی شده است؟ مناطق سند ، ترکیب جزئیات آنها را نام ببرید.

16. فن آوری های اطلاعاتی اساسی سیستم مدیریت اسناد چیست؟

17. سیستم مستندسازی یکپارچه چیست؟ اصول کلی وحدت چیست؟

18. اسناد سازمانی و اداری را شرح دهید ، نمونه هایی از اسناد را ارائه دهید.

19- الزامات سیستم مدیریت اسناد الکترونیکی چیست؟

20. سیستم اطلاعاتی شرکت ها چیست؟ حلقه های کنترل اصلی ، ترکیب ماژول های عملکردی چیست.

21. محصولات نرم افزاری که برای CIS شناخته شده اید را نام ببرید. ویژگیهای مقایسه ای آنها را بیان کنید.

W ادبیات

1. بازگشت J. ، Moriarty S. ارتباطات بازاریابی. رویکرد یکپارچه SPb. ؛ خارکف: پیتر ، 2001.

2. Brooking E. سرمایه فکری. کلید موفقیت در هزاره جدید. SPb.: پیتر ، 2001.

3. گودین V.V. ، Korpev I.K. مدیریت منابع اطلاعاتی م.: INFRA-M ، 1999.

4. سیستمها و فناوریهای اطلاعاتی در اقتصاد: کتاب درسی. ویرایش دوم ، افزودن و تجدید نظر شده / M.I. سمنوف ، I.T. تروبیلین ، V.I. لویکو ، تی.پی. بارانوفسایا ؛ اد در و لویکو. مسکو: امور مالی و آمار ، 2003.

5. فناوری اطلاعات در تجارت / اد. M. Zheleny. SPb.: پیتر ، 2002.

6. Kaplan Robert S. ، Norton David P. کارت امتیازی متوازن. از استراتژی تا عمل / در. از انگلیسی M: JSC "Olymp-Business" ، 2003.

7. Karagodin V.I. ، Karagodina BJI. اطلاعات به عنوان اساس زندگی دوبنا: ققنوس ، 2000.

8. کارمینسکی AM. ، Nesterov PZ. اطلاع رسانی کسب و کار مسکو: امور مالی و آمار ، 1997.

9. لیخاچوا T.N. فناوریهای اطلاعاتی در خدمت جامعه اطلاعات // فناوریهای جدید اطلاعاتی در سیستمهای اقتصادی. م. ، 1999

10. Ostreykovsky V.A. نظریه سیستم ها م.: مدرسه عالی ، 1997.

11. Piterkin S.V. ، Oladov N.A. ، Isaev D.V. درست در زمان روسیه. روش استفاده از سیستم های ERP. ویرایش دوم م .: ناشر آلپینا ، 2003.

12. سوکولوف D.V. مقدمه ای بر نظریه ارتباطات اجتماعی: کتاب درسی. کمک هزینه SPb.: انتشارات SP6GUP ، 1996.

13. تروفیموف V.Z. ، Tomilov V.Z. فناوری اطلاعات و ارتباطات در مدیریت: کتاب درسی. کمک هزینه SPb.: انتشارات SPbGUEF ، 2002.

مدتی است که سطح مدرن توسعه سخت افزار و نرم افزار امکان نگهداری گسترده پایگاه داده های اطلاعات عملیاتی در سطوح مختلف مدیریت را ممکن ساخته است. در طول فعالیتهای خود ، شرکتهای صنعتی ، شرکتها ، ساختارهای دپارتمان ، ارگانها و ادارات دولتی حجم زیادی داده جمع آوری کرده اند. آنها در خود پتانسیل زیادی برای استخراج اطلاعات تحلیلی مفید دارند که بر اساس آنها می توان روندهای پنهان را شناسایی کرد ، استراتژی توسعه ای ایجاد کرد و راه حل های جدیدی پیدا کرد.

در سال های اخیر ، تعدادی از مفاهیم جدید برای ذخیره و تجزیه و تحلیل داده های شرکت ها در جهان شکل گرفته است:

1) انبارهای داده

2) پردازش تحلیلی آنلاین (OLAP)

3) داده کاوی - IAD (داده کاوی)

سیستم های پردازش داده های تحلیلی OLAP سیستم های پشتیبانی تصمیم هستند که بر انجام پرسش های پیچیده تر تمرکز دارند که نیاز به پردازش آماری داده های تاریخی انباشته شده در یک دوره معین از زمان دارد. آنها برای تهیه گزارشات تجاری در زمینه فروش ، بازاریابی برای اهداف مدیریتی ، به اصطلاح داده کاوی - داده کاوی ، مانند. روشی برای تجزیه و تحلیل اطلاعات در پایگاه داده برای یافتن ناهنجاری ها و روندها بدون یافتن معنی سوابق.

سیستم های تحلیلی مبتنی بر OLAP شامل ابزارهای پردازش اطلاعات بر اساس روش های هوش مصنوعی و ابزارهای ارائه داده های گرافیکی هستند. این سیستم ها توسط حجم زیادی از داده های تاریخی تعیین می شوند و به شما امکان می دهد اطلاعات معنی داری از آنها استخراج کنید ، به عنوان مثال. کسب اطلاعات از داده ها

کارآیی پردازش از طریق استفاده از فناوری قدرتمند چند پردازنده ، روشهای تجزیه و تحلیل پیچیده و ذخیره سازی تخصصی داده ها حاصل می شود.

پایگاه داده های رابطه ای موجودیت ها را در جداول جداگانه ذخیره می کنند که معمولاً به خوبی نرمال شده اند. این ساختار برای پایگاه های داده عملیاتی (سیستم های OLTP) مناسب است ، اما پرس و جوهای پیچیده چند جدول نسبتاً کند است. یک مدل بهتر برای پرس و جوها به جای تغییر ، پایگاه داده فضایی است.

سیستم OLAP یک تصویر فوری از پایگاه داده رابطه ای تهیه کرده و آن را در قالب یک مدل فضایی برای پرس و جوها ایجاد می کند. زمان پردازش ادعا شده برای پرس و جوها در OLAP حدود 0.1 درصد از پرس و جوهای مشابه در پایگاه داده رابطه ای است.

یک ساختار OLAP که از داده های عملیاتی ایجاد شده است مکعب OLAP نامیده می شود. یک مکعب از پیوستن جداول با استفاده از طرح ستاره ایجاد می شود. در مرکز "ستاره" یک جدول واقعیت وجود دارد که حاوی حقایق کلیدی است که باید مورد پرسش قرار گیرد. جداول چند بعدی به جدول واقعیت متصل می شوند. این جداول نشان می دهد که چگونه می توان داده های رابطه ای جمع آوری شده را تجزیه و تحلیل کرد. تعداد تجمعات احتمالی با تعداد روش هایی که می توان داده های اصلی را به صورت سلسله مراتبی نمایش داد تعیین می شود.

کلاسهای داده شده سیستم (OLAP و OLTP) بر اساس استفاده از DBMS است ، اما انواع پرس و جوها بسیار متفاوت است. موتور OLAP امروزه یکی از متداول ترین روش های تجزیه و تحلیل داده ها است. برای حل این مشکل دو رویکرد اصلی وجود دارد. اولین آنها چند منظوره OLAP (MOLAP) نامیده می شود - پیاده سازی مکانیسم با استفاده از پایگاه داده چند بعدی در سمت سرور ، و دومی Relational OLAP (ROLAP) - ساخت مکعب ها "در حال پرواز" بر اساس درخواست های SQL به یک رابطه DBMS هر یک از این رویکردها مزایا و معایبی دارند. طرح کلی سیستم OLAP رومیزی را می توان در شکل نشان داد.

الگوریتم کار به شرح زیر است:

1) به دست آوردن داده ها در قالب یک جدول مسطح یا نتیجه اجرای یک پرس و جو SQL ؛

2) ذخیره داده ها و تبدیل آنها به مکعب چند بعدی ؛

3) نمایش مکعب ساخته شده با استفاده از جدول یا نمودار و غیره

به طور کلی ، تعدادی نمایشگر دلخواه را می توان به یک مکعب متصل کرد. نمایشگرهای مورد استفاده در سیستم های OLAP اغلب دو نوع هستند: crosstabs و نمودارها.

نمودار ستاره. ایده آن این است که جداول برای هر بعد وجود دارد و همه حقایق در یک جدول قرار گرفته اند که توسط یک کلید چندگانه که از کلیدهای ابعاد جداگانه تشکیل شده است نمایه شده اند. هر پرتو طرح ستاره ، در اصطلاح Codd ، جهت تجمیع داده ها در طول بعد مربوطه را مشخص می کند.

برای مشکلات پیچیده با ابعاد چند سطحی ، منطقی است که به پسوندهای طرح ستاره - طرح واقعی صورت فلکی و طرح برف برفی مراجعه کنید. در این موارد ، جداول واقعی جداگانه ای برای ترکیب احتمالی سطوح خلاصه در ابعاد مختلف ایجاد می شود. این باعث عملکرد بهتر می شود ، اما اغلب منجر به افزونگی داده ها و عوارض قابل توجهی در ساختار پایگاه داده می شود ، که شامل تعداد زیادی جدول واقعیت است.

نمودار صورت فلکی

پردازش داده های تحلیلی - این تجزیه و تحلیل داده ها است که نیاز به پشتیبانی روش شناختی مناسب و سطح خاصی از آموزش متخصصان دارد.

فناوری های اطلاعاتی نوین امکان خودکارسازی فرایندهای تجزیه و تحلیل اطلاعات اولیه انباشته ، ایجاد مدل های تحلیلی ، به دست آوردن راه حل های آماده و استفاده از آنها در عمل را ممکن می سازد. الزامات اصلی ، که به روشهای تجزیه و تحلیل ارائه شده است ، کارایی ، سادگی ، خودکارسازی است. این مفهوم زیربنای دو فناوری مدرن است: داده کاوی و کشف دانش در پایگاه داده (KDD).

داده کاوی - این فرایند کشف در داده های خام است که قبلاً ناشناخته ، غیر پیش پا افتاده ، عملاً مفید و قابل دسترسی از دانش برای تصمیم گیری در زمینه های مختلف فعالیت های انسانی ضروری است (تعریف G. Pyatetsky-Shapiro ، یکی از بنیانگذاران این جهت) .

فناوری داده کاوی با هدف یافتن الگوهای غیر واضح انجام شده است. مراحل تجزیه و تحلیل داده ها عبارتند از:

1) طبقه بندی ( طبقه بندی) - تشخیص ویژگیهایی که گروههای اشیاء مجموعه داده مورد مطالعه را مشخص می کند - کلاسها. روشهای حل مورد استفاده برای مشکل طبقه بندی: روشهای نزدیکترین همسایه ( نزدیکترین همسایه)و ^ ’- نزدیکترین همسایه ( k- نزدیکترین همسایه) -،شبکه های بیزی (شبکه های بیزی) -،القای درخت تصمیم گیری ؛ شبکه های عصبی (شبکه های عصبی) -،
2) خوشه بندی (خوشه بندی)- تقسیم اشیاء به گروه ها ، زیرا کلاس های شیء در ابتدا تعریف نشده اند. نمونه ای از روش حل مشکل خوشه بندی: خود سازماندهی نقشه های کوهونن - یک شبکه عصبی با یادگیری بدون نظارت. یکی از ویژگی های مهم این نقشه ها توانایی آنها در نمایش فضاهای ویژگی چند بعدی در یک هواپیما است و داده ها را در قالب یک نقشه دو بعدی ارائه می دهد.
3) ارتباط (انجمن ها)- شناسایی الگوهای بین رویدادهای مرتبط در مجموعه داده. این الگوها نه بر اساس خواص شی مورد تجزیه و تحلیل ، بلکه بین چندین رویداد که به طور همزمان رخ می دهد ، به عنوان مثال ، الگوریتم Apriori آشکار می شود.
4) دنباله (توالی)،یا ارتباط پی در پی (ارتباط پی در پی) ،- جستجوی الگوهای زمانی بین معاملات ، به عنوان مثال الگوها نه بین رویدادهای همزمان ، بلکه بین رویدادهای متصل به زمان ایجاد می شوند. ارتباط دنباله هایی با تاخیر زمانی صفر است. قانون توالی: بعد از رویداد ایکس پس از زمان معینی ، رویداد Y رخ می دهد.
5) پیش بینی (پیش بینی) - بر اساس ویژگی های داده های تاریخی ساخته شده است ، به عنوان مثال ارزیابی مقادیر حذف شده یا آینده شاخص های عددی مورد نظر وجود دارد. روشهای آمار ریاضی ، شبکه های عصبی و غیره برای حل مسائل پیش بینی استفاده می شود.
6) تعیین انحرافات یا فاصله زیاد (تشخیص انحراف) ،تجزیه و تحلیل انحرافات یا نقاط دور - تشخیص و تجزیه و تحلیل داده هایی که بیشتر از مجموعه داده های عمومی متفاوت است.
7) درجه بندی (برآورد کردن)- پیش بینی مقادیر پیوسته یک ویژگی ؛
8) تجزیه و تحلیل پیوندها (تجزیه و تحلیل پیوندها)- وظیفه یافتن وابستگی ها در یک مجموعه داده ؛
9) تجسم (تجسم ، استخراج نمودار)- ایجاد یک تصویر گرافیکی از داده های تجزیه و تحلیل شده. روش های گرافیکی برای نشان دادن وجود الگوها در داده ها استفاده می شود ، به عنوان مثال ، ارائه داده ها در ابعاد دو بعدی و سه بعدی.
10) جمع بندی ( خلاصه سازی) - شرح گروههای خاصی از اشیاء از مجموعه داده تجزیه و تحلیل شده.

KDD فرایند استخراج دانش مفید از مجموعه داده ها است. این فناوری شامل موارد زیر است: آماده سازی داده ها ، انتخاب ویژگی های آموزنده ، پاکسازی داده ها ، استفاده از روش های داده کاوی (DM) ، پس پردازش داده ها و تفسیر نتایج.

فرایند کشف دانش در پایگاه های داده شامل مراحل زیر است:

1) بیانیه مشکل - تجزیه و تحلیل وظایف کاربر و ویژگی های منطقه برنامه ، انتخاب مجموعه ای از پارامترهای ورودی و خروجی ؛
2) آماده سازی مجموعه داده اولیه - ایجاد انبار داده و سازماندهی طرح جمع آوری و به روز رسانی داده ها ؛
3) پیش پردازش داده ها - بر اساس استفاده از روش های داده کاوی ، از نظر این روش ، داده ها باید از کیفیت بالا و صحیح برخوردار باشند.
4) تبدیل ، عادی سازی داده ها - رساندن اطلاعات به شکلی مناسب برای تجزیه و تحلیل بعدی ؛
5) داده کاوی - تجزیه و تحلیل خودکار داده ها بر اساس استفاده از الگوریتم های مختلف برای یافتن دانش (شبکه های عصبی ، درختان تصمیم گیری ، الگوریتم های خوشه بندی ، ایجاد ارتباطات و غیره) ؛
6) پس از پردازش داده ها - تفسیر نتایج و کاربرد دانش به دست آمده در برنامه های تجاری.