مفهوم داده کاوی در جهان رایج شده است. داده کاوی Loginom Wiki

ارسال کار خوب خود در پایگاه دانش ساده است. از فرم زیر استفاده کنید

دانشجویان، دانشجویان تحصیلات تکمیلی، دانشمندان جوانی که از دانش پایه در تحصیل و کار خود استفاده می کنند از شما بسیار سپاسگزار خواهند بود.

اسناد مشابه

طبقه بندی وظایف Data Mining. ایجاد گزارش و خلاصه. ویژگی های Data Miner در Statistica. مشکل طبقه بندی، خوشه بندی و رگرسیون. ابزارهای تحلیل آماری داده کاوی. ماهیت مشکل جستجوی قوانین انجمن است. تجزیه و تحلیل پیش بینی کننده های بقا.

مقاله ترم، اضافه شده در 2011/05/19

شرح عملکردفناوری های داده کاوی به عنوان فرآیندهایی برای کشف داده های ناشناخته. بررسی سیستم های استنتاج قوانین تداعی و مکانیسم های الگوریتم های شبکه عصبی. شرح الگوریتم های خوشه بندی و دامنه داده کاوی.

تست، اضافه شده در 1392/06/14

اصول اولیه برای خوشه بندی استفاده از داده کاوی به عنوان راهی برای "کشف دانش در پایگاه های داده". انتخاب الگوریتم های خوشه بندی بازیابی داده ها از ذخیره سازی پایگاه داده کارگاه راه دور. خوشه بندی دانش آموزان و وظایف.

مقاله ترم، اضافه شده 07/10/2017

داده کاوی، تاریخچه توسعه داده کاوی و کشف دانش. عناصر فناورانه و روش های داده کاوی. مراحل کشف دانش تشخیص تغییر و انحراف رشته های مرتبط، بازیابی اطلاعات و استخراج متن.

گزارش، اضافه شده در 1391/06/16

تجزیه و تحلیل مشکلات ناشی از کاربرد روش ها و الگوریتم های خوشه بندی. الگوریتم های اولیه خوشه بندی RapidMiner به عنوان محیطی برای یادگیری ماشین و تجزیه و تحلیل داده ها. ارزیابی کیفیت خوشه بندی با استفاده از روش های داده کاوی.

مقاله ترم، اضافه شده در 10/22/2012

بهبود فن آوری برای ضبط و ذخیره داده ها. ویژگی الزامات مدرن برای پردازش داده های اطلاعاتی. مفهوم الگوهایی که بخش‌هایی از روابط چند بعدی را در داده‌ها منعکس می‌کنند در قلب فناوری مدرن داده کاوی قرار دارد.

تست، اضافه شده در 09/02/2010

تحلیل استفاده از شبکه های عصبی برای پیش بینی وضعیت و تصمیم گیری در بورس با استفاده از بسته نرم افزاری مدل سازی شبکه عصبی Trajan 3.0. تبدیل داده های اولیه، جداول. ارزیابی ارگونومیک برنامه

پایان نامه، اضافه شده در 2011/06/27

مشکلات در استفاده از الگوریتم های تکاملی. ساخت سیستم های محاسباتی بر اساس اصول انتخاب طبیعی. معایب الگوریتم ژنتیک نمونه هایی از الگوریتم های تکاملی جهت ها و بخش های مدل سازی تکاملی.

سطح بالا

1. استفاده مستقیم از داده ها، یا ذخیره داده ها.

در این حالت، داده های اولیه به صورت دقیق و واضح ذخیره می شود و مستقیماً در مراحل و / یا استفاده می شود. تجزیه و تحلیل استثنا. مشکل این گروه از روش ها این است که هنگام استفاده از آنها، ممکن است تجزیه و تحلیل پایگاه های داده بسیار بزرگ دشوار باشد.

روش‌های این گروه: تحلیل خوشه‌ای، روش نزدیک‌ترین همسایه، روش k-نزدیک‌ترین همسایه، استدلال به روش قیاس.

2. شناسایی و استفاده از رسمی الگوها، یا تقطیر قالب.

با تکنولوژی الگوهای تقطیریک نمونه (الگو) اطلاعات از داده های منبع استخراج شده و به چند ساختار رسمی تبدیل می شود که شکل آن به روش داده کاوی مورد استفاده بستگی دارد. این فرآیند در مرحله انجام می شود جستجوی رایگان، روشهای گروه اول اصولاً فاقد این مرحله هستند. روی صحنه ها مدل سازی پیش بینیو تجزیه و تحلیل استثنااز نتایج مرحله استفاده می شود جستجوی رایگان، آنها بسیار فشرده تر از خود پایگاه های داده هستند. به یاد بیاورید که ساختارهای این مدل ها می توانند توسط تحلیلگر قابل تفسیر یا غیر قابل تفسیر ("جعبه های سیاه") باشند.

روش های این گروه: روش های منطقی ; روش های تجسم؛ روش های متقاطع. روش های مبتنی بر معادلات

روش های منطقی یا روش های استقرای منطقی عبارتند از: پرس و جوها و تحلیل های فازی. قوانین نمادین؛ درختان تصمیم الگوریتم های ژنتیک

روش های این گروه شاید قابل تفسیرترین باشد - آنها الگوهای یافت شده را در بیشتر موارد به شکلی نسبتاً شفاف از نظر کاربر ترسیم می کنند. قوانین حاصل ممکن است شامل متغیرهای پیوسته و گسسته باشد. لازم به ذکر است که درخت های تصمیم را می توان به راحتی با ایجاد یک قانون در طول مسیر از ریشه درخت به آن به مجموعه ای از قوانین نمادین تبدیل کرد. راس پایانی. درختان تصمیم و قوانین در واقع هستند روش های مختلفراه حل هایی برای یک مشکل مشابه و تنها در توانایی های آنها متفاوت است. علاوه بر این، اجرای قوانین با الگوریتم‌های کندتر نسبت به القای درخت‌های تصمیم انجام می‌شود.

روش‌های متقاطع: عوامل، شبکه‌های بیزی (اطمینان)، تجسم بین تب. آخرین روش کاملاً با یکی از ویژگی های داده کاوی - جستجوی مستقل مطابقت ندارد الگوهاسیستم تحلیلی با این حال، ارائه اطلاعات به صورت cross-tab، اجرای وظیفه اصلی داده کاوی - جستجوی الگوها را فراهم می کند، بنابراین این روش را نیز می توان یکی از روش های داده کاوی دانست.

روش های مبتنی بر معادلات

روش های این گروه، الگوهای آشکار شده را در قالب عبارات - معادلات ریاضی بیان می کنند. بنابراین، آنها فقط می توانند با متغیرهای عددی کار کنند و متغیرهای انواع دیگر باید بر اساس آن کدگذاری شوند. این امر تا حدودی کاربرد روش های این گروه را محدود می کند، اما در حل مسائل مختلف به ویژه مسائل پیش بینی کاربرد گسترده ای دارند.

روشهای اصلی این گروه: روشهای آماری و شبکه های عصبی

روش های آماری اغلب برای حل مسائل پیش بینی استفاده می شود. روش های زیادی برای تجزیه و تحلیل داده های آماری وجود دارد که از جمله آنها می توان به تحلیل همبستگی و رگرسیون، همبستگی سری های زمانی، شناسایی روند در سری های زمانی، تحلیل هارمونیک اشاره کرد.

طبقه‌بندی دیگر کل انواع روش‌های داده کاوی را به دو گروه تقسیم می‌کند: روش‌های آماری و سایبرنتیک. این طرح جداسازی مبتنی بر رویکردهای مختلف یادگیری است مدل های ریاضی.

لازم به ذکر است که دو رویکرد برای طبقه بندی روش های آماری به عنوان داده کاوی وجود دارد. اولی مخالف روش های آماری و داده کاوی است، حامیان آن روش های آماری کلاسیک را حوزه جداگانه ای از تجزیه و تحلیل داده ها می دانند. بر اساس رویکرد دوم، روش های تحلیل آماری بخشی از ابزار ریاضی داده کاوی است. اکثر منابع معتبر رویکرد دوم را اتخاذ می کنند.

در این طبقه بندی، دو گروه از روش ها متمایز می شوند:

روش های آماری مبتنی بر استفاده از میانگین تجربه انباشته شده، که در داده های گذشته نگر منعکس می شود.
روش های سایبرنتیک، از جمله بسیاری از رویکردهای ریاضی ناهمگن.

نقطه ضعف چنین طبقه بندی این است که هر دو الگوریتم آماری و سایبرنتیک به یک روش یا دیگری بر مقایسه تجربیات آماری با نتایج نظارت بر وضعیت فعلی متکی هستند.

مزیت چنین طبقه بندی راحتی آن برای تفسیر است - از آن در توصیف ابزارهای ریاضی رویکرد مدرن استفاده می شود. استخراج دانشاز آرایه های مشاهدات اولیه (عملیاتی و گذشته نگر)، یعنی. در وظایف داده کاوی

بیایید نگاهی دقیق تر به گروه های فوق بیندازیم.

روش های آماری داده کاوی

در این روش ها چهار بخش به هم مرتبط هستند:

تجزیه و تحلیل اولیه ماهیت داده های آماری (آزمایش فرضیه های ثابت بودن، نرمال بودن، استقلال، همگنی، ارزیابی نوع تابع توزیع، پارامترهای آن و غیره)؛
شناسایی لینک ها و الگوها(تحلیل رگرسیون خطی و غیر خطی، تحلیل همبستگی و غیره)؛
تجزیه و تحلیل آماری چند متغیره (تحلیل متمایز خطی و غیر خطی، تجزیه و تحلیل خوشه ای، تجزیه و تحلیل مؤلفه ها، تحلیل عاملیو غیره.)؛
مدل های پویاو پیش بینی بر اساس سری های زمانی.

زرادخانه روش های آماری داده کاوی به چهار گروه روش طبقه بندی می شود:

تجزیه و تحلیل توصیفی و توصیف داده های اولیه.
تحلیل رابطه (تحلیل همبستگی و رگرسیون، تحلیل عاملی, تحلیل واریانس).
تجزیه و تحلیل آماری چند متغیره (تحلیل مولفه، تجزیه و تحلیل متمایز، تحلیل رگرسیون چند متغیره، همبستگی متعارف و غیره).
تحلیل سری زمانی ( مدل های پویاو پیش بینی).

روشهای سایبرنتیک داده کاوی

جهت دوم داده کاوی مجموعه ای از رویکردهایی است که با ایده ریاضیات کامپیوتری و استفاده از نظریه هوش مصنوعی متحد شده اند.

داده کاوی چیست؟

پایگاه داده شرکتی هر شرکت مدرن معمولاً شامل مجموعه ای از جداول است که سوابق مربوط به حقایق یا اشیاء خاص (مثلاً در مورد محصولات، فروش آنها، مشتریان، فاکتورها) را ذخیره می کند. به عنوان یک قاعده، هر ورودی در چنین جدولی یک شی یا واقعیت خاص را توصیف می کند. به عنوان مثال، یک ورودی در جدول فروش نشان دهنده این واقعیت است که فلان محصول توسط فلان مدیر در آن زمان به فلان مشتری فروخته شده است و به طور کلی حاوی چیزی جز این اطلاعات نیست. با این حال، کل تعداد زیادیچنین رکوردهایی که در طی چندین سال انباشته شده اند می توانند منبعی از اطلاعات اضافی و بسیار ارزشمندتر شوند که نمی توان آنها را بر اساس یک رکورد خاص به دست آورد، یعنی اطلاعاتی در مورد الگوها، روندها یا وابستگی های متقابل بین هر داده ای. نمونه هایی از چنین اطلاعاتی اطلاعاتی در مورد اینکه چگونه فروش یک محصول خاص به روز هفته، زمان روز یا فصل بستگی دارد، کدام دسته از خریداران اغلب یک محصول خاص را خریداری می کنند، کدام بخشی از خریداران یک محصول خاص، کالای خاص دیگری را خریداری می کنند. محصول، کدام دسته از مشتریان اغلب وام را به موقع بازپرداخت نمی کنند.

این نوع اطلاعات معمولاً در پیش بینی، برنامه ریزی استراتژیک، تحلیل ریسک استفاده می شود و ارزش آن برای شرکت بسیار بالاست. ظاهراً به همین دلیل است که فرآیند جستجو برای آن داده کاوی نامیده می شود (کاوی در انگلیسی به معنای "کاوش" است و جستجوی الگوها در مجموعه عظیمی از داده های واقعی واقعاً شبیه به این است). اصطلاح داده کاوی نه چندان به یک فناوری خاص که به فرآیند جستجوی همبستگی ها، روندها، روابط و الگوها از طریق الگوریتم های مختلف ریاضی و آماری اشاره دارد: خوشه بندی، نمونه گیری فرعی، رگرسیون و تحلیل همبستگی. هدف از این جستجو ارائه داده ها به شکلی است که به وضوح فرآیندهای کسب و کار را منعکس کند، و همچنین ایجاد مدلی که بتوان از آن برای پیش بینی فرآیندهایی استفاده کرد که برای برنامه ریزی تجاری حیاتی هستند (به عنوان مثال، پویایی تقاضا برای کالاهای خاص یا خدمات یا وابستگی خرید آنها به برخی از ویژگی های مصرف کننده).

توجه داشته باشید که آمار ریاضی سنتی، که برای مدت طولانی ابزار اصلی برای تجزیه و تحلیل داده ها باقی مانده است، و همچنین ابزارهای پردازش تحلیلی آنلاین (OLAP) که قبلاً بارها در مورد آنها نوشته ایم (به مطالب مربوط به این موضوع در CD ما مراجعه کنید) همیشه برای حل چنین مشکلاتی با موفقیت استفاده نمی شود. به طور معمول، روش های آماری و OLAP برای آزمون فرضیه های از پیش تنظیم شده استفاده می شود. با این حال، اغلب این فرمول فرضیه است که بیشتر از همه به نظر می رسد وظیفه چالش برانگیزهنگام اجرای تجزیه و تحلیل تجاری برای تصمیم گیری های بعدی، زیرا همه الگوهای موجود در داده ها در نگاه اول واضح نیستند.

اساس فناوری داده کاوی مدرن، مفهوم الگوهایی است که الگوهای ذاتی در نمونه های فرعی داده را منعکس می کند. الگوها با روش هایی جستجو می شوند که از هیچ فرض پیشینی در مورد این نمونه های فرعی استفاده نمی کنند. در حالی که تجزیه و تحلیل آماری یا برنامه های کاربردی OLAP معمولاً سؤالاتی مانند "متوسط تعداد صورتحساب های پرداخت نشده توسط مشتریان این سرویس چقدر است؟" تنظیم می کنند، معمولاً داده کاوی به معنای پاسخ به سوالاتی مانند "آیا دسته بندی معمولی از مشتریان وجود دارد که انجام نمی دهند؟" قبض ها را پرداخت کنم؟». در عین حال، این پاسخ به سوال دوم است که اغلب رویکرد غیر پیش پا افتاده تری به سیاست بازاریابی و سازماندهی کار با مشتریان ارائه می دهد.

یکی از ویژگی های مهم داده کاوی غیر استاندارد بودن و واضح نبودن الگوهای مورد جستجو است. به عبارت دیگر، ابزارهای داده کاوی با ابزارهای پردازش داده های آماری و ابزارهای OLAP از این جهت متفاوت هستند که به جای بررسی وابستگی های متقابلی که کاربران پیش فرض می گیرند، می توانند چنین وابستگی های متقابلی را بر اساس داده های موجود به تنهایی پیدا کنند و فرضیه هایی در مورد ماهیت آنها بسازند.

لازم به ذکر است که استفاده از ابزارهای داده کاوی استفاده از ابزارهای آماری و ابزارهای OLAP را مستثنی نمی کند، زیرا نتایج پردازش داده ها با استفاده از دومی، به طور معمول، به درک بهتر ماهیت الگوهایی کمک می کند که باید جستجو شود.

داده های اولیه برای داده کاوی

استفاده از داده کاوی در صورتی توجیه می شود که حجم کافی داده وجود داشته باشد که به طور ایده آل در یک انبار داده به درستی طراحی شده باشد (در واقع، انبارهای داده معمولاً برای حل مشکلات تجزیه و تحلیل و پیش بینی مربوط به پشتیبانی تصمیم ایجاد می شوند). ما همچنین بارها در مورد اصول ساخت انبارهای داده نوشتیم. مطالب مربوطه را می توان در سی دی ما یافت، بنابراین به این موضوع نمی پردازیم. ما فقط به یاد می آوریم که داده های موجود در ذخیره سازی مجموعه ای پر شده است که برای کل شرکت مشترک است و به شما امکان می دهد تصویر فعالیت های آن را در هر نقطه از زمان بازیابی کنید. همچنین توجه داشته باشید که ساختار داده های ذخیره سازی به گونه ای طراحی شده است که اجرای پرس و جوها به آن تا حد امکان کارآمدتر انجام شود. با این حال، ابزارهای داده کاوی وجود دارند که می توانند الگوها، همبستگی ها و روندها را نه تنها در انبارهای داده، بلکه در مکعب های OLAP، یعنی در مجموعه داده های آماری از پیش پردازش شده، جستجو کنند.

انواع الگوهای آشکار شده با روش های داده کاوی

به گفته V.A.Dyuk، پنج نوع استاندارد الگو وجود دارد که با روش های داده کاوی شناسایی می شوند:

ارتباط - احتمال زیاد ارتباط رویدادها با یکدیگر (به عنوان مثال، یک محصول اغلب همراه با محصول دیگر خریداری می شود).

دنباله - احتمال بالای زنجیره ای از رویدادهای مرتبط با زمان (به عنوان مثال، در یک دوره معین پس از خرید یک محصول، دیگری با درجه احتمال بالایی خریداری می شود).

طبقه بندی - نشانه هایی وجود دارد که گروهی را که این یا آن رویداد یا شی متعلق به آن است مشخص می کند (معمولاً قوانین خاصی بر اساس تجزیه و تحلیل رویدادهای طبقه بندی شده قبلی تنظیم می شوند).

خوشه بندی الگویی شبیه به طبقه بندی است و با آن تفاوت دارد که خود گروه ها در این مورد تنظیم نشده اند - آنها به طور خودکار در طول پردازش داده ها شناسایی می شوند.

الگوهای زمانی - وجود الگوهایی در پویایی رفتار داده های خاص (نمونه معمولی نوسانات فصلی تقاضا برای کالاها یا خدمات خاص است) که برای پیش بینی استفاده می شود.

روش های داده کاوی در داده کاوی

امروزه تعداد بسیار زیادی روش های مختلف داده کاوی وجود دارد. بر اساس طبقه بندی فوق که توسط V.A. Dyuk ارائه شده است، از جمله آنها می توان به موارد زیر اشاره کرد:

تجزیه و تحلیل رگرسیون، پراکندگی و همبستگی (که در اکثر بسته های آماری مدرن، به ویژه در محصولات موسسه SAS، StatSoft و غیره اجرا می شود).

روش های تجزیه و تحلیل در یک حوزه موضوعی خاص بر اساس مدل های تجربی (که اغلب برای مثال در ابزارهای تحلیل مالی ارزان استفاده می شود).

الگوریتم های شبکه عصبی، ایده ای که مبتنی بر قیاس با عملکرد بافت عصبی است و در این واقعیت نهفته است که پارامترهای اولیه به عنوان سیگنال هایی در نظر گرفته می شوند که مطابق با اتصالات موجود بین "نرون ها" تبدیل می شوند. و به عنوان پاسخ حاصل از تجزیه و تحلیل، پاسخ کل شبکه به داده های اولیه. پیوندها در این مورد با استفاده از به اصطلاح یادگیری شبکه ای از طریق یک نمونه بزرگ حاوی داده های اصلی و پاسخ های صحیح ایجاد می شوند.

الگوریتم ها - انتخاب یک آنالوگ نزدیک از داده های اصلی از داده های تاریخی موجود. روش نزدیکترین همسایه نیز نامیده می شود.

درختان تصمیم - یک ساختار سلسله مراتبی مبتنی بر مجموعه ای از سوالات، که متضمن پاسخ "بله" یا "خیر" است. اگر چه این روشپردازش داده ها همیشه به طور ایده آل الگوهای موجود را پیدا نمی کند؛ به دلیل وضوح پاسخ دریافتی، اغلب در سیستم های پیش بینی استفاده می شود.

مدل‌های خوشه‌ای (گاهی اوقات مدل‌های تقسیم‌بندی نیز نامیده می‌شوند) برای گروه‌بندی رویدادهای مشابه به گروه‌هایی بر اساس مقادیر مشابه چندین فیلد در یک مجموعه داده استفاده می‌شوند. همچنین در ایجاد سیستم های پیش بینی بسیار محبوب هستند.

الگوریتم‌های جستجوی محدود که فرکانس‌های ترکیبی از رویدادهای منطقی ساده را در زیر گروه‌های داده محاسبه می‌کنند.

برنامه نویسی تکاملی - جستجو و تولید الگوریتمی که وابستگی متقابل داده ها را بیان می کند، بر اساس یک الگوریتم مشخص شده در ابتدا، اصلاح شده در فرآیند جستجو. گاهی اوقات جستجو برای وابستگی های متقابل در میان انواع خاصی از توابع (به عنوان مثال، چند جمله ای ها) انجام می شود.

اطلاعات بیشتر در مورد این الگوریتم ها و سایر الگوریتم های داده کاوی و همچنین ابزارهایی که آنها را پیاده سازی می کنند را می توانید در کتاب «داده کاوی: دوره آموزشی»V.A.Dyuk و A.P.Samoilenko که توسط انتشارات پیتر در سال 2001 منتشر شد. امروزه یکی از معدود کتاب هایی به زبان روسی است که به این مشکل اختصاص یافته است.

تولید کنندگان پیشرو ابزارهای داده کاوی

ابزارهای داده کاوی، مانند اکثر ابزارهای هوش تجاری، به طور سنتی متعلق به ابزارهای نرم افزاری گران قیمت هستند - قیمت برخی از آنها به چند ده هزار دلار می رسد. بنابراین تا همین اواخر مصرف کنندگان اصلی این فناوری بانک ها، شرکت های مالی و بیمه، بنگاه های تجاری بزرگ بودند و عمده ترین وظایفی که نیاز به استفاده از داده کاوی را می طلبید، ارزیابی ریسک های اعتباری و بیمه ای و توسعه یک بازاریابی در نظر گرفته می شد. خط مشی، طرح های تعرفه ایو سایر اصول کار با مشتریان در سال های اخیر، وضعیت دستخوش تغییرات خاصی شده است: بازار نرم افزارابزارهای داده کاوی نسبتاً ارزانی از چندین فروشنده پدید آمده اند و این فناوری را برای مشاغل کوچک و متوسطی که قبلاً هرگز به آن فکر نکرده بودند در دسترس قرار می دهد.

ابزارهای مدرن هوش تجاری شامل تولید کننده گزارش، پردازش تحلیلیداده ها، ابزارهای توسعه BI (پلتفرم های BI) و به اصطلاح Enterprise BI Suites - ابزارهای تجزیه و تحلیل و پردازش داده در سطح سازمانی که به شما امکان می دهد مجموعه ای از اقدامات مربوط به تجزیه و تحلیل و گزارش داده ها را انجام دهید و اغلب شامل مجموعه ای یکپارچه از BI است. ابزارها و ابزارهای توسعه اپلیکیشن BI. دومی معمولاً شامل ابزارهای گزارش دهی و ابزارهای OLAP و اغلب ابزارهای داده کاوی است.

به گفته تحلیلگران گروه گارتنر، Business Objects، Cognos، Information Builders رهبران بازار تحلیل و پردازش داده در مقیاس سازمانی هستند و مایکروسافت و اوراکل نیز مدعی رهبری هستند (شکل 1). در مورد ابزارهای توسعه راه حل های BI، مدعیان اصلی رهبری در این زمینه هستند مایکروسافتو موسسه SAS (شکل 2).

توجه داشته باشید که ابزارهای هوش تجاری مایکروسافت محصولات نسبتاً ارزانی هستند که در دسترس طیف گسترده ای از شرکت ها قرار دارند. به همین دلیل قصد داریم در قسمت های بعدی این مقاله جنبه های کاربردی استفاده از داده کاوی با استفاده از محصولات این شرکت را به عنوان نمونه در نظر بگیریم.

ادبیات:

1. Duke V.A. داده کاوی - داده کاوی. - http://www.olap.ru/basic/dm2.asp.

2. Dyuk V.A., Samoylenko A.P. داده کاوی: دوره آموزشی. - سن پترزبورگ: پیتر، 2001.

3. بی دی ویل. داده کاوی مایکروسافت مطبوعات دیجیتال، 2001.

توسعه روش های ثبت و ذخیره سازی داده ها منجر به افزایش سریع حجم اطلاعات جمع آوری و تجزیه و تحلیل شده است. حجم داده ها به قدری چشمگیر است که به سادگی نمی توان آن ها را به تنهایی تجزیه و تحلیل کرد، اگرچه نیاز به چنین تحلیلی کاملاً آشکار است، زیرا این داده های "خام" حاوی دانشی است که می توان از آنها برای تصمیم گیری استفاده کرد. برای انجام تجزیه و تحلیل خودکار داده ها از داده کاوی استفاده می شود.

داده کاوی فرآیند کشف دانش ناشناخته غیر پیش پا افتاده، عملا مفید و در دسترس در داده های خام است که برای تصمیم گیری در زمینه های مختلف فعالیت های انسانی ضروری است. داده کاوی یکی از مراحل کشف دانش در پایگاه های داده است.

اطلاعاتی که در فرآیند بکارگیری روش‌های داده کاوی یافت می‌شود باید بی‌اهمیت و قبلاً ناشناخته باشند، به عنوان مثال، فروش متوسط نیست. دانش باید روابط جدید بین ویژگی ها را توصیف کند، مقادیر برخی ویژگی ها را بر اساس ویژگی های دیگر پیش بینی کند و غیره. دانش یافت شده باید با درجاتی از قطعیت برای داده های جدید قابل استفاده باشد. سودمندی در این واقعیت نهفته است که این دانش در صورت استفاده می تواند مزایای خاصی را به همراه داشته باشد. دانش باید به شکلی باشد که برای کاربر قابل درک باشد نه یک ریاضیدان. به عنوان مثال، ساختارهای منطقی "اگر ... پس ..." به راحتی توسط یک شخص قابل درک است. علاوه بر این، چنین قوانینی را می توان در DBMS های مختلف به عنوان پرس و جوهای SQL استفاده کرد. در مواردی که دانش استخراج‌شده برای کاربر شفاف نیست، باید روش‌های پس پردازشی وجود داشته باشد که به آن‌ها اجازه دهد تا به شکل قابل تفسیری درآیند.

الگوریتم های مورد استفاده در داده کاوی نیاز به محاسبات زیادی دارند. پیش از این، این یک عامل بازدارنده برای کاربرد عملی گسترده داده کاوی بود، اما رشد بهره وری امروز پردازنده های مدرنفوریت این مشکل را حذف کرد. اکنون، در یک زمان معقول، می توانید تجزیه و تحلیل کیفی صدها هزار و میلیون ها رکورد را انجام دهید.

وظایف حل شده با روش های داده کاوی:

طبقه بندی- این تخصیص اشیا (مشاهدات، رویدادها) به یکی از کلاس های شناخته شده قبلی است.
پسرفتاز جمله مشکلات پیش بینی ایجاد وابستگی خروجی پیوسته به متغیرهای ورودی.
خوشه بندیگروه بندی اشیاء (مشاهدات، رویدادها) بر اساس داده ها (خواص) است که ماهیت این اشیاء را توصیف می کند. اشیاء درون یک خوشه باید «مشابه» با یکدیگر و متفاوت از اشیاء موجود در خوشه های دیگر باشند. هر چه اشیاء مشابه در یک خوشه بیشتر باشد و تفاوت بین خوشه ها بیشتر باشد، خوشه بندی دقیق تر است.
اتحادیه- شناسایی الگوهای بین رویدادهای مرتبط نمونه ای از چنین الگوی قاعده ای است که نشان می دهد رویداد Y از رویداد X پیروی می کند. چنین قوانینی را انجمنی می نامند. این مشکل ابتدا برای یافتن الگوهای خرید معمولی در سوپرمارکت ها مطرح شد و به همین دلیل گاهی اوقات به عنوان تحلیل سبد بازار از آن یاد می شود.
الگوهای ترتیبی- ایجاد الگوهایی بین رویدادهای مرتبط با زمان، به عنوان مثال. تشخیص وابستگی که اگر رویداد X رخ دهد، پس از آن زمان داده شدهرویداد Y رخ خواهد داد.
تحلیل واریانس- شناسایی نامشخص ترین الگوها.

مسائل تجزیه و تحلیل کسب و کار به طور متفاوتی فرموله می شوند، اما راه حل اکثر آنها به یک یا آن وظیفه داده کاوی یا ترکیبی از آنها برمی گردد. به عنوان مثال، ارزیابی ریسک راه حلی برای یک مشکل رگرسیون یا طبقه بندی است، بخش بندی بازار به صورت خوشه بندی است، تحریک تقاضا قوانین تداعی است. در واقع، وظایف داده کاوی عناصری هستند که از طریق آنها می توانید راه حلی برای اکثر مشکلات واقعی کسب و کار جمع آوری کنید.

برای حل مسائل فوق از روش ها و الگوریتم های مختلف داده کاوی استفاده می شود. با توجه به اینکه داده کاوی در محل تلاقی رشته هایی مانند آمار، تئوری اطلاعات، توسعه یافته و در حال توسعه است. فراگیری ماشیندر نظریه پایگاه داده، کاملا طبیعی است که بیشتر الگوریتم ها و روش های داده کاوی بر اساس روش های مختلفاز این رشته ها به عنوان مثال، روش خوشه بندی k-means به سادگی از آمار وام گرفته شده است. روش‌های داده‌کاوی زیر محبوبیت زیادی به دست آورده‌اند: شبکه‌های عصبی، درخت‌های تصمیم، الگوریتم‌های خوشه‌بندی، از جمله الگوریتم‌های مقیاس‌پذیر، الگوریتم‌هایی برای تشخیص پیوندهای انجمنی بین رویدادها و غیره.

Deductor یک پلت فرم تحلیلی است که شامل مجموعه کاملی از ابزارها برای حل مسائل داده کاوی است: رگرسیون خطی، شبکه های عصبی نظارت شده، شبکه های عصبی بدون نظارت، درخت تصمیم، جستجوی قوانین انجمن و بسیاری دیگر. برای بسیاری از مکانیسم ها، بصری سازهای تخصصی ارائه شده است که استفاده از مدل به دست آمده و تفسیر نتایج را تا حد زیادی تسهیل می کند. نقطه قوتپلتفرم نه تنها اجرای الگوریتم های تحلیل مدرن است، بلکه توانایی ترکیب دلخواه مکانیسم های تجزیه و تحلیل مختلف است.

داده کاوی چیست؟

طبقه بندی وظایف داده کاوی

وظیفه جستجوی قوانین انجمن

مشکل خوشه بندی

ویژگی های Data Miner در Statistica 8

ابزارهای تحلیل آماری داده کاوی

نمونه ای از کار در Data Minin

ایجاد گزارش و خلاصه

مرتب سازی اطلاعات

تجزیه و تحلیل قیمت قطعات مسکونی

تجزیه و تحلیل پیش بینی کننده بقا

نتیجه

داده کاوی چیست؟

نوین اصطلاح کامپیوترداده کاوی به عنوان "استخراج اطلاعات" یا "داده کاوی" ترجمه شده است. اغلب، همراه با داده کاوی، اصطلاحات کشف دانش ("کشف دانش") و انبار داده ("انبار داده") یافت می شود. ظهور این اصطلاحات که بخشی جدایی ناپذیر از داده کاوی هستند، با دور جدیدی در توسعه ابزارها و روش های پردازش و ذخیره داده ها همراه است. بنابراین، هدف داده کاوی شناسایی قوانین و الگوهای پنهان در مقادیر زیاد (بسیار زیاد) داده است.

واقعیت این است که خود ذهن انسان برای درک آرایه های عظیم اطلاعات ناهمگون سازگار نیست. به طور متوسط، یک فرد، به استثنای برخی از افراد، نمی تواند بیش از دو یا سه رابطه را حتی در نمونه های کوچک ثبت کند. اما آمار سنتی، که برای مدت طولانی مدعی نقش ابزار اصلی برای تجزیه و تحلیل داده ها بود، اغلب هنگام حل مسائل از زندگی واقعی. با مشخصات متوسط نمونه کار می کند که اغلب مقادیر ساختگی هستند (متوسط توان پرداختی مشتری، زمانی که بسته به تابع ریسک یا عملکرد زیان، باید بتوانید توان پرداخت بدهی و مقاصد مشتری را پیش بینی کنید؛ میانگین پرداخت بدهی مشتری. شدت سیگنال، در حالی که شما علاقه مند به ویژگی ها و پس زمینه پیک سیگنال و غیره هستید. d.).

بنابراین، روش ها آمار ریاضیعمدتاً برای آزمایش فرضیه های از پیش تنظیم شده مفید هستند، در حالی که تعریف یک فرضیه گاهی اوقات یک کار کاملاً پیچیده و وقت گیر است. فن آوری های مدرنداده کاوی پردازش اطلاعات به منظور جستجوی خودکارالگوها (الگوهای) مشخصه هر قطعه از داده های چند بعدی ناهمگن. برخلاف پردازش داده های تحلیلی آنلاین (OLAP)، در داده کاوی، بار فرموله کردن فرضیه ها و شناسایی الگوهای غیرمعمول (غیر منتظره) از انسان به رایانه منتقل می شود. داده کاوی یکی نیست، بلکه ترکیبی از تعداد زیادی روش مختلف کشف دانش است. انتخاب روش اغلب به نوع داده های موجود و اطلاعاتی که می خواهید به دست آورید بستگی دارد. به عنوان مثال، در اینجا چند روش وجود دارد: ارتباط (ترکیب)، طبقه‌بندی، خوشه‌بندی، تحلیل و پیش‌بینی سری‌های زمانی، شبکه‌های عصبی و غیره.

اجازه دهید ویژگی های دانشی را که باید کشف شود، که در تعریف ارائه شده است، با جزئیات بیشتر در نظر بگیریم.

دانش باید جدید باشد، قبلا ناشناخته باشد. تلاش صرف شده برای کشف دانشی که قبلاً برای کاربر شناخته شده است نتیجه نمی دهد. بنابراین، دانش جدید و ناشناخته قبلی است که ارزش دارد.

دانش باید بی اهمیت باشد. نتایج تجزیه و تحلیل باید الگوهای غیر آشکار و غیرمنتظره را در داده هایی که به اصطلاح دانش پنهان را تشکیل می دهند منعکس کند. نتایجی که می شد بیشتر به دست آورد راه های ساده(به عنوان مثال، با بازرسی بصری) استفاده از روش های قدرتمند داده کاوی را توجیه نمی کند.

دانش باید عملا مفید باشد. دانش یافت شده باید قابل اجرا باشد، از جمله بر روی داده های جدید، با درجه بالایی از قابلیت اطمینان. سودمندی در این واقعیت نهفته است که این دانش می تواند در کاربرد آن سودمند باشد.

دانش باید برای فهم بشر قابل دسترس باشد. الگوهای یافت شده باید از نظر منطقی قابل توضیح باشند، در غیر این صورت احتمال تصادفی بودن آنها وجود دارد. علاوه بر این، دانش کشف شده باید به شکلی قابل درک برای انسان ارائه شود.

در داده کاوی از مدل ها برای نشان دادن دانش به دست آمده استفاده می شود. انواع مدل ها به روش های ایجاد آنها بستگی دارد. رایج ترین آنها عبارتند از: قوانین، درخت تصمیم، خوشه ها و توابع ریاضی.

دامنه داده کاوی نامحدود است - داده کاوی در هر کجا که داده ای وجود دارد مورد نیاز است. تجربه بسیاری از چنین شرکت هایی نشان می دهد که بازده استفاده از داده کاوی می تواند به 1000٪ برسد. به عنوان مثال، گزارش هایی از یک اثر اقتصادی وجود دارد که 10 تا 70 برابر بیشتر از هزینه های اولیه از 350 تا 750 هزار دلار است. اطلاعاتی در مورد یک پروژه 20 میلیون دلاری ارائه شده است که فقط در 4 ماه نتیجه داد. مثال دیگر پس انداز سالانه 700000 دلاری است. از طریق معرفی داده کاوی در سوپرمارکت های زنجیره ای در انگلستان. داده کاوی برای مدیران و تحلیلگران در فعالیت های روزانه آنها ارزش زیادی دارد. افراد تجاریدریافتند که با کمک روش های داده کاوی می توانند مزیت های رقابتی ملموسی به دست آورند.

طبقه بندی وظایف داده کاوی

روش های Data Mining امکان حل بسیاری از مشکلات پیش روی یک تحلیلگر را فراهم می کند. از این موارد، اصلی ترین آنها عبارتند از: طبقه بندی، رگرسیون، جستجوی قوانین انجمن و خوشه بندی. در زیر آمده است توضیح کوتاهوظایف اصلی تجزیه و تحلیل داده ها

1) وظیفه طبقه بندی به تعیین کلاس یک شی با توجه به ویژگی های آن خلاصه می شود. لازم به ذکر است که در این مشکل مجموعه کلاس هایی که می توان یک شی را به آنها اختصاص داد از قبل شناخته شده است.

2) وظیفه رگرسیون، مانند کار طبقه بندی، به شما امکان می دهد مقدار برخی از پارامترهای آن را بر اساس ویژگی های شناخته شده یک شی تعیین کنید. در مقابل مشکل طبقه بندی، مقدار پارامتر مجموعه ای محدود از کلاس ها نیست، بلکه مجموعه ای از اعداد واقعی است.

3) وظیفه انجمن. هنگام جستجوی قوانین ارتباط، هدف یافتن وابستگی‌ها (یا تداعی‌های) مکرر بین اشیا یا رویدادها است. وابستگی های یافت شده در قالب قوانین ارائه می شوند و می توانند هم برای درک بهتر ماهیت داده های تحلیل شده و هم برای پیش بینی وقوع رویدادها استفاده شوند.

4) وظیفه خوشه بندی جستجوی گروه های مستقل (خوشه ها) و ویژگی های آنها در کل مجموعه داده های تحلیل شده است. حل این مشکل به درک بهتر داده ها کمک می کند. علاوه بر این، گروه بندی اشیاء همگن باعث کاهش تعداد آنها و در نتیجه تسهیل تجزیه و تحلیل می شود.

5) الگوهای متوالی - ایجاد الگوهایی بین رویدادهای مربوط به زمان، یعنی. تشخیص یک وابستگی که اگر رویداد X رخ دهد، رویداد Y پس از یک زمان معین رخ خواهد داد.

6) تجزیه و تحلیل انحرافات - شناسایی غیر مشخصه ترین الگوها.

وظایف ذکر شده بر اساس هدف به توصیفی و پیش بینی تقسیم می شوند.

وظایف توصیفی بر بهبود درک داده های مورد تجزیه و تحلیل تمرکز دارند. نکته کلیدی در چنین مدل هایی، سهولت و شفافیت نتایج برای ادراک انسان است. این امکان وجود دارد که الگوهای کشف شده یک ویژگی خاص از داده های خاص مورد مطالعه باشد و در هیچ جای دیگری یافت نشود، اما همچنان می تواند مفید باشد و بنابراین باید شناخته شود. این نوع مشکل شامل خوشه بندی و جستجوی قوانین ارتباط است.

حل مسائل پیش بینی به دو مرحله تقسیم می شود. در مرحله اول، یک مدل بر اساس یک مجموعه داده با نتایج شناخته شده ساخته می شود. در مرحله دوم برای پیش بینی نتایج بر اساس مجموعه داده های جدید استفاده می شود. در این مورد البته لازم است که مدل های ساخته شده تا حد امکان دقیق عمل کنند. به این گونهوظایف شامل وظایف طبقه بندی و رگرسیون است. این همچنین شامل مشکل یافتن قوانین ارتباط است، در صورتی که از نتایج راه حل آن بتوان برای پیش بینی وقوع رویدادهای خاص استفاده کرد.

با توجه به روش های حل مسائل، آنها به یادگیری نظارت شده (یادگیری با معلم) و یادگیری بدون نظارت (یادگیری بدون معلم) تقسیم می شوند. این نام از عبارت Machine Learning (یادگیری ماشین) گرفته شده است که اغلب در ادبیات انگلیسی زبان استفاده می شود و به تمام فناوری های داده کاوی اشاره دارد.

در مورد یادگیری نظارت شده، مشکل تجزیه و تحلیل داده ها در چند مرحله حل می شود. ابتدا با استفاده از هر الگوریتم داده کاوی، مدلی از داده های تحلیل شده ساخته می شود - یک طبقه بندی. سپس طبقه بندی کننده آموزش داده می شود. به عبارت دیگر، کیفیت کار آن بررسی می شود و در صورت نامطلوب بودن، طبقه بندی کننده به طور تکمیلی آموزش می بیند. این کار تا زمانی ادامه می یابد که به سطح کیفی مورد نیاز برسد یا مشخص شود که الگوریتم انتخاب شده به درستی با داده ها کار نمی کند یا خود داده ها ساختاری قابل شناسایی ندارند. این نوع مسائل شامل مشکلات طبقه بندی و رگرسیون می شود.

یادگیری بدون نظارت، وظایفی را با هم ترکیب می کند که الگوهای توصیفی را شناسایی می کند، مانند الگوهای خرید انجام شده توسط مشتریان در یک فروشگاه بزرگ. بدیهی است که اگر این الگوها وجود داشته باشد، مدل باید آنها را نشان دهد و صحبت از یادگیری آن نامناسب است. از این رو نام - یادگیری بدون نظارت. مزیت چنین مسائلی امکان حل آنها بدون دانش قبلی از داده های تحلیل شده است. اینها شامل خوشه بندی و جستجوی قوانین انجمن است.

مشکل طبقه بندی و رگرسیون

هنگام تجزیه و تحلیل، اغلب لازم است که اشیاء مورد مطالعه به کدام یک از کلاس های شناخته شده تعلق دارند، به عنوان مثال، آنها را طبقه بندی کنیم. به عنوان مثال، وقتی شخصی برای دریافت وام به بانک مراجعه می کند، مسئول بانک باید تصمیم بگیرد که آیا مشتری بالقوه قابل اعتبار است یا خیر. بدیهی است که چنین تصمیمی بر اساس داده های مربوط به شی مورد مطالعه (در این مورد- شخص): محل کار او، اندازه دستمزد، سن، ترکیب خانواده و ... در نتیجه تجزیه و تحلیل این اطلاعات، یک کارمند بانک باید فردی را به یکی از دو طبقه شناخته شده "معتبر" و "بی اعتبار" نسبت دهد.

نمونه دیگری از وظایف طبقه بندی، فیلتر کردن ایمیل است. در این مورد، برنامه فیلترینگ باید طبقه بندی کند پیام دریافتیهرزنامه (ناخواسته پست الکترونیک) یا به صورت نامه. این راه حلبر اساس فراوانی تکرار کلمات خاص در پیام (به عنوان مثال، نام گیرنده، آدرس غیر شخصی، کلمات و عبارات: به دست آوردن، "کسب"، "پذیرفته شده است. پیشنهاد سودآور" و غیره.).