მონაცემთა მოპოვების კონცეფცია პოპულარული გახდა. მონაცემთა მოპოვება Loginom Wiki

თქვენი კარგი სამუშაოს გაგზავნა ცოდნის ბაზაში მარტივია. გამოიყენეთ ქვემოთ მოცემული ფორმა

სტუდენტები, კურსდამთავრებულები, ახალგაზრდა მეცნიერები, რომლებიც იყენებენ ცოდნის ბაზას სწავლასა და მუშაობაში, ძალიან მადლობლები იქნებიან თქვენი.

მსგავსი დოკუმენტები

    DataMining ამოცანების კლასიფიკაცია. ანგარიშების და შეჯამების შექმნა. Data Miner-ის მახასიათებლები სტატისტიკაში. კლასიფიკაციის, კლასტერიზაციის და რეგრესიის პრობლემა. ანალიზის ინსტრუმენტები Statistica Data Miner. პრობლემის არსი ასოციაციის წესების ძიებაა. გადარჩენის პროგნოზირების ანალიზი.

    საკურსო ნაშრომი, დამატებულია 19.05.2011

    აღწერა ფუნქციონირებამონაცემთა მოპოვების ტექნოლოგიები, როგორც პროცესები უცნობი მონაცემების აღმოჩენისთვის. ასოციაციის წესებისა და ნერვული ქსელის ალგორითმების მექანიზმების დასკვნის სისტემების შესწავლა. კლასტერიზაციის ალგორითმების აღწერა და მონაცემთა მოპოვების სფეროები.

    ტესტი, დამატებულია 06/14/2013

    კლასტერიზაციის საფუძვლები. მონაცემთა მოპოვების გამოყენება „ბაზებში ცოდნის აღმოსაჩენად“. კლასტერიზაციის ალგორითმების არჩევანი. მონაცემთა მოძიება დისტანციური სახელოსნოს მონაცემთა ბაზის საცავიდან. მოსწავლეთა და დავალებების დაჯგუფება.

    საკურსო ნაშრომი, დამატებულია 07/10/2017

    მონაცემთა მოპოვება, მონაცემთა მოპოვების განვითარების ისტორია და ცოდნის აღმოჩენა. მონაცემთა მოპოვების ტექნოლოგიური ელემენტები და მეთოდები. ნაბიჯები ცოდნის აღმოჩენაში. ცვლილების და გადახრის გამოვლენა. დაკავშირებული დისციპლინები, ინფორმაციის მოძიება და ტექსტის მოპოვება.

    ანგარიში, დამატებულია 06/16/2012

    კლასტერიზაციის მეთოდებისა და ალგორითმების გამოყენებისას წარმოქმნილი პრობლემების ანალიზი. კლასტერიზაციის ძირითადი ალგორითმები. RapidMiner, როგორც მანქანური სწავლისა და მონაცემთა ანალიზის გარემო. კლასტერიზაციის ხარისხის შეფასება მონაცემთა მოპოვების მეთოდების გამოყენებით.

    საკურსო ნაშრომი, დამატებულია 22.10.2012

    მონაცემთა ჩაწერისა და შენახვის ტექნოლოგიების გაუმჯობესება. ინფორმაციული მონაცემების დამუშავების თანამედროვე მოთხოვნების სპეციფიკა. მონაცემების მრავალგანზომილებიანი ურთიერთობების ფრაგმენტების ამსახველი შაბლონების კონცეფცია თანამედროვე მონაცემთა მოპოვების ტექნოლოგიის ცენტრშია.

    ტესტი, დამატებულია 09/02/2010

    ნერვული ქსელების გამოყენების ანალიზი საფონდო ბირჟაზე სიტუაციის პროგნოზირებისთვის და გადაწყვეტილების მისაღებად Trajan 3.0 ნერვული ქსელის მოდელირების პროგრამული პაკეტის გამოყენებით. პირველადი მონაცემების ტრანსფორმაცია, ცხრილები. პროგრამის ერგონომიული შეფასება.

    დისერტაცია, დამატებულია 06/27/2011

    ევოლუციური ალგორითმების გამოყენების სირთულეები. ბუნებრივი გადარჩევის პრინციპებზე დაფუძნებული გამოთვლითი სისტემების მშენებლობა. გენეტიკური ალგორითმების ნაკლოვანებები. ევოლუციური ალგორითმების მაგალითები. ევოლუციური მოდელირების მიმართულებები და სექციები.

    მონაცემთა მოპოვება იყოფა ორ დიდ ჯგუფად საწყისი ტრენინგის მონაცემებთან მუშაობის პრინციპის მიხედვით. ამ კლასიფიკაციაში უმაღლესი დონეგანისაზღვრება იმის საფუძველზე, არის თუ არა მონაცემები შენახული მონაცემთა მოპოვების შემდეგ თუ გამოხდილი შემდგომი გამოყენებისთვის.

    1. მონაცემთა პირდაპირი გამოყენება, ან მონაცემების შენახვა.

    ამ შემთხვევაში, საწყისი მონაცემები ინახება მკაფიო დეტალური ფორმით და უშუალოდ გამოიყენება ეტაპებზე და/ან გამონაკლისის ანალიზი. ამ ჯგუფის მეთოდების პრობლემა ის არის, რომ მათი გამოყენებისას შეიძლება რთული იყოს ძალიან დიდი მონაცემთა ბაზის ანალიზი.

    ამ ჯგუფის მეთოდები: კლასტერული ანალიზი, უახლოესი მეზობლის მეთოდი, კ-უახლოესი მეზობლის მეთოდი, მსჯელობა ანალოგიით.

    2. გაფორმებულის იდენტიფიცირება და გამოყენება ნიმუშები, ან შაბლონის დისტილაცია.

    ტექნოლოგიით დისტილაციის ნიმუშებიინფორმაციის ერთი ნიმუში (თარგი) ამოღებულია წყაროს მონაცემებიდან და გარდაიქმნება ზოგიერთ ფორმალურ კონსტრუქციად, რომლის ფორმა დამოკიდებულია მონაცემთა მოპოვების გამოყენებულ მეთოდზე. ეს პროცესი ეტაპობრივად ტარდება უფასო ძებნა, მეთოდთა პირველ ჯგუფს ეს ეტაპი პრინციპულად აკლია. სცენებზე პროგნოზირებადი მოდელირებადა გამონაკლისის ანალიზიგამოიყენება სცენის შედეგები უფასო ძებნა, ისინი ბევრად უფრო კომპაქტურია ვიდრე თავად მონაცემთა ბაზები. შეგახსენებთ, რომ ამ მოდელების კონსტრუქციები შეიძლება იყოს ინტერპრეტირებადი ანალიტიკოსის მიერ ან არაინტერპრეტირებადი („შავი ყუთები“).

    ამ ჯგუფის მეთოდები: ლოგიკური მეთოდები; ვიზუალიზაციის მეთოდები; ჯვარედინი ჩანართის მეთოდები; განტოლებებზე დაფუძნებული მეთოდები.

    ლოგიკური მეთოდები ანუ ლოგიკური ინდუქციის მეთოდები მოიცავს: ბუნდოვან შეკითხვებს და ანალიზებს; სიმბოლური წესები; გადაწყვეტილების ხეები; გენეტიკური ალგორითმები.

    ამ ჯგუფის მეთოდები, ალბათ, ყველაზე ინტერპრეტირებადია - ისინი აყალიბებენ ნაპოვნი შაბლონებს, უმეტეს შემთხვევაში, მომხმარებლის თვალსაზრისით საკმაოდ გამჭვირვალე ფორმით. შედეგად მიღებული წესები შეიძლება შეიცავდეს უწყვეტ და დისკრეტულ ცვლადებს. უნდა აღინიშნოს, რომ გადაწყვეტილების ხეები შეიძლება ადვილად გარდაიქმნას სიმბოლურ წესებში, ერთი წესის წარმოქმნით ხის ფესვიდან მისკენ მიმავალ გზაზე. ტერმინალური წვერო. გადაწყვეტილების ხეები და წესები ფაქტობრივად სხვადასხვა გზებიერთიდაიგივე პრობლემის გადაწყვეტა და განსხვავდება მხოლოდ მათი შესაძლებლობებით. უფრო მეტიც, წესების განხორციელება ხდება უფრო ნელი ალგორითმებით, ვიდრე გადაწყვეტილების ხეების ინდუქცია.

    ჯვარედინი ჩანართის მეთოდები: აგენტები, ბაიესის (ნდობის) ქსელები, ჯვარედინი ჩანართების ვიზუალიზაცია. ბოლო მეთოდი არ შეესაბამება მონაცემთა მოპოვების ერთ-ერთ თვისებას - დამოუკიდებელ ძიებას ნიმუშებიანალიტიკური სისტემა. ამასთან, ინფორმაციის მიწოდება ჯვარედინი ჩანართების სახით უზრუნველყოფს მონაცემთა მოპოვების ძირითადი ამოცანის - შაბლონების ძიებას, განხორციელებას, ამიტომ ეს მეთოდი ასევე შეიძლება ჩაითვალოს მონაცემთა მოპოვების ერთ-ერთ მეთოდად.

    განტოლებებზე დაფუძნებული მეთოდები.

    ამ ჯგუფის მეთოდები გამოვლენილ შაბლონებს გამოხატავს მათემატიკური გამონათქვამების - განტოლებების სახით. აქედან გამომდინარე, მათ შეუძლიათ მხოლოდ ციფრულ ცვლადებთან მუშაობა და სხვა ტიპის ცვლადები შესაბამისად უნდა იყოს კოდირებული. ეს გარკვეულწილად ზღუდავს ამ ჯგუფის მეთოდების გამოყენებას; მიუხედავად ამისა, ისინი ფართოდ გამოიყენება სხვადასხვა პრობლემის გადაჭრაში, განსაკუთრებით პრობლემების პროგნოზირებაში.

    ამ ჯგუფის ძირითადი მეთოდები: სტატისტიკური მეთოდები და ნეირონული ქსელები

    სტატისტიკური მეთოდები ყველაზე ხშირად გამოიყენება პროგნოზირების პრობლემების გადასაჭრელად. არსებობს სტატისტიკური მონაცემების ანალიზის მრავალი მეთოდი, მათ შორის, მაგალითად, კორელაციური და რეგრესიული ანალიზი, დროის სერიების კორელაცია, დროის სერიების ტენდენციების იდენტიფიცირება, ჰარმონიული ანალიზი.

    სხვა კლასიფიკაცია მონაცემთა მოპოვების მეთოდთა მთელ მრავალფეროვნებას ყოფს ორ ჯგუფად: სტატისტიკურ და კიბერნეტიკური მეთოდებით. ეს გამოყოფის სქემა ეფუძნება სხვადასხვა სასწავლო მიდგომას მათემატიკური მოდელები.

    უნდა აღინიშნოს, რომ სტატისტიკური მეთოდების მონაცემთა მოპოვების სახით კლასიფიკაციის ორი მიდგომა არსებობს. პირველი მათგანი უპირისპირდება სტატისტიკურ მეთოდებს და მონაცემთა მოპოვებას, მისი მომხრეები კლასიკურ სტატისტიკურ მეთოდებს მონაცემთა ანალიზის ცალკეულ სფეროდ მიიჩნევენ. მეორე მიდგომის მიხედვით, სტატისტიკური ანალიზის მეთოდები მონაცემთა მოპოვების მათემატიკური ინსტრუმენტარიუმის ნაწილია. ავტორიტეტული წყაროების უმეტესობა მეორე მიდგომას იყენებს.

    ამ კლასიფიკაციაში გამოიყოფა მეთოდების ორი ჯგუფი:

    • საშუალო დაგროვილი გამოცდილების გამოყენებაზე დაფუძნებული სტატისტიკური მეთოდები, რაც აისახება რეტროსპექტულ მონაცემებში;
    • კიბერნეტიკური მეთოდები, მათ შორის მრავალი ჰეტეროგენული მათემატიკური მიდგომა.

    ასეთი კლასიფიკაციის მინუსი ის არის, რომ როგორც სტატისტიკური, ასევე კიბერნეტიკური ალგორითმები ამა თუ იმ გზით ეყრდნობა სტატისტიკური გამოცდილების შედარებას არსებული სიტუაციის მონიტორინგის შედეგებთან.

    ასეთი კლასიფიკაციის უპირატესობა არის მისი ინტერპრეტაციის მოხერხებულობა - იგი გამოიყენება თანამედროვე მიდგომის მათემატიკური საშუალებების აღწერისას. ცოდნის მოპოვებასაწყისი დაკვირვებების მასივებიდან (ოპერატიული და რეტროსპექტული), ე.ი. მონაცემთა მოპოვების ამოცანებში.

    მოდით უფრო ახლოს მივხედოთ ზემოთ მოცემულ ჯგუფებს.

    სტატისტიკური მეთოდები მონაცემთა მოპოვება

    ამ მეთოდებში არის ოთხი ურთიერთდაკავშირებული განყოფილება:

    • სტატისტიკური მონაცემების ბუნების წინასწარი ანალიზი (სტაციონარობის, ნორმალურობის, დამოუკიდებლობის, ერთგვაროვნების ჰიპოთეზების ტესტირება, განაწილების ფუნქციის ტიპის შეფასება, მისი პარამეტრები და სხვ.);
    • ბმულების იდენტიფიცირება და ნიმუშები(წრფივი და არაწრფივი რეგრესიული ანალიზი, კორელაციური ანალიზი და ა.შ.);
    • მრავალვარიანტული სტატისტიკური ანალიზი (წრფივი და არაწრფივი დისკრიმინაციული ანალიზი, კლასტერული ანალიზი, კომპონენტის ანალიზი, ფაქტორული ანალიზიდა ა.შ.);
    • დინამიური მოდელებიდა პროგნოზი დროის სერიებზე დაყრდნობით.

    სტატისტიკური მეთოდების არსენალი მონაცემთა მოპოვება კლასიფიცირებულია მეთოდების ოთხ ჯგუფად:

    1. აღწერითი ანალიზი და საწყისი მონაცემების აღწერა.
    2. ურთიერთობის ანალიზი (კორელაცია და რეგრესიული ანალიზი, ფაქტორული ანალიზი, დისპერსიის ანალიზი).
    3. მრავალვარიანტული სტატისტიკური ანალიზი (კომპონენტური ანალიზი, დისკრიმინაციული ანალიზი, მრავალვარიანტული რეგრესიული ანალიზი, კანონიკური კორელაციები და ა.შ.).
    4. დროის სერიების ანალიზი ( დინამიური მოდელებიდა პროგნოზირება).

    კიბერნეტიკური მონაცემთა მოპოვების მეთოდები

    მონაცემთა მოპოვების მეორე მიმართულება არის მიდგომების ერთობლიობა, რომელიც გაერთიანებულია კომპიუტერული მათემატიკის იდეით და ხელოვნური ინტელექტის თეორიის გამოყენებით.

    რა არის მონაცემთა მოპოვება

    ნებისმიერი თანამედროვე საწარმოს კორპორატიული მონაცემთა ბაზა ჩვეულებრივ შეიცავს ცხრილების ერთობლიობას, რომელიც ინახავს ჩანაწერებს გარკვეული ფაქტების ან ობიექტების შესახებ (მაგალითად, პროდუქტების, მათი გაყიდვების, მომხმარებლების, ინვოისების შესახებ). როგორც წესი, ასეთ ცხრილში თითოეული ჩანაწერი აღწერს კონკრეტულ ობიექტს ან ფაქტს. მაგალითად, გაყიდვების ცხრილში ჩანაწერი ასახავს იმ ფაქტს, რომ ესა თუ ის პროდუქტი მიყიდა ამა თუ იმ კლიენტს ამა თუ იმ მენეჯერის მიერ იმ დროს და, ზოგადად, ამ ინფორმაციის გარდა არაფერს შეიცავს. თუმცა აგრეგატი დიდი რიცხვირამდენიმე წლის განმავლობაში დაგროვილი ასეთი ჩანაწერები შეიძლება გახდეს დამატებითი, ბევრად უფრო ღირებული ინფორმაციის წყარო, რომლის მიღებაც შეუძლებელია ერთი კონკრეტული ჩანაწერის საფუძველზე, კერძოდ, ინფორმაცია შაბლონების, ტენდენციების ან რაიმე მონაცემებს შორის ურთიერთდამოკიდებულების შესახებ. ასეთი ინფორმაციის მაგალითებია ინფორმაცია იმის შესახებ, თუ როგორ არის დამოკიდებული კონკრეტული პროდუქტის გაყიდვები კვირის დღეზე, დღის დროზე ან სეზონზე, მყიდველების რომელი კატეგორიები ყიდულობენ ყველაზე ხშირად კონკრეტულ პროდუქტს, ერთი კონკრეტული პროდუქტის მყიდველების რომელი ნაწილი ყიდულობს მეორე კონკრეტულ პროდუქტს. პროდუქტს, რომელი კატეგორიის კლიენტები ყველაზე ხშირად არ ანაზღაურებენ სესხს დროულად.

    ამ ტიპის ინფორმაცია ჩვეულებრივ გამოიყენება პროგნოზირების, სტრატეგიული დაგეგმვის, რისკის ანალიზში და მისი ღირებულება საწარმოსთვის ძალიან მაღალია. როგორც ჩანს, სწორედ ამიტომ ეწოდა მისი ძიების პროცესს Data Mining (მაინინგი ინგლისურად ნიშნავს „მაინინგი“ და ფაქტობრივი მონაცემების უზარმაზარ ნაკრებში შაბლონების ძიება ნამდვილად ამის მსგავსია). ტერმინი მონაცემთა მოპოვება ეხება არა იმდენად კონკრეტულ ტექნოლოგიას, რამდენადაც კორელაციების, ტენდენციების, ურთიერთობებისა და შაბლონების ძიების პროცესს სხვადასხვა მათემატიკური და სტატისტიკური ალგორითმების საშუალებით: კლასტერირება, ქვენიმუშები, რეგრესია და კორელაციური ანალიზი. ამ ძიების მიზანია წარმოადგინოს მონაცემები ისეთი ფორმით, რომელიც ნათლად ასახავს ბიზნეს პროცესებს, ასევე მოდელის შექმნას, რომელიც შეიძლება გამოყენებულ იქნას ბიზნესის დაგეგმვისთვის კრიტიკული პროცესების პროგნოზირებისთვის (მაგალითად, გარკვეულ საქონელზე მოთხოვნის დინამიკა ან მომსახურება ან მათი შეძენის დამოკიდებულება გარკვეულ მაშინდელ სამომხმარებლო მახასიათებლებზე).

    გაითვალისწინეთ, რომ ტრადიციული მათემატიკური სტატისტიკა, რომელიც დიდი ხნის განმავლობაში რჩებოდა მონაცემთა ანალიზის მთავარ ინსტრუმენტად, ისევე როგორც ონლაინ ანალიტიკური დამუშავების (OLAP) ინსტრუმენტები, რომლებზეც ჩვენ უკვე არაერთხელ დავწერეთ (იხილეთ მასალები ამ თემაზე ჩვენს CD-ზე) . ყოველთვის წარმატებით არ გამოიყენება ასეთი პრობლემების გადასაჭრელად. როგორც წესი, სტატისტიკური მეთოდები და OLAP გამოიყენება წინასწარ ჩამოყალიბებული ჰიპოთეზების შესამოწმებლად. თუმცა, ხშირად ყველაზე მეტად სწორედ ჰიპოთეზის ფორმულირება გამოდის რთული ამოცანაბიზნესის ანალიზის განხორციელებისას შემდგომი გადაწყვეტილების მისაღებად, რადგან მონაცემების ყველა ნიმუში ერთი შეხედვით აშკარა არ არის.

    მონაცემთა მოპოვების თანამედროვე ტექნოლოგიის საფუძველია შაბლონების კონცეფცია, რომელიც ასახავს მონაცემთა ქვენიმუშებში თანდაყოლილ შაბლონებს. შაბლონები იძებნება მეთოდებით, რომლებიც არ იყენებენ აპრიორულ ვარაუდებს ამ ქვენიმუშების შესახებ. მიუხედავად იმისა, რომ სტატისტიკური ანალიზი ან OLAP აპლიკაციები ჩვეულებრივ აყალიბებენ კითხვებს, როგორიცაა „რა არის ამ სერვისის მომხმარებლების მიერ გადაუხდელი ინვოისების საშუალო რაოდენობა?“, მონაცემთა მოპოვება, როგორც წესი, ნიშნავს პასუხებს კითხვებზე, როგორიცაა „არსებობს თუ არა კლიენტების ტიპიური კატეგორია, რომლებიც არ გადაიხადე გადასახადები?“. ამავდროულად, ეს არის პასუხი მეორე კითხვაზე, რომელიც ხშირად იძლევა უფრო არატრივიალურ მიდგომას მარკეტინგული პოლიტიკისა და კლიენტებთან მუშაობის ორგანიზების მიმართ.

    მონაცემთა მოპოვების მნიშვნელოვანი მახასიათებელია მოძიებული შაბლონების არასტანდარტული და არააშკარაობა. სხვა სიტყვებით რომ ვთქვათ, მონაცემთა მოპოვების ინსტრუმენტები განსხვავდება სტატისტიკური მონაცემების დამუშავების ინსტრუმენტებისაგან და OLAP ინსტრუმენტებისგან იმით, რომ იმის ნაცვლად, რომ შეამოწმონ ურთიერთდამოკიდებულებები, რომლებსაც მომხმარებლები ვარაუდობენ, მათ შეუძლიათ დამოუკიდებლად იპოვონ ასეთი ურთიერთდამოკიდებულებები ხელმისაწვდომი მონაცემების საფუძველზე და შექმნან ჰიპოთეზა მათი ბუნების შესახებ.

    უნდა აღინიშნოს, რომ მონაცემთა მოპოვების ინსტრუმენტების გამოყენება არ გამორიცხავს სტატისტიკური ინსტრუმენტების და OLAP ინსტრუმენტების გამოყენებას, რადგან ამ უკანასკნელის გამოყენებით მონაცემთა დამუშავების შედეგები, როგორც წესი, ხელს უწყობს იმ შაბლონების ბუნების უკეთ გააზრებას, რომელიც უნდა მოიძიონ.

    საწყისი მონაცემები მონაცემთა მოპოვებისთვის

    მონაცემთა მოპოვების გამოყენება გამართლებულია, თუ საკმარისად დიდი რაოდენობით არის მონაცემები, რომლებიც იდეალურად შეიცავს სწორად შემუშავებულ მონაცემთა საწყობში (სინამდვილეში, თავად მონაცემთა საწყობები ჩვეულებრივ იქმნება გადაწყვეტილების მხარდაჭერასთან დაკავშირებული პრობლემების ანალიზისა და პროგნოზირების გადასაჭრელად). ასევე არაერთხელ დავწერეთ მონაცემთა საწყობების მშენებლობის პრინციპებზე; შესაბამისი მასალები შეგიძლიათ იხილოთ ჩვენს CD-ზე, ამიტომ ამ საკითხზე არ შევჩერდებით. ჩვენ მხოლოდ გვახსოვს, რომ საცავში არსებული მონაცემები არის შევსებული ნაკრები, საერთო მთელი საწარმოსთვის და საშუალებას გაძლევთ აღადგინოთ მისი საქმიანობის სურათი დროის ნებისმიერ მომენტში. ასევე გაითვალისწინეთ, რომ მონაცემთა შენახვის სტრუქტურა შექმნილია ისე, რომ მასზე მოთხოვნების შესრულება მაქსიმალურად ეფექტურად განხორციელდეს. თუმცა, არსებობს მონაცემთა მოპოვების ინსტრუმენტები, რომლებსაც შეუძლიათ მოძებნონ შაბლონები, კორელაციები და ტენდენციები არა მხოლოდ მონაცემთა საწყობებში, არამედ OLAP კუბებშიც, ანუ წინასწარ დამუშავებული სტატისტიკური მონაცემების ნაკრებებში.

    მონაცემთა მოპოვების მეთოდებით გამოვლენილი შაბლონების ტიპები

    V.A.Dyuk-ის თანახმად, არსებობს ხუთი სტანდარტული ტიპის შაბლონები, რომლებიც იდენტიფიცირებულია მონაცემთა მოპოვების მეთოდებით:

    ასოციაცია - მოვლენების ერთმანეთთან დაკავშირების მაღალი ალბათობა (მაგალითად, ერთი პროდუქტი ხშირად ყიდულობს მეორესთან ერთად);

    თანმიმდევრობა - დროში დაკავშირებული მოვლენების ჯაჭვის მაღალი ალბათობა (მაგალითად, ერთი პროდუქტის შეძენიდან გარკვეული პერიოდის განმავლობაში, მეორე შეძენილი იქნება მაღალი ალბათობით);

    კლასიფიკაცია - არის ნიშნები, რომლებიც ახასიათებს იმ ჯგუფს, რომელსაც მიეკუთვნება ესა თუ ის მოვლენა ან ობიექტი (ჩვეულებრივ, გარკვეული წესები უკვე კლასიფიცირებული მოვლენების ანალიზის საფუძველზე ყალიბდება);

    კლასტერირება კლასიფიკაციის მსგავსი ნიმუშია და მისგან განსხვავდება იმით, რომ თავად ჯგუფები ამ შემთხვევაში არ არის დაყენებული - ისინი ავტომატურად ვლინდება მონაცემთა დამუშავებისას;

    დროებითი შაბლონები - შაბლონების არსებობა გარკვეული მონაცემების ქცევის დინამიკაში (ტიპიური მაგალითია გარკვეულ საქონელზე ან მომსახურებაზე მოთხოვნის სეზონური რყევები), რომლებიც გამოიყენება პროგნოზირებისთვის.

    მონაცემთა მოპოვების მეთოდები მონაცემთა მოპოვებაში

    დღესდღეობით მონაცემთა მოპოვების სხვადასხვა მეთოდის საკმაოდ დიდი რაოდენობაა. V.A. Dyuk-ის მიერ შემოთავაზებული ზემოაღნიშნული კლასიფიკაციის საფუძველზე, მათ შორისაა:

    რეგრესიული, დისპერსიული და კორელაციური ანალიზი (დანერგილია უმეტეს თანამედროვე სტატისტიკურ პაკეტებში, კერძოდ, SAS Institute-ის, StatSoft-ის და ა.შ. პროდუქტებში);

    ანალიზის მეთოდები კონკრეტულ საგნობრივ სფეროში, ემპირიულ მოდელებზე დაფუძნებული (ხშირად გამოიყენება, მაგალითად, იაფი ფინანსური ანალიზის ინსტრუმენტებში);

    ნერვული ქსელის ალგორითმები, რომელთა იდეა ემყარება ნერვული ქსოვილის ფუნქციონირების ანალოგიას და მდგომარეობს იმაში, რომ საწყისი პარამეტრები განიხილება, როგორც სიგნალები, რომლებიც გარდაიქმნება "ნეირონებს" შორის არსებული კავშირების შესაბამისად. და როგორც ანალიზის შედეგად მიღებული პასუხი, მთელი ქსელის პასუხი საწყის მონაცემებზე. ბმულები ამ შემთხვევაში იქმნება ე.წ. ქსელური სწავლის გამოყენებით დიდი ნიმუშის საშუალებით, რომელიც შეიცავს როგორც ორიგინალურ მონაცემებს, ასევე სწორ პასუხებს;

    ალგორითმები - ორიგინალური მონაცემების ახლო ანალოგის არჩევანი უკვე ხელმისაწვდომი ისტორიული მონაცემებიდან. ასევე მოუწოდა უახლოესი მეზობლის მეთოდს;

    გადაწყვეტილების ხეები - იერარქიული სტრუქტურა, რომელიც დაფუძნებულია კითხვების ერთობლიობაზე, რომელიც გულისხმობს პასუხს "დიახ" ან "არა"; თუმცა ამ გზითმონაცემთა დამუშავება ყოველთვის იდეალურად ვერ პოულობს არსებულ შაბლონებს; იგი საკმაოდ ხშირად გამოიყენება პროგნოზირების სისტემებში მიღებული პასუხის სიცხადის გამო;

    კლასტერული მოდელები (ზოგჯერ ასევე უწოდებენ სეგმენტაციის მოდელებს) გამოიყენება მსგავსი მოვლენების ჯგუფებად დასაჯგუფებლად, მონაცემთა ნაკრების მრავალი ველის მსგავსი მნიშვნელობების საფუძველზე; ასევე ძალიან პოპულარულია პროგნოზირების სისტემების შექმნაში;

    შეზღუდული ძიების ალგორითმები, რომლებიც ითვლის მარტივი ლოგიკური მოვლენების კომბინაციების სიხშირეს მონაცემთა ქვეჯგუფებში;

    ევოლუციური პროგრამირება - ძიება და გენერირება ალგორითმის, რომელიც გამოხატავს მონაცემთა ურთიერთდამოკიდებულებას, დაფუძნებული თავდაპირველად მითითებულ ალგორითმზე, შეცვლილი ძიების პროცესში; ხანდახან ურთიერთდამოკიდებულებების ძიება ხორციელდება ნებისმიერი გარკვეული ტიპის ფუნქციებს შორის (მაგალითად, პოლინომები).

    შეგიძლიათ მეტი წაიკითხოთ ამ და სხვა მონაცემთა მოპოვების ალგორითმების შესახებ, ასევე იმ ინსტრუმენტების შესახებ, რომლებიც მათ ახორციელებენ, წიგნში „Data Mining: სავარჯიშო კურსი»V.A.Dyuk და A.P.Samoilenko, გამოცემული გამომცემლობა „პიტერის“ მიერ 2001 წელს. დღეს ეს არის ერთ-ერთი იმ რამდენიმე წიგნიდან რუსულ ენაზე, რომელიც ამ პრობლემას ეძღვნება.

    მონაცემთა მოპოვების ხელსაწყოების წამყვანი მწარმოებლები

    მონაცემთა მოპოვების ინსტრუმენტები, ისევე როგორც Business Intelligence ინსტრუმენტების უმეტესობა, ტრადიციულად მიეკუთვნება ძვირადღირებულ პროგრამულ ინსტრუმენტებს - ზოგიერთი მათგანის ფასი რამდენიმე ათეულ ათას დოლარს აღწევს. ამიტომ, ბოლო დრომდე, ამ ტექნოლოგიის ძირითადი მომხმარებლები იყვნენ ბანკები, საფინანსო და სადაზღვევო კომპანიები, მსხვილი სავაჭრო საწარმოები და ძირითადი ამოცანები, რომლებიც მოითხოვდნენ მონაცემთა მოპოვების გამოყენებას, ითვლებოდა საკრედიტო და სადაზღვევო რისკების შეფასება და მარკეტინგის განვითარება. პოლიტიკა, სატარიფო გეგმებიდა კლიენტებთან მუშაობის სხვა პრინციპები. ბოლო წლებში სიტუაციამ გარკვეული ცვლილებები განიცადა: ბაზარი პროგრამული უზრუნველყოფაგაჩნდა შედარებით იაფი მონაცემთა მოპოვების ინსტრუმენტები რამდენიმე მომწოდებლისგან, რაც ამ ტექნოლოგიას ხელმისაწვდომს გახდის მცირე და საშუალო ბიზნესისთვის, რომლებსაც აქამდე არასდროს უფიქრიათ.

    თანამედროვე ბიზნეს დაზვერვის ინსტრუმენტები მოიცავს ანგარიშების გენერატორებს, ანალიტიკური დამუშავებამონაცემები, BI განვითარების ხელსაწყოები (BI პლატფორმები) და ეგრეთ წოდებული Enterprise BI Suites - საწარმოს მასშტაბით მონაცემთა ანალიზისა და დამუშავების ხელსაწყოები, რომლებიც საშუალებას გაძლევთ შეასრულოთ მონაცემთა ანალიზთან და მოხსენებასთან დაკავშირებული მოქმედებების ნაკრები და ხშირად მოიცავს BI-ს ინტეგრირებულ კომპლექტს. ინსტრუმენტები და BI აპლიკაციის განვითარების ინსტრუმენტები. ეს უკანასკნელი, როგორც წესი, შეიცავს როგორც საანგარიშო ინსტრუმენტებს, ასევე OLAP ინსტრუმენტებს და ხშირად მონაცემთა მოპოვების ინსტრუმენტებს.

    Gartner Group-ის ანალიტიკოსების აზრით, Business Objects, Cognos, Information Builders ლიდერები არიან საწარმოთა მასშტაბის მონაცემთა ანალიზისა და დამუშავების ბაზარზე და Microsoft და Oracle ასევე აცხადებენ ლიდერობას (ნახ. 1). რაც შეეხება BI გადაწყვეტილებების განვითარების ინსტრუმენტებს, ამ სფეროში ლიდერობის მთავარი პრეტენდენტები არიან მაიკროსოფტიდა SAS ინსტიტუტი (ნახ. 2).

    გაითვალისწინეთ, რომ Microsoft-ის Business Intelligence ინსტრუმენტები შედარებით იაფი პროდუქტებია, რომლებიც ხელმისაწვდომია კომპანიების ფართო სპექტრისთვის. სწორედ ამიტომ, ჩვენ განვიხილავთ მონაცემთა მოპოვების რამდენიმე პრაქტიკულ ასპექტს ამ კომპანიის პროდუქტების გამოყენებით, როგორც მაგალითი ამ სტატიის შემდგომ ნაწილებში.

    ლიტერატურა:

    1. ჰერცოგი ვ.ა. მონაცემთა მოპოვება - მონაცემთა მოპოვება. - http://www.olap.ru/basic/dm2.asp.

    2. Dyuk V.A., Samoylenko A.P. მონაცემთა მოპოვება: სასწავლო კურსი. - პეტერბურგი: პეტრე, 2001 წ.

    3. ბ.დე ვილი. Microsoft Data Mining. ციფრული პრესა, 2001 წ.

    მონაცემთა ჩაწერისა და შენახვის მეთოდების შემუშავებამ გამოიწვია შეგროვებული და გაანალიზებული ინფორმაციის მოცულობის სწრაფი ზრდა. მონაცემების მოცულობა იმდენად შთამბეჭდავია, რომ უბრალოდ შეუძლებელია ადამიანმა მათი დამოუკიდებლად გაანალიზება, თუმცა ასეთი ანალიზის საჭიროება საკმაოდ აშკარაა, რადგან ეს „ნედლი“ მონაცემები შეიცავს ცოდნას, რომელიც შეიძლება გამოყენებულ იქნას გადაწყვეტილების მისაღებად. მონაცემთა ავტომატური ანალიზის ჩასატარებლად გამოიყენება მონაცემთა მოპოვება.

    მონაცემთა მოპოვება არის მანამდე უცნობი არატრივიალური, პრაქტიკულად სასარგებლო და ხელმისაწვდომი ცოდნის აღმოჩენის პროცესი ნედლეულ მონაცემებში, რაც აუცილებელია ადამიანის საქმიანობის სხვადასხვა სფეროში გადაწყვეტილების მისაღებად. მონაცემთა მოპოვება მონაცემთა ბაზებში ცოდნის აღმოჩენის ერთ-ერთი საფეხურია.

    მონაცემთა მოპოვების მეთოდების გამოყენების პროცესში ნაპოვნი ინფორმაცია უნდა იყოს არატრივიალური და ადრე უცნობი, მაგალითად, საშუალო გაყიდვები არ არის. ცოდნამ უნდა აღწეროს ახალი ურთიერთობები თვისებებს შორის, წინასწარ განსაზღვროს ზოგიერთი მახასიათებლის მნიშვნელობები სხვებზე დაყრდნობით და ა.შ. მიღებული ცოდნა უნდა იყოს გამოყენებული ახალ მონაცემებზე გარკვეული ხარისხით. სარგებლიანობა მდგომარეობს იმაში, რომ ამ ცოდნას შეუძლია გარკვეული სარგებელი მოიტანოს გამოყენებისას. ცოდნა უნდა იყოს მომხმარებლისთვის გასაგები და არა მათემატიკოსისთვის. მაგალითად, ლოგიკური კონსტრუქციები "თუ ... მაშინ ..." ყველაზე ადვილად აღიქვამს ადამიანს. უფრო მეტიც, ასეთი წესები შეიძლება გამოყენებულ იქნას სხვადასხვა DBMS-ში, როგორც SQL მოთხოვნები. იმ შემთხვევაში, როდესაც მოპოვებული ცოდნა არ არის გამჭვირვალე მომხმარებლისთვის, უნდა არსებობდეს შემდგომი დამუშავების მეთოდები, რომლებიც საშუალებას მისცემს მათ ინტერპრეტაციად ფორმამდე მიიყვანონ.

    მონაცემთა მოპოვებაში გამოყენებული ალგორითმები ბევრ გამოთვლებს მოითხოვს. ადრე, ეს იყო მონაცემთა მოპოვების ფართოდ გავრცელებული პრაქტიკული გამოყენების შემაკავებელი ფაქტორი, მაგრამ დღევანდელი პროდუქტიულობის ზრდა თანამედროვე პროცესორებიამოიღო ამ პრობლემის აქტუალობა. ახლა, გონივრულ დროში, შესაძლებელია ასობით ათასი და მილიონობით ჩანაწერის ხარისხობრივი ანალიზის ჩატარება.

    მონაცემთა მოპოვების მეთოდებით გადაჭრილი ამოცანები:

    1. კლასიფიკაცია- ეს არის ობიექტების (დაკვირვებები, მოვლენები) მინიჭება ერთ-ერთ ადრე ცნობილ კლასზე.
    2. რეგრესიაპროგნოზირების პრობლემების ჩათვლით. უწყვეტი გამომავალის დამოკიდებულების დადგენა შეყვანის ცვლადებზე.
    3. კლასტერირებაარის ობიექტების (დაკვირვებები, მოვლენები) დაჯგუფება, რომელიც ეფუძნება მონაცემებს (თვისებებს), რომლებიც აღწერენ ამ ობიექტების არსს. კლასტერში არსებული ობიექტები უნდა იყოს ერთმანეთის „მსგავსი“ და განსხვავდებოდეს სხვა კლასტერებში შემავალი ობიექტებისგან. რაც უფრო მეტია მსგავსი ობიექტი კლასტერში და რაც მეტი განსხვავებაა კლასტერებს შორის, მით უფრო ზუსტია კლასტერირება.
    4. ასოციაცია- დაკავშირებულ მოვლენებს შორის შაბლონების იდენტიფიცირება. ასეთი ნიმუშის მაგალითია წესი, რომელიც მიუთითებს, რომ მოვლენა Y მომდინარეობს X მოვლენიდან. ასეთ წესებს ასოციაციურს უწოდებენ. ეს პრობლემა პირველად შემოგვთავაზეს სუპერმარკეტებში ტიპიური სავაჭრო შაბლონების მოსაძებნად, ამიტომ მას ზოგჯერ ბაზრის კალათის ანალიზსაც უწოდებენ.
    5. თანმიმდევრული ნიმუშები– შაბლონების დადგენა დროსთან დაკავშირებულ მოვლენებს შორის, ე.ი. დამოკიდებულების გამოვლენა, რომ თუ მოვლენა X მოხდა, შემდეგ მოცემული დრომოხდება Y მოვლენა.
    6. ვარიაციული ანალიზი- ყველაზე არადამახასიათებელი ნიმუშების იდენტიფიცირება.

    ბიზნესის ანალიზის პრობლემები განსხვავებულად არის ჩამოყალიბებული, მაგრამ მათი უმეტესობის გადაწყვეტა მოდის მონაცემთა მოპოვების ამა თუ იმ ამოცანაზე ან მათ კომბინაციაზე. მაგალითად, რისკის შეფასება არის რეგრესიის ან კლასიფიკაციის პრობლემის გადაწყვეტა, ბაზრის სეგმენტაცია არის კლასტერიზაცია, მოთხოვნის სტიმულირება არის ასოციაციის წესები. სინამდვილეში, მონაცემთა მოპოვების ამოცანები არის ელემენტები, საიდანაც შეგიძლიათ შეაგროვოთ გადაწყვეტა რეალური ბიზნეს პრობლემების დიდი უმრავლესობისთვის.

    ზემოაღნიშნული პრობლემების გადასაჭრელად გამოიყენება მონაცემთა მოპოვების სხვადასხვა მეთოდები და ალგორითმები. იმის გათვალისწინებით, რომ მონაცემთა მოპოვება განვითარდა და ვითარდება ისეთი დისციპლინების კვეთაზე, როგორიცაა სტატისტიკა, ინფორმაციის თეორია, მანქანათმცოდნეობამონაცემთა ბაზის თეორია, სავსებით ბუნებრივია, რომ მონაცემთა მოპოვების ალგორითმებისა და მეთოდების უმეტესობა შეიქმნა სხვადასხვა მეთოდებიამ დისციპლინებიდან. მაგალითად, k-means კლასტერიზაციის პროცედურა უბრალოდ იყო ნასესხები სტატისტიკიდან. მონაცემთა მოპოვების შემდეგმა მეთოდებმა დიდი პოპულარობა მოიპოვა: ნერვული ქსელები, გადაწყვეტილების ხეები, კლასტერული ალგორითმები, მათ შორის მასშტაბირებადი, ალგორითმები მოვლენებს შორის ასოციაციური კავშირების გამოსავლენად და ა.შ.

    Deductor არის ანალიტიკური პლატფორმა, რომელიც მოიცავს ინსტრუმენტების სრულ კომპლექტს მონაცემთა მოპოვების პრობლემების გადასაჭრელად: ხაზოვანი რეგრესია, ზედამხედველობითი ნერვული ქსელები, ზედამხედველობის ქვეშ მყოფი ნერვული ქსელები, გადაწყვეტილების ხეები, ასოციაციის წესების ძიება და მრავალი სხვა. მრავალი მექანიზმისთვის მოწოდებულია სპეციალიზებული ვიზუალიზატორები, რომლებიც მნიშვნელოვნად უწყობს ხელს მიღებული მოდელის გამოყენებას და შედეგების ინტერპრეტაციას. Ძლიერი მხარეპლატფორმა არის არა მხოლოდ თანამედროვე ანალიზის ალგორითმების დანერგვა, არამედ სხვადასხვა ანალიზის მექანიზმების თვითნებურად გაერთიანების შესაძლებლობა.

    რა არის მონაცემთა მოპოვება

    მონაცემთა მოპოვების ამოცანების კლასიფიკაცია

    ასოციაციის წესების ძიების ამოცანა

    კლასტერიზაციის პრობლემა

    Data Miner-ის მახასიათებლები Statistica 8-ში

    ანალიზის ინსტრუმენტები STATISTICA Data Miner

    Data Minin-ში მუშაობის მაგალითი

    შექმენით ანგარიშები და რეზიუმეები

    ინფორმაციის დახარისხება

    საცხოვრებელი ნაკვეთების ფასების ანალიზი

    გადარჩენის პროგნოზირების ანალიზი

    დასკვნა


    რა არის მონაცემთა მოპოვება

    Თანამედროვე კომპიუტერული ტერმინიმონაცემთა მოპოვება ითარგმნება როგორც "ინფორმაციის მოპოვება" ან "მონაცემთა მოპოვება". ხშირად, მონაცემთა მოპოვებასთან ერთად, გვხვდება ტერმინები Knowledge Discovery („ცოდნის აღმოჩენა“) და Data Warehouse („მონაცემთა საწყობი“). ამ ტერმინების გაჩენა, რომლებიც Data Mining-ის განუყოფელი ნაწილია, დაკავშირებულია ახალ რაუნდთან მონაცემთა დამუშავებისა და შენახვის ინსტრუმენტებისა და მეთოდების შემუშავებაში. ასე რომ, მონაცემთა მოპოვების მიზანია ფარული წესებისა და შაბლონების იდენტიფიცირება დიდი (ძალიან დიდი) მოცულობის მონაცემებში.

    ფაქტია, რომ თავად ადამიანის გონება არ არის ადაპტირებული ჰეტეროგენული ინფორმაციის უზარმაზარი მასივის აღქმისთვის. საშუალოდ, ადამიანს, ზოგიერთი პიროვნების გარდა, არ ძალუძს ორ-სამზე მეტი ურთიერთობის დაფიქსირება, თუნდაც მცირე ნიმუშებში. მაგრამ ტრადიციული სტატისტიკა, რომელიც დიდი ხნის განმავლობაში ამტკიცებდა მონაცემთა ანალიზის მთავარი ინსტრუმენტის როლს, ასევე ხშირად მარცხდება პრობლემების გადაჭრისას. ნამდვილი ცხოვრება. ის მუშაობს ნიმუშის საშუალო მახასიათებლებით, რომლებიც ხშირად ფიქტიური მნიშვნელობებია (კლიენტის საშუალო გადახდისუნარიანობა, როდესაც რისკის ფუნქციის ან ზარალის ფუნქციიდან გამომდინარე, თქვენ უნდა შეძლოთ კლიენტის გადახდისუნარიანობის და განზრახვების პროგნოზირება; საშუალო სიგნალის ინტენსივობა, მაშინ როცა გაინტერესებთ სიგნალის პიკების მახასიათებლები და ფონი და ა.შ. დ.).

    ამიტომ, მეთოდები მათემატიკური სტატისტიკასასარგებლოა ძირითადად წინასწარ ჩამოყალიბებული ჰიპოთეზების შესამოწმებლად, ხოლო ჰიპოთეზის განსაზღვრა ზოგჯერ საკმაოდ რთული და შრომატევადი ამოცანაა. თანამედროვე ტექნოლოგიებიმონაცემთა მოპოვება ამუშავებს ინფორმაციას, რათა ავტომატური ძებნაჰეტეროგენული მრავალგანზომილებიანი მონაცემების ნებისმიერი ფრაგმენტისთვის დამახასიათებელი შაბლონები (ნიმუშები). ონლაინ ანალიტიკური მონაცემთა დამუშავებისგან (OLAP) განსხვავებით, მონაცემთა მოპოვებაში ჰიპოთეზების ფორმულირებისა და უჩვეულო (მოულოდნელი) შაბლონების იდენტიფიცირების ტვირთი ადამიანიდან კომპიუტერზე გადადის. მონაცემთა მოპოვება არ არის ერთი, არამედ ცოდნის აღმოჩენის მრავალი განსხვავებული მეთოდის კომბინაცია. მეთოდის არჩევანი ხშირად დამოკიდებულია ხელმისაწვდომი მონაცემების ტიპზე და იმაზე, თუ რა ინფორმაციის მიღებას ცდილობთ. აი, მაგალითად, რამდენიმე მეთოდი: ასოციაცია (კომბინირება), კლასიფიკაცია, კლასტერირება, დროის სერიების ანალიზი და პროგნოზირება, ნერვული ქსელები და ა.შ.

    განვიხილოთ განმარტებაში მოცემული აღმოსაჩენი ცოდნის თვისებები, უფრო დეტალურად.

    ცოდნა უნდა იყოს ახალი, ადრე უცნობი. მომხმარებლისთვის უკვე ცნობილი ცოდნის აღმოჩენაზე დახარჯული ძალისხმევა არ გამოდგება. ამიტომ, ეს არის ახალი, აქამდე უცნობი ცოდნა, რომელიც ღირებულია.

    ცოდნა უნდა იყოს არა ტრივიალური. ანალიზის შედეგები უნდა ასახავდეს არა აშკარა, მოულოდნელ შაბლონებს მონაცემებში, რომლებიც ქმნიან ე.წ. შედეგები, რომელთა მიღებაც შეიძლებოდა მეტი მარტივი გზები(მაგალითად, ვიზუალური დათვალიერებით) არ ამართლებენ მონაცემთა მოპოვების მძლავრი მეთოდების გამოყენებას.

    ცოდნა პრაქტიკულად სასარგებლო უნდა იყოს. მიღებული ცოდნა უნდა იყოს გამოსაყენებელი, მათ შორის ახალ მონაცემებზე, საკმარისად მაღალი სანდოობით. სარგებლიანობა მდგომარეობს იმაში, რომ ამ ცოდნას შეუძლია გარკვეული სარგებელი მოიტანოს მის გამოყენებაში.

    ცოდნა უნდა იყოს ხელმისაწვდომი ადამიანის გაგებისთვის. ნაპოვნი შაბლონები უნდა იყოს ლოგიკურად ახსნილი, წინააღმდეგ შემთხვევაში არსებობს შესაძლებლობა, რომ ისინი შემთხვევითი იყოს. გარდა ამისა, აღმოჩენილი ცოდნა უნდა იყოს წარმოდგენილი ადამიანისათვის გასაგები ფორმით.

    მონაცემთა მოპოვებაში მოდელები გამოიყენება მიღებული ცოდნის წარმოსაჩენად. მოდელების ტიპები დამოკიდებულია მათი შექმნის მეთოდებზე. ყველაზე გავრცელებულია: წესები, გადაწყვეტილების ხეები, კლასტერები და მათემატიკური ფუნქციები.

    მონაცემთა მოპოვების სფერო შეუზღუდავია - მონაცემთა მოპოვება საჭიროა ყველგან, სადაც არის რაიმე მონაცემი. მრავალი ასეთი საწარმოს გამოცდილება გვიჩვენებს, რომ მონაცემთა მაინინგის გამოყენებაზე შემოსავალმა შეიძლება 1000%-მდე მიაღწიოს. მაგალითად, არის ცნობები ეკონომიკური ეფექტის შესახებ, რომელიც 10-70-ჯერ აღემატება საწყის ხარჯებს 350-დან 750 ათას დოლარამდე. მოწოდებულია 20 მილიონი დოლარის პროექტის შესახებ, რომელმაც სულ რაღაც 4 თვეში გაამართლა. კიდევ ერთი მაგალითია 700,000 აშშ დოლარის წლიური დანაზოგი. გაერთიანებული სამეფოს სუპერმარკეტების ქსელში მონაცემთა მაინინგის დანერგვით. მონაცემთა მოპოვება დიდი მნიშვნელობა აქვს მენეჯერებისა და ანალიტიკოსებისთვის მათ ყოველდღიურ საქმიანობაში. საქმიანი ხალხიგააცნობიერეს, რომ მონაცემთა მოპოვების მეთოდების დახმარებით მათ შეუძლიათ მოიპოვონ ხელშესახები კონკურენტული უპირატესობები.

    მონაცემთა მოპოვების ამოცანების კლასიფიკაცია

    DataMining მეთოდები საშუალებას გაძლევთ გადაჭრას მრავალი პრობლემა, რომელსაც ანალიტიკოსი აწყდება. მათგან მთავარია: კლასიფიკაცია, რეგრესია, ასოციაციის წესების ძიება და კლასტერირება. ქვემოთ არის მოკლე აღწერამონაცემთა ანალიზის ძირითადი ამოცანები.

    1) კლასიფიკაციის ამოცანა მცირდება ობიექტის კლასის განსაზღვრაზე მისი მახასიათებლების მიხედვით. უნდა აღინიშნოს, რომ ამ პრობლემაში წინასწარ არის ცნობილი კლასების ნაკრები, რომლებზეც შესაძლებელია ობიექტის მინიჭება.

    2) რეგრესიის პრობლემა, ისევე როგორც კლასიფიკაციის პრობლემა, საშუალებას გაძლევთ განსაზღვროთ მისი ზოგიერთი პარამეტრის მნიშვნელობა ობიექტის ცნობილი მახასიათებლებიდან. კლასიფიკაციის პრობლემისგან განსხვავებით, პარამეტრის მნიშვნელობა არის არა კლასების სასრული ნაკრები, არამედ რეალური რიცხვების სიმრავლე.

    3) ასოციაციის დავალება. ასოციაციის წესების ძიებისას, მიზანია იპოვოთ ხშირი დამოკიდებულებები (ან ასოციაციები) ობიექტებსა და მოვლენებს შორის. ნაპოვნი დამოკიდებულებები წარმოდგენილია წესების სახით და შეიძლება გამოყენებულ იქნას როგორც გაანალიზებული მონაცემების ბუნების უკეთ გასაგებად, ასევე მოვლენების წარმოშობის პროგნოზირებისთვის.

    4) კლასტერიზაციის ამოცანაა დამოუკიდებელი ჯგუფების (კლასტერების) და მათი მახასიათებლების მოძიება გაანალიზებული მონაცემების მთელ ნაკრებში. ამ პრობლემის გადაჭრა ხელს უწყობს მონაცემთა უკეთ გაგებას. გარდა ამისა, ერთგვაროვანი ობიექტების დაჯგუფება შესაძლებელს ხდის მათი რაოდენობის შემცირებას და, შესაბამისად, ანალიზის გაადვილებას.

    5) თანმიმდევრული შაბლონები - შაბლონების დადგენა დროში დაკავშირებულ მოვლენებს შორის, ე.ი. დამოკიდებულების გამოვლენა, რომ თუ მოვლენა X მოხდა, მოვლენა Y მოხდება მოცემული დროის შემდეგ.

    6) გადახრების ანალიზი - ყველაზე არადამახასიათებელი შაბლონების გამოვლენა.

    ჩამოთვლილი ამოცანები დანიშნულების მიხედვით იყოფა აღწერით და პროგნოზირებით.

    აღწერითი ამოცანები ფოკუსირებულია გასაანალიზებელი მონაცემების გაგების გაუმჯობესებაზე. ასეთ მოდელებში მთავარი პუნქტია შედეგების სიმარტივე და გამჭვირვალობა ადამიანის აღქმისთვის. შესაძლებელია, რომ აღმოჩენილი შაბლონები იყოს შესწავლილი კონკრეტული მონაცემების სპეციფიკური მახასიათებელი და სხვაგან ვერ მოიძებნოს, მაგრამ ის მაინც შეიძლება იყოს სასარგებლო და ამიტომ უნდა იყოს ცნობილი. ამ ტიპის პრობლემა მოიცავს კლასტერიზაციას და ასოციაციის წესების ძიებას.

    პროგნოზირებადი პრობლემების გადაწყვეტა ორ ეტაპად იყოფა. პირველ ეტაპზე მოდელი აგებულია მონაცემთა ნაკრების საფუძველზე ცნობილი შედეგებით. მეორე საფეხურზე ის გამოიყენება ახალი მონაცემთა ნაკრების საფუძველზე შედეგების პროგნოზირებისთვის. ამ შემთხვევაში, რა თქმა უნდა, საჭიროა, რომ აწყობილი მოდელები მუშაობდეს რაც შეიძლება ზუსტად. TO ამ სახეობისამოცანები მოიცავს კლასიფიკაციისა და რეგრესიის ამოცანებს. ეს ასევე მოიცავს ასოციაციის წესების ძიების პრობლემას, თუ მისი გადაწყვეტის შედეგები შეიძლება გამოყენებულ იქნას გარკვეული მოვლენების მოვლენის პროგნოზირებისთვის.

    პრობლემების გადაჭრის მეთოდების მიხედვით, ისინი იყოფა ზედამხედველობით სწავლებად (სწავლება მასწავლებელთან) და ზედამხედველობის გარეშე (სწავლა მასწავლებლის გარეშე). ეს სახელი მომდინარეობს ტერმინიდან Machine Learning (მანქანური სწავლება), რომელიც ხშირად გამოიყენება ინგლისურენოვან ლიტერატურაში და აღნიშნავს მონაცემთა მოპოვების ყველა ტექნოლოგიას.

    ზედამხედველობითი სწავლების შემთხვევაში მონაცემთა ანალიზის პრობლემა რამდენიმე ეტაპად წყდება. პირველ რიგში, მონაცემთა მოპოვების ნებისმიერი ალგორითმის გამოყენებით, აგებულია გაანალიზებული მონაცემების მოდელი - კლასიფიკატორი. შემდეგ კლასიფიკატორი ივარჯიშება. ანუ მოწმდება მისი მუშაობის ხარისხი და თუ არადამაკმაყოფილებელია, კლასიფიკატორის დამატებით გადამზადება ხდება. ეს გრძელდება მანამ, სანამ არ მიიღწევა ხარისხის საჭირო დონე ან არ გახდება ცხადი, რომ შერჩეული ალგორითმი არ მუშაობს სწორად მონაცემებთან, ან თავად მონაცემებს არ ექნება სტრუქტურა, რომლის იდენტიფიცირებაც შესაძლებელია. ამ ტიპის პრობლემა მოიცავს კლასიფიკაციისა და რეგრესიის პრობლემებს.

    ზედამხედველობის გარეშე სწავლა აერთიანებს ამოცანებს, რომლებიც იდენტიფიცირებენ აღწერით ნიმუშებს, როგორიცაა მომხმარებელთა მიერ დიდ მაღაზიაში შესყიდვების ნიმუშები. ცხადია, თუ ეს შაბლონები არსებობს, მაშინ მოდელი მათ უნდა წარმოადგენდეს და მის სწავლაზე საუბარი უადგილოა. აქედან მოდის სახელწოდება - უკონტროლო სწავლა. ასეთი პრობლემების უპირატესობა არის მათი გადაჭრის შესაძლებლობა გაანალიზებული მონაცემების წინასწარი ცოდნის გარეშე. ეს მოიცავს კლასტერიზაციას და ასოციაციის წესების ძიებას.

    კლასიფიკაციისა და რეგრესიის პრობლემა

    ანალიზის დროს ხშირად საჭიროა განისაზღვროს, რომელ ცნობილ კლასს მიეკუთვნება შესასწავლი ობიექტები, ანუ მათი კლასიფიკაცია. მაგალითად, როდესაც პირი მიმართავს ბანკს სესხის მისაღებად, ბანკის ოფიცერმა უნდა გადაწყვიტოს, არის თუ არა პოტენციური კლიენტი კრედიტუნარიანი. აშკარაა, რომ ასეთი გადაწყვეტილება მიიღება შესწავლილი ობიექტის მონაცემების საფუძველზე (ში ამ საქმეს- პირი): მისი სამუშაო ადგილი, ზომა ხელფასები, ასაკი, ოჯახის შემადგენლობა და ა.შ. ამ ინფორმაციის ანალიზის შედეგად ბანკის თანამშრომელმა პირი უნდა მიაკუთვნოს ორი ცნობილი კლასიდან ერთ-ერთს „საკრედიტო“ და „არასაკრედიტო“.

    კლასიფიკაციის დავალების კიდევ ერთი მაგალითია ელ.ფოსტის გაფილტვრა. ამ შემთხვევაში, ფილტრაციის პროგრამა უნდა იყოს კლასიფიცირებული შემომავალი შეტყობინებასპამი (უსარგებლო ელფოსტა) ან როგორც ასო. ეს გამოსავალიმიიღება შეტყობინებაში გარკვეული სიტყვების გაჩენის სიხშირის საფუძველზე (მაგალითად, მიმღების სახელი, უპიროვნო მისამართი, სიტყვები და ფრაზები: შეძენა, "მიშოვე", " მომგებიანი წინადადება" და ა.შ.).