მონაცემთა სამთო პროცესში მონაცემთა მომზადება არის. მონაცემთა სამთო ტექნოლოგია

მონაცემთა სამთო დაყოფილია ორ მსხვილ ჯგუფად წყაროს სასწავლო მონაცემების მუშაობის პრინციპით. ამ კლასიფიკაციაში ზედა დონე განისაზღვრება თუ არა მონაცემების შენახვა მონაცემების მოპოვების შემდეგ ან ისინი მოგვიანებით გამოირჩევიან.

1. მონაცემთა პირდაპირი გამოყენება, ან მონაცემების შენახვა.

ამ შემთხვევაში, თავდაპირველი მონაცემები ინახება აშკარა დეტალურ ფორმაში და პირდაპირ გამოიყენება ეტაპებზე და / ან გამონაკლისების ანალიზი. მეთოდების ამ ჯგუფის პრობლემა - გამოყენებისას, შეიძლება რთული იყოს ულტრა-მაღალ მონაცემთა ბაზების ანალიზი.

ამ ჯგუფის მეთოდები: კასეტური ანალიზი, უახლოესი მეზობელი მეთოდი, K-Nearest მეზობლის მეთოდი, ანალოგიის მსჯელობა.

2. ფორმალიზებული გამოვლენა და გამოყენება კანონები, ან დისტილაციის თარგები.

ტექნოლოგიით დისტილაციები თარგები ინფორმაციის ერთი ნიმუში (თარგი) ამოღებულია წყაროდან მონაცემებისგან და ახორციელებს გარკვეულ ფორმალურ სტრუქტურებს, რომელთა ტიპიც დამოკიდებულია მონაცემთა სამთო მეთოდით. ეს პროცესი შესრულებულია ეტაპზე. უფასო ძებნა, მეთოდების პირველ ჯგუფში ეს ეტაპი არ არსებობს პრინციპში. ეტაპზე პროგნოზული მოდელირება და გამონაკლისების ანალიზი სცენაზე არსებული შედეგები გამოიყენება უფასო ძებნა, ისინი მნიშვნელოვნად უფრო კომპაქტურია მონაცემთა ბაზებში. შეგახსენებთ, რომ ამ მოდელების მხატვრები შეიძლება განიმარტოს ანალიტიკოსს ან ეფექტურად ("შავი ყუთები").

ამ ჯგუფის მეთოდები: ლოგიკური მეთოდები; ვიზუალიზაციის მეთოდები; ჯვარედინი მეთოდების მეთოდები; განტოლებების საფუძველზე მეთოდები.

ლოგიკური მეთოდები, ან ლოგიკური ინდუქციური მეთოდები მოიცავს: საეჭვო მოთხოვნებს და ანალიზს; სიმბოლური წესები; გადაწყვეტილებების ხეები; გენეტიკური ალგორითმები.

ამ ჯგუფის მეთოდები, ალბათ, ყველაზე ინტერპრეტირებულია - ისინი წარმოადგენენ ნაპოვნი ნიმუშების, ხშირ შემთხვევაში, საკმაოდ გამჭვირვალე ფორმით მომხმარებლის თვალსაზრისით. მიღებული წესები შეიძლება მოიცავდეს უწყვეტი და დისკრეტული ცვლადებს. უნდა აღინიშნოს, რომ გადაწყვეტილებების ხეები ადვილად შეიძლება მოაქციოთ სიმბოლური წესების კომპლექტებს, რომელიც ერთი წესის შექმნით გზის გასწვრივ ხეზეა ტერმინალის ვერტექსი. წესების და წესების ხეები რეალურად სხვადასხვა გზები ერთი ამოცანის გადაწყვეტილებები და განსხვავდება მხოლოდ მათი შესაძლებლობებით. გარდა ამისა, წესების განხორციელება ხორციელდება ნელი ალგორითმებით, ვიდრე გადაწყვეტილებების მიღება.

Cross-tab- ის მეთოდები: აგენტები, Baiec (Trust) ქსელი, ჯვარი tabular ვიზუალიზაცია. ბოლო მეთოდი არ არის საკმაოდ რეაგირება მონაცემთა სამთო-დამოუკიდებელი ძიების ერთ-ერთ თვისებაზე კანონები ანალიტიკური სისტემა. თუმცა, ჯვარედინი მაგიდის სახით ინფორმაციის მიწოდება უზრუნველყოფს მონაცემების მოპოვების ძირითად ამოცანას - თარგების ძიებას, ამიტომ ეს მეთოდი ასევე შეიძლება ჩაითვალოს ერთ-ერთ მონაცემთა სამთო მეთოდს.

განტოლებების საფუძველზე მეთოდები.

ამ ჯგუფის მეთოდები გამოხატული ნიმუშების გამოვლინებას მათემატიკური გამონათქვამების სახით - განტოლებებში. აქედან გამომდინარე, მათ შეუძლიათ მხოლოდ რიცხვითი ცვლადების მუშაობა და სხვა ტიპის ცვლადები უნდა იყოს კოდირებული. ეს გარკვეულწილად ზღუდავს ამ ჯგუფის მეთოდების გამოყენებას, თუმცა ისინი ფართოდ იყენებენ სხვადასხვა ამოცანების გადაჭრაში, განსაკუთრებით პროგნოზირების ამოცანებს.

ამ ჯგუფის ძირითადი მეთოდები: სტატისტიკური მეთოდები და ნერვული ქსელები

სტატისტიკური მეთოდები ხშირად გამოიყენება პროგნოზირების ამოცანების გადასაწყვეტად. მონაცემთა სტატისტიკური ანალიზის მრავალი მეთოდი, მათ შორის, მაგალითად, კორელაციის რეგრესიული ანალიზი, დინამიკის სერიის კორელაცია, დინამიური სერიის ტენდენციების იდენტიფიცირება, ჰარმონიული ანალიზი.

კიდევ ერთი კლასიფიკაცია იზიარებს ყველა ჯიშის მონაცემთა სამთო მეთოდებს ორ ჯგუფად: სტატისტიკური და კიბერნეტიკული მეთოდები. ეს გამოყოფის სქემა ეფუძნება სხვადასხვა მიდგომებს სწავლისთვის. მათემატიკური მოდელები.

უნდა აღინიშნოს, რომ არსებობს მონაცემთა სამთო სტატისტიკური მეთოდების ორი მიდგომა. პირველი მათგანი ეწინააღმდეგება სტატისტიკურ მეთოდებს და მონაცემთა სამთო, მისი მხარდამჭერები განიხილავენ კლასიკურ სტატისტიკურ მეთოდებს მონაცემთა ანალიზის ცალკე მიმართულებით. მეორე მიდგომის მიხედვით, სტატისტიკური ანალიზის მეთოდები მათემატიკური ინსტრუმენტარის მონაცემების ნაწილია. ყველაზე რეპუტაციის წყაროები მეორე მიდგომას ითხოვენ.

ამ კლასიფიკაციაში განასხვავებს მეთოდების ორ ჯგუფს:

სტატისტიკური მეთოდები საშუალოდ საშუალოდ დაგროვილი გამოცდილების გამოყენების საფუძველზე, რომელიც აისახება რეტროსპექტულ მონაცემებში;
კიბერნეტიკული მეთოდები, რომლებიც მოიცავს ბევრ ჰეტეროგენურ მათემატიკურ მიდგომებს.

ასეთი კლასიფიკაციის ნაკლებობა: ორივე სტატისტიკური და კიბერნეტიკული ალგორითმები ერთ გზაზე ან სხვაგვარად დაეყრდნობა სტატისტიკური გამოცდილების შედარებას არსებული მდგომარეობის მონიტორინგის შედეგებთან.

ასეთი კლასიფიკაციის უპირატესობა არის მისი ხელსაყრელი ინტერპრეტაციისთვის - ის გამოიყენება თანამედროვე მიდგომის მათემატიკური საშუალებების აღწერისას ცოდნის მოპოვება წყაროს დაკვირვების მასივიდან (საოპერაციო და რეტროსპექტივა), ანუ. მონაცემთა სამთო ამოცანებში.

განვიხილოთ უფრო დეტალურად ზემოთ ჯგუფები.

სტატისტიკური მეთოდები მონაცემთა სამთო

ეს მეთოდები არის ოთხი ურთიერთდაკავშირებული სექციები:

სტატისტიკური მონაცემების ბუნების წინასწარი ანალიზი (საკანცელარიო, ნორმალური, დამოუკიდებლობის, ერთიანობის, ერთიანობის, განაწილების ფუნქციის შეფასების, მისი პარამეტრების და ა.შ.);
კავშირების გამოვლენა I. კანონები (ხაზოვანი და არაწრფივი რეგრესიული ანალიზი, კორელაციის ანალიზი და ა.შ.);
მრავალგანზომილებიანი სტატისტიკური ანალიზი (წრფივი და არაწრფივი დისკრიმინაციული ანალიზი, კასეტური ანალიზი, კომპონენტის ანალიზი, ფაქტორი ანალიზი და ა.შ.);
დინამიური მოდელები და პროგნოზირება დროის სერიის მიხედვით.

მონაცემთა სამთო სტატისტიკური მეთოდების არსენალი კლასიფიცირებულია მეთოდების ოთხი ჯგუფისთვის:

წყაროს მონაცემების აღწერითი ანალიზი და აღწერა.
ურთიერთობების ანალიზი (კორელაცია და რეგრესიული ანალიზი, ფაქტორი ანალიზი, დისპერსიული ანალიზი).
მრავალმხრივი სტატისტიკური ანალიზი (კომპონენტის ანალიზი, დისკრიმინაციული ანალიზი, მრავალგანზომილებიანი რეგრესიული ანალიზი, კანონიკური კორელაციები და ა.შ.).
დროებითი სერიის ანალიზი ( დინამიური მოდელები და პროგნოზირება).

კიბერნეტიკული მეთოდები მონაცემთა სამთო

მონაცემთა სამთო მეორე მიმართულებით არის უამრავი მიდგომა, კომპიუტერული მათემატიკის იდეა და ხელოვნური ინტელექტის თეორიის გამოყენება.

მონაცემთა სამთო) და "უხეში" საძიებო ანალიზზე, რომელიც ქმნის საოპერაციო ანალიტიკური მონაცემთა დამუშავების საფუძველს (ონლაინ ანალიტიკური დამუშავება, OLAP), ხოლო მონაცემთა სამთო ერთ-ერთი ძირითადი დებულება - არასამთავრობო აშკარაა კანონები. მონაცემთა სამთო ინსტრუმენტები შეიძლება აღმოჩნდეს ასეთი რეგულარულობა დამოუკიდებლად და დამოუკიდებლად ავაშენოთ ჰიპოთეზები ურთიერთობების შესახებ. მას შემდეგ, რაც ეს არის ჰიპოთეზის ფორმულირება დამოკიდებულებებთან შედარებით ყველაზე მეტად რთული ამოცანაანალიზის სხვა მეთოდებთან შედარებით მონაცემების მოპოვების უპირატესობა აშკარაა.

მონაცემების იდენტიფიცირების ყველაზე სტატისტიკური მეთოდები, რომლებიც იყენებენ ნიმუშზე საშუალოდ კონცეფციის კონცეფციას, რაც ხელს უწყობს არარსებულ ფასეულობებს, ხოლო მონაცემების მოპოვება რეალურ ფასეულობებს ახორციელებს.

OLAP უფრო შესაფერისია რეტროსპექტული მონაცემების გასაგებად, მონაცემთა სამთო ეყრდნობა რეტროსპექტულ მონაცემებს მომავლის შესახებ კითხვებზე პასუხების მისაღებად.

მონაცემთა სამთო ტექნოლოგიების პერსპექტივები

მონაცემთა სამთო პოტენციალი აძლევს "მწვანე შუქას" ტექნოლოგიების გამოყენების საზღვრების გაფართოებას. მონაცემთა სამთო პერსპექტივებთან დაკავშირებით შესაძლებელია შემდეგი განვითარების მიმართულებები:

შესაბამისი ჰაბრიგების მქონე თემების ტიპების გამოყოფა, რომლის ფორმალიზაცია ხელს შეუწყობს ამ ტერიტორიების კუთვნილი შესაბამისი მონაცემების სამთო ამოცანების გადაწყვეტას;
ფორმალური ენებისა და ლოგიკური საშუალებების შექმნა, რომლითაც არგუმენტები გაფორმდება და რომელი ავტომატიზაცია იქნება კონკრეტული საგნის რაიონებში მონაცემთა სამთო ამოცანების გადაჭრის ინსტრუმენტი;
მონაცემთა სამთო მეთოდების შექმნა, რომელსაც შეუძლია არა მარტო ამ ნიმუშების ამონაწერი, არამედ ემპირიული მონაცემების საფუძველზე გარკვეული თეორიების ჩამოყალიბება;
შესაძლებლობების არსებითი ჩამორჩენის დაძლევა ინსტრუმენტები მონაცემთა სამთო თეორიული მიღწევებიდან ამ სფეროში.

მოკლევადიან პერსპექტივაში მონაცემთა სამთო მომავლის მომავალს, აშკარაა, რომ ამ ტექნოლოგიის განვითარება ყველაზე მეტად მიმართულია ბიზნესთან დაკავშირებულ ტერიტორიებზე.

მოკლევადიან პერსპექტივაში, მონაცემთა სამთო პროდუქტები შეიძლება იყოს როგორც ჩვეულებრივი და აუცილებელი ელ ელმაგალითად, მაგალითად, მომხმარებლების მიერ ყველაზე მეტად Დაბალი ფასები გარკვეული პროდუქტის ან იაფი ბილეთების შესახებ.

გრძელვადიან პერსპექტივაში, მონაცემთა სამთო მომავალი მართლაც საინტერესოა - ეს შეიძლება იყოს ინტელექტუალური აგენტების ძიება, როგორც ახალი ტიპის სხვადასხვა დაავადებების მკურნალობა და სამყაროს ბუნების ახალი გაგება.

თუმცა, მონაცემების მოპოვება თავისთავად და პოტენციური საფრთხე - ყოველივე ამის შემდეგ, ინფორმაციის გაზრდის ოდენობა ხელმისაწვდომი გახდება მსოფლიო ქსელში, მათ შორის კერძო ინფორმაციის ჩათვლით და უფრო მეტი ცოდნა შესაძლებელია:

არც ისე დიდი ხნის წინ, ყველაზე დიდი ონლაინ მაღაზია "Amazon" იყო სკანდალის ცენტრში, რომელიც მას "მეთოდებსა და სისტემებს ეხმარება მომხმარებლების დახმარებას", რაც უფრო მეტია, ვიდრე სხვა მონაცემების სამთო პროდუქტი, რომელიც განკუთვნილია პირადი შეგროვებისთვის მონაცემები მაღაზიის სტუმრების შესახებ. ახალი ტექნიკა საშუალებას გაძლევთ პროგნოზირება მომავალი მოთხოვნის საფუძველზე შესყიდვების საფუძველზე, ასევე დასკვნების დასკვნების შესახებ. ამ ტექნიკის მიზანი არის ის, რაც ზემოთ აღინიშნა - რაც შეიძლება მეტი ინფორმაცია მომხმარებელთა შესახებ, მათ შორის კერძო ბუნება (გენდერი, ასაკი, შეღავათები და ა.შ.). ამრიგად, მაღაზიის მყიდველების კონფიდენციალურობის შესახებ მონაცემები, ასევე მათი ოჯახების წევრები, მათ შორის ბავშვები შეგროვდებიან. ეს უკანასკნელი აკრძალულია მრავალი ქვეყნის კანონმდებლობით - არასრულწლოვანთა შესახებ ინფორმაციის შეგროვება შესაძლებელია მხოლოდ მშობლების ნებართვით.

კვლევები აღნიშნავენ, რომ არსებობს წარმატებული გადაწყვეტილებები, რომლებიც იყენებენ ამ ტექნოლოგიის გამოყენების მონაცემების სამთო და წარუმატებელ გამოცდილებას. ტერიტორიები, სადაც მონაცემთა სამთო ტექნოლოგიების გამოყენება სავარაუდოდ წარმატებული იქნება, ასეთი მახასიათებლები:

მოითხოვს ცოდნას დაფუძნებულ გადაწყვეტილებებს;
აქვს შეცვლის გარემო;
ხელმისაწვდომი, საკმარისი და მნიშვნელოვანი მონაცემები;
უზრუნველყოს მაღალი დივიდენდები მარჯვენა გადაწყვეტილებებიდან.

ანალიზის არსებული მიდგომები

დიდი ხნის განმავლობაში, მონაცემთა სამთო დისციპლინა მონაცემთა ანალიზის სრულფასოვანი დამოუკიდებელი არ არის აღიარებული, ზოგჯერ მას "სტატისტიკური შემოგარენების" (პრეგბონონი, 1997).

დღემდე, განისაზღვრა მონაცემთა სამთო რამდენიმე თვალსაზრისით. ერთ-ერთი მათგანი მხარდამჭერებს განიხილავენ თავის მირაჟს, ყურადღებას აქცევს კლასიკურ ანალიზს

რა არის მონაცემთა სამთო

ნებისმიერი თანამედროვე საწარმოს ბავშვთა სახლს, როგორც წესი, შეიცავს ცხრილების კომპლექტს, რომლებიც გარკვეულ ფაქტებს ან ობიექტებს აწვდიან (მაგალითად, საქონლის, გაყიდვების, მომხმარებლების, ანგარიშების შესახებ). როგორც წესი, თითოეული ჩანაწერი მსგავსი ცხრილში აღწერს გარკვეულ ობიექტს ან ფაქტს. მაგალითად, გაყიდვების მაგიდაზე ჩანაწერი ასახავს იმ ფაქტს, რომ ასეთი პროდუქტი გაიყიდება ასეთ კლიენტს, მაშინ რაღაც მენეჯერი, და დიდი, არაფერია, მაგრამ ეს ინფორმაცია არ შეიცავს. თუმცა, რამდენიმე წლის განმავლობაში დაგროვილი ასეთი ჩანაწერების საერთო რაოდენობა შეიძლება იყოს დამატებითი, ბევრად უფრო ღირებული ინფორმაციის წყარო, რომელიც არ შეიძლება მიღებული ერთი კონკრეტული ჩანაწერის საფუძველზე, კერძოდ, ნებისმიერი მონაცემების ნიმუშების, ტენდენციების ან ურთიერთდამოკიდებულების შესახებ ინფორმაციაზე. ამგვარი ინფორმაციის მაგალითებია ინფორმაცია იმის შესახებ, თუ როგორ არის გარკვეული პროდუქტის გაყიდვა კვირის განმავლობაში, დღის ან სეზონის დროს, რომელი კატეგორიის მყიდველებს ხშირად იყენებენ ერთ ან სხვა პროდუქტს, რომელიც ერთ კონკრეტულ მყიდველებს პროდუქტი იძენს სხვა კონკრეტულ პროდუქტს, რომელთა კატეგორიას ყველაზე ხშირად არ აძლევს სესხს.

ასეთი ინფორმაცია ხშირად გამოიყენება პროგნოზირების, სტრატეგიული დაგეგმარების, რისკის ანალიზისა და მისი ღირებულების საწარმოსთვის ძალიან მაღალია. აქედან გამომდინარე, მისი ძიების პროცესი და მოიპოვა სახელი მონაცემების მოპოვება (სამთო ინგლისურ ენაზე ნიშნავს "სამთო სამთო" და რეგულარულობის ძიების რეალური მონაცემების რეგულარობაზე ჭეშმარიტად აკრიფეთ ეს). ტერმინი მონაცემთა სამთო არ არის იმდენად კონკრეტული ტექნოლოგია, როგორც კორელაციის, ტენდენციების, ურთიერთობების და ნიმუშების მოძიების პროცესში სხვადასხვა მათემატიკური და სტატისტიკური ალგორითმების მეშვეობით: კასეტური, ქვე-აღმოჩენა, რეგრესია და კორელაციის ანალიზი. ამ ძიების მიზანია მონაცემების წარდგენა აშკარად ამრეკლავი ბიზნეს პროცესების სახით, ისევე როგორც მოდელი, რომლითაც შეგიძლიათ პროგნოზირება პროცესები, კრიტიკული ბიზნეს დაგეგმვისთვის (მაგალითად, გარკვეული საქონლის ან მომსახურების მოთხოვნის დინამიკა ან მათი შეძენის დამოკიდებულება ნებისმიერი სამომხმარებლო მახასიათებლებისგან).

გაითვალისწინეთ, რომ ტრადიციული მათემატიკის სტატისტიკადიდი ხნის განმავლობაში, ძირითადი მონაცემების ანალიზის ინსტრუმენტი, ისევე როგორც საოპერაციო ანალიტიკური მონაცემთა დამუშავების ინსტრუმენტები (ონლაინ ანალიტიკური დამუშავება, OLAP), რომელიც ჩვენ არაერთხელ დავწერე (იხ. მასალები ჩვენს CD- ზე), ყოველთვის არ უნდა იყოს წარმატებული მიმართა ასეთი ამოცანების გადაჭრას. როგორც წესი, სტატისტიკური მეთოდები და ოლეპი გამოიყენება წინასწარ ჩამოყალიბებული ჰიპოთეზების შესამოწმებლად. თუმცა, ხშირია, რომ ჰიპოთეზის ფორმულირება სწორედ ყველაზე რთულ ამოცანას წარმოადგენს ბიზნესის ანალიზის შემდგომი გადაწყვეტილების მიღების მიზნით, რადგან მონაცემების ყველა ნიმუშის შორს არის აშკარა.

ძირითადი Თანამედროვე ტექოლოგია მონაცემთა სამთო არის თარგების კონცეფცია მონაცემების ფურცლებზე თანდაყოლილი ნიმუშების კონცეფცია. თარგების ძიება დამზადებულია მეთოდებით, რომლებიც არ იყენებენ ამ მუხლების შესახებ პრიორიულ ვარაუდს. თუ სტატისტიკური ანალიზით ან OLAP- ის გამოყენებისას, ტიპის საკითხების გამოყენებისას "რა არის ამ სერვისის მომხმარებელთან დაკავშირებული გადაუხდელი ანგარიშების საშუალო რაოდენობა?", მონაცემების მოპოვების გამოყენება, როგორც წესი, გულისხმობს "ტიპიური კლიენტების კატეგორია, რომლებიც არ გადაიხდიან ანგარიშებს? ". ამავდროულად, მეორე შეკითხვაზე პასუხია, ხშირად უზრუნველყოფს მარკეტინგული პოლიტიკის უფრო მეტი არატრადიციული მიდგომა და კლიენტებთან მუშაობის ორგანიზაციას.

მონაცემთა სამთო მნიშვნელოვან მახასიათებელს წარმოადგენს არასტანდარტული თარგების არასტანდარტული და არაკანონი. სხვა სიტყვებით რომ ვთქვათ, მონაცემთა სამთო ინსტრუმენტები განსხვავდება მონაცემების სტატისტიკური ინსტრუმენტებიდან და OLAP- ის საშუალებებით, რომ ნაცვლად იმისა, რომ სავარაუდო ურთიერთდამოკიდებულების მომხმარებელთა გამოცდა, მათ შეუძლიათ იპოვონ ისეთი ურთიერთდამოკიდებულების დამოუკიდებლად და მათი ხასიათის შესახებ ჰიპოთეზების შექმნა.

უნდა აღინიშნოს, რომ მონაცემთა სამთო ინსტრუმენტების გამოყენება არ გამორიცხავს სტატისტიკურ ინსტრუმენტებსა და OLAP- ის სახსრების გამოყენებას, რადგან ამ უკანასკნელის გამოყენებით მონაცემთა დამუშავების შედეგები, როგორც წესი, ხელს უწყობს ნიმუშების ბუნების უკეთ გაგებას უნდა ვეძებოთ.

მონაცემთა სამთო მონაცემების წყარო

მონაცემთა სამთო განაცხადის გამართლება გამართლებულია, თუ საკმარისად დიდი რაოდენობით მონაცემები, რომლებიც სწორად არის შემუშავებული მონაცემთა საწყობში (რეალურად, მონაცემთა მაღაზიები, როგორც წესი, ქმნიან გადაწყვეტილების მიღების მხარდაჭერასთან დაკავშირებული ანალიზისა და პროგნოზირების ამოცანების გადასაწყვეტად. სამშენებლო რეპოზიტორების პრინციპებზე, ჩვენ ასევე დავწერე ზე მეტი; შესაბამისი მასალები შეიძლება მოიძებნოს ჩვენს CD- ზე, ამიტომ ამ საკითხზე არ შევწყვეტთ. ჩვენ მხოლოდ შეგახსენებთ, რომ შენახვის მონაცემები შევსებულია კომპლექტი, ერთი საწარმოსთვის და საშუალებას გაძლევთ აღადგინოთ მისი საქმიანობის სურათის აღდგენა ნებისმიერ დროს. ჩვენ ასევე აღვნიშნავთ, რომ შენახვის მონაცემების სტრუქტურა განკუთვნილია ისე, რომ მასზე მოთხოვნის აღსრულება ეფექტურად გამოიყენება. თუმცა, არსებობს მონაცემთა სამთო ინსტრუმენტები, რომლებიც შეძლებენ ნიმუშების, კორელაციებისა და ტენდენციების ძიებას არა მარტო მონაცემთა საწყობებში, არამედ olap კუბურებში, ანუ წინასწარ დამუშავებული სტატისტიკური მონაცემების კომპლექტებში.

მონაცემთა სამთო მეთოდებით გამოვლენილი ნიმუშების სახეები

v.a. Dyuku გამოაცხადა ხუთი სტანდარტული ტიპის ნიმუშები მონაცემების სამთო მეთოდებით:

ასოციაცია ერთმანეთთან მოვლენების კომუნიკაციის მაღალი ალბათობაა (მაგალითად, ერთი პროდუქტი ხშირად შეიძენს სხვა);

თანმიმდევრობა არის ჯაჭვის დაკავშირებული მოვლენების მაღალი ალბათობა (მაგალითად, გარკვეული პერიოდის განმავლობაში ერთი პროდუქტის შეძენის შემდეგ შეძენილი იქნება მაღალი ხარისხის ალბათობა);

კლასიფიკაცია - არსებობს ნიშნები, რომელიც ახასიათებს ჯგუფს, რომელსაც ერთი ან სხვა ღონისძიება ან ობიექტი (ჩვეულებრივ, უკვე კლასიფიცირებული მოვლენების ანალიზის საფუძველზე, გარკვეული წესები ჩამოყალიბებულია);

კლასტერული არის ნიმუში მსგავსი კლასიფიკაცია და განსხვავდება, რომ ჯგუფები თავად არ არის მითითებული - ისინი ავტომატურად აღმოჩენილია მონაცემთა დამუშავების დროს;

დროებითი ნიმუშები - გარკვეული მონაცემების ქცევის დინამიკაში თარგების არსებობა (ტიპიური მაგალითი - გარკვეული საქონლის ან მომსახურების მოთხოვნის სეზონურ შემთხვევებში).

მონაცემთა კვლევის მეთოდები მონაცემთა სამთო

Ლამაზია! დიდი რიცხვი სხვადასხვა მონაცემთა კვლევის მეთოდები. ამ კლასიფიკაციაზე დაყრდნობით V.A. Dyuk- ის მიერ, მათ შორის შეგიძლიათ გამოყოთ:

რეგრესია, დისპერსიული და კორელაციის ანალიზი (განხორციელდა ყველაზე თანამედროვე სტატისტიკურ პაკეტებში, კერძოდ, კომპანიების SAS ინსტიტუტის, Statsoft და ა.შ.) პროდუქტებში;

ემპირიული მოდელების საფუძველზე კონკრეტული თემის ანალიზის მეთოდები (ხშირად ვრცელდება, მაგალითად, ფინანსური ანალიზის იაფი ფონდების მიხედვით);

ნერვული ქსელის ალგორითმები, რომლის იდეა ეფუძნება ნერვული ქსოვილის ეფექტებს და იმ ფაქტს, რომ თავდაპირველი პარამეტრები განიხილება, როგორც "ნეირონების" შორის არსებული ურთიერთობების შესაბამისად მოქცეული სიგნალები, რომლებიც "ნეირონებს შორის" ანალიზის შედეგია, განიხილება მთელი ქსელის რეაგირება საწყის მონაცემებზე. ამ შემთხვევაში კომუნიკაციები შეიქმნა ე.წ. ქსელის ტრენინგის გამოყენებით, რომელიც შეიცავს წყაროს მონაცემებს, როგორც წყაროს მონაცემებს და სწორი პასუხებს;

ალგორითმები არსებული ისტორიული მონაცემების წყაროს მონაცემების მჭიდრო ანალოგია. ასევე მოუწოდა "უახლოეს მეზობელ" მეთოდს;

გადაწყვეტილებების ხეები - იერარქიული სტრუქტურა, რომელიც ეფუძნება კითხვებს, რომლებიც გულისხმობს პასუხს "დიახ" ან "არა"; თუმცა ეს მეთოდი მონაცემთა დამუშავება შორს ყოველთვის სრულყოფილად აღმოაჩენს არსებულ ნიმუშებს, საკმაოდ ხშირად გამოიყენება პროგნოზირების სისტემებში მიღებული რეაგირების გამო;

კასეტური მოდელები (ზოგჯერ ასევე სეგმენტაციის მოდელები) გამოიყენება მსგავსი ღონისძიებების გაერთიანებაზე, რომლებიც დაკავშირებულია მონაცემთა ნაკრებში მრავალრიცხოვანი დარგების მსგავსი ღირებულებების საფუძველზე; ასევე ძალიან პოპულარულია, როდესაც პროგნოზირების სისტემების შექმნისას;

შეზღუდული მთლიანობის ალგორითმები, მონაცემთა ქვეჯგუფებში მარტივი ლოგიკური მოვლენების კომბინაციების სიხშირეების გაანგარიშების სიხშირე;

ევოლუციური პროგრამირების - ალგორითმის ძებნა და თაობა, რომელიც გამოხატავს თავდაპირველად განსაზღვრული ალგორითმის საფუძველზე მონაცემების ურთიერთდამოკიდებულების საფუძველზე; ზოგჯერ ურთიერთდამოკიდებულების ძიება ხორციელდება ნებისმიერი კონკრეტული ტიპის ფუნქციების (მაგალითად, პოლინომებით) შორის.

დაწვრილებით ამ და სხვა მონაცემების სამთო ალგორითმების შესახებ, ისევე როგორც მათი საშუალებით, შეგიძლიათ წაიკითხოთ წიგნში "მონაცემთა სამთო: სავარჯიშო კურსი"V.A. Dooky და A.P. Samolenko, რომელიც პეტრე გამომცემლობა 2001 წელს გაცემულია. დღეს რუსულ ენაზე ერთ-ერთი რამდენიმე წიგნი პრობლემაა.

წამყვანი მწარმოებლები მონაცემთა Ming

დასასვენებელი მონაცემების სამთო, ისევე როგორც ბიზნეს დაზვერვის ფონდების უმრავლესობას, ტრადიციულად ეკუთვნის ძვირადღირებულ პროგრამულ ინსტრუმენტებს - ზოგიერთი მათგანის ფასი რამდენიმე ათეულ ათას დოლარს მიაღწევს. აქედან გამომდინარე, ამ ტექნოლოგიის ძირითადი მომხმარებლები იყვნენ ბანკები, ფინანსური და სადაზღვევო კომპანიები, ძირითადი სავაჭრო საწარმოები და მონაცემთა სამთო გამოყენების ძირითადი ამოცანები, საკრედიტო და სადაზღვევო რისკების და მარკეტინგული პოლიტიკის შეფასება. სატარიფო გეგმები და კლიენტებთან მუშაობის სხვა პრინციპები. ბოლო წლებში სიტუაცია გარკვეულ ცვლილებებს განიცადა: ბაზარზე პროგრამული უზრუნველყოფა შედარებით იაფი მონაცემების სამთო ინსტრუმენტები რამდენიმე მწარმოებელს, რომელმაც ეს ტექნოლოგია ხელმისაწვდომი პატარა და საშუალო ზომის ბიზნესისთვის, ადრე არ ფიქრობდა ამის შესახებ.

თანამედროვე ბიზნეს დაზვერვის ინსტრუმენტები მოიცავს ანგარიშს გენერატორების, მონაცემთა ანალიზის ინსტრუმენტები, ბი-გადაწყვეტილებების განვითარების ინსტრუმენტები (BI პლატფორმების) და ე.წ. საწარმო BI Suites - ანალიზის ანალიზი და მონაცემთა დამუშავების ინსტრუმენტები, რომლებიც საშუალებას გაძლევთ განახორციელოთ მონაცემთა ანალიზთან დაკავშირებული მონაცემების კომპლექტი და ანგარიშების შექმნა და ხშირად ინტეგრირებული ბი-ინსტრუმენტები და ბი-აპლიკაციის განვითარების ინსტრუმენტები. ეს უკანასკნელი, როგორც წესი, შეიცავს მის შემადგენლობას და შენობის ანგარიშებს და OLAP- ის თანხებს, ხშირად და მონაცემთა სამთო.

Gartner- ის ჯგუფის ანალიტიკოსების აზრით, საწარმოს მონაცემთა მასშტაბების ანალიზისა და დამუშავების ბაზარზე ლიდერები არიან ბიზნეს ობიექტების, კონიუსის, ინფორმაციის მშენებლების კომპანიები და აცხადებენ, რომ ლიდერობაც Microsoft და Oracle (სურათი 1). რაც შეეხება ბი-გადაწყვეტილებების განვითარებას, ამ სფეროში ლიდერობის ძირითადი განმცხადებლები არიან Microsoft და SAS ინსტიტუტი (ნახ. 2).

გაითვალისწინეთ, რომ Microsoft- ის ბიზნეს დაზვერვის ფონდები შედარებით იაფი პროდუქტების ხელმისაწვდომია კომპანიების ფართო სპექტრს. სწორედ ამიტომ, ამ სტატიის შემდგომ ნაწილში ამ კომპანიის პროდუქციის მაგალითზე მონაცემების სამთო გამოყენების ზოგიერთი პრაქტიკული ასპექტი განიხილავს.

ლიტერატურა:

1. ჰერცოგი V.A. მონაცემთა სამთო - ინტელექტუალური მონაცემთა ანალიზი. - http://www.olap.ru/basic/dm2.asp.

2. Duke V.a., Samoilenko A.P. მონაცემთა სამთო: სასწავლო კურსი. - სპბი: პეტრე, 2001.

3. ბ. დე ვილე. Microsoft მონაცემთა სამთო. ციფრული პრესა, 2001.

მონაცემთა სამთო (მონაცემთა სამთო)

მონაცემთა სამთო არის მეთოდოლოგია და გამოვლენის პროცესი დიდი მონაცემთა მასივები დაგროვილი ინფორმაციული სისტემები კომპანიები, ადრე უცნობი, nontrivial, პრაქტიკულად სასარგებლო და ხელმისაწვდომი ცოდნის ინტერპრეტაცია აუცილებელია გადაწყვეტილების მიღებისათვის სხვადასხვა სფეროებში სხვადასხვა სფეროებში. მონაცემთა სამთო არის მონაცემთა ბაზების მეთოდოლოგიაში უფრო ფართომასშტაბიანი ცოდნის აღმოჩენის ერთ-ერთი ნაბიჯი.

მონაცემთა სამთო პროცესში აღმოჩენილი ცოდნა უნდა იყოს არა-ტრივიალური და ადრე უცნობი. Nontriviality ვარაუდობს, რომ ასეთი ცოდნა არ შეიძლება აღმოჩენილი მარტივი ვიზუალური ანალიზით. მათ უნდა აღინიშნოს, რომ ბიზნეს ობიექტების თვისებები შორის ურთიერთობა, სხვებისგან დაფუძნებული ზოგიერთი ნიშნის ღირებულებების პროგნოზირება და ა.შ. ნაპოვნი ცოდნა უნდა იყოს ახალი ობიექტებისათვის.

ცოდნის პრაქტიკული სარგებლობა გამოწვეულია მათი გამოყენების შესაძლებლობით მართვის გადაწყვეტილებების მიღების პროცესში და კომპანიის საქმიანობის გაუმჯობესების პროცესში.

ცოდნა უნდა იყოს წარმოდგენილი იმ ფორმით, რომელიც გასაგებია იმ მომხმარებლებისთვის, რომლებსაც არ გააჩნიათ სპეციალური მათემატიკური სწავლება. მაგალითად, ლოგიკური დიზაინები "თუ, მაშინ" უფრო ადვილია პირის მიერ. უფრო მეტიც, ასეთი წესები შეიძლება გამოყენებულ იქნას სხვადასხვა DBMS- ში, როგორც SQL- ჩანაწერებში. იმ შემთხვევაში, როდესაც ცოდნა გაუმჭვირვალეა მომხმარებლისთვის, უნდა არსებობდეს პოსტ-დამუშავების მეთოდები, რომლებიც საშუალებას მისცემს მათ, რათა მათ გამოიყენონ ინტერპრეზიული ფორმა.

მონაცემთა სამთო არ არის ერთი, მაგრამ დიდი რაოდენობით სხვადასხვა მეთოდები ცოდნის გამოვლენა. მონაცემთა სამთო მეთოდების მიერ მოგვარებული ყველა ამოცანა შეიძლება დაიყოს ექვსი ტიპად:

მონაცემთა სამთო არის mediidisciplinary, რადგან იგი მოიცავს ელემენტების რიცხვითი მეთოდები, მათემატიკური სტატისტიკა და ალბათობის თეორია, საინფორმაციო თეორია და მათემატიკური ლოგიკა, ხელოვნური ინტელექტი და მანქანა სწავლა.

ბიზნეს ანალიზის ამოცანები სხვადასხვა გზით ჩამოყალიბებულია, მაგრამ მათი უმრავლესობის გადაწყვეტა ერთი ან სხვა მონაცემების სამთო ამოცანად მიდის ან მათი კომბინაციისთვის. მაგალითად, რისკის შეფასება არის რეგრესიის ან კლასიფიკაციის პრობლემის გადაწყვეტა, ბაზრის სეგმენტაცია - კლასტერული, მოთხოვნის ხელშეწყობა - ასოცირებული წესები. სინამდვილეში, მონაცემთა სამთო ამოცანები არის ელემენტები, საიდანაც შეგიძლიათ "შეაგროვოთ" ყველაზე რეალური ბიზნეს ამოცანების გადაწყვეტა.

ზემოთ აღწერილი ობიექტების მოსაგვარებლად გამოიყენება სხვადასხვა მეთოდები და მონაცემთა სამთო ალგორითმები. იმის გამო, რომ მონაცემთა სამთო შეიმუშავა და ვითარდება დისციპლინების, როგორიცაა მათემატიკური სტატისტიკა, საინფორმაციო თეორია, მანქანა სწავლა და მონაცემთა ბაზები, საკმაოდ ბუნებრივია, რომ მონაცემთა სამთო ალგორითმების უმრავლესობა სხვადასხვა მეთოდების შემუშავებულია სხვადასხვა მეთოდები ამ დისციპლინებისგან. მაგალითად, K- საშუალებები კლასტერული ალგორითმი იყო სტატისტიკური მონაცემებისგან.

გამოაგზავნეთ თქვენი კარგი მუშაობა ცოდნის ბაზაზე მარტივია. გამოიყენეთ ქვემოთ მოცემული ფორმა

მოსწავლეები, კურსდამთავრებულები, ახალგაზრდა მეცნიერები, რომლებიც სწავლობენ ცოდნის ბაზას და მუშაობას ძალიან მადლობელი იქნება.

მსგავსი დოკუმენტები

აღწერილობა ფუნქციონალობა მონაცემთა სამთო ტექნოლოგიები, როგორც უცნობი მონაცემების გამოვლენის პროცესები. შესწავლა გამომავალი სისტემები ასოცირებული წესები ნერვული ქსელის ალგორითმების მექანიზმები. აღწერა კლასტერული ალგორითმების აღწერა და მონაცემთა სამთო გამოყენების აღწერა.

გამოცდა, დამატებულია 06/14/2013

საფუძვლები კლასტერული. მონაცემთა სამთო გამოყენებით, როგორც "მონაცემთა ბაზებში ცოდნის გამოვლენა". შერჩევა კლასტერული ალგორითმები. მონაცემების მოპოვება მანძილი სემინარის მონაცემთა ბაზის საცავიდან. კლასტერული სტუდენტები და ამოცანები.

კურსის მუშაობა, დამატებულია 07/10/2017

ჩაწერისა და მონაცემთა შენახვის ტექნოლოგიების გაუმჯობესება. ინფორმაციული მონაცემების დამუშავების თანამედროვე მოთხოვნების სპეციფიკა. მონაცემების მრავალმხრივი ურთიერთობების ფრაგმენტების ამსახველი თარგების კონცეფცია ეფუძნება თანამედროვე მონაცემთა სამთო ტექნოლოგიებს.

გამოცდა, დამატებულია 02.09.2010

მონაცემთა სამთო, მონაცემთა სამთო და ცოდნის აღმოჩენა. ტექნოლოგიური ელემენტები და მონაცემთა სამთო მეთოდები. ნაბიჯები ცოდნის აღმოჩენა. შეცვლა და გადახრა გამოვლენა. დაკავშირებული დისციპლინები, ინფორმაციის მოძიება და ტექსტი მოპოვება.

ანგარიში, დამატებულია 16.06.2012

მონაცემთა სამთო, როგორც გადაწყვეტილების მხარდაჭერის პროცესი ამ ფარული ნიმუშების ძიების საფუძველზე (საინფორმაციო თარგები). მისი რეგულარულობა და განხორციელების ეტაპები, ამ ტექნოლოგიის განვითარების ისტორია, უპირატესობები და უარყოფითი მხარეების შეფასება, შესაძლებლობები.

ესსე, დამატებულია 12/17/2014

ამოცანების კლასიფიკაცია datamining. ანგარიშების და შედეგების შექმნა. მონაცემთა Miner- ის შესაძლებლობები Statistica- ში. კლასიფიკაციის, კლასტერული და რეგრესიის ამოცანა. მონაცემთა Miner ანალიზი. არსი ამოცანები ეძებს ასოციაციურ წესებს. გადარჩენის პროგნოზების ანალიზი.

კურსის მუშაობა, დამატებულია 19.05.2011

პერსპექტივა მიმართულებები მონაცემთა ანალიზი: ტექსტური ინფორმაცია ანალიზი, ინტელექტუალური მონაცემთა ანალიზი. მონაცემთა ბაზებში შენახული სტრუქტურული ინფორმაციის ანალიზი. ტექსტური დოკუმენტების ანალიზის პროცესი. წინასწარი დამუშავების მონაცემები.

რეზიუმე, დამატებულია 13.02.2014

მონაცემთა სამთო ამოცანების კლასიფიკაცია. ასოციაციის წესების კლასტერული და ძიების ამოცანა. ობიექტის კლასების განმარტება მისი თვისებებითა და მახასიათებლებით. ობიექტების ან მოვლენების ხშირი დამოკიდებულებების მოძიება. საოპერაციო ანალიტიკური მონაცემთა დამუშავება.

გამოცდა, დამატებულია 01/13/2013