Datu sagatavošana datu ieguves procesā ir. Datu ieguves tehnoloģija

Datu ieguve ir sadalīta divās lielās grupās, uz darba ar avotu mācīšanās datiem. Šajā klasifikācijā augstākais līmenis Nosaka, pamatojoties uz to, vai dati tiek saglabāti pēc datu ieguves vai tie ir destilēti vēlākai izmantošanai.

1. Tieša datu izmantošana vai. \\ T datu saglabāšana.

Šādā gadījumā sākotnējie dati tiek glabāti acīmredzamā detalizētā formā un tiek tieši izmantotas stadijās un / vai izņēmumu analīze. Šīs metodes grupas problēma - ja to izmanto, var būt grūti analizēt ultra-augstas datu bāzes.

Šīs grupas metodes: klasteru analīze, tuvākā kaimiņu metode, K-tuvākā kaimiņa metode, argumentācija pēc analoģijas.

2. formalizēta noteikšana un izmantošana likumi, vai destilācijas veidnes.

Ar tehnoloģiju destilācijas veidnes Viens informācijas paraugs (veidne) ir iegūta no avota datiem un tiek pārvērsta dažām formālām struktūrām, kuras tipa ir atkarīga no izmantotās datu ieguves metodes. Šis process tiek veikts posmā. bezmaksas meklēšana, Pirmajā metožu grupā šis posms principā nav klāt. Posmos prognostic modelēšana un izņēmumu analīze Tiek izmantoti posma rezultāti bezmaksas meklēšana, tie ir ievērojami kompakti paši datu bāzēm. Atgādināt, ka šo modeļu dizainu var interpretēt analītiķi vai neietveri ("melnās kastes").

Šīs grupas metodes: loģiskās metodes; vizualizācijas metodes; Savstarpējās tabulas metodes; Metodes, pamatojoties uz vienādojumiem.

Loģiskās metodes vai loģiskās indukcijas metodes ietver: izplūdušo pieprasījumus un analīzes; simboliski noteikumi; Risinājumu koki; Ģenētiskie algoritmi.

Šīs grupas metodes varbūt visvairāk interpretēt - viņi izceļ atrasto modeļus, vairumā gadījumu, diezgan pārredzamā formā no lietotāja viedokļa. Iegūtie noteikumi var ietvert nepārtrauktus un diskrētus mainīgos lielumus. Jāatzīmē, ka risinājumu kokus var viegli pārveidot par simbolisku noteikumu kopām, radot vienu noteikumu pa ceļu no koka saknes uz tās termināla virsotne. Risinājumu un noteikumu koki ir faktiski dažādi ceļi Viena uzdevuma risinājumi un atšķiras tikai to spēju jomā. Turklāt noteikumu īstenošanu veic lēnāki algoritmi nekā lēmumu iekļaušana kokiem.

Metodes savstarpējās cilnes: aģenti, Baiec (Trust) tīkls, starp tabulas vizualizācija. Pēdējā metode nav gluži reaģēt uz vienu no īpašībām datu ieguves - Neatkarīga meklēšana likumi Analītiskā sistēma. Tomēr informācijas sniegšana starp tabulas veidā nodrošina datu ieguves galvenā uzdevuma īstenošanu - veidnes meklēšana, tāpēc šo metodi var uzskatīt arī par vienu no datu ieguves metodēm.

Metodes, pamatojoties uz vienādojumiem.

Šīs grupas metodes izsaka noteiktos modeļus matemātisko izteiksmju - vienādojumu veidā. Tāpēc viņi var strādāt tikai ar skaitliskiem mainīgajiem lielumiem un citu veidu mainīgie ir attiecīgi kodēti. Tas nedaudz ierobežo šīs grupas metožu izmantošanu, tomēr tās tiek plaši izmantotas dažādu uzdevumu risināšanā, jo īpaši prognozēšanas uzdevumus.

Šīs grupas galvenās metodes: statistikas metodes un neironu tīkli

Statistikas metodes visbiežāk tiek izmantotas, lai atrisinātu prognozēšanas uzdevumus. Ir daudzas datu statistiskās analīzes metodes, piemēram, korelācijas regresijas analīze, dinamikas sērijas korelācija, dinamisko sēriju tendenču identificēšana, harmoniskā analīze.

Vēl viena klasifikācija piekrīt visas datu ieguves metožu šķirnes divās grupās: statistikas un cybernetic metodes. Šī atdalīšanas shēma ir balstīta uz dažādām mācībām. matemātiskie modeļi.

Jāatzīmē, ka ir divas pieejas, lai piešķirtu statistikas metodes datu ieguvei. Pirmais no tiem iebilst pret statistikas metodēm un datu ieguvi, tās atbalstītāji uzskata klasiskās statistikas metodes atsevišķai datu analīzes virzienam. Saskaņā ar otro pieeju statistiskās analīzes metodes ir daļa no matemātiskās rīkkopas datu ieguves. Lielākā daļa cienījamu avotu ievēro otro pieeju.

Šajā klasifikācijā atšķiras divas metodes:

  • statistikas metodes, pamatojoties uz vidējo uzkrāto pieredzi, kas atspoguļojas retrospektīvos datos;
  • cybernetic metodes, kas ietver daudzas neviendabīgas matemātiskas pieejas.

Šādas klasifikācijas trūkums: gan statistikas, gan cybernetic algoritmi vienā vai citādi paļaujas uz statistiskās pieredzes salīdzinājumu ar pašreizējās situācijas uzraudzības rezultātiem.

Šādas klasifikācijas priekšrocība ir tās ērtība interpretācijai - to izmanto, aprakstot matemātisko līdzekļu modernu pieeju ieguves zināšanas no avota novērojumu masīviem (darbības un retrospektīva), t.i. Datu ieguves uzdevumos.

Apsveriet sīkāk iepriekš minētās grupas.

Statistikas metodes Datu ieguve

Šīs metodes ir četras savstarpēji saistītas sadaļas:

  • statistikas datu rakstura provizoriskā analīze (stacionaritātes hipotēzes pārbaude, normalitāte, neatkarība, vienveidība, izplatīšanas funkcijas veida novērtējums, tās parametri utt.);
  • savienojumu noteikšana I. likumi (lineārā un nelineārā regresijas analīze, korelācijas analīze utt.);
  • daudzdimensiju statistikas analīze (lineārā un nelineārā diskriminējošā analīze, kopu analīze, komponentu analīze, \\ t faktoru analīze un utt.);
  • dinamiskie modeļi un prognozi, pamatojoties uz laika rindām.

Datu ieguves statistikas metožu arsenāls ir klasificēts četrām metožu grupām:

  1. Aprakstoša analīze un avota datu apraksts.
  2. Attiecības analīze (korelācijas un regresijas analīze, \\ t faktoru analīze, dispersijas analīze).
  3. Daudzdimensiju statistikas analīze (komponentu analīze, diskriminējoša analīze, daudzdimensiju regresijas analīze, kanoniskie korelācijas utt.).
  4. Pagaidu sērijas analīze ( dinamiskie modeļi un prognozēšana).

Cybernetic metodes Datu ieguve

Otrais datu ieguves virziens ir daudz pieeju, ideja par datoru matemātiku un izmantot mākslīgā intelekta teoriju.

Datu ieguve) un uz "rupju" izpētes analīzi, kas veido pamatu operatīvai analītiskai datu apstrādei (tiešsaistes analītiskā apstrāde, OLAP), bet viens no galvenajiem datu ieguves noteikumiem - meklējiet ne-acīmredzamu likumi. Datu ieguves instrumenti var atrast tādus likumsakarības neatkarīgi, kā arī patstāvīgi veidot hipotēzes par attiecībām. Tā kā tas ir formulējums hipotēze attiecībā pret atkarībām ir visvairāk izaicinājums uzdevumsDatu ieguves priekšrocība, salīdzinot ar citām analīzes metodēm, ir acīmredzama.

Lielākā daļa statistikas metožu identificēšanai starpsavienojumiem datu izmanto vidējo paraugu, kas noved pie operācijām pār neeksistējošām vērtībām, bet datu ieguve darbojas ar reālām vērtībām.

OLAP ir vairāk piemērots retrospektīvu datu izpratnei, datu ieguve balstās uz retrospektīviem datiem, lai iegūtu atbildes uz jautājumiem par nākotni.

Datu ieguves tehnoloģijas perspektīvas

Datu ieguves potenciāls dod "zaļo gaismu", lai paplašinātu tehnoloģiju piemērošanas robežas. Attiecībā uz datu ieguves perspektīvām ir iespējami šādi attīstības virzieni:

  • tēmu veidu piešķiršana ar atbilstošajām heiristikām, kuras formalizācija atvieglos attiecīgos datu ieguves uzdevumus, kas pieder pie šīm jomām;
  • formālu valodu un loģisko instrumentu izveide, ar kuriem tiks formalizēts argumenti, un kuru automatizācija būs instruments datu ieguves uzdevumu risināšanai konkrētās jomās;
  • datu ieguves metožu izveide, kas spēj ne tikai iegūt šos modeļus, bet arī veidot dažas teorijas, pamatojoties uz empīriskiem datiem;
  • pārvarot būtiskās atpalikušās iespējas instrumenti Datu ieguve no teorētiskiem sasniegumiem šajā jomā.

Ja jūs uzskatāt nākotni datu ieguves īstermiņā, ir skaidrs, ka attīstība šīs tehnoloģijas ir visvairāk vērsta uz jomām, kas saistītas ar uzņēmumu.

Īstermiņā datu ieguves produkti var būt parasti un nepieciešami kā e-pasta adrese, piemēram, lietotāji izmanto, lai meklētu visvairāk zemas cenas Uz noteiktu produktu vai lētāko biļetēm.

Ilgtermiņā datu ieguves nākotne ir patiešām aizraujoša - tā var būt intelektuālo aģentu meklēšana kā jaunu veidu dažādu slimību ārstēšanai un jauna izpratne par Visuma raksturu.

Tomēr datu ieguve ir pati par sevi un potenciālu apdraudējumu - galu galā, arvien vairāk informācijas kļūst pieejama, izmantojot World Wide tīklu, ieskaitot privāto informāciju, un arvien vairāk zināšanu ir iespējams saņemt no tā:

Ne tik sen, lielākais interneta veikals "Amazon" bija skandāla centrā par viņa saņemto patentu "Metodes un sistēmas, lai palīdzētu lietotājiem pērkot preces", kas nav nekas cits kā cits datu ieguves produkts, kas paredzēts, lai savāktu personīgo Dati par veikalu apmeklētājiem. Jaunā tehnika ļauj prognozēt nākotnes pieprasījumus, pamatojoties uz pirkumiem, kā arī izdarīt secinājumus par savu mērķi. Šīs metodes mērķis ir iepriekš minētais - pēc iespējas vairāk vairāk Informācija par klientiem, tostarp privāto dabu (dzimumu, vecumu, vēlmēm utt.). Tādējādi tiek savākti dati par veikalu pircēju privātumu, kā arī viņu ģimeņu locekļiem, tostarp bērniem. Pēdējais ir aizliegts ar daudzu valstu tiesību aktiem - informācijas vākšana par nepilngadīgajiem ir iespējama tikai ar vecāku atļauju.

Pētījumi ņem vērā, ka ir gan veiksmīgi risinājumi, kas izmanto datu ieguvi un neveiksmīgu pieredzi, izmantojot šo tehnoloģiju. Jomas, kurās izmantošana datu ieguves tehnoloģijas, iespējams, būs veiksmīga, ir šādas funkcijas:

  • pieprasīt uz zināšanām balstīti risinājumi;
  • ir mainīga vide;
  • ir pieejami, pietiekami un būtiski dati;
  • nodrošināt augstas dividendes no pareizajiem risinājumiem.

Esošās pieejas analīzei

Ilgu laiku datu ieguves disciplīna nav atzīta par pilntiesīgu neatkarīgu datu analīzes jomu, dažreiz to sauc par "statistikas stiprību" (Pregibon, 1997).

Līdz šim tika noteikti vairāki viedokļi par datu ieguvi. Viena no tām ir jāņem vērā viņa mirage, novēršot uzmanību no klasiskās analīzes

Kas ir datu ieguve

jebkura modernā uzņēmuma bāreņiem parasti ir tabulu kopums, kas uzglabā ierakstus par konkrētiem faktiem vai objektiem (piemēram, par precēm, pārdošanu, klientiem, kontiem). Parasti katram ierakstam līdzīgā tabulā apraksta kādu konkrētu objektu vai faktu. Piemēram, pārdošanas tabulas ieraksts atspoguļo faktu, ka šāds produkts tiek pārdots šādam klientam, tad kaut kas līdzīgs vadītājs, un lieli, nekas, bet šī informācija nesatur. Tomēr kopējais šādu ierakstu skaits, kas uzkrājušies vairāku gadu laikā, var būt papildu, daudz vērtīgākas informācijas avots, ko nevar iegūt, pamatojoties uz vienu konkrētu ierakstu, proti, informāciju par modeļiem, tendencēm vai savstarpējām atkarībām starp visiem datiem. Šādas informācijas piemēri ir informācija par to, kā noteikta produkta pārdošana ir atkarīga no nedēļas dienas, dienas vai sezonas, kuru pircēju kategorijas visbiežāk iegūst vienu vai citu produktu, kuru daļu no viena konkrēta pircēju daļa Produkts iegūst citu konkrētu produktu, kuru klientu kategorija visbiežāk nedod aizdevumu laikā.

Šādu informāciju parasti izmanto prognozēšanā, stratēģiskajā plānošanā, riska analīzē, un tās vērtība uzņēmumam ir ļoti augsta. Acīmredzot, tāpēc tās meklēšanas process un ieguva nosaukumu datu ieguvi (ieguve angļu valodā nozīmē "Kalnrūpniecības kalnrūpniecība", un likumsakarību meklēšana milzīgā faktisko datu kopumā ir patiesi līdzīgs šim). Termins datu ieguve apzīmē ne tik daudz īpašu tehnoloģiju kā procesu, lai atrastu korelācijas, tendences, attiecības un modeļus, izmantojot dažādus matemātiskus un statistiskus algoritmus: kopu veidošana, izveidojot sub-atklājumu, regresijas un korelācijas analīzi. Šīs meklēšanas mērķis ir iesniegt datus skaidri atstarojošu biznesa procesu veidā, kā arī veidot modeli, ar kuru jūs varat prognozēt procesus, kas ir kritiski biznesa plānošanai (piemēram, pieprasījuma dinamika pēc dažām precēm vai pakalpojumiem vai to iegādes atkarība no jebkuras šīs patērētāju īpašības).

Ņemiet vērā, ka tradicionālais matemātikas statistika, uz ilgu laiku, galvenais datu analīzes rīks, kā arī operatīvo analītisko datu apstrādes instrumenti (tiešsaistes analītiskā apstrāde, OLAP), ko mēs esam atkārtoti rakstījuši (skatiet materiālus par šo tēmu mūsu CD), ne vienmēr ir veiksmīgi piemēroti, lai atrisinātu šādus uzdevumus. Parasti statistiskās metodes un OLAP tiek izmantotas, lai pārbaudītu iepriekš formulētus hipotēzes. Tomēr bieži vien ir tas, ka hipotēzes formulējums ir precīzi visgrūtākais uzdevums īstenot uzņēmējdarbības analīzi turpmākai lēmumu pieņemšanai, jo tālu no visiem datiem ir acīmredzami īsumā.

Pamata mūsdienu tehnoloģija Datu ieguve ir veidņu koncepcija, kas atspoguļo modeļus, kas raksturīgi datu lapām. Veidņu meklēšana tiek veikta ar metodēm, kas neizmanto jebkādus priori pieņēmumus par šiem apakšmalas. Ja ar statistisko analīzi vai izmantojot OLAP, jautājumi par tipa "Kādi ir vidējais skaits nesamaksāto kontu ar klientiem šo pakalpojumu?", Datu ieguves izmantošana, kā likums, nozīmē atbildes uz tipa "Vai ir tipisks Klientu kategorija, kas nemaksā par kontiem? ". Tajā pašā laikā, tā ir atbilde uz otro jautājumu bieži vien nodrošina vairāk neurciāla pieeju mārketinga politikai un darba organizēšanai ar klientiem.

Svarīga datu ieguves iezīme ir nestandarta un nevēlamas veidņu redzamība. Citiem vārdiem sakot, datu ieguves rīki atšķiras no datu statistikas instrumentiem un OLAP instrumentiem, jo \u200b\u200btā vietā, lai testētu progresu iespējamos savstarpējās atkarības lietotājus, viņi var atrast šādus savstarpējus atkarīgus un veidot hipotēzes par to raksturu.

Jāatzīmē, ka datu ieguves instrumentu izmantošana neizslēdz statistikas instrumentu un OLAP fondu izmantošanu, jo datu apstrādes rezultāti, izmantojot pēdējo, veicina labāku izpratni par modeļu raksturu, kas būtu jāmeklē.

Datu ieguves avota dati

Datu ieguves piemērošana ir pamatota, ja ir pietiekami liels datu apjoms, kas ir ideāli iekļauts pareizi izstrādātajā datu noliktavā (faktiski, paši datu veikali parasti tiek veidoti, lai atrisinātu analīzes un prognozēšanas uzdevumus, kas saistīti ar lēmumu pieņemšanas atbalstu). Par veidošanas remontu principiem mēs arī uzrakstījām vairāk nekā vienu reizi; Attiecīgos materiālus var atrast mūsu CD, tāpēc mēs neapstāsies šajā jautājumā. Mēs tikai atgādinām, ka datu glabāšanas dati ir papildināts komplekts, viens visam uzņēmumam, un ļauj jums atjaunot savu darbību jebkurā laikā. Mēs arī atzīmējam, ka uzglabāšanas datu struktūra ir izstrādāta tā, lai to izpildītu to pieprasījumus pēc iespējas efektīvāk. Tomēr ir datu ieguves instrumenti, kas spēj meklēt modeļus, korelācijas un tendences ne tikai datu noliktavās, bet arī OLAP kubiņos, tas ir, iepriekš pārstrādātu statistikas datu kopumos.

Datu ieguves metožu konstatēto modeļu veidi

v.A. Dyuku paziņoja par pieciem standarta veidiem, kas konstatēti ar datu ieguves metodēm:

Asociācija ir liela varbūtība komunikācijas notikumiem viens ar otru (piemēram, viens produkts bieži tiek iegādāts kopā ar citu);

Secība ir augsta varbūtība no ķēdes saistītiem notikumiem (piemēram, noteiktā laika posmā pēc viena produkta iegāde tiks iegūta ar augstu varbūtības pakāpi);

Klasifikācija - ir pazīmes, kas raksturo grupu, uz kuru viens vai otrs notikums vai objekts (parasti, pamatojoties uz jau klasificētu notikumu analīzi, tiek formulēti daži noteikumi);

Klasterizācija ir modelis, kas ir līdzīgs klasifikācijai un atšķirīgai no tā, ka pašas grupas nav norādītas - tie tiek atklāti automātiski datu apstrādes laikā;

Pagaidu modeļi - veidņu klātbūtne dažu datu uzvedības dinamikā (tipisks piemērs - sezonāls pieprasījuma svārstības pēc dažām precēm vai pakalpojumiem), ko izmanto, lai prognozētu.

Datu izpētes metodes datu ieguvē

tas ir diezgan! liels skaits Dažādas datu izpētes metodes. Pamatojoties uz iepriekš minēto klasifikāciju, ko ierosināja V.a. Dyuk, starp tām var piešķirt:

Regresija, dispersijas un korelācijas analīze (īstenota vairumā mūsdienu statistikas paketēs, jo īpaši uzņēmumu ražošanā SAS institūts, StatSoft uc);

Analīzes metodes konkrētā tēmas jomā, kas balstīta uz empīriskiem modeļiem (bieži piemēro, piemēram, finanšu analīzes zemu izmaksu fondos);

Neironu tīkla algoritmi, kuras ideja ir balstīta uz nervu audu ietekmi un ir tas, ka sākotnējie parametri tiek uzskatīti par signāliem, kas konvertēti saskaņā ar esošajām attiecībām starp "neironiem" un kā atbildi, kas Vai analīzes rezultāts tiek uzskatīts, atbildot uz visu tīklu uz sākotnējiem datiem. Komunikācijas šajā gadījumā tiek izveidots, izmantojot tā saukto tīkla apmācību, paraugu ņemšana liela summa, kurā ir gan avota dati, gan pareizās atbildes;

Algoritmi ir izvēle tuvu analogu avota datus no esošajiem vēsturiskajiem datiem. Sauc arī par "tuvāko kaimiņu" metodi;

Risinājumu koki - hierarhiska struktūra, kas balstīta uz jautājumu kopumu, kas nozīmē atbildi "jā" vai "nē"; lai gan Šī metode Datu apstrāde tālu no vienmēr lieliski atrod esošos modeļus, tas ir diezgan bieži izmantots prognozēšanas sistēmās, jo saņemta atbildes reakcijas redzamība;

Klasteru modeļi (dažreiz sauc arī par segmentācijas modeļiem), lai apvienotu līdzīgus notikumus grupās, pamatojoties uz līdzīgām vērtībām vairāku lauku datu kopu; Arī ļoti populāri, veidojot prognozēšanas sistēmas;

Ierobežoti integritātes algoritmi, vienkāršu loģisko notikumu kombināciju biežumu aprēķināšana datu apakšgrupās;

Evolūcijas programmēšana - algoritma meklēšana un paaudze, kas izsaka datu savstarpējo atkarību, pamatojoties uz sākotnēji norādīto algoritmu, kas mainīts meklēšanas laikā; Dažreiz savstarpējo atkarību meklēšana tiek veikta starp visiem konkrētiem funkciju veidiem (piemēram, polinomi).

Lasiet vairāk par šiem un citiem datu ieguves algoritmiem, kā arī par to līdzekļiem, jūs varat lasīt grāmatā "Datu ieguve: \\ t apmācības kurss"V.A. Doky un A.P. Samolenko, ko izdevusi Pētera izdevniecība 2001. gadā. Šodien tā ir viena no nedaudzajām grāmatām krievu valodā par problēmu.

Svina datu ming ražotāji

atpūtas datu ieguve, tāpat kā lielākā daļa biznesa informācijas fondu, tradicionāli pieder dārgiem programmatūras rīkiem - dažu no tiem cena sasniedz vairākus desmitus tūkstošiem dolāru. Tādēļ tika ņemti vērā šīs tehnoloģijas galvenie patērētāji bija bankas, finanšu un apdrošināšanas sabiedrības, lielākie tirdzniecības uzņēmumi, un tika izskatīti galvenie uzdevumi, kas prasa datu ieguves izmantošanu, kredītu un apdrošināšanas risku un tirdzniecības politikas novērtējumu. tarifu plāni un citi darba principi ar klientiem. Pēdējos gados situācija ir veikta noteiktas izmaiņas: tirgū programmatūra Tur bija salīdzinoši lēti datu ieguves instrumenti no vairākiem ražotājiem, kas padarīja šo tehnoloģiju, kas pieejami maziem un vidējiem uzņēmumiem, kas iepriekš nav domājis par to.

Mūsdienu biznesa izlūkošanas rīki ietver ziņojuma ģeneratorus, datu analīzes rīkus, bi-risinājumu izstrādes rīkus (BI platformas) un tā sauktos Enterprise BI Suites - analīzes analīzes un datu apstrādes rīkus, kas ļauj veikt datu kopumu, kas saistīti ar datu analīzi un Ziņojumu izveide un bieži vien ir iekļauti integrēti bi-instrumenti un divpusējās lietojumprogrammas izstrādes rīki. Pēdējais, kā likums, satur tās sastāvu un veidošanas līdzekļus, un OLAP fondi, un bieži - un datu ieguves.

Saskaņā ar Gartner grupas analītiķiem, uzņēmuma datu skalu analīzes un apstrādes tirgus līderi ir uzņēmējdarbības objektu, cognos, informācijas celtnieku uzņēmumi un pieprasa vadību arī Microsoft un Oracle (1. att.). Attiecībā uz bi-risinājumu attīstību galvenie vadības pretendenti šajā jomā ir Microsoft un SAS institūts (2. att.).

Ņemiet vērā, ka Microsoft biznesa informācijas fondi attiecas uz salīdzinoši lētiem produktiem, kas pieejami plašam uzņēmumu lokam. Tāpēc mēs izskatīsim dažus praktiskus datu ieguves piemērošanas aspektus par šī uzņēmuma produktiem turpmākajās daļās šā panta turpmākajās daļās.

Literatūra:

1. Duke V.a. Datu ieguve - viedā datu analīze. - http://www.olap.ru/basic/dm2.asp.

2. Duke V.a., Samoilenko A.P. Datu ieguve: apmācības kurss. - spb.: Pēteris, 2001.

3. B. DE VILLE. Microsoft datu ieguve. Digitālā prese, 2001.

Datu ieguve (datu ieguve)

Datu ieguve ir metodoloģija un noteikšanas process lielos datu blokos uzkrāti informācijas sistēmas Uzņēmumi, kas iepriekš nav zināmi, neurtrivial, praktiski noderīgi un pieejami, lai interpretētu zināšanas, kas nepieciešamas lēmumu pieņemšanai dažādās cilvēku darbības jomās. Datu ieguve ir viens no lielākas zināšanu atklāšanas soļiem datu bāzu metodikā.

Datu ieguves procesā atklātās zināšanas nedrīkst būt ne-triviāls un iepriekš nezināms. Nontriviality pieņem, ka šādas zināšanas nevar noteikt ar vienkāršu vizuālo analīzi. Viņiem ir jāapraksta attiecības starp uzņēmējdarbības objektu īpašībām, prognozēt dažas pazīmju vērtības, pamatojoties uz citiem, utt. Atrasts zināšanas ir jāpiemēro jauniem objektiem.

Praktiskā lietderība zināšanu ir saistīts ar iespēju to izmantot procesā, atbalstot pieņemšanu vadības lēmumiem un uzlabot uzņēmuma darbību.

Zināšanas ir jāuzrāda tādā formā, kas ir saprotams lietotājiem, kuriem nav īpašas matemātiskās apmācības. Piemēram, personai ir vieglāk uztvert loģisko dizainu "ja" ir vieglāk uztvert. Turklāt šādus noteikumus var izmantot dažādos DBM kā SQL ierakstiem. Gadījumā, kad mācītās zināšanas ir necaurspīdīga lietotājam, ir jābūt pēcapstrādes metodēm, kas ļauj tām celt tos interpretējamu formu.

Datu ieguve nav viens, bet liels skaits dažādas metodes Zināšanu atklāšana. Visi uzdevumi, kas atrisināti ar datu ieguves metodēm, var iedalīt sešos veidos:

Datu ieguve ir vidiidisciplinārs, jo tas ietver skaitlisko metožu elementus, matemātisko statistiku un varbūtības teoriju, informācijas teoriju un matemātiskā loģika, mākslīgā intelekta un mašīnu mācīšanās.

Uzņēmējdarbības analīzes uzdevumi ir formulēti dažādos veidos, bet lielākā daļa no tiem attiecas uz vienu vai citu datu ieguves uzdevumu vai to kombināciju. Piemēram, riska novērtējums ir regresijas vai klasifikācijas problēmas risinājums, tirgus segmentācija - kopu veidošana, pieprasījuma veicināšana - asociācijas noteikumi. Faktiski, datu ieguves uzdevumi ir elementi, no kuriem jūs varat "savākt" risinājumu visvairāk reālu uzņēmējdarbības uzdevumu.

Lai atrisinātu iepriekš aprakstītos objektus, tiek izmantotas dažādas metodes un datu ieguves algoritmi. Sakarā ar to, ka datu ieguve ir izstrādājusi un attīstījusies ar disciplīnu, piemēram, matemātiskās statistikas, informācijas teorijas, mašīnu mācīšanās un datu bāzu krustojuma, ir diezgan dabiski, ka lielākā daļa datu ieguves algoritmu un metožu ir izstrādātas, pamatojoties uz dažādiem Metodes no šīm disciplīnām. Piemēram, K-līdzekļu klasterizācijas algoritms tika aizņemts no statistikas.

Sūtiet savu labo darbu zināšanu bāzē ir vienkārša. Izmantojiet zemāk esošo veidlapu

Studenti, maģistranti, jaunie zinātnieki, kuri izmanto zināšanu bāzi savā pētījumos un darbs būs ļoti pateicīgs jums.

Līdzīgi dokumenti

    Apraksts funkcionalitāte Datu ieguves tehnoloģijas kā nezināmi datu atklāšanas procesi. Izejas sistēmu izpēte asociatīvi noteikumi un neironu tīkla algoritmu mehānismi. Klasterizācijas algoritmu apraksts un datu ieguves izmantošana.

    pārbaude, pievienots 06/14/2013

    Pamati klasterizācijai. Datu ieguves izmantošana kā veids, kā "atklāt zināšanas datu bāzēs". Klasterizācijas algoritmu izvēle. Datu iegūšana no distances datu bāzes krātuves. Studentu un uzdevumu kopu veidošana.

    kursa darbs, pievienots 07/10/2017

    Ierakstu un datu glabāšanas tehnoloģiju uzlabošana. Mūsdienu prasību specifika informācijas datu apstrādei. Veidņu koncepcija, kas atspoguļo daudzdimensiju attiecību fragmentus, pamatojoties uz modernām datu ieguves tehnoloģijām.

    pārbaude, pievienots 02.09.2010

    Datu ieguve, datu ieguves un zināšanu atklāšanas attīstības vēsture. Datu ieguves tehnoloģiskie elementi un metodes. Zināšanu atklāšanas soļi. Izmaiņas un novirzes noteikšana. Saistītās disciplīnas, informācijas izguves un teksta ieguve.

    ziņojums, pievienots 16.06.2012

    Datu ieguve kā lēmuma pieņemšanas process, kas balstīts uz meklēšanu šajos slēptajos modeļos (informācijas veidnes). Viņa likumsakarības un īstenošanas posmi, šīs tehnoloģijas attīstības vēsture, priekšrocību novērtējums un trūkumi, iespējas.

    eseja, pievienots 12/17/2014

    Uzdevumu klasifikācija Datamining. Ziņojumu un rezultātu izveide. Datu kalnraču iespējas statistikā. Klasifikācijas, klasterizācijas un regresijas uzdevums. Statistikas datu kalnraču analīze. Essence uzdevumi Meklējiet asociācijas noteikumus. Izdzīvošanas prognozētāju analīze.

    kursa darbs, pievienots 19.05.2011

    Perspektīvas norādes Datu analīze: teksta informācijas analīze, viedā datu analīze. Datubāzēs glabātās strukturētās informācijas analīze. Teksta dokumentu analīzes process. Iepriekš apstrādāto datu iezīmes.

    kopsavilkums, pievienots 13.02.2014

    Datu ieguves uzdevumi klasifikācija. Klasterizācijas uzdevums un asociatīvo noteikumu meklēšana. Objekta klases definīcija pēc tās īpašībām un īpašībām. Atrast biežas atkarības starp objektiem vai notikumiem. Darbības analītiskā datu apstrāde.

    pārbaude, pievienots 01/13/2013