Datu ieguves jēdziens ir kļuvis populārs. Datu ieguve Loginom Wiki

Nosūtiet savu labo darbu zināšanu bāzē ir vienkārši. Izmantojiet zemāk esošo veidlapu

Studenti, maģistranti, jaunie zinātnieki, kuri izmanto zināšanu bāzi savās studijās un darbā, būs jums ļoti pateicīgi.

Līdzīgi dokumenti

    DataMining uzdevumu klasifikācija. Atskaišu un kopsummu veidošana. Data Miner funkcijas pakalpojumā Statistica. Klasifikācijas, klasterizācijas un regresijas problēma. Analīzes rīki Statistica Data Miner. Problēmas būtība ir asociācijas noteikumu meklēšana. Izdzīvošanas prognozes analīze.

    kursa darbs, pievienots 19.05.2011

    Apraksts funkcionalitāte Datu ieguves tehnoloģijas kā nezināmu datu noteikšanas procesi. Asociatīvo noteikumu secinājumu sistēmu un neironu tīklu algoritmu mehānismu izpēte. Klasterizācijas algoritmu apraksts un datu ieguves pielietojuma jomas.

    tests, pievienots 14.06.2013

    Klasterizācijas pamati. Datu ieguves izmantošana kā veids, kā "atklāt zināšanas datu bāzēs". Klasterizācijas algoritmu izvēle. Datu izgūšana no attālās darbnīcas datu bāzes krātuves. Skolēnu klasterizācija un uzdevumi.

    kursa darbs pievienots 10.07.2017

    Datu ieguve, datu ieguves attīstības vēsture un zināšanu atklāšana. Datu ieguves tehnoloģiskie elementi un metodes. Soļi zināšanu atklāšanā. Izmaiņu un noviržu noteikšana. Saistītās disciplīnas, informācijas izguve un teksta ieguve.

    ziņojums pievienots 16.06.2012

    Klasterizācijas metožu un algoritmu pielietošanas problēmu analīze. Klasterizācijas pamatalgoritmi. Programmatūra RapidMiner kā vide mašīnmācībai un datu analīzei. Klasterizācijas kvalitātes novērtējums, izmantojot datu ieguves metodes.

    kursa darbs, pievienots 22.10.2012

    Datu ierakstīšanas un uzglabāšanas tehnoloģiju pilnveidošana. Mūsdienu prasību specifika informācijas datu apstrādei. Modeļu jēdziens, kas atspoguļo daudzdimensionālu attiecību fragmentus datos, ir mūsdienu datu ieguves tehnoloģijas pamatā.

    tests, pievienots 09.02.2010

    Neironu tīklu izmantošanas analīze situācijas prognozēšanai un lēmumu pieņemšanai biržā, izmantojot Trajan 3.0 neironu tīklu modelēšanas programmatūras pakotni. Primāro datu konvertēšana, tabulas. Ergonomisks programmas novērtējums.

    diplomdarbs, pievienots 27.06.2011

    Grūtības, izmantojot evolūcijas algoritmus. Uz dabiskās atlases principiem balstītu skaitļošanas sistēmu veidošana. Ģenētisko algoritmu trūkumi. Evolūcijas algoritmu piemēri. Evolūcijas modelēšanas virzieni un sadaļas.

    Datu ieguve ir sadalīta divās lielās grupās, pamatojoties uz principu strādāt ar sākotnējiem apmācības datiem. Šajā klasifikācijā augstākais līmenis tiek noteikts, pamatojoties uz to, vai dati tiek saglabāti pēc datu ieguves vai tiek destilēti vēlākai lietošanai.

    1. Tieša datu izmantošana vai datu glabāšana.

    Šajā gadījumā sākotnējie dati tiek saglabāti skaidri detalizētā formā un tiek tieši izmantoti posmos un/vai parsēšanas izņēmumi... Šīs metožu grupas problēma ir tāda, ka, tos izmantojot, var būt grūti analizēt ļoti lielas datu bāzes.

    Šīs grupas metodes: klasteru analīze, tuvākā kaimiņa metode, k-tuvākā kaimiņa metode, spriešana pēc analoģijas.

    2. Identifikācija un izmantošana formalizēta modeļiem, vai destilācijas veidnes.

    Ar tehnoloģijām destilācijas veidnes no sākotnējiem datiem tiek iegūts viens informācijas paraugs (veidne) un pārveidots par dažām formālām konstrukcijām, kuru forma ir atkarīga no izmantotās datu ieguves metodes. Šis process tiek veikts stadijā bezmaksas meklēšana, pirmajai metožu grupai šī posma principā nav. Pa posmiem paredzamā modelēšana un parsēšanas izņēmumi tiek izmantoti posma rezultāti bezmaksas meklēšana, tās ir daudz kompaktākas nekā pašas datu bāzes. Atcerēsimies, ka šo modeļu konstrukcijas var interpretēt analītiķis vai arī neizsekot ("melnās kastes").

    Metodes šajā grupā: loģiskās metodes; vizualizācijas metodes; šķērstabulu metodes; metodes, kuru pamatā ir vienādojumi.

    Loģiskās metodes jeb loģiskās indukcijas metodes ietver: neskaidrus vaicājumus un analīzes; simboliski noteikumi; lēmumu koki; ģenētiskie algoritmi.

    Šīs grupas metodes, iespējams, ir visvairāk interpretējamas - tās formalizē atrastos modeļus, vairumā gadījumu, diezgan caurspīdīgā formā no lietotāja viedokļa. Iegūtie noteikumi var ietvert nepārtrauktus un diskrētus mainīgos. Jāņem vērā, ka lēmumu kokus var viegli pārveidot par simboliskām noteikumu kopām, ģenerējot vienu noteikumu ceļā no koka saknes līdz tā termināla augšdaļa... Lēmumu koki un noteikumi patiesībā ir Dažādi ceļi vienas problēmas risinājumi un atšķiras tikai ar savām iespējām. Turklāt noteikumu ieviešanu veic lēnāki algoritmi nekā lēmumu koku indukcija.

    Šķērstabulu veidošanas metodes: aģenti, Bajesa (uzticības) tīkli, starptabulu vizualizācija. Pēdējā metode ne visai atbilst vienai no Data Mining īpašībām - neatkarīgai meklēšanai modeļiem analītiskā sistēma. Taču informācijas sniegšana krusta tabulu veidā nodrošina Data Mining galvenā uzdevuma - šablonu meklēšanas - realizāciju, tāpēc arī šo metodi var uzskatīt par vienu no Data Mining metodēm.

    Uz vienādojumu balstītas metodes.

    Šīs grupas metodes atklāj atklātos modeļus matemātisko izteiksmju - vienādojumu veidā. Tāpēc tie var darboties tikai ar skaitliskiem mainīgajiem, un cita veida mainīgie ir attiecīgi jākodē. Tas nedaudz ierobežo šīs grupas metožu pielietojumu, tomēr tās tiek plaši izmantotas dažādu, īpaši prognozēšanas problēmu risināšanā.

    Šīs grupas galvenās metodes: statistikas metodes un neironu tīkli

    Prognozēšanas problēmu risināšanai visbiežāk tiek izmantotas statistikas metodes. Ir daudz statistisko datu analīzes metožu, tajā skaitā, piemēram, korelācijas-regresijas analīze, laikrindu korelācija, tendenču noteikšana laikrindās, harmoniku analīze.

    Cita klasifikācija iedala visu datu ieguves metožu klāstu divās grupās: statistikas un kibernētiskās metodes. Šī sadalīšanas shēma ir balstīta uz dažādām mācīšanās pieejām matemātiskie modeļi.

    Jāatzīmē, ka pastāv divas pieejas statistikas metožu klasificēšanai kā datu ieguve. Pirmā no tām kontrastē statistikas metodes un datu ieguvi, tās atbalstītāji klasiskās statistikas metodes uzskata par atsevišķu datu analīzes virzienu. Saskaņā ar otro pieeju statistikas analīzes metodes ir daļa no datu ieguves matemātisko rīku komplekta. Lielākā daļa cienījamu avotu izmanto otro pieeju.

    Šajā klasifikācijā izšķir divas metožu grupas:

    • statistikas metodes, kuru pamatā ir vidējās uzkrātās pieredzes izmantošana, kas atspoguļota retrospektīvos datos;
    • kibernētiskās metodes, kas ietver daudzas neviendabīgas matemātiskas pieejas.

    Šādas klasifikācijas trūkums: gan statistiskie, gan kibernētiskie algoritmi vienā vai otrā veidā paļaujas uz statistikas pieredzes salīdzināšanu ar pašreizējās situācijas uzraudzības rezultātiem.

    Šīs klasifikācijas priekšrocība ir tās ērtība interpretācijā - to izmanto, lai aprakstītu mūsdienu pieejas matemātiskos rīkus. zināšanu ieguve no sākotnējo novērojumu masīviem (operatīviem un retrospektīviem), t.i. Datu ieguves uzdevumos.

    Sīkāk apskatīsim iepriekš norādītās grupas.

    Statistiskās datu ieguves metodes

    Metodes ir četras savstarpēji saistītas sadaļas:

    • statistisko datu rakstura iepriekšēja analīze (stacionaritātes, normalitātes, neatkarības, viendabīguma hipotēžu pārbaude, sadalījuma funkcijas formas, tās parametru uc novērtējums);
    • identificējot saites un modeļiem(lineārā un nelineārā regresijas analīze, korelācijas analīze utt.);
    • daudzfaktoru statistiskā analīze (lineāra un nelineāra diskriminantu analīze, klasteru analīze, komponentu analīze, faktoru analīze un utt.);
    • dinamiski modeļi un laika rindu prognoze.

    Statistikas metožu arsenāls Datu ieguve ir iedalīta četrās metožu grupās:

    1. Sākotnējo datu aprakstošā analīze un apraksts.
    2. Attiecību analīze (korelācijas un regresijas analīze, faktoru analīze, dispersijas analīze).
    3. Daudzfaktoru statistiskā analīze (komponentu analīze, diskriminantu analīze, daudzfaktoru regresijas analīze, kanoniskās korelācijas utt.).
    4. Laika rindu analīze ( dinamiski modeļi un prognozēšana).

    Kibernētiskās datu ieguves metodes

    Otrs datu ieguves virziens ir pieeju kopums, ko vieno datormatemātikas ideja un mākslīgā intelekta teorijas izmantošana.

    Kas ir datu ieguve

    Jebkura mūsdienu uzņēmuma korporatīvajā datu bāzē parasti ir tabulu kopa, kurā tiek glabāti ieraksti par noteiktiem faktiem vai objektiem (piemēram, par precēm, to pārdošanu, klientiem, kontiem). Parasti katrs ieraksts šādā tabulā apraksta kādu konkrētu objektu vai faktu. Piemēram, ieraksts pārdošanas tabulā atspoguļo faktu, ka šādu un tādu produktu tādam un tādam klientam pārdeva tāds un tāds vadītājs, un kopumā tajā nav nekas cits kā šī informācija. Tomēr kopums liels skaitsšādi vairāku gadu garumā uzkrātie ieraksti var kļūt par papildu, daudz vērtīgākas informācijas avotu, ko nevar iegūt, pamatojoties uz vienu konkrētu ierakstu, proti, informācija par modeļiem, tendencēm vai savstarpējām atkarībām starp jebkuriem datiem. Šādas informācijas piemēri ir informācija par to, kā noteiktas preces pārdošanas apjomi ir atkarīgi no nedēļas dienas, diennakts vai gada laika, kuras pircēju kategorijas visbiežāk iegādājas šo vai citu preci, kāda daļa pircēju vienu konkrēto preci. iegādājas citu konkrētu preci, kuras klientu kategorijas visbiežāk neatmaksā piešķirto kredītu laikā.

    Šāda veida informācija parasti tiek izmantota prognozēšanā, stratēģiskajā plānošanā, riska analīzē, un tās vērtība uzņēmumam ir ļoti augsta. Acīmredzot tāpēc tā meklēšanas process tika nosaukts par datu ieguvi (angļu valodā ieguve nozīmē "ieguve", un modeļu meklēšana milzīgā faktisko datu kopā ir ļoti līdzīga tam). Termins datu ieguve apzīmē ne tik daudz konkrētu tehnoloģiju, cik korelāciju, tendenču, attiecību un modeļu meklēšanas procesu, izmantojot dažādus matemātiskos un statistiskos algoritmus: klasterizāciju, apakšizlases, regresijas un korelācijas analīzi. Šīs meklēšanas mērķis ir sniegt datus formā, kas skaidri atspoguļo biznesa procesus, kā arī izveidot modeli, ar kuru var prognozēt procesus, kas ir kritiski biznesa plānošanai (piemēram, pieprasījuma dinamika pēc noteiktām precēm vai pakalpojumus vai to iegādes atkarību no patērētāja īpašībām).

    Ņemiet vērā, ka tradicionālā matemātiskā statistika, kas ilgu laiku palika kā galvenais datu analīzes rīks, kā arī tiešsaistes analītiskās apstrādes (OLAP) rīki, par kuriem mēs jau daudzkārt esam rakstījuši (skatiet materiālus par šo tēmu mūsu kompaktdiskā) nevar. vienmēr veiksmīgi izmantot šādu problēmu risināšanai. Parasti statistikas metodes un OLAP izmanto, lai pārbaudītu iepriekš formulētas hipotēzes. Tomēr bieži vien hipotēzes formulēšana izrādās izaicinošs uzdevums ieviešot biznesa analīzi turpmākai lēmumu pieņemšanai, jo ne visi datu modeļi ir acīmredzami no pirmā acu uzmetiena.

    Mūsdienu datu ieguves tehnoloģija ir balstīta uz veidņu koncepciju, kas atspoguļo datu apakšizlases modeļus. Modeļu meklēšanu veic ar metodēm, kas neizmanto nekādus a priori pieņēmumus par šiem apakšizlasēm. Ja statistiskajā analīzē vai OLAP lietošanā parādās tādi jautājumi kā "Kāds ir vidējais šī pakalpojuma klientu neapmaksāto rēķinu skaits?" ... Tajā pašā laikā tieši atbilde uz otro jautājumu nereti sniedz netriviālāku pieeju mārketinga politikai un darba organizēšanai ar klientiem.

    Svarīga datu ieguves iezīme ir meklēto modeļu nestandarta un nepārprotamība. Citiem vārdiem sakot, datu ieguves rīki atšķiras no statistikas datu apstrādes rīkiem un OLAP rīkiem ar to, ka tā vietā, lai pārbaudītu lietotāju iepriekš pieņemtās savstarpējās atkarības, viņi var paši atrast šādas savstarpējās atkarības, pamatojoties uz pieejamajiem datiem un izvirzīt hipotēzes par to būtību. .

    Jāņem vērā, ka datu ieguves rīku izmantošana neizslēdz statistikas rīku un OLAP rīku izmantošanu, jo datu apstrādes rezultāti ar pēdējo palīdzību parasti palīdz labāk izprast datu ieguves būtību. modeļi, kas būtu jāmeklē.

    Sākotnējie dati par datu ieguvi

    Datu ieguves izmantošana ir pamatota, ja ir pietiekami liels datu apjoms, kas ideālā gadījumā atrodas pareizi izveidotā datu noliktavā (patiesībā pašas datu noliktavas parasti tiek veidotas, lai atrisinātu ar lēmumu atbalstu saistītās analīzes un prognozēšanas problēmas). Vairākkārt esam rakstījuši arī par datu noliktavu veidošanas principiem; attiecīgie materiāli ir atrodami mūsu CD-ROM, tāpēc pie šī jautājuma nekavēsimies. Atgādināsim, ka noliktavā esošie dati ir papildināts komplekts, kas ir vienots visam uzņēmumam un ļauj jebkurā brīdī atjaunot priekšstatu par tā darbību. Ņemiet vērā arī to, ka noliktavas datu struktūra ir veidota tā, lai vaicājumu izpilde tajā tiktu veikta pēc iespējas efektīvāk. Tomēr ir datu ieguves rīki, kas var meklēt modeļus, korelācijas un tendences ne tikai datu noliktavās, bet arī OLAP kubos, tas ir, iepriekš apstrādātu statistikas datu kopās.

    Ar datu ieguves metodēm atklātie modeļu veidi

    Saskaņā ar V.A. Djuku, ir pieci standarta modeļu veidi, kas identificēti ar datu ieguves metodēm:

    Asociācija - liela iespējamība, ka notikumi savstarpēji saistās (piemēram, viena prece bieži tiek iegādāta kopā ar citu);

    Secība - liela laikā saistītu notikumu ķēdes iespējamība (piemēram, noteiktā laika periodā pēc vienas preces iegādes ar lielu varbūtības pakāpi tiks iegādāta cita);

    Klasifikācija - ir pazīmes, kas raksturo grupu, kurai pieder tas vai cits notikums vai objekts (parasti daži noteikumi tiek formulēti, pamatojoties uz jau klasificētu notikumu analīzi);

    Klasterizācija ir paraugs, kas līdzīgs klasifikācijai un atšķiras no tās ar to, ka pašas grupas netiek norādītas vienlaikus - tās tiek noteiktas automātiski datu apstrādes laikā;

    Laika modeļi - modeļu klātbūtne noteiktu datu uzvedības dinamikā (tipisks piemērs ir sezonālās pieprasījuma svārstības pēc noteiktām precēm vai pakalpojumiem), ko izmanto prognozēšanai.

    Datu ieguves metodes datu ieguvē

    Mūsdienās ir diezgan daudz dažādu datu ieguves metožu. Pamatojoties uz iepriekš minēto klasifikāciju, ko ierosinājis V.A. Duke, starp tiem ir:

    Regresijas, dispersijas un korelācijas analīze (ieviesta lielākajā daļā mūsdienu statistikas pakotņu, jo īpaši SAS Institute, StatSoft uc produktos);

    Uz empīriskiem modeļiem balstītas analīzes metodes konkrētā priekšmeta jomā (bieži izmanto, piemēram, lētos finanšu analīzes rīkos);

    Neironu tīklu algoritmi, kuru ideja ir balstīta uz analoģiju ar nervu audu darbību un slēpjas faktā, ka sākotnējie parametri tiek uzskatīti par signāliem, kas tiek pārveidoti saskaņā ar esošajiem savienojumiem starp "neironiem" un visa tīkla reakcija uz sākotnējiem datiem. Šajā gadījumā savienojumi tiek veidoti, izmantojot tā saukto tīkla apmācību, izmantojot lielu paraugu, kas satur gan sākotnējos datus, gan pareizās atbildes;

    Algoritmi - sākotnējo datu tuva analoga izvēle no esošajiem vēsturiskajiem datiem. To sauc arī par "tuvākā kaimiņa" metodi;

    Lēmumu koki ir hierarhiska struktūra, kuras pamatā ir jautājumu kopums, uz kuriem ir jāatbild “Jā” vai “Nē”; lai gan šādā veidā datu apstrāde ne vienmēr ideāli atrod esošos modeļus, to diezgan bieži izmanto prognožu sistēmās saņemtās atbildes skaidrības dēļ;

    Klasteru modeļi (dažreiz saukti arī par segmentācijas modeļiem) tiek izmantoti, lai līdzīgus notikumus grupētu grupās, pamatojoties uz vairāku datu kopas lauku līdzīgām vērtībām; arī ļoti populārs, veidojot prognozēšanas sistēmas;

    Ierobežoti meklēšanas algoritmi, kas aprēķina vienkāršu loģisku notikumu kombināciju biežumus datu apakšgrupās;

    Evolūcijas programmēšana - datu savstarpējo atkarību izsaka algoritma meklēšana un ģenerēšana, pamatojoties uz sākotnēji norādīto, meklēšanas procesā modificētu algoritmu; dažreiz savstarpējo atkarību meklēšana tiek veikta starp jebkāda veida specifiskiem funkciju veidiem (piemēram, polinomiem).

    Sīkāka informācija par šiem un citiem datu ieguves algoritmiem, kā arī rīkiem, kas tos ievieš, ir atrodama grāmatā “Datu ieguve: apmācības kurss"V. A. Djuks un A. P. Samoilenko, ko izdevusi izdevniecība" Pēteris "2001. Šodien tā ir viena no nedaudzajām grāmatām krievu valodā, kas veltīta šai problēmai.

    Vadošie datu ieguves rīku ražotāji

    Datu ieguves rīki, tāpat kā lielākā daļa Business Intelligence rīku, tradicionāli pieder pie dārgiem programmatūras rīkiem – dažu no tiem cena sasniedz vairākus desmitus tūkstošu dolāru. Tāpēc vēl nesen galvenie šīs tehnoloģijas patērētāji bija bankas, finanšu un apdrošināšanas kompānijas, lielie tirdzniecības uzņēmumi, un galvenie uzdevumi, kas prasīja Data Mining izmantošanu, bija kredītu un apdrošināšanas risku novērtēšana un mārketinga politikas izstrāde. tarifu plāni un citi principi darbā ar klientiem. Pēdējos gados situācija ir piedzīvojusi zināmas izmaiņas: tirgū programmatūra Parādījās salīdzinoši lēti vairāku ražotāju Data Mining rīki, kas padarīja šo tehnoloģiju pieejamu maziem un vidējiem uzņēmumiem, kuri iepriekš par to nebija domājuši.

    Mūsdienu biznesa informācijas rīki ietver atskaišu ģeneratorus, rīkus analītiskā apstrāde dati, izstrādes rīki BI risinājumiem (BI platformām) un tā sauktie Enterprise BI Suites — rīki uzņēmuma mēroga datu analīzei un apstrādei, kas ļauj veikt darbību kopumu, kas saistīts ar datu analīzi un ziņošanu, un bieži vien ietver integrēts BI rīku un izstrādes rīku komplekts BI lietojumprogrammām. Pēdējie parasti satur gan ziņošanas rīkus, gan OLAP rīkus, kā arī bieži datu ieguves rīkus.

    Pēc Gartner grupas analītiķu domām, uzņēmuma mēroga datu analīzes un apstrādes tirgus līderi ir Business Objects, Cognos, Information Builders, un Microsoft un Oracle arī pretendē uz līdera lomu (1. attēls). Runājot par BI risinājumu izstrādes rīkiem, galvenie pretendenti uz līdera lomu šajā jomā ir Microsoft un SAS institūts (2. att.).

    Ņemiet vērā, ka Microsoft Business Intelligence rīki ir salīdzinoši lēti produkti, kas pieejami plašam uzņēmumu lokam. Tāpēc mēs apsvērsim dažus praktiskus datu ieguves izmantošanas aspektus, izmantojot šī uzņēmuma produktu piemēru šī raksta turpmākajās daļās.

    Literatūra:

    1. Hercogs V.A. Data Mining - datu ieguve. - http://www.olap.ru/basic/dm2.asp.

    2. Hercogs V.A., Samoiļenko A.P. Datu ieguve: apmācības kurss. - SPb .: Pēteris, 2001.

    3. B. de Ville. Microsoft datu ieguve. Digitālā prese, 2001.

    Datu ierakstīšanas un uzglabāšanas metožu attīstība ir izraisījusi strauju apkopotās un analizējamās informācijas apjoma pieaugumu. Datu apjomi ir tik iespaidīgi, ka cilvēks tos vienkārši nevar patstāvīgi analizēt, lai gan nepieciešamība pēc šādas analīzes ir diezgan acīmredzama, jo šajos "neapstrādātos" datos ir zināšanas, kuras var izmantot lēmumu pieņemšanā. Lai veiktu automātisku datu analīzi, tiek izmantota datu ieguve.

    Datu ieguve ir process, kurā tiek atklāts iepriekš nezināms netriviāls praktiski noderīgs un pieejams lēmumu pieņemšanai nepieciešamo zināšanu interpretācijas dažādās cilvēka darbības sfērās "neapstrādātos" datos. Datu ieguve ir viens no zināšanu atklāšanas soļiem datu bāzēs.

    Informācijai, kas atrodama datu ieguves metožu pielietošanas procesā, jābūt netriviālai un iepriekš nezināmai, piemēram, vidējais pārdošanas apjoms nav tāds. Zināšanām jāapraksta jaunas attiecības starp īpašībām, jāparedz dažu pazīmju vērtības, pamatojoties uz citām utt. Atrastajām zināšanām vajadzētu būt piemērojamām jauniem datiem ar noteiktu ticamības pakāpi. Noderīgums slēpjas apstāklī, ka šīs zināšanas var dot zināmu labumu to pielietošanā. Zināšanām jābūt lietotājam saprotamā formā, kas nav matemātika. Piemēram, loģiskās konstrukcijas "ja ... tad ..." cilvēks uztver visvieglāk. Turklāt šādus noteikumus var izmantot dažādās DBVS kā SQL vaicājumus. Gadījumā, ja iegūtās zināšanas lietotājam nav pārskatāmas, ir jābūt pēcapstrādes metodēm, lai tās pārvērstu interpretējamā formā.

    Datu ieguvē izmantotie algoritmi ir skaitļošanas ietilpīgi. Iepriekš tas bija ierobežojošs faktors datu ieguves plašā praktiskā pielietošanā, taču mūsdienu produktivitātes pieaugums mūsdienīgi procesori likvidēja šīs problēmas steidzamību. Tagad saprātīgā laikā varat veikt simtiem tūkstošu un miljonu ierakstu kvalitatīvu analīzi.

    Uzdevumi, kas atrisināti ar datu ieguves metodēm:

    1. Klasifikācija Ir objektu (novērojumu, notikumu) piešķiršana kādai no iepriekš zināmajām klasēm.
    2. Regresija, tostarp prognozēšanas uzdevumi. Nepārtrauktas izvades atkarības no ievades mainīgajiem noteikšana.
    3. Klasterizācija Ir objektu (novērojumu, notikumu) grupējums, kura pamatā ir dati (īpašības), kas raksturo šo objektu būtību. Objektiem klasterī ir jābūt "līdzīgiem" vienam ar otru un jāatšķiras no objektiem, kas iekļauti citās klasteros. Jo līdzīgāki ir objekti klasterī un jo vairāk atšķirību starp klasteriem, jo ​​precīzāka ir klasterizācija.
    4. asociācija- identificēt modeļus starp saistītiem notikumiem. Šāda modeļa piemērs ir noteikums, kas norāda, ka notikums Y izriet no notikuma X. Šādus noteikumus sauc par asociatīviem. Šī problēma vispirms tika ierosināta, lai atrastu tipiskus iepirkšanās modeļus lielveikalos, tāpēc to dažreiz sauc arī par tirgus groza analīzi.
    5. Secīgi modeļi- modeļu izveidošana starp notikumiem, kas saistīti laikā, t.i. atkarības noteikšana, ka, ja notiek notikums X, tad pēc uzstādīt laiku notiks notikums Y.
    6. Noviržu analīze- neraksturīgāko modeļu noteikšana.

    Biznesa analīzes problēmas tiek formulētas dažādi, taču vairumam no tām risinājums ir saistīts ar vienu vai otru datu ieguves problēmu vai to kombināciju. Piemēram, riska novērtējums ir regresijas vai klasifikācijas problēmas risinājums, tirgus segmentācija ir klasterizācija, pieprasījuma stimulēšana ir asociatīvie noteikumi. Faktiski datu ieguves uzdevumi ir elementi, kurus var izmantot, lai apkopotu risinājumu lielākajai daļai reālu biznesa problēmu.

    Iepriekš minēto problēmu risināšanai tiek izmantotas dažādas datu ieguves metodes un algoritmi. Sakarā ar to, ka datu ieguve ir attīstījusies un attīstās tādu disciplīnu krustpunktā kā statistika, informācijas teorija, mašīnmācība, datu bāzes teorija, ir diezgan dabiski, ka lielākā daļa datu ieguves algoritmu un metožu tika izstrādāti, pamatojoties uz dažādas metodes no šīm disciplīnām. Piemēram, k-means klasterizācijas procedūra tika vienkārši aizgūta no statistikas. Lielu popularitāti ir guvušas šādas datu ieguves metodes: neironu tīkli, lēmumu koki, klasterizācijas algoritmi, tostarp mērogojamie, algoritmi asociatīvo saišu noteikšanai starp notikumiem utt.

    Deductor ir analītiska platforma, kas ietver pilnu rīku komplektu datu ieguves problēmu risināšanai: lineāro regresiju, uzraudzītus neironu tīklus, neuzraudzītus neironu tīklus, lēmumu kokus, asociācijas noteikumu meklēšanu un daudzas citas. Daudziem mehānismiem tiek nodrošināti specializēti vizualizatori, kas ievērojami atvieglo iegūtā modeļa izmantošanu un rezultātu interpretāciju. Stiprā puse platforma ir ne tikai modernu analīzes algoritmu ieviešana, bet arī iespēja patvaļīgi apvienot dažādus analīzes mehānismus.

    Kas ir datu ieguve

    Datu ieguves uzdevumu klasifikācija

    Uzdevums atrast asociācijas noteikumus

    Klasterizācijas problēma

    Data Miner līdzekļi pakalpojumā Statistica 8

    Analīzes rīki STATISTICA Data Miner

    Piemērs darbam programmā Data Minin

    Atskaišu un kopsummas ģenerēšana

    Informācijas kārtošana

    Dzīvojamo zemes gabalu cenu analīze

    Izdzīvošanas prognozes analīze

    Secinājums


    Kas ir datu ieguve

    Mūsdienīgs datora termins Datu ieguve tiek tulkota kā "informācijas ieguve" vai "datu ieguve". Diezgan bieži kopā ar datu ieguvi tiek lietoti termini Knowledge Discovery un Data Warehouse. Šo terminu parādīšanās, kas ir neatņemama datu ieguves sastāvdaļa, ir saistīta ar jaunu kārtu datu apstrādes un uzglabāšanas rīku un metožu izstrādē. Tātad datu ieguves mērķis ir atklāt slēptos noteikumus un modeļus lielos (ļoti lielos) datu apjomos.

    Fakts ir tāds, ka pats cilvēka prāts nav pielāgots milzīga daudzuma neviendabīgas informācijas uztverei. Vidēji cilvēks, izņemot atsevišķus indivīdus, pat nelielos izlasēs nespēj notvert vairāk par divām vai trim attiecībām. Taču tradicionālā statistika, kas jau sen ir izlikusies par galveno datu analīzes rīku, arī bieži neizdodas, risinot problēmas no īsta dzīve... Tas darbojas uz izlases vidējiem raksturlielumiem, kas bieži vien ir fiktīvas vērtības (klienta vidējā maksātspēja, kad atkarībā no riska funkcijas vai zaudējumu funkcijas ir jāspēj prognozēt konsekvenci un nodomus). klientam; vidējā signāla intensitāte, kamēr jūs interesē signāla maksimumu īpašības un priekšnosacījumi utt.) utt.).

    Tāpēc metodes matemātiskā statistika izrādās noderīgi galvenokārt iepriekš formulētu hipotēžu pārbaudei, savukārt hipotēzes definēšana dažkārt ir diezgan grūts un laikietilpīgs uzdevums. Mūsdienu tehnoloģijas Datu ieguve apstrādā informāciju šim nolūkam automātiskā meklēšana veidnes (rakstus), kas raksturīgas jebkuriem neviendabīgu daudzdimensionālu datu fragmentiem. Atšķirībā no tiešsaistes analītiskās apstrādes (OLAP), datu ieguve ir novirzījusi hipotēžu formulēšanas un neparedzētu modeļu identificēšanas slogu no cilvēka uz datoru. Datu ieguve nav viena, bet gan daudzu dažādu zināšanu atklāšanas metožu kolekcija. Metodes izvēle bieži ir atkarīga no pieejamo datu veida un no tā, kādu informāciju mēģināt iegūt. Piemēram, dažas metodes ir: asociācija (savienība), klasifikācija, klasterizācija, laikrindu analīze un prognozēšana, neironu tīkli utt.

    Ļaujiet mums sīkāk apsvērt definīcijā sniegtās atklāto zināšanu īpašības.

    Zināšanām jābūt jaunām, iepriekš nezināmām. Pūles, kas iztērētas, lai atklātu zināšanas, kas jau ir zināmas lietotājam, neatmaksājas. Tāpēc vērtīgas ir tieši jaunās, iepriekš nezināmās zināšanas.

    Zināšanām nevajadzētu būt triviālām. Analīzes rezultātiem jāatspoguļo nepārprotami, negaidīti datu modeļi, kas veido tā sauktās slēptās zināšanas. Rezultāti, kurus varētu iegūt vairāk vienkāršos veidos(piemēram, vizuālā skatīšanās) neattaisno jaudīgu datu ieguves metožu izmantošanu.

    Zināšanām vajadzētu būt praktiski noderīgām. Atrastajām zināšanām jābūt piemērojamām, tostarp attiecībā uz jauniem datiem, ar pietiekami augstu ticamības pakāpi. Noderīgums slēpjas apstāklī, ka šīs zināšanas var dot zināmu labumu to pielietošanā.

    Zināšanām jābūt pieejamām cilvēka izpratnei. Atrastajiem modeļiem jābūt loģiski izskaidrojamiem, pretējā gadījumā pastāv iespēja, ka tie ir nejauši. Turklāt atklātās zināšanas ir jāpasniedz cilvēkiem saprotamā formā.

    Datu ieguvē iegūto zināšanu attēlošanai tiek izmantoti modeļi. Modeļu veidi ir atkarīgi no to izveidei izmantotajām metodēm. Visizplatītākās ir: kārtulas, lēmumu koki, klasteri un matemātikas funkcijas.

    Datu ieguves darbības jomu nekas neierobežo - datu ieguve ir nepieciešama visur, kur ir dati. Daudzu šādu uzņēmumu pieredze liecina, ka datu ieguves izmantošanas atdeve var sasniegt 1000%. Piemēram, ir ziņas par ekonomiskajiem ieguvumiem, kas 10-70 reizes pārsniedz sākotnējās izmaksas no 350 līdz 750 tūkstošiem dolāru. Sniedz informāciju par 20 miljonu dolāru projektu, kas atmaksājās tikai 4 mēnešos. Vēl viens piemērs ir ikgadējie ietaupījumi USD 700 000 apmērā. ieviešot Data Mining lielveikalu ķēdē Apvienotajā Karalistē. Datu ieguve ir liela vērtība vadītājiem un analītiķiem viņu ikdienas darbībās. Biznesa cilvēki saprata, ka ar Data Mining metožu palīdzību var iegūt taustāmas priekšrocības konkursā.

    DataMining uzdevumu klasifikācija

    DataMining metodes ļauj atrisināt daudzas problēmas, ar kurām saskaras analītiķis. Galvenās no tām ir: klasifikācija, regresija, asociācijas noteikumu meklēšana un klasterizācija. Zemāk ir Īss apraksts datu analīzes galvenie uzdevumi.

    1) Klasifikācijas uzdevums ir samazināts līdz objekta klases noteikšanai pēc tā īpašībām. Jāņem vērā, ka šajā uzdevumā ir iepriekš zināma klašu kopa, kurām objektu var piešķirt.

    2) Regresijas uzdevums, tāpat kā klasifikācijas uzdevums, ļauj noteikt dažu tā parametru vērtību pēc zināmām objekta īpašībām. Pretstatā klasifikācijas problēmai parametra vērtība nav ierobežota klašu kopa, bet gan reālu skaitļu kopa.

    3) Biedrības uzdevums. Meklējot asociācijas noteikumus, mērķis ir atrast biežas atkarības (vai asociācijas) starp objektiem vai notikumiem. Atrastās atkarības tiek attēlotas noteikumu veidā un var tikt izmantotas gan labākai analizējamo datu būtības izpratnei, gan notikumu rašanās prognozēšanai.

    4) Klasterizācijas uzdevums ir atrast neatkarīgas grupas (klasteri) un to raksturojumus visā analizējamo datu kopā. Šīs problēmas atrisināšana palīdz labāk izprast datus. Turklāt viendabīgu objektu grupēšana ļauj samazināt to skaitu un līdz ar to atvieglot analīzi.

    5) Secīgie modeļi - modeļu noteikšana starp notikumiem, kas saistīti laikā, t.i. atkarības noteikšana, ka, ja notiek notikums X, tad notikums Y notiks pēc noteikta laika.

    6) Noviržu analīze - neraksturīgāko modeļu noteikšana.

    Uzskaitītie uzdevumi pēc mērķa ir sadalīti aprakstošajos un paredzošajos.

    Aprakstošie uzdevumi ir vērsti uz analizēto datu izpratnes uzlabošanu. Galvenais šādos modeļos ir cilvēka uztveres rezultātu vieglums un caurspīdīgums. Iespējams, atklātie modeļi būs specifiska konkrēto pētāmo datu iezīme un nebūs atrodami nekur citur, taču tas joprojām var būt noderīgi, un tāpēc tas ir jāzina. Šāda veida uzdevumi ietver klasteru veidošanu un asociācijas noteikumu atrašanu.

    Prognozēšanas problēmu risinājums ir sadalīts divos posmos. Pirmais solis ir izveidot modeli, pamatojoties uz datu kopu ar zināmiem rezultātiem. Otrajā darbībā to izmanto, lai prognozētu rezultātus, pamatojoties uz jaunām datu kopām. Šajā gadījumā, protams, tiek prasīts, lai konstruētie modeļi darbotos pēc iespējas precīzāk. UZ Šāda veida uzdevumi ietver klasifikācijas un regresijas uzdevumus. Tas ietver asociācijas noteikumu atrašanas problēmu, ja tās risinājuma rezultātus var izmantot, lai prognozētu noteiktu notikumu iestāšanos.

    Atbilstoši problēmas risināšanas metodēm tās iedala uzraudzītajā (mācīšanās ar skolotāju) un nekontrolētā (mācīšanās bez skolotāja) mācīšanās. Šis nosaukums cēlies no termina Machine Learning, kas bieži tiek lietots angļu valodas literatūrā un apzīmē visas datu ieguves tehnoloģijas.

    Vadītās mācīšanās gadījumā datu analīzes uzdevums tiek risināts vairākos posmos. Pirmkārt, izmantojot kādu Data Mining algoritmu, tiek izveidots analizējamo datu modelis – klasifikators. Pēc tam tiek apmācīts klasifikators. Proti, tiek pārbaudīta viņa darba kvalitāte un, ja tā ir neapmierinoša, notiek klasifikatora papildus apmācība. Tas turpinās, līdz tiek sasniegts nepieciešamais kvalitātes līmenis vai kļūst skaidrs, ka izvēlētais algoritms ar datiem nedarbojas pareizi, vai arī pašiem datiem nav identificējamas struktūras. Šāda veida problēmas ietver klasifikācijas un regresijas problēmas.

    Nepārraudzītā mācīšanās apvieno uzdevumus, kas identificē aprakstošus modeļus, piemēram, pirkšanas modeļus no klientiem lielā veikalā. Acīmredzot, ja šie modeļi pastāv, tad modelim tie ir jāatspoguļo, un nav pareizi runāt par tā apmācību. No šejienes arī nosaukums – nekontrolēta mācīšanās. Šādu uzdevumu priekšrocība ir iespēja tos atrisināt bez priekšzināšanām par analizētajiem datiem. Tie ietver klasteru veidošanu un asociācijas noteikumu atrašanu.

    Klasifikācijas un regresijas problēma

    Analizējot, bieži vien ir jānosaka, kurai no zināmajām klasēm pieder pētāmie objekti, tas ir, tie jāklasificē. Piemēram, kad cilvēks vēršas bankā pēc kredīta, bankas darbiniekam ir jāpieņem lēmums: vai potenciālais klients ir vai nav kredītspējīgs. Acīmredzot šāds lēmums tiek pieņemts, pamatojoties uz datiem par pētāmo objektu (in šajā gadījumā- persona): viņa darba vieta, izmērs algas, vecums, ģimenes sastāvs utt. Šīs informācijas analīzes rezultātā bankas darbiniekam persona ir jāiedala vienā no divām labi zināmām kategorijām "kredītspējīga" un "maksātnespējīga".

    E-pasta filtrēšana ir vēl viens klasifikācijas uzdevuma piemērs. Šajā gadījumā filtrēšanas programmai ir jāklasificē ienākošā ziņa kā surogātpasts (nevēlams E-pasts) vai kā vēstuli. Šis lēmums tiek ņemts, pamatojoties uz noteiktu vārdu sastopamības biežumu ziņojumā (piemēram, adresāta vārds, bezpersoniska attieksme, vārdi un frāzes: iegūt, "nopelnīt", " izdevīgs piedāvājums" utt.).