Příprava dat v procesu dolování dat je. Technologie dolování dat

Dodávání dat je rozdělena do dvou velkých skupin na principu práce se zdrojovými učebními daty. V této klasifikaci vyšší úroveň Stanovené na základě, zda jsou data uložena po dolování dat nebo jsou destilovány pro pozdější použití.

1. Přímé použití dat, nebo Úspora dat.

V tomto případě jsou počáteční údaje uloženy ve zřejmé podobě a jsou přímo používány v etapách a / nebo analýza výjimek. Problém této skupiny metod - při použití může být obtížné analyzovat velmi vysoké databáze.

Metody této skupiny: analýza klastrů, nejbližší sousední metoda, metoda k-nejbližšího souseda, odůvodnění analogicky.

2. Detekce a použití formalizovaných zákonyOr. destilační šablony.

S technologií destilace šablony Jeden vzorek (šablona) informací je extrahován ze zdrojových dat a je převeden na některé formální struktury, jehož typ závisí na metodě dolování dat. Tento proces se provádí ve fázi. volný Search., V první skupině metod je tato fáze v zásadě chybí. Ve fázích prognostické modelování a analýza výjimek Jsou použity výsledky fáze volný Search.Jsou v databázích výrazně kompaktnější. Připomeňme si, že návrhy těchto modelů mohou být interpretovány analytik nebo bezporné ("Černé boxy").

Metody této skupiny: logické metody; vizualizační metody; Metody křížové tabulky; Metody založené na rovnicích.

Logické metody nebo logické indukční metody zahrnují: fuzzy požadavky a analýzy; symbolická pravidla; Stromy řešení; Genetické algoritmy.

Metody této skupiny jsou možná nejvíce interpretovanější - vyvodí nalezené vzory ve většině případů v poměrně transparentní formě z hlediska uživatele. Získaná pravidla mohou zahrnovat nepřetržité a diskrétní proměnné. Je třeba poznamenat, že stromy řešení mohou být snadno převedeny na sady symbolických pravidel generováním jednoho pravidla podél cesty od kořene stromu k jeho terminální vrchol. Stromy řešení a pravidel jsou vlastně různé způsoby Řešení jednoho úkolu a liší se pouze ve svých schopnostech. Provádění pravidel je navíc prováděna pomalejšími algoritmy než indukce rozhodnutí o rozhodnutích.

Metody křížové karty: agenti, baieost (důvěra) sítě, křížová tabulková vizualizace. Poslední metoda není zcela reagovat na jednu z vlastností dolování dat - nezávislé vyhledávání zákony Analytický systém. Poskytování informací ve formě průřezu však zajišťuje provádění hlavního úkolu dolování dat - hledání šablon, takže tato metoda může být také považována za jednu z metod dolování dat.

Metody založené na rovnicích.

Metody této skupiny vyjadřují identifikované vzorce ve formě matematických výrazů - rovnic. Proto mohou pracovat pouze s číselnými proměnnými a proměnné jiných typů musí být odpovídajícím způsobem zakódovány. To poněkud omezuje použití metod této skupiny, jsou však široce používány při řešení různých úkolů, zejména prognózování úkolů.

Hlavními metodami této skupiny: Statistické metody a neuronové sítě

Statistické metody jsou nejčastěji používány k řešení prognózování úkolů. Existuje mnoho metod statistické analýzy dat, mezi nimi, například, korelační regresní analýzou, korelace série dynamiky, identifikace trendů dynamické série, harmonická analýza.

Další klasifikace sdílí všechny odrůdy metod dolování dat do dvou skupin: statistické a kybernetické metody. Tento systém separace je založen na různých přístupech k učení. matematické modely.

Je třeba poznamenat, že existují dva přístupy při přisuzování statistických metod k těžbě dat. První z nich se staví proti statistickým metodám a dolování dat, jeho příznivci považují klasické statistické metody na samostatný směr analýzy dat. Podle druhého přístupu jsou metody statistických analýz součástí těžby dat matematické sady nástrojů. Nejvíce seriózní zdroje dodržují druhý přístup.

V této klasifikaci rozlišují dvě skupiny metod:

statistické metody založené na použití zprůměrovaného akumulovaného zkušenosti, které se odráží v retrospektivních údajích;
kybernetické metody, které zahrnují mnoho heterogenních matematických přístupů.

Nedostatek takové klasifikace: statistické, tak kybernetické algoritmy jedním způsobem nebo jinak se spoléhají na srovnání statistických zkušeností s výsledky sledování současné situace.

Výhodou takové klasifikace je jeho pohodlí pro interpretaci - používá se při popisu matematických prostředků moderního přístupu k extrahování znalostí z polí zdroje pozorování (provozní a retrospektivní), tj. V úlohách dolování dat.

Zvažte podrobněji výše uvedené skupiny.

Statistické metody Dodávání dat

Tyto metody jsou čtyři vzájemně provázané sekce:

předběžná analýza povahy statistických údajů (kontrola hypotézy stacionality, normálnosti, nezávislosti, jednotnosti, hodnocení typu distribuční funkce, jeho parametry atd.);
detekce připojení I. zákony (lineární a nelineární regresní analýza, korelační analýza atd.);
multidimenzionální statistická analýza (lineární a nelineární diskriminační analýza, analýza klastrů, analýza komponent, faktorová analýza atd.);
dynamické modely a prognóza založená na časových řadách.

Arzenál statistických metod dolování dat je klasifikován pro čtyři skupiny metod:

Popisná analýza a popis zdrojových dat.
Analýza vztahu (korelace a regresní analýza, faktorová analýza, analýza disperze).
Multidimenzionální statistická analýza (analýza komponent, diskriminační analýza, multidimenzionální regresní analýza, kanonické korelace atd.).
Analýza dočasné série ( dynamické modely a předpovídání).

Kybernetické metody těžba dat

Druhý směr těžby dat je mnoho přístupů, myšlenkou počítačové matematiky a použití teorie umělé inteligence.

Dolování dat) a na "hrubé" analýze průzkumu, která tvoří základ provozního analytického zpracování dat (on-line analytické zpracování, OLAP), zatímco jeden z hlavních ustanovení dolování dat - hledání nezřetelného zákony. Nástroje pro dolování dat mohou tyto zákonnosti najít nezávisle a také samostatně stavět hypotézy o vztazích. Protože je to formulace hypotézy vzhledem k závislostem je nejvíce náročný úkolVýhoda dolování dat ve srovnání s jinými metodami analýzy je zřejmá.

Většina statistických metod pro identifikaci propojení dat používají koncept průjetí na vzorku, což vede k operacím přes neexistující hodnoty, zatímco dolování dat pracuje s reálnými hodnotami.

OLAP je vhodnější pro pochopení retrospektivních dat, dolování dat se spoléhá na retrospektivní údaje, které získá odpovědi na otázky týkající se budoucnosti.

Vyhlídky technologie dolování dat

Potenciál dolování dat dává "zelené světlo" pro rozšíření hranic aplikace technologie. Pokud jde o vyhlídky dolování dat, jsou možné následující směrové pokyny:

přidělení typů předmětových oblastí s odpovídajícím heuristikou, jejichž formizace usnadní řešení odpovídajících úkolů dolování údajů, které patří do těchto oblastí;
vytváření formálních jazyků a logických nástrojů, kterým budou argumenty formalizovány a jehož automatizace bude nástrojem pro řešení úkolů dolování údajů v konkrétních oblastech předmětu;
vytváření metod dolování dat, které jsou schopny nejen extrahovat tyto vzory, ale také vytvořit určité teorie založené na empirických datech;
překonání základních zpoždění možností nástroje Data těžba z teoretických úspěchů v této oblasti.

Pokud zvažujete budoucnost těžby dat v krátkodobém horizontu, je zřejmé, že vývoj této technologie je nejvíce zaměřen do oblastí souvisejících s podnikáním.

V krátkodobém horizontu mohou být produkty dolování dat jako běžné a nezbytné jako e-mailem, například, používají uživatelé pro vyhledávání nejvíce nízké ceny Na určitém produktu nebo nejlevnějších vstupenkách.

V dlouhodobém horizontu je budoucnost dolování dat opravdu vzrušující - to může být vyhledávání intelektuálních agentů jako nové typy léčby různých nemocí a nové pochopení povahy vesmíru.

Dodávání údajů je však samo o sobě a potenciálním nebezpečím - Koneckonců, rostoucí množství informací je k dispozici prostřednictvím celosvětové síti, včetně soukromých informací, a stále více a více znalostí je možné se dostat z ní:

Ne tak dávno, největší internetový obchod "Amazon" byl v centru skandálu o patentu přijatém přijímaným "metodami a systémy pro pomoc uživatelům při nákupu zboží", což není nic jiného než jiné datové těžební výrobek určený pro shromažďování osobních údajů Údaje o návštěvníků ukládání. Nová technika umožňuje předpovědět budoucí požadavky na základě nákupů, jakož i vyvodit závěry o jejich účelu. Účelem této techniky je to, co bylo zmíněno výše - jak je to možné více Informace o zákaznících, včetně soukromé povahy (pohlaví, věk, preference atd.). Jsou tedy shromážděny údaje o soukromí obchodu kupujících, stejně jako členy jejich rodin, včetně dětí. Ten je zakázán legislativou mnoha zemí - sbírka informací o nezletilých je možné pouze s povolením rodičů.

Studie si všimnou, že existují úspěšná řešení, která používají dolování dat a neúspěšné zkušenosti s využitím této technologie. Oblasti, kde je pravděpodobné, že používání technologie dolování dat bude pravděpodobně úspěšné, mají takové funkce:

vyžadují řešení založená na znalostech;
mít měnící se prostředí;
přístupné, dostatečné a významné údaje;
poskytovat vysoké dividendy ze správných řešení.

Stávající přístupy k analýze

Dlouhodobá Data Doling Discipline nebyla rozpoznána jako plnohodnotná nezávislá oblast analýzy dat, někdy se nazývá "Statistické dvorky" (Pregibon, 1997).

Dosud bylo stanoveno několik hledisek na dolování dat. Příznivci jednoho z nich považují jeho mirage, rozptylování pozornosti z klasické analýzy

Co je těžba dat

orvánáž jakéhokoliv moderního podnikání obvykle obsahuje soubor tabulek, které ukládají záznamy o určitých skutečnostech nebo objektů (například o zboží, prodeji, zákaznících, účtech). Každý vstup v podobné tabulce zpravidla popisuje určitý objekt nebo skutečnost. Například záznam v prodejní tabulce odráží skutečnost, že takový výrobek je prodáván takovým klientovi, pak něco jako manažer, a a velký, nic, ale tyto informace neobsahují. Celkový počet těchto záznamů nahromadil v průběhu několika let může být zdrojem dodatečných, mnohem cennějších informací, které nelze získat na základě jednoho konkrétního záznamu, a to informace o vzory, trendech nebo vzájemných závislostech mezi údaji. Příklady těchto informací jsou informace o tom, jak je prodej určitého produktu závislý v den v týdnu, čas nebo sezónu, které kategorie kupujících nejčastěji získávají jeden nebo jiný produkt, který část kupujících jednoho konkrétního Produkt získává další specifický produkt, který kategorie zákazníků nejčastěji nedává úvěr v čase.

Tyto informace se běžně používají při predikci, strategickém plánování, analýze rizik a jeho hodnotu pro podnik je velmi vysoká. Zřejmě proto proces jeho hledání a dostal názvové dolování dat (těžba v angličtině znamená "těžební těžba" a hledání pravidelností v obrovské sadě skutečných dat je skutečně podobná). Termín těžba dat označuje ne tolik specifické technologie jako proces hledání korelací, trendů, vztahů a vzorců prostřednictvím různých matematických a statistických algoritmů: seskupení, vytváření sub-objev, regresní a korelační analýzu. Účelem tohoto hledání je předložit údaje ve formě jasně reflexních obchodních procesů, stejně jako vybudování modelu, se kterým můžete předpovědět procesy kritické pro obchodní plánování (například dynamika poptávky po určitém zboží nebo službách nebo závislost jejich nabývání z jakéhokoliv vlastnosti spotřebitelů).

Všimněte si, že tradiční matematická statistika, po dlouhou dobu hlavní nástroj pro analýzu dat, jakož i provozní analytické nástroje pro zpracování dat (online analytické zpracování, OLAP), které jsme opakovaně napsali (viz materiály na tomto tématu na našem CD), nemůže být vždy úspěšně k vyřešení těchto úkolů. Statistické metody a OLAP jsou typicky používány pro kontrolu předem formulovaných hypotéz. Často je však často, že znění hypotézy je přesně nejtěžší úkolem při provádění obchodní analýzy pro následné rozhodování, protože daleko od všech vzorů v údajích jsou zřejmé na první pohled.

Základní moderní technologie Dodávka dat je koncept šablon odrážejících vzorů inherentních datových listů. Vyhledávání šablon je vyrobeno metodami, které nepoužívají žádné priori předpoklady o těchto podzemí. Pokud se statistická analýza nebo při použití OLAP, problematikou typu "jaké jsou průměrné počet neplacených účtů se zákazníky této služby?", Použití dolování dat zpravidla znamená odpovědi na typ "je typický Kategorie zákazníků, kteří platí za účty? ". Zároveň je to odpověď na druhou otázku často zajišťuje více netriviální přístup k marketingovým politikám a organizaci práce s klienty.

Důležitým rysem dolování dat je nestandardní a neviditelnost požadovaných šablon. Jinými slovy, nástroje pro dolování dat se liší od datových statistických nástrojů a nástrojů OLAP, namísto testování v rozvojových útocích uživatelů vzájemných závislostí, jsou schopni najít takové interdependents nezávisle a budovat hypotézy o jejich charakteru.

Je třeba poznamenat, že používání nástrojů pro dolování dat nevylučuje použití statistických nástrojů a fondů OLAP, neboť výsledky zpracování údajů využívají zpravidla, přispívají k lepšímu pochopení povahy vzorců, které by měly hledat.

Zdrojová data pro dolování dat

Aplikace dolování dat je odůvodněno, pokud existuje dostatečně velké množství údajů, ideálně obsažené ve správně navrženém datovém skladu (vlastně, samotné útvary dat jsou obvykle vytvořeny tak, aby řešily analýzy a předpovědi úkolů spojených s rozhodovací podporou). Na principech budování repozitorů jsme také napsali více než jednou; Odpovídající materiály lze nalézt na našem CD, takže na tomto problému nezastavíme. Připomínáme vám, že data v úložišti jsou doplněnou sadou, jeden pro celý podnik a umožňuje vám kdykoliv obnovit obraz její činnosti. Všimneme také, že struktura úložných údajů je navržena tak, aby provedení požadavků k ní používal co nejúčinněji. Existují však nástroje pro dolování dat, které jsou schopny hledat vzorce, korelace a trendy nejen v datových skladech, ale také v kostcích OLAP, to znamená v sadách předem zpracovaných statistických údajů.

Typy vzorů detekovaných metodami dolování dat

v.A. Dyuku oznámil pět standardních typů vzorů detekovaných metodami dolování dat:

Sdružení je vysokou pravděpodobností komunikace událostí mezi sebou (například jeden produkt je často zakoupen spolu s jiným);

Sekvence je vysoká pravděpodobnost událostí souvisejících s řetězcem (například během určitého období po nákupu jednoho produktu bude získán s vysokým stupněm pravděpodobnosti);

Klasifikace - existují známky, které charakterizují skupinu, do které jedna nebo jiná událost nebo objekt (obvykle na základě analýzy již utajovaných akcí jsou formulována některá pravidla);

Clustering je vzor podobný klasifikaci a liší se od něj, že samotné skupiny nejsou specifikovány - jsou automaticky detekovány během zpracování dat;

Dočasné vzory - přítomnost šablon v dynamice chování některých údajů (typický příklad - sezónní oscilace poptávky po určitém zboží nebo službách) používané k předpovědi.

Metody výzkumu dat v dolování dat

to je pěkné! velký počet Různé metody výzkumu dat. Na základě výše uvedené klasifikace navrhované V.A. Dyuk, mezi nimi můžete přidělit:

Regresní, disperzní a korelační analýza (implementovaná ve většině moderních statistických paketů, zejména v produktech společností SAS Institute, StatSoft, atd.);

Metody analýzy v konkrétní oblasti předmětu založené na empirických modelech (často platí například v nízkonákladových fondech finanční analýzy);

Algoritmy neuronové sítě, jejichž myšlenka je založena na účincích nervové tkáně a spočívá v tom, že počáteční parametry jsou považovány za signály převedené v souladu se stávajícími vztahy mezi "neurony" a jako odpověď, která Je výsledkem analýzy, je zvažován odezvou celé sítě k počátečním údajům. Komunikace v tomto případě jsou vytvořeny pomocí tzv. Síťového školení odběrem velké množství obsahující jak zdrojová data, tak správné odpovědi;

Algoritmy jsou volbou blízkého analogu zdrojových dat ze stávajících historických dat. Také volal "nejbližší soused";

Stromy řešení - hierarchická struktura založená na souboru otázek, které znamenají odpověď "ano" nebo "ne"; Ačkoli tato metoda Zpracování dat daleko od vždy dokonale najde existující vzory, to je zcela běžně používáno v předpovídání systémů z důvodu viditelnosti přijaté reakce;

Modely clusteru (někdy také nazývané segmentačními modely) slouží k kombinování podobných událostí ve skupinách založených na podobných hodnotách více polí v sadě dat; Také velmi populární při vytváření predikčních systémů;

Omezené algoritmy integrity, výpočet frekvencí kombinací jednoduchých logických událostí v podskupinách dat;

Evoluční programování - hledání a generování algoritmu vyjadřujícího vzájemná závislost dat na základě původně specifikovaného algoritmu modifikovaného během vyhledávání; Někdy se vyhledávání vzájemných závislostí provádí mezi všechny specifické typy funkcí (například polynomy).

Přečtěte si více o těchto a dalších algoritmech dolování dat, stejně jako na jejich prostředcích, můžete číst v knize "Dodávání dat: výcvikový kurz"V.A. Dooky a A.P. Samolenko, vydaný Peter vydavatelství v roce 2001. Dnes je to jeden z mála knih v ruštině na problému.

Vedoucí výrobcové datového mingu

odpočívající dolování dat, stejně jako většina podnikových zpravodajských fondů, tradičně patří do drahých softwarových nástrojů - cena některých z nich dosáhne několika desítek tisíc dolarů. Proto byly v poslední době hlavní spotřebitelé této technologie bank, finanční a pojišťovny, hlavní obchodní podniky, a hlavní úkoly vyžadující využití těžby dat, posuzování úvěrových a pojistných rizik a marketingových politik. tarifní plány a další principy práce s klienty. V posledních letech se situace prošla určitým změnami: na trhu software Existovaly relativně levné nástroje pro dolování dat od několika výrobců, což učinil tato technologie dostupná pro malé a střední podniky, dříve nemyslely na to.

Moderní obchodní zpravodajské nástroje zahrnují generátory zprávy, nástroje pro analýzu dat, rozvojové nástroje pro rozvojové řešení (BI platformy) a tzv. Enterprise BI Suites - analýza analýzy a nástroje pro zpracování dat, které umožňují provádět soubor dat týkajících se analýzy dat a Tvorba zpráv a často zahrnuje integrované bi-nástrojové nástroje a rozvojové nástroje pro rozvoj biodlace. Jediné, zpravidla obsahovat ve svém složení a prostředcích stavebních zpráv a OLAP fondy a často - a dolování dat.

Podle analytiků Gartnerové skupiny, vůdci na trhu s analýzou a zpracování datových stupnic podniku jsou firmou obchodních objektů, Cognos, stavitelé informací a nárok na vedení i Microsoft a Oracle (obr. 1). Pokud jde o vývoj bi-řešení, hlavní žadatelé o vedení v této oblasti jsou Microsoft a SAS Institute (obr. 2).

Všimněte si, že fondy Business Intelligence Microsoft se týkají relativně levných produktů dostupných širokému spektru společností. Proto budeme zvážit některé praktické aspekty použití těžby údajů na příkladu produktů této společnosti v následujících částech tohoto článku.

Literatura:

1. Duke V.A. Dolování dat - inteligentní analýza dat. - http://www.olap.ru/basic/dm2.asp.

2. Duke V.A., Samoilenko A.P. Dodávka dat: školení. - SPB.: Peter, 2001.

3. B. de Ville. Microsoft Data Doring. Digitální tisk, 2001.

Dodávka dat (dolování dat)

Dodávka dat je metodika a proces detekce ve velkých datových polích akumulovaných v informační systémy Společnosti, dříve neznámé, netriviální, prakticky užitečné a přístupné interpretaci znalostí nezbytných pro rozhodování v různých oblastech lidské činnosti. Dodávka dat je jednou z kroků většího rozvíjejícího se objevu znalostí v metodice databází.

Znalosti zjištěné v procesu dolování dat by měly být non-triviální a dříve neznámé. Netrivialita předpokládá, že tyto znalosti nelze zjistit jednoduchou vizuální analýzou. Musí popsat vztah mezi vlastnostmi obchodních objektů, předpovídají hodnoty některých znaků založených na jiných, atd. Nalezené znalosti musí být použitelné na nové objekty.

Praktická užitečnost znalostí je způsobena možností jejich využití v procesu podpory přijetí rozhodnutí o řízení a zlepšování činností společnosti.

Znalosti musí být předloženy ve formě, která je srozumitelná pro uživatele, kteří nemají zvláštní matematický výcvik. Například logické návrhy "IF, pak" jsou jednodušší být vnímána osobou. Taková pravidla mohou být navíc použita v různých DBMS jako SQL-záznamy. V případě, že naučené znalosti jsou pro uživatele neprůhledné, musí existovat metody po zpracování, které jim umožňují přinést je do interpretovatelné formy.

Dolování dat není jeden, ale velký počet různé metody Detekce znalostí. Všechny úkoly vyřešené metodami dolování dat mohou být rozděleny do šesti typů:

Dolování dat je mediidisciplinární, protože zahrnuje prvky numerických metod, matematické statistiky a teorie pravděpodobnosti, teorie informací a matematická logika, umělé inteligence a strojní učení.

Úkoly obchodní analýzy jsou formulovány různými způsoby, ale řešení většiny z nich přichází na jeden nebo jiný úkol těžby dat nebo jejich kombinaci. Například hodnocení rizik je řešením problému regrese nebo klasifikace, segmentace trhu - klastrování, podpora poptávky - asociativní pravidla. Ve skutečnosti jsou úkoly dolování dat prvky, ze kterých můžete "sbírat" řešení nejtěžších obchodních úkolů.

Pro vyřešení objektů popsaných výše jsou použity různé metody a algoritmy dolování dat. Vzhledem k tomu, že dolování údajů vyvinuly a vyvíjí na křižovatce disciplín, jako je matematická statistika, informační teorie, strojní učení a databáze, je poměrně přirozená, že většina algoritmů a metod dat byla vyvinuta na základě různých z těchto disciplín. Například algoritmus klastrů K-znamená vypůjčeno ze statistik.

Poslat svou dobrou práci ve znalostní bázi je jednoduchá. Použijte níže uvedený formulář

Studenti, absolventi studenti, mladí vědci, kteří používají znalostní základnu ve studiu a práce, budou vám velmi vděční.

Podobné dokumenty

Popis funkce Technologie dolování dat jako neznámé procesy detekce dat. Studium výstupních systémů asociativní pravidla a mechanismy algoritmů neuronových sítí. Popis algoritmů klastrů a použití dolování dat.

vyšetření, přidáno 06/14/2013

Základy pro klastrování. Použití dolování dat jako způsob, jak "detekovat znalosti v databázích". Výběr algoritmů klastrů. Získání dat z úložiště databáze workshopu vzdálenosti. Slustání studentů a úkolů.

práce kurzu, přidáno 07/10/2017

Zlepšení technologií záznamu a úložiště dat. Specifičnost moderních požadavků na zpracování informací o informacích. Koncept šablon odrážejících fragmenty multidimenzionálních vztahů v datech je založen na moderní technologii dolování dat.

vyšetření, přidáno 02.09.2010

Dodávka dat, vývojová historie dolování dat a objevování znalostí. Technologické prvky a metody dolování dat. Kroky ve znalostních znalostech. Změna a detekce odchylky. Související disciplíny, získávání informací a extrakce textu.

zpráva, přidáno 06/16/2012

Dodavatelská dolování jako proces podpory rozhodování založený na vyhledávání v těchto skrytých vzorech (informace o informacích). Jeho zákonitosti a fáze realizace, historie vývoje této technologie, posouzení výhod a nevýhod, možností.

esej, přidaná 12/17/2014

Klasifikace úloh Datamining. Vytváření přehledů a výsledků. Možnosti datového horečka v Statistica. Úkol klasifikace, klastrování a regrese. Analýza datová analýza dat statistica. Úkoly Essence hledat asociativní pravidla. Analýza prediktorů přežití.

práce kurzu, přidáno 19.05.2011

Perspektivní pokyny Analýza dat: analýza textových informací, inteligentní analýza dat. Analýza strukturovaných informací uložených v databázích. Proces analyzování textových dokumentů. Údaje o předběžném zpracování.

abstrakt, přidáno 13.02.2014

Klasifikace úloh dolování dat. Úkolem klastrování a hledání asociativních pravidel. Definice třídy objektů podle jejích vlastností a vlastností. Nalezení častých závislostí mezi objekty nebo událostmi. Provozní analytické zpracování dat.

vyšetření, přidáno 01/13/2013