Veri madenciliği işleminde veri hazırlığı. Veri Madenciliği Teknolojisi

Veri madenciliği, kaynak öğrenme verileri ile çalışma ilkesi üzerine iki büyük gruba ayrılır. Bu sınıflandırmada üst seviye Veri madenciliğinden sonra verilerin kaydedilip kaydedilmeyeceği şekilde belirlenir veya daha sonraki kullanım için damıtılırlar.

1. Verilerin doğrudan kullanımı veya veri kaydetme.

Bu durumda, ilk veriler açık bir detaylı biçimde depolanır ve doğrudan aşamalarda ve / veya İstisnaların Analizi. Bu yöntem grubunun sorunu - kullanıldığında, ultra yüksek veritabanları analiz etmek zor olabilir.

Bu Grup Yöntemleri: Küme analizi, en yakın komşu yöntemi, K-en yakın komşunun yöntemi, analoji ile akıl yürütme.

2. Resmileştirilmiş algılama ve kullanımı yasalar, veya damıtma şablonları.

Teknolojiyle damıtmalar Şablonları Bilginin bir örneği (şablonu) kaynak verilerden çıkarılır ve türünün kullanılan veri madenciliği yöntemine bağlı olan bazı resmi yapılara dönüştürülür. Bu işlem sahnede gerçekleştirilir. Ücretsiz arama, ilk yöntem grubunda bu aşama ilke olarak yoktur. Aşamada prognostik modelleme ve İstisnaların Analizi Sahnenin sonuçları kullanılır Ücretsiz arama, veritabanlarında kendilerinde önemli ölçüde daha kompakt. Bu modellerin tasarımlarının yorumlandığını analist veya beceriksizce ("kara kutular") olduğunu hatırlayın.

Bu Grup Yöntemleri: Mantıksal Yöntemler; görselleştirme yöntemleri; Çapraz tablolama yöntemleri; Denklemlere dayalı yöntemler.

Mantıksal yöntemler veya mantıksal indüksiyon yöntemleri şunlardır: bulanık istek ve analizler; sembolik kurallar; Çözüm Ağaçları; Genetik algoritmalar.

Bu grubun yöntemleri belki de en çok yorumlanır - Bulunan kalıpları, çoğu durumda, kullanıcının bakış açısından oldukça şeffaf bir biçimde çekiyorlar. Elde edilen kurallar, sürekli ve ayrık değişkenleri içerebilir. Çözümlerin ağaçlarının, ağacın kökünden kökünden bir kural üreterek sembolik kurallar kümelerine kolayca dönüştürülebileceği belirtilmelidir. terminal tepe noktası. Çözümlerin ve kuralların ağaçları aslında farklı yollar Bir görevin çözümleri ve yalnızca yeteneklerinde farklılık gösterir. Ek olarak, kuralların uygulanması, kararların ağaçlarının indüklenmesinden daha yavaş algoritmalarla gerçekleştirilir.

Cross-Tab Yöntemleri: Ajanlar, Baiec (Trust) Ağı, Çapraz Tablo Görüntüleme. Son yöntem, veri madenciliğinin özelliklerinden birine cevap vermez - bağımsız arama yasalar Analitik sistem. Bununla birlikte, çapraz tablo formundaki bilgi sağlanması, veri madenciliğinin ana görevinin uygulanmasını sağlar - şablonları arar, böylece bu yöntem de veri madenciliği yöntemlerinden biri olarak kabul edilebilir.

Denklemlere dayalı yöntemler.

Bu grubun yöntemleri, tanımlanmış kalıpları matematiksel ifadeler - denklemler şeklinde ifade eder. Bu nedenle, yalnızca sayısal değişkenlerle çalışabilirler ve diğer türlerin değişkenleri buna göre kodlanmalıdır. Bu bir şekilde bu grubun yöntemlerinin kullanımını sınırlar, ancak, özellikle tahmin eden işleri, çeşitli görevleri çözmede yaygın olarak kullanılmaktadır.

Bu grubun ana yöntemleri: İstatistiksel yöntemler ve sinir ağları

İstatistiksel yöntemler en sık tahmin görevlerini çözmek için kullanılır. Ürünlerin birçok istatistiksel analiz yöntemleri, örneğin, korelasyon-regresyon analizi, dinamik serisinin korelasyonu, dinamik serilerin eğilimlerinin tanımlanması, harmonik analizler.

Başka bir sınıflandırma, veri madenciliği yöntemlerinin tüm çeşitlerini iki gruba paylaşır: istatistiksel ve sibernetik yöntemler. Bu ayırma şeması, öğrenmeye farklı yaklaşımlara dayanmaktadır. matematiksel modeller.

İstatistiksel yöntemlerin veri madenciliğine atfetmenin iki yaklaşımı olduğu belirtilmelidir. Bunlardan ilki istatistiksel yöntemlere ve veri madenciliğine karşı çıkıyor, destekçileri klasik istatistiksel yöntemleri ayrı bir veri analizi yönüne yöneliktir. İkinci yaklaşıma göre, istatistiksel analiz yöntemleri matematiksel araç seti veri madenciliğinin bir parçasıdır. Çoğu saygın kaynaklar ikinci yaklaşıma uyuyor.

Bu sınıflandırmada iki yöntemi ayırt eder:

  • retrospektif verilere yansıyan ortalama biriken deneyimin kullanımına dayanan istatistiksel yöntemler;
  • birçok heterojen matematiksel yaklaşım içeren sibernetik yöntemler.

Böyle bir sınıflandırma eksikliği: Hem istatistiksel hem de sibernetik algoritmalar bir şekilde ya da aksi takdirde, mevcut durumu izleme sonuçları ile istatistiksel deneyimin karşılaştırılmasına dayanıyor.

Böyle bir sınıflandırmanın avantajı, yorumlama kolaylığıdır - modern bir yaklaşımın matematiksel araçlarını tanımlamada kullanılır. bilgi çıkarmak Kaynak gözlemlerinin dizilerinden (operasyonel ve retrospektif), yani. Veri madenciliği görevlerinde.

Yukarıdaki grupları daha ayrıntılı olarak düşünün.

İstatistiksel Yöntemler Veri Madenciliği

Bu yöntemler birbiriyle ilişkili dört bölümdür:

  • İstatistiksel verilerin doğasının ön analizi (Kırtasiye, Normallik, Bağımsızlık, Homojenlik Hipotezinin Muayene, Dağıtım Fonksiyonunun Türünün Değerlendirilmesi, Parametreleri, vb.);
  • bağlantıların Algılama I. yasalar (Doğrusal ve doğrusal olmayan regresyon analizi, korelasyon analizi vb.);
  • Çok boyutlu istatistiksel analiz (doğrusal ve doğrusal olmayan ayrımcı analiz, küme analizi, bileşen analizi, faktor analizi ve benzeri.);
  • dinamik modeller ve zaman serisine dayalı bir prognoz.

Veri madenciliği istatistiksel yöntemlerinin cephesi dört yöntem grubu için sınıflandırılır:

  1. Tanımlayıcı analiz ve kaynak verilerin açıklaması.
  2. İlişki Analizi (Korelasyon ve Regresyon Analizi, faktor analizi, dispersiyon analizi).
  3. Çok boyutlu istatistiksel analiz (bileşen analizi, ayrımcı analiz, çok boyutlu regresyon analizi, kanonik korelasyonlar vb.).
  4. Geçici serilerin analizi ( dinamik modeller ve tahmin).

Sibernetik yöntemler Veri Madenciliği

Veri madenciliğinin ikinci yönü, çok fazla yaklaşımdır, bilgisayar matematiği fikri ve yapay zeka teorisinin kullanımıdır.

Veri madenciliği) ve operasyonel analitik veri işleme (çevrimiçi analitik işleme, OLAP) temelini oluşturan bir "kaba" keşif analizinde, veri madenciliği ana hükümlerinden biri - açık olmayanları arayın yasalar. Veri madenciliği araçları, bu tür düzeyleri bağımsız olarak bulabilir ve ayrıca bağımsız olarak ilişkiler hakkında hipotezler oluşturabilir. Bağımlılıklara göre bir hipotezin formülasyonu olduğundan, en çok zorlu görevDiğer analiz yöntemlerine kıyasla veri madenciliğinin avantajı açıktır.

Verideki ara bağlantıları tanımlamak için çoğu istatistiksel yöntem, numunedeki ortalama kavramını kullanır, mevcut olmayan değerler üzerindeki işlemlere neden olurken, veri madenciliği gerçek değerlerle çalışır.

OLAP, retrospektif verileri anlamak için daha uygundur, veri madenciliği gelecekle ilgili sorulara cevap almak için retrospektif verilere dayanır.

Veri madenciliği teknolojisinin umutları

Veri madenciliği potansiyeli, teknoloji uygulamasının sınırlarını genişletmek için "yeşil ışık" verir. Veri madenciliği umutlarına ilişkin olarak, aşağıdaki geliştirme yönleri mümkündür:

  • İlgili sezgisel olan konu alanlarının türlerinin tahsisi, formalizasyonu bu alanlara ait karşılık gelen veri madenciliği görevlerinin çözümünü kolaylaştıracak;
  • argümanların resmileştirileceği resmi diller ve mantıksal araçlar oluşturma ve otomasyonu, belirli konu alanlarındaki veri madenciliği görevlerini çözme aracı olacak;
  • sadece bu kalıpları çıkarmak için değil, aynı zamanda ampirik verilere dayanarak belirli teoriler oluşturmak için veri madenciliği yöntemleri oluşturma;
  • olasılıkların temel gecikmesinin üstesinden gelmek araçlar Bu alandaki teorik başarılardan veri madenciliği.

Kısa vadede veri madenciliğinin geleceğini göz önünde bulunduruyorsanız, bu teknolojinin gelişmesinin en çok işle ilgili alanlara yönelik olduğu açıktır.

Kısa vadede, veri madenciliği ürünleri sıradan ve gerekli olabilir. e-posta, örneğin, kullanıcılar tarafından en çok aramak için kullanılır. düşük fiyatlar Belirli bir üründe veya en ucuz biletlerde.

Uzun vadede, veri madenciliğinin geleceği gerçekten heyecan vericidir - entelektüel ajanların çeşitli hastalıkları tedavi etmenin yeni türleri ve evrenin doğası hakkında yeni bir anlayış olarak bir arama olabilir.

Bununla birlikte, veri madenciliği kendi içinde ve potansiyel bir tehlikedir - sonuçta, özel bilgiler dahil olmak üzere, dünya çapında ağ aracılığıyla artan miktarda bilgi mevcut olur ve ondan daha fazla bilgi edinmek mümkündür:

Çok uzun zaman önce, "Amazon", "Amazon", "mal satın alırken kullanıcılara yardım etmesi için kullanılan yöntem ve sistemler", kişisel toplanması için tasarlanan başka bir veri madenciliği ürününden başka bir şey olmayan patent hakkındaki skandalın merkezindeydi. Mağaza ziyaretçilerinde veri. Yeni teknik, gelecekteki talepleri alımlar temelinde tahmin etmenizi ve amaçları hakkında sonuçlar çıkarmanıza olanak sağlar. Bu tekniğin amacı yukarıda belirtilen şeydir - mümkün olduğunca daha Özel doğa (cinsiyet, yaş, tercihler vb.) Dahil olan müşteriler hakkında bilgi. Böylece, dükkan alıcılarının mahremiyetinin yanı sıra çocuklar da dahil olmak üzere ailelerinin üyeleri toplanır. İkincisi, birçok ülkenin mevzuatı tarafından yasaktır - küçükler hakkındaki bilgilerin toplanması sadece ebeveynlerin izniyle birlikte mümkündür.

Çalışmalar, bu teknolojiyi kullanma konusunda veri madenciliği ve başarısız deneyimi kullanan her iki başarılı çözüm var. Veri madenciliği teknolojisinin kullanımının başarılı olması muhtemel olan alanlar, bu özelliklere sahiptir:

  • bilgi tabanlı çözümler gerektirir;
  • değişen bir ortama sahip olmak;
  • erişilebilir, yeterli ve önemli verilere sahip olmak;
  • doğru çözümlerden yüksek temettüler sağlayın.

Analiz için mevcut yaklaşımlar

Uzun zamandır, veri madenciliği disiplini tam teşekküllü bir bağımsız veri analizi alanı olarak kabul edilmemiştir, bazen "istatistiksel arka bahçeler" denir (Pregibon, 1997).

Bugüne kadar, veri madenciliğindeki birkaç bakış açısı belirlendi. Bunlardan birinin destekçileri, onu klasik analizden dikkatini dağıtarak dikkatini dağıtıyor.

Veri madenciliği nedir

herhangi bir modern kuruluşun yetimhanesi genellikle belirli gerçekler veya nesnelerle ilgili kayıtları depolayan bir dizi tablo içerir (örneğin, mallar, satışlar, müşteriler, hesaplar hakkında). Kural olarak, benzer bir tablonun her girişi bazı belirli bir nesneyi veya gerçeği açıklar. Örneğin, satış tablosundaki bir kayıt, böyle bir ürünün böyle bir müşteriye satıldığı gerçeğini yansıtıyor, daha sonra bir yönetici gibi bir şey ve büyük, hiçbir şey bu bilgi içermiyor. Bununla birlikte, birkaç yıl boyunca biriken bu tür kayıtların toplam sayısı, belirli bir kayıt temelinde, yani herhangi bir veri arasındaki kalıplar, eğilimler veya birbirleriyle ilgili bilgilerle ilgili olarak elde edilemeyen ek, daha değerli bir bilgi kaynağı olabilir. Bu tür bilgilerin örnekleri, belirli bir ürünün satışının haftanın gününe, günün veya sezonun saatine bağlı olduğu hakkında bilgidir, hangi alıcı kategorilerinin çoğu zaman bir veya başka bir ürün kazandıran bir veya başka bir ürün kazandırır. Ürün, başka bir özel ürün edinir, hangi müşterilerin kategorisi çoğu zaman kredi vermez.

Bu tür bilgiler yaygın olarak tahmin edilmesinde, stratejik planlama, risk analizinde ve işletme için değeri çok yüksektir. Görünüşe göre, bu nedenle, aramasının süreci ve isim veri madenciliğini almış (İngilizce olarak madencilik, "madencilik madenciliği" anlamına gelir ve çok sayıda gerçek veri kümesindeki düzenlilikler arayışı gerçekten benzerdir). Veri madenciliği terimi, çeşitli matematiksel ve istatistiksel algoritmalarla korelasyon, eğilimler, ilişkiler ve kalıplar bulma süreci olarak belirli bir teknolojiyi belirtmektedir: kümelenme, alt keşif, regresyon ve korelasyon analizi oluşturma. Bu aramanın amacı, açıkça yansıtıcı bir iş süreçleri biçiminde veri göndermek, aynı zamanda iş planlaması için kritik olan süreçleri tahmin edebileceğiniz bir model oluşturmanın yanı sıra (örneğin, belirli mallar veya hizmetler için talebin dinamikleri) veya satın alımlarının herhangi bir tüketici özelliklerinden bağımlılığı).

Geleneksel olduğunu unutmayın matematik İstatistikleri, uzun süredir, ana veri analizi aracı, aynı zamanda tekrar tekrar yazdığımız operasyonel analitik veri işleme araçları (çevrimiçi analitik işleme, OLAP) (CD'mizdeki bu konudaki materyallere bakınız), her zaman başarılı olmayabilir bu görevleri çözmek için uygulanır. Tipik olarak, istatistiksel yöntemler ve OLAP, önceden formüle edilmiş hipotezleri kontrol etmek için kullanılır. Bununla birlikte, genellikle hipotezin ifadesinin, daha sonra karar verme için iş analizinin uygulanmasında en zor görevdir, çünkü verilerdeki tüm kalıplardan uzakta bir bakışta açıktır.

Temel modern teknoloji Veri Madenciliği, veri sayfalarında doğal olan desenleri yansıtan şablonların kavramıdır. Şablonlar arayışı, bu alt topraklar hakkında herhangi bir önyargı varsayımını kullanmayan yöntemlerle yapılır. İstatistiksel analizle veya OLAP kullanırken, "bu hizmetin müşterilerine sahip olan ortalama ücretsiz hesap sayısı nedir?", Veri madenciliğinin kullanılması, kural olarak, yazıların türünü ifade ederse, "Tipik Hesaplar için ödeme yapmayan müşterilerin kategorisi? ". Aynı zamanda, ikinci sorunun cevabı, pazarlama politikalarına ve müşterilerle çalışma organizasyonuna daha fazla anayacak bir yaklaşım sağlar.

Veri madenciliğinin önemli bir özelliği, standart olmayan ve aranan şablonların görünmezliğidir. Başka bir deyişle, veri madenciliği araçları, iade edilen karşılıklı bağımlılık kullanıcılarında test etmek yerine, veri istatistiksel araçlarından ve OLAP araçlarından farklıdır, bu tür karşılıklı kişileri bağımsız olarak bulabilir ve karakterleri hakkında hipotezler oluşturabilirler.

Veri madenciliği araçlarının kullanımının, istatistiksel aletlerin ve OLAP fonlarının kullanımını dışlamadığı, çünkü ikincisini kullanarak veri işleme sonuçları, kural olarak, bir kural olarak, kalıpların doğası gereği daha iyi anlaşılmasına katkıda bulunabileceği belirtilmelidir. aranmak.

Veri madenciliği için kaynak verileri

Veri madenciliğinin uygulanması, doğru şekilde tasarlanmış veri ambarında (aslında, veri depolarının kendileri genellikle karar verme desteği ile ilişkili analizi ve öngörülen görevleri çözmek için oluşturulursa, yeterince büyük miktarda veri varsa haklıdır. Bina repositörlerinin prensipleri üzerine bir kereden fazla yazdık; Karşılık gelen malzemeler CD'imizde bulunabilir, bu yüzden bu konuda durmayacağız. Size yalnızca depolama alanındaki verilerin, tüm işletme için bir yedilenmiş bir set olduğunu ve faaliyetlerinin resmini istediğiniz zaman geri yüklemenizi sağladığımızızı hatırlatırız. Ayrıca, depolama verilerinin yapısının, taleplerin yürütülmesinin mümkün olduğunca verimli bir şekilde kullanılacağı şekilde tasarlandığını da unutmayın. Bununla birlikte, sadece veri depolarında değil, aynı zamanda OLAP küplerinde, yani önceden işlenmiş istatistiksel verilerde olan kalıpları, korelasyonları ve eğilimleri arayabilen veri madenciliği araçları vardır.

Veri madenciliği yöntemleri ile algılanan desen türleri

v.A. Dyuku, veri madenciliği yöntemleriyle algılanan beş standart desen türünü açıkladı:

Dernek, olayların birbirleriyle iletişimin yüksek bir olasılığıdır (örneğin, bir ürün genellikle başka biriyle birlikte satın alınır);

Sıra, zincirli olayların yüksek olasılığıdır (örneğin, bir ürünün satın alınmasından sonra belirli bir süre boyunca, yüksek derecede olasılıkla edinilecektir);

Sınıflandırma - grubun bir veya başka bir olayın veya bir nesnenin (genellikle önceden sınıflandırılmış olayların bir analizine dayanarak, bazı kuralların formüle edilmesi temelinde) karakterize edici işaretler vardır;

Kümeleme, sınıflandırmaya benzer ve grupların kendilerinin belirtilmediğini farklılık göstermektedir - veri işleme sırasında otomatik olarak algılanırlar;

Geçici desenler - Belirli verilerin davranışlarının dinamiklerindeki şablonların varlığı (tipik bir örnek - belirli mal veya hizmetler için talebin mevsimsel salınımları) tahmin etmek için kullanılır.

Veri Madenciliğinde Veri Araştırma Yöntemleri

güzelmiş! çok sayıda Çeşitli veri araştırma yöntemleri. V.A. Dyuk tarafından önerilen yukarıdaki sınıflandırmaya dayanarak, aralarında aralarında tahsis edebilirsiniz:

Regresyon, Dispersiyon ve Korelasyon Analizi (çoğu modern istatistik paketlerinde, özellikle şirketlerin SAS Enstitüsü, StatSoft, vb.);

Ampirik modellere dayanan belirli bir konu alanında analiz yöntemleri (genellikle, örneğin finansal analizin düşük maliyetli fonlardaki uygulanır);

Sinirsel ağ algoritmaları, bu, sinir dokusunun etkilerine dayanır ve ilk parametrelerin "nöronlar" arasındaki mevcut ilişkilere uygun olarak dönüştürüldüğü sinyaller olarak kabul edilir ve bir cevap olarak kabul edilir. Analizin sonucudur, tüm ağın tüm ağın ilk verilerine cevabı ile kabul edilir. Bu durumda iletişim, hem kaynak verilerini hem de doğru cevapları içeren büyük bir miktarı örnekleyerek sözde ağ eğitimi kullanılarak oluşturulur;

Algoritmalar, mevcut tarihsel verilerden kaynak verilerin yakın analogu seçimidir. Ayrıca "en yakın komşu" yöntemi olarak da adlandırılır;

Çözüm Ağaçları - "Evet" veya "Hayır" cevabını ima eden sorular kümesine dayanan hiyerarşik bir yapı; olmasına rağmen bu method Her zaman mükemmel bir şekilde mevcut kalıpları bulur, verilen yanıtın görünürlüğünün görünürlüğü nedeniyle, genellikle yaygın olarak kullanılır;

Küme modelleri (bazen de segmentasyon modelleri olarak adlandırılır), benzer olayları, veri setindeki birden fazla alanın benzer değerlerine göre benzer şekilde birleştirmek için kullanılır; Ayrıca tahmin sistemleri oluştururken de çok popüler;

Sınırlı Bütünlük algoritmaları, veri alt gruplarındaki basit mantıksal olayların kombinasyonlarının frekanslarını hesaplama;

Evrimsel Programlama - Arama sırasında değiştirilen başlangıçta belirtilen algoritma bazında verilerin birbirine bağlı olarak ifade edilmesini ifade eden algoritmanın arama ve üretilmesi; Bazen birbirine bağımlılıklar için arama, belirli herhangi bir fonksiyon türü (örneğin, polinomlar) arasında gerçekleştirilir.

Bunlar ve diğer veri madenciliği algoritmaları hakkında daha fazla bilgi edinin, yanı sıra, "Veri Madenciliği'nde okuyabilirsiniz. eğitim Kursu"V.A. Dooky ve A.P. Samolenko, 2001'de Peter Yayınevi tarafından yayınlandı. Bugün bu konuda Rusça'daki birkaç kitaplardan biri.

Veri Ming'in Kurşun Üreticileri

dinlenme Veri Madenciliği, iş zekası fonlarının çoğu gibi, geleneksel olarak pahalı yazılım araçlarına aittir - bazılarının fiyatı birkaç on binlerce dolara ulaşır. Bu nedenle, yakın zamana kadar, bu teknolojinin ana tüketicileri bankalar, finansal ve sigorta şirketleri, büyük ticaret işletmeleri ve veri madenciliğinin kullanımını gerektiren ana görevler, kredi ve sigorta risklerinin ve pazarlama politikalarının değerlendirilmesini gerektiren temel görevler göz önünde bulunduruldu. tarife planları ve müşterilerle çalışma ilkeleri. Son yıllarda, durum belirli değişikliklere uğramıştır: piyasada yazılım Bu teknolojiyi daha önce düşünmeyen küçük ve orta ölçekli işletmeler için mevcut olan birkaç üreticiden nispeten ucuz veri madenciliği araçları vardı.

Modern iş zekası araçları arasında rapor jeneratörleri, veri analizi araçları, Bi-Solutions geliştirme araçları (BI platformları) ve sözde Kurumsal BI Suites - Analiz Analizi ve Veri Analizi ile ilgili bir dizi veri yapmanızı sağlayan veri işleme araçları ve Raporların oluşturulması ve sıklıkla entegre bir bi-alet ve Bi-Uygulama geliştirme araçları içerir. İkincisi, bir kural olarak, kompozisyonu ve bina raporları ve OLAP fonları ve sıklıkla - ve veri madenciliği anlamına gelir.

Gartner Group'un analistlerine göre, işletmenin veri ölçeklerini analiz etmek ve işlemek için piyasadaki liderler, iş nesneleri, Cognos, bilgi inşaatçılarının şirketleridir ve liderliği de Microsoft ve Oracle'ı talep eder (Şek. 1). Bi-çözümlerin geliştirilmesine gelince, bu alandaki liderlik için ana başvuru sahipleri Microsoft ve SAS Enstitüsüdür (Şekil 2).

Microsoft'un iş zekası fonlarının, çok çeşitli şirketlere uygun olmayan ucuz ürünlere atıfta bulunduğunu unutmayın. Bu nedenle, bu maddenin sonraki bölümlerinde bu şirketin ürünleri örneği üzerine veri madenciliğinin uygulanmasının bazı pratik yönlerini göz önünde bulunduracağız.

Edebiyat:

1. Dük v.a. Veri Madenciliği - Akıllı Veri Analizi. - http://www.olap.ru/basic/dm2.asp.

2. Dük V.A., Samoilenko A.P. Veri Madenciliği: Eğitim kursu. - SPB .: Peter, 2001.

3. B. de Ville. Microsoft veri madenciliği. Dijital Basın, 2001.

Veri Madenciliği (Veri Madenciliği)

Veri madenciliği, birikmiş büyük veri dizilerinde bir metodoloji ve algılama işlemidir. bilgi sistemi Firmalar, daha önce bilinmeyen, nazik olmayan, pratik olarak faydalı ve çeşitli insan faaliyetlerinin çeşitli alanlarında karar verme için gerekli bilgilerin yorumlanmasına erişilebilir. Veri madenciliği, veritabanları metodolojisinde daha büyük ölçekli bir bilgi keşfedilmesinin adımlarından biridir.

Veri madenciliği sürecinde keşfedilen bilgi önemsiz ve daha önce bilinmeyen olmalıdır. Noktası olmayanlık, bu bilgilerin basit görsel analizlerle tespit edilemeyeceğini varsayar. İş nesnelerinin özellikleri arasındaki ilişkiyi tanımlamalı, başkalarına göre bazı işaretlerin değerlerini tahmin etmesi durumunda vb. Bulunan bilgi yeni nesnelere uygulanmalıdır.

Bilginin pratik faydası, yönetim kararlarının kabul edilmesini ve şirketin faaliyetlerini geliştirme sürecinde kullanımlarının olasılığından kaynaklanmaktadır.

Özel matematiksel eğitimi olmayan kullanıcılar için anlaşılabilir olan formda bilgi sunulmalıdır. Örneğin, mantıksal tasarımlar "ise, daha sonra" bir kişi tarafından algılanması daha kolaydır. Ayrıca, bu tür kurallar çeşitli DBMS'de SQL-Records olarak kullanılabilir. Öğrenilen bilgi kullanıcının opak olduğu durumlarda, onları yorumlanabilir bir forma getirmelerini sağlayan bir işlem sonrası yöntemler olmalıdır.

Veri madenciliği bir değil, çok sayıda Çeşitli metodlar Bilgi tespiti. Veri madenciliği yöntemleriyle çözülen tüm görevler altı tipe ayrılabilir:

Veri madenciliği medi disiplinlerarasıdır, çünkü sayısal yöntemler, matematiksel istatistikler ve olasılık teorisi, bilgi teorisi ve matematiksel mantık, yapay zeka ve makine öğrenmesi.

İş analizi görevleri farklı şekillerde formüle edilmiştir, ancak çoğunun çözümü bir veya başka bir veri madenciliği görevine veya kombinasyonlarına doğru gelir. Örneğin, risk değerlendirmesi, regresyon veya sınıflandırma sorununun çözümü, pazar segmentasyonu - kümeleme, talep tanıtımı - ilişkisel kurallar. Aslında, veri madenciliği görevleri, en gerçek iş görevlerinin çözümünü "toplayabileceğiniz" unsurlardır.

Yukarıda açıklanan nesneleri çözmek için çeşitli yöntemler ve veri madenciliği algoritmaları kullanılır. Veri madenciliğinin matematiksel istatistikler, bilgi teorisi, makine öğrenme ve veritabanları gibi disiplinlerin bir kavşağında geliştiği ve geliştirdiği gerçeği nedeniyle, veri madenciliği algoritmalarının ve yöntemlerinin çoğunun çeşitli temelinde geliştirilmiş olması oldukça doğaldır. Bu disiplinlerden yöntemler. Örneğin, K-araç kümesi algoritması istatistiklerden ödünç alındı.

Bilgi tabanında iyi çalışmanızı göndermeniz basittir. Aşağıdaki formu kullanın

Öğrenciler, lisansüstü öğrenciler, bilgi tabanını çalışmalarında kullanan genç bilim adamları ve çalışmaları size minnettar olacak.

Benzer belgeler

    Açıklama fonksiyonellik Bilinmeyen veri algılama işlemleri olarak veri madenciliği teknolojileri. Çıkış sistemlerinin incelenmesi İlişkisel kurallar ve nöral ağ algoritmalarının mekanizmaları. Kümeleme algoritmalarının bir açıklaması ve veri madenciliği kullanımı.

    sınav, Eklenen 06/14/2013

    Kümeleme için temeller. Veri madenciliğini kullanmak "Veritabanlarındaki bilgileri algılamanın" bir yolu olarak. Kümeleme algoritmalarının seçimi. Mesafe atölyesi veritabanının deposundan veri elde etmek. Kümelenme öğrencileri ve görevleri.

    dersin işi, eklendi 07/10/2017

    Kayıt ve veri depolama teknolojilerini geliştirmek. Bilgi verilerini işlemek için modern gereksinimlerin özgüllüğü. Verilerdeki çok boyutlu ilişkilerin parçalarını yansıtan şablonların kavramı, modern veri madenciliği teknolojisine dayanmaktadır.

    sınav, 02.09.2010 eklendi

    Veri madenciliği, veri madenciliği ve bilgi keşfi gelişim tarihi. Teknolojik unsurlar ve veri madenciliği yöntemleri. Bilgi keşfi adımları. Değişim ve sapma tespiti. İlgili disiplinler, bilgi alma ve metin çıkarma.

    rapor, eklendi 06/16/2012

    Veri Madenciliği Bu gizli kalıplarda aramaya dayanan bir karar destek süreci olarak (bilgi şablonları). Uygulama düzenlilikleri ve aşamaları, bu teknolojinin gelişmesinin tarihi, avantajlar ve dezavantajların değerlendirilmesi, olanakları.

    essay, eklendi 12/17/2014

    Görevlerin sınıflandırılması Dataming. Raporlar ve sonuçlar oluşturma. İstatista'daki veri madenci olanakları. Sınıflandırma, kümeleme ve gerileme görevi. Statistica veri madenci analizi. Essence görevleri ilişkisel kurallar için arar. Hayatta kalma öngörücülerin analizi.

    kurs çalışması, 19.05.2011 Eklendi

    Perspektif yönleri Veri Analizi: Metin Bilgi Analizi, Akıllı Veri Analizi. Veritabanlarında depolanan yapılandırılmış bilgilerin analizi. Metin belgelerini analiz etme süreci. Ön işleme verilerinin özellikleri.

    Özet, Eklenen 13.02.2014

    Veri Madenciliği Görevleri Sınıflandırması. İştiraksel kuralları kümeleme ve arama görevi. Bir nesne sınıfının özellikleri ve özellikleri ile tanımı. Nesneler veya olaylar arasında sık görülen bağımlılıklar bulmak. Operasyonel analitik veri işleme.

    sınav, 01/13/2013 Eklendi