Veri madenciliği kavramı popüler hale geldi. Veri Madenciliği Oturum Açma Wiki

İyi çalışmalarınızı bilgi tabanına gönderin basittir. Aşağıdaki formu kullanın

Öğrenciler, yüksek lisans öğrencileri, bilgi tabanını çalışmalarında ve çalışmalarında kullanan genç bilim adamları size çok minnettar olacaktır.

Benzer Belgeler

    DataMining görevlerinin sınıflandırılması. Raporların ve özetlerin oluşturulması. Statistica'daki Veri Madencisinin Özellikleri. Sınıflandırma, kümeleme ve regresyon sorunu. Analiz Araçları İstatistik Veri Madenci. Sorunun özü, birliktelik kurallarının aranmasıdır. Hayatta kalma tahmin edicilerinin analizi.

    dönem ödevi, 19/05/2011 eklendi

    Açıklama işlevsellik Bilinmeyen verileri keşfetme süreçleri olarak Veri Madenciliği teknolojileri. Sinir ağı algoritmalarının birliktelik kuralları ve mekanizmalarının çıkarım sistemlerinin incelenmesi. Kümeleme algoritmalarının tanımı ve Veri Madenciliği kapsamları.

    test, 14.06.2013 eklendi

    Kümeleme için temel bilgiler. Veri Madenciliğini "veritabanlarındaki bilgiyi keşfetmenin" bir yolu olarak kullanmak. Kümeleme algoritmalarının seçimi. Uzak atölye veritabanı deposundan veri alınıyor. Öğrencileri ve görevleri kümeleme.

    dönem ödevi, eklendi 07/10/2017

    Veri madenciliği, veri madenciliğinin gelişim tarihi ve bilgi keşfi. Veri madenciliğinin teknolojik unsurları ve yöntemleri. Bilgi keşfindeki adımlar. Değişim ve sapma tespiti. İlgili disiplinler, bilgi alma ve metin çıkarma.

    rapor, 16/06/2012 eklendi

    Kümeleme yöntem ve algoritmalarının uygulanmasında ortaya çıkan problemlerin analizi. Temel kümeleme algoritmaları. Makine öğrenimi ve veri analizi için bir ortam olarak RapidMiner. Veri Madenciliği yöntemlerini kullanarak kümeleme kalitesinin değerlendirilmesi.

    dönem ödevi, eklendi 10/22/2012

    Verilerin kaydedilmesi ve saklanması için teknolojilerin geliştirilmesi. Bilgi verilerinin işlenmesi için modern gereksinimlerin özgüllüğü. Verilerdeki çok boyutlu ilişkilerin parçalarını yansıtan kalıplar kavramı, modern Veri Madenciliği teknolojisinin kalbinde yer alır.

    deneme, 09/02/2010 eklendi

    Trajan 3.0 sinir ağı modelleme yazılım paketini kullanarak borsada durumu tahmin etmek ve kararlar almak için sinir ağlarının kullanımının analizi. Birincil verilerin dönüştürülmesi, tablolar. Programın ergonomik değerlendirmesi.

    tez, eklendi 27/06/2011

    Evrimsel algoritmaları kullanmanın zorlukları. Doğal seçilim ilkelerine dayalı bilgisayar sistemlerinin oluşturulması. Genetik algoritmaların dezavantajları. Evrimsel algoritma örnekleri. Evrimsel modellemenin yönleri ve bölümleri.

    Veri Madenciliği, ilk eğitim verileriyle çalışma prensibine göre iki büyük gruba ayrılır. Bu sınıflandırmada üst seviye verilerin Veri Madenciliğinden sonra mı saklandığına veya daha sonra kullanılmak üzere damıtıldığına göre belirlenir.

    1. Verilerin doğrudan kullanımı veya veri kaydetme.

    Bu durumda, ilk veriler açık ve ayrıntılı bir biçimde saklanır ve aşamalarda ve/veya doğrudan kullanılır. istisna analizi. Bu yöntem grubuyla ilgili sorun, bunları kullanırken çok büyük veritabanlarını analiz etmenin zor olabilmesidir.

    Bu grubun yöntemleri: küme analizi, en yakın komşu yöntemi, k-en yakın komşu yöntemi, analojiyle akıl yürütme.

    2. Resmileştirilmiş tanımlama ve kullanım desenler, veya şablon damıtma.

    teknoloji ile damıtma kalıpları bir bilgi örneği (şablon) kaynak verilerden çıkarılır ve biçimi kullanılan Veri Madenciliği yöntemine bağlı olan bazı resmi yapılara dönüştürülür. Bu işlem aşamada gerçekleştirilir. ücretsiz arama, ilk yöntem grubu prensipte bu aşamadan yoksundur. Aşamalarda tahmine dayalı modelleme ve istisna analizi aşamanın sonuçları kullanılır ücretsiz arama, veritabanlarından çok daha kompakttırlar. Bu modellerin yapılarının analist tarafından yorumlanabileceğini veya yorumlanamayacağını ("kara kutular") hatırlayın.

    Bu grubun yöntemleri: mantıksal yöntemler; görselleştirme yöntemleri; çapraz sekme yöntemleri; denklemlere dayalı yöntemler.

    Mantıksal yöntemler veya mantıksal tümevarım yöntemleri şunları içerir: bulanık sorgular ve analizler; sembolik kurallar; Karar ağaçları; genetik algoritmalar.

    Bu grubun yöntemleri belki de en yorumlanabilir olanlardır - çoğu durumda bulunan kalıpları kullanıcının bakış açısından oldukça şeffaf bir biçimde çizerler. Ortaya çıkan kurallar, sürekli ve ayrık değişkenler içerebilir. Unutulmamalıdır ki, karar ağaçları, ağacın kökünden köküne kadar olan yol boyunca tek bir kural üretilerek kolaylıkla sembolik kurallar kümesine dönüştürülebilir. uç nokta. Karar ağaçları ve kurallar aslında Farklı yollar aynı soruna çözümler ve yalnızca yeteneklerinde farklılık gösterir. Ayrıca, kuralların uygulanması, karar ağaçlarının oluşturulmasından daha yavaş algoritmalarla yapılır.

    Çapraz sekme yöntemleri: aracılar, Bayes (güven) ağları, sekmeler arası görselleştirme. Son yöntem, Veri Madenciliği - bağımsız arama özelliklerinden birine tam olarak uymuyor desenler analitik sistem. Bununla birlikte, çapraz sekmeler şeklinde bilgi sağlamak, Veri Madenciliğinin ana görevinin - kalıp aramanın - uygulanmasını sağlar, bu nedenle bu yöntem aynı zamanda Veri Madenciliği yöntemlerinden biri olarak kabul edilebilir.

    Denklemlere dayalı yöntemler.

    Bu grubun yöntemleri, ortaya çıkan kalıpları matematiksel ifadeler - denklemler şeklinde ifade eder. Bu nedenle, yalnızca sayısal değişkenlerle çalışabilirler ve diğer türlerdeki değişkenler buna göre kodlanmalıdır. Bu, bu grubun yöntemlerinin uygulanmasını bir şekilde sınırlandırmaktadır; bununla birlikte, çeşitli problemlerin, özellikle tahmin problemlerinin çözümünde yaygın olarak kullanılmaktadırlar.

    Bu grubun ana yöntemleri: istatistiksel yöntemler ve nöral ağlar

    İstatistiksel yöntemler genellikle tahmin problemlerini çözmek için kullanılır. Aralarında korelasyon ve regresyon analizi, zaman serilerinin korelasyonu, zaman serilerinde eğilimlerin belirlenmesi, harmonik analiz gibi birçok istatistiksel veri analizi yöntemi vardır.

    Başka bir sınıflandırma, tüm Veri Madenciliği yöntemlerini iki gruba ayırır: istatistiksel ve sibernetik yöntemler. Bu ayırma şeması, farklı öğrenme yaklaşımlarına dayanmaktadır. Matematiksel modeller.

    İstatistiksel yöntemleri Veri Madenciliği olarak sınıflandırmak için iki yaklaşım olduğu unutulmamalıdır. Birincisi istatistiksel yöntemlere ve Veri Madenciliğine karşı çıkıyor, destekçileri klasik istatistiksel yöntemleri ayrı bir veri analizi alanı olarak görüyor. İkinci yaklaşıma göre, istatistiksel analiz yöntemleri Veri Madenciliği matematiksel araç setinin bir parçasıdır. Çoğu yetkili kaynak ikinci yaklaşımı benimser.

    Bu sınıflandırmada, iki grup yöntem ayırt edilir:

    • geriye dönük verilere yansıtılan ortalama birikmiş deneyim kullanımına dayalı istatistiksel yöntemler;
    • birçok heterojen matematiksel yaklaşımı içeren sibernetik yöntemler.

    Böyle bir sınıflandırmanın dezavantajı, hem istatistiksel hem de sibernetik algoritmaların bir şekilde mevcut durumu izleme sonuçlarıyla istatistiksel deneyimin karşılaştırılmasına dayanmasıdır.

    Böyle bir sınıflandırmanın avantajı, yorumlama kolaylığıdır - modern yaklaşımın matematiksel araçlarının tanımında kullanılır. bilgi ayıklamak ilk gözlem dizilerinden (operasyonel ve geriye dönük), yani. Veri Madenciliği görevlerinde.

    Yukarıdaki gruplara daha yakından bakalım.

    İstatistiksel Yöntemler Veri madenciliği

    Bu yöntemlerde birbiriyle ilişkili dört bölüm vardır:

    • istatistiksel verilerin doğasının ön analizi (durağanlık, normallik, bağımsızlık, homojenlik, dağılım fonksiyonunun türünün değerlendirilmesi, parametreleri vb. hipotezlerinin test edilmesi);
    • bağlantıların belirlenmesi ve desenler(doğrusal ve doğrusal olmayan regresyon analizi, korelasyon analizi vb.);
    • çok değişkenli istatistiksel analiz (doğrusal ve doğrusal olmayan diskriminant analizi, küme analizi, bileşen analizi, faktor analizi ve benzeri.);
    • dinamik modeller ve zaman serilerine dayalı tahmin.

    İstatistiksel yöntemler cephaneliği Veri Madenciliği dört yöntem grubuna ayrılır:

    1. Tanımlayıcı analiz ve ilk verilerin açıklaması.
    2. İlişki analizi (korelasyon ve regresyon analizi, faktor analizi, varyans analizi).
    3. Çok değişkenli istatistiksel analiz (bileşen analizi, diskriminant analizi, çok değişkenli regresyon analizi, kanonik korelasyonlar, vb.).
    4. Zaman serisi analizi ( dinamik modeller ve tahmin).

    Sibernetik Veri Madenciliği Yöntemleri

    Veri Madenciliğinin ikinci yönü, bilgisayar matematiği fikri ve yapay zeka teorisinin kullanımı ile birleştirilen bir dizi yaklaşımdır.

    Veri Madenciliği Nedir?

    Herhangi bir modern işletmenin kurumsal veritabanı genellikle belirli gerçekler veya nesneler (örneğin, mallar, satışları, müşteriler, faturalar hakkında) hakkında kayıtları saklayan bir dizi tablo içerir. Kural olarak, böyle bir tablodaki her giriş, belirli bir nesneyi veya gerçeği tanımlar. Örneğin, satış tablosundaki bir giriş, şu veya bu ürünün şu veya bu müşteriye o sırada böyle bir yönetici tarafından satıldığını ve genel olarak bu bilgiden başka bir şey içermediğini yansıtır. Bununla birlikte, toplu Büyük bir sayı birkaç yıl boyunca biriken bu tür kayıtlar, belirli bir kayıt temelinde elde edilemeyen, yani kalıplar, eğilimler veya herhangi bir veri arasındaki karşılıklı bağımlılıklar hakkındaki bilgiler temelinde elde edilemeyen ek, çok daha değerli bilgilerin kaynağı haline gelebilir. Bu tür bilgilere örnekler, belirli bir ürünün satışının haftanın gününe, günün saatine veya mevsime nasıl bağlı olduğu, hangi alıcı kategorilerinin belirli bir ürünü en sık satın aldığı, belirli bir ürünün alıcılarının ne kadarının başka bir belirli ürünü satın aldığı hakkında bilgilerdir. , hangi müşteri kategorisi en sık krediyi zamanında geri ödemez.

    Bu tür bilgiler genellikle tahminde, stratejik planlamada, risk analizinde kullanılır ve işletme için değeri çok yüksektir. Görünüşe göre, bu yüzden onu arama süreci Veri Madenciliği olarak adlandırıldı (İngilizce'de madencilik, "madencilik" anlamına gelir ve büyük bir gerçek veri kümesindeki kalıpları aramak gerçekten buna benzer). Veri Madenciliği terimi, belirli bir teknolojiden çok, çeşitli matematiksel ve istatistiksel algoritmalar aracılığıyla korelasyonları, eğilimleri, ilişkileri ve kalıpları arama sürecini ifade eder: kümeleme, alt örnekleme, regresyon ve korelasyon analizi. Bu aramanın amacı, verileri iş süreçlerini açıkça yansıtan bir biçimde sunmak ve iş planlaması için kritik olan süreçleri (örneğin, belirli mallar veya talep dinamikleri) tahmin etmek için kullanılabilecek bir model oluşturmaktır. hizmetler veya satın almalarının belirli tüketici özelliklerine bağımlılığı).

    Uzun süredir veri analizi için ana araç olarak kalan geleneksel matematiksel istatistiklerin yanı sıra, daha önce birçok kez yazdığımız çevrimiçi analitik işleme (OLAP) araçlarının (CD'mizde bu konuyla ilgili materyallere bakın) yapabileceğini unutmayın. bu tür sorunları çözmek için her zaman başarılı bir şekilde kullanılamaz. Tipik olarak, önceden formüle edilmiş hipotezleri test etmek için istatistiksel yöntemler ve OLAP kullanılır. Bununla birlikte, çoğu zaman en çok ortaya çıkan hipotezin formülasyonudur. zorlu görev Verilerdeki tüm örüntüler ilk bakışta açık olmadığı için sonraki karar verme için iş analizini uygularken.

    Modern Veri Madenciliği teknolojisinin temeli, veri alt örneklerinde bulunan kalıpları yansıtan kalıplar kavramıdır. Modeller, bu alt örneklerle ilgili herhangi bir a priori varsayım kullanmayan yöntemlerle aranır. İstatistiksel analiz veya OLAP uygulamaları genellikle “Bu hizmetin müşterileri tarafından ortalama ödenmemiş fatura sayısı nedir?” gibi sorular formüle ederken, Veri madenciliği kural olarak “Tipik bir müşteri kategorisi var mı?” Gibi soruların cevapları anlamına gelir. faturaları öde?” . Aynı zamanda, pazarlama politikasına ve müşterilerle çalışmanın organizasyonuna genellikle daha önemsiz olmayan bir yaklaşım sağlayan ikinci sorunun cevabıdır.

    Veri Madenciliğinin önemli bir özelliği, aranan modellerin standart olmaması ve açık olmamasıdır. Başka bir deyişle, Veri Madenciliği araçları, istatistiksel veri işleme araçlarından ve OLAP araçlarından, kullanıcıların varsaydığı karşılıklı bağımlılıkları kontrol etmek yerine, kendi başlarına mevcut veriler temelinde bu tür karşılıklı bağımlılıkları bulabilmeleri ve bunların doğası hakkında hipotezler kurabilmeleri bakımından farklıdır.

    Veri Madenciliği araçlarının kullanımının, istatistiksel araçların ve OLAP araçlarının kullanımını dışlamadığına dikkat edilmelidir, çünkü ikincisini kullanan veri işlemenin sonuçları, kural olarak, olması gereken kalıpların doğasının daha iyi anlaşılmasına katkıda bulunur. aranır.

    Veri Madenciliği için ilk veriler

    İdeal olarak doğru tasarlanmış bir veri ambarında bulunan yeterince büyük miktarda veri varsa, Veri Madenciliğinin kullanımı haklı çıkar (aslında, veri ambarlarının kendileri genellikle karar desteği ile ilgili analiz ve tahmin problemlerini çözmek için oluşturulur). Ayrıca veri ambarları oluşturma ilkeleri hakkında defalarca yazdık; ilgili materyaller CD'mizde bulunabilir, bu yüzden bu konu üzerinde durmayacağız. Yalnızca, depolamadaki verilerin, tüm kuruluş için ortak olan ve herhangi bir zamanda faaliyetlerinin bir resmini geri yüklemenize izin veren, yenilenmiş bir küme olduğunu hatırlıyoruz. Ayrıca, depolama veri yapısının, kendisine yapılan isteklerin yürütülmesinin mümkün olduğunca verimli bir şekilde gerçekleştirileceği şekilde tasarlandığını da unutmayın. Ancak, yalnızca veri ambarlarında değil, aynı zamanda OLAP küplerinde, yani önceden işlenmiş istatistiksel veri kümelerinde de kalıpları, korelasyonları ve eğilimleri arayabilen Veri Madenciliği araçları vardır.

    Veri Madenciliği yöntemleriyle ortaya çıkan örüntü türleri

    V.A.Dyuk'a göre, Veri Madenciliği yöntemleriyle tanımlanan beş standart model türü vardır:

    ilişkilendirme - olayları birbirine bağlama olasılığı yüksek (örneğin, bir ürün genellikle diğeriyle birlikte satın alınır);

    Sıra - zamanla ilgili bir olaylar zincirinin yüksek olasılığı (örneğin, bir ürünün satın alınmasından sonraki belirli bir süre içinde, bir başkası yüksek derecede bir olasılıkla satın alınacaktır);

    Sınıflandırma - belirli bir olayın veya nesnenin ait olduğu grubu karakterize eden işaretler vardır (genellikle, önceden sınıflandırılmış olayların analizine dayanarak belirli kurallar formüle edilir);

    Kümeleme, sınıflandırmaya benzer bir kalıptır ve bu durumda grupların kendilerinin ayarlanmadığı için ondan farklıdır - veri işleme sırasında otomatik olarak algılanırlar;

    Zamansal kalıplar - belirli verilerin davranışının dinamiklerinde kalıpların varlığı (tipik bir örnek, belirli mal veya hizmetlere yönelik talepteki mevsimsel dalgalanmalardır) tahmin için kullanılır.

    Veri Madenciliğinde veri madenciliği yöntemleri

    Günümüzde oldukça fazla sayıda farklı veri madenciliği yöntemi bulunmaktadır. V.A. Dyuk tarafından önerilen yukarıdaki sınıflandırmaya dayanarak, bunlar arasında:

    Regresyon, dağılım ve korelasyon analizi (çoğu modern istatistiksel pakette, özellikle SAS Institute, StatSoft, vb. ürünlerinde uygulanmaktadır);

    Ampirik modellere dayalı belirli bir konu alanında analiz yöntemleri (örneğin, pahalı olmayan finansal analiz araçlarında sıklıkla kullanılır);

    Fikri sinir dokusunun işleyişi ile bir analojiye dayanan ve ilk parametrelerin "nöronlar" arasındaki mevcut bağlantılara göre dönüştürülen sinyaller olarak kabul edilmesi gerçeğinde yatan sinir ağı algoritmaları, ve analizden çıkan cevap olarak, tüm ağın ilk verilere verdiği cevap. Bu durumda bağlantılar, hem orijinal verileri hem de doğru cevapları içeren büyük bir örnek üzerinden ağ öğrenimi adı verilen yöntem kullanılarak oluşturulur;

    Algoritmalar - halihazırda mevcut olan geçmiş verilerden orijinal verilerin yakın bir analogunun seçimi. En yakın komşu yöntemi de denir;

    Karar ağaçları - "Evet" veya "Hayır" cevabını ima eden bir dizi soruya dayanan hiyerarşik bir yapı; rağmen Bu method veri işleme her zaman ideal olarak mevcut kalıpları bulmaz, alınan yanıtın netliği nedeniyle tahmin sistemlerinde oldukça sık kullanılır;

    Küme modelleri (bazen segmentasyon modelleri olarak da adlandırılır), bir veri kümesindeki çeşitli alanların benzer değerlerine dayalı olarak benzer olayları gruplar halinde gruplamak için kullanılır; tahmin sistemlerinin oluşturulmasında da çok popülerdir;

    Veri alt gruplarındaki basit mantıksal olayların kombinasyonlarının frekanslarını hesaplayan sınırlı arama algoritmaları;

    Evrimsel programlama - arama sürecinde değiştirilmiş, başlangıçta belirtilen bir algoritmaya dayalı olarak verilerin karşılıklı bağımlılığını ifade eden bir algoritmanın aranması ve oluşturulması; bazen karşılıklı bağımlılık arayışı, belirli işlev türleri (örneğin, polinomlar) arasında gerçekleştirilir.

    Bunlar ve diğer Veri Madenciliği algoritmaları ve bunları uygulayan araçlar hakkında daha fazla bilgiyi “Veri Madenciliği: Eğitim Kursu»V.A.Dyuk ve A.P.Samoilenko, 2001 yılında "Piter" yayınevi tarafından yayınlandı. Bugün, Rusça'da bu soruna ayrılmış birkaç kitaptan biridir.

    Veri madenciliği araçlarının önde gelen üreticileri

    Çoğu İş Zekası aracı gibi Veri Madenciliği araçları da geleneksel olarak pahalı yazılım araçlarına aittir - bazılarının fiyatı on binlerce dolara ulaşır. Bu nedenle, yakın zamana kadar, bu teknolojinin ana tüketicileri bankalar, finans ve sigorta şirketleri, büyük ticaret işletmeleriydi ve Veri Madenciliği kullanımını gerektiren ana görevler, kredi ve sigorta risklerinin değerlendirilmesi ve bir pazarlama stratejisinin geliştirilmesi olarak kabul edildi. politika, tarife planları ve müşterilerle çalışmanın diğer ilkeleri. Son yıllarda, durum belirli değişiklikler geçirdi: piyasa yazılım Birkaç satıcıdan nispeten ucuz Veri Madenciliği araçları ortaya çıktı ve bu teknolojiyi daha önce hiç düşünmemiş olan küçük ve orta ölçekli işletmeler için kullanılabilir hale getirdi.

    Modern İş Zekası araçları arasında rapor oluşturucular, analitik işleme veri, BI geliştirme araçları (BI Platformları) ve sözde Kurumsal BI Paketleri - veri analizi ve raporlamayla ilgili bir dizi eylemi gerçekleştirmenize olanak tanıyan ve genellikle entegre bir BI kümesi içeren kurumsal çapta veri analizi ve işleme araçları araçlar ve BI uygulama geliştirme araçları. İkincisi, kural olarak, hem raporlama araçlarını hem de OLAP araçlarını ve genellikle Veri Madenciliği araçlarını içerir.

    Gartner Group analistlerine göre Business Objects, Cognos, Information Builders kurumsal ölçekte veri analizi ve işleme pazarında liderdir ve Microsoft ve Oracle da liderlik iddiasındadır (Şekil 1). BI çözümlerine yönelik geliştirme araçlarına gelince, bu alanda liderlik için ana rakipler şunlardır: Microsoft ve SAS Enstitüsü (Şekil 2).

    Microsoft'un İş Zekası araçlarının geniş bir şirket yelpazesine sunulan nispeten ucuz ürünler olduğunu unutmayın. Bu nedenle, bu makalenin sonraki bölümlerinde bu şirketin ürünlerini örnek olarak kullanarak Veri Madenciliğini kullanmanın bazı pratik yönlerini ele alacağız.

    Edebiyat:

    1. Dük V.A. Veri Madenciliği - veri madenciliği. - http://www.olap.ru/basic/dm2.asp .

    2. Dyuk V.A., Samoylenko A.P. Veri Madenciliği: eğitim kursu. - SPb.: Peter, 2001.

    3. B. de Ville. Microsoft Veri Madenciliği. Dijital Baskı, 2001.

    Verileri kaydetme ve saklama yöntemlerinin geliştirilmesi, toplanan ve analiz edilen bilgilerin hacminde hızlı bir artışa yol açmıştır. Veri hacimleri o kadar etkileyicidir ki, böyle bir analize ihtiyaç oldukça açık olmasına rağmen, bir kişinin bunları kendi başına analiz etmesi mümkün değildir, çünkü bu "ham" veriler, karar vermek için kullanılabilecek bilgileri içerir. Otomatik veri analizi yapabilmek için Veri Madenciliği kullanılmaktadır.

    Veri Madenciliği, insan faaliyetinin çeşitli alanlarında kararlar almak için gerekli olan, ham verilerde önceden bilinmeyen önemsiz olmayan, pratik olarak yararlı ve erişilebilir bilgileri keşfetme sürecidir. Veri Madenciliği, Veritabanlarında Bilgi Keşfinin adımlarından biridir.

    Veri Madenciliği yöntemlerini uygulama sürecinde bulunan bilgiler önemsiz olmamalı ve önceden bilinmeyen olmalıdır, örneğin ortalama satışlar değildir. Bilgi, özellikler arasındaki yeni ilişkileri tanımlamalı, bazı özelliklerin değerlerini diğerlerine dayalı olarak tahmin etmeli vb. Bulunan bilgi, bir dereceye kadar kesinlik ile yeni verilere uygulanabilir olmalıdır. Yararlılığı, bu bilginin uygulandığında belirli faydalar getirebilmesi gerçeğinde yatmaktadır. Bilgi, bir matematikçinin değil, kullanıcının anlayabileceği bir biçimde olmalıdır. Örneğin, "eğer ... o zaman ..." mantıksal yapıları bir kişi tarafından en kolay algılanır. Ayrıca, bu tür kurallar çeşitli DBMS'lerde SQL sorguları olarak kullanılabilir. Çıkarılan bilginin kullanıcı için şeffaf olmaması durumunda, yorumlanabilir bir forma getirilmesine izin veren son işleme yöntemleri olmalıdır.

    Veri Madenciliğinde kullanılan algoritmalar çok fazla hesaplama gerektirir. Önceden bu, Veri Madenciliğinin yaygın pratik uygulaması için caydırıcıydı, ancak bugünün üretkenlik artışı modern işlemciler bu sorunun aciliyetini ortadan kaldırdı. Artık makul bir sürede yüzbinlerce ve milyonlarca kaydın niteliksel bir analizini yapmak mümkün.

    Veri Madenciliği yöntemleriyle çözülen görevler:

    1. sınıflandırma- bu, nesnelerin (gözlemler, olaylar) önceden bilinen sınıflardan birine atanmasıdır.
    2. regresyon tahmin sorunları dahil. Sürekli çıktının girdi değişkenlerine bağımlılığının oluşturulması.
    3. kümeleme Bu nesnelerin özünü tanımlayan verilere (özellikler) dayalı bir nesne (gözlemler, olaylar) grubudur. Bir küme içindeki nesneler birbirine "benzer" ve diğer kümelerdeki nesnelerden farklı olmalıdır. Bir küme içindeki nesneler ne kadar benzerse ve kümeler arasındaki fark ne kadar fazlaysa, kümeleme o kadar doğru olur.
    4. bağlantı– ilgili olaylar arasındaki kalıpları belirlemek. Böyle bir modelin bir örneği, Y olayının X olayından çıktığını gösteren bir kuraldır. Bu tür kurallara ilişkisel denir. Bu problem ilk olarak süpermarketlerdeki tipik alışveriş modellerini bulmak için önerildi, bu nedenle bazen pazar sepeti analizi olarak da adlandırılır.
    5. Sıralı Modeller– zamanla ilgili olaylar arasında kalıpların oluşturulması, ör. X olayı meydana gelirse, daha sonra bağımlılık tespiti verilen zaman Y olayı meydana gelir.
    6. Varyans Analizi– en karakteristik olmayan kalıpların tanımlanması.

    İş analizi sorunları farklı şekilde formüle edilir, ancak çoğunun çözümü şu veya bu Veri Madenciliği görevine veya bunların bir kombinasyonuna bağlıdır. Örneğin, risk değerlendirmesi bir regresyon veya sınıflandırma sorununa bir çözümdür, pazar bölümlendirme kümelenmedir, talep teşviki birliktelik kurallarıdır. Aslında, Veri Madenciliği görevleri, gerçek iş sorunlarının büyük çoğunluğuna bir çözüm oluşturabileceğiniz unsurlardır.

    Yukarıdaki problemleri çözmek için çeşitli Veri Madenciliği yöntem ve algoritmaları kullanılmaktadır. Veri Madenciliğinin istatistik, bilgi teorisi gibi disiplinlerin kesiştiği noktada geliştiği ve gelişmekte olduğu gerçeğinden hareketle, makine öğrenme, veritabanı teorisi, Veri Madenciliği algoritmalarının ve yöntemlerinin çoğunun temel alınarak geliştirilmesi oldukça doğaldır. çeşitli metodlar bu disiplinlerden. Örneğin, k-araç kümeleme prosedürü basitçe istatistiklerden ödünç alınmıştır. Aşağıdaki Veri Madenciliği yöntemleri büyük popülerlik kazanmıştır: sinir ağları, karar ağaçları, ölçeklenebilir olanlar da dahil olmak üzere kümeleme algoritmaları, olaylar arasındaki ilişkisel bağlantıları algılamak için algoritmalar vb.

    Deductor, Veri Madenciliği problemlerini çözmek için eksiksiz bir araç seti içeren analitik bir platformdur: doğrusal regresyon, denetimli sinir ağları, denetimsiz sinir ağları, karar ağaçları, birliktelik kuralları arama ve diğerleri. Birçok mekanizma için, ortaya çıkan modelin kullanımını ve sonuçların yorumlanmasını büyük ölçüde kolaylaştıran özel görselleştiriciler sağlanır. Sağlam nokta platform sadece modern analiz algoritmalarının uygulanması değil, aynı zamanda çeşitli analiz mekanizmalarını keyfi olarak birleştirme yeteneğidir.

    Veri Madenciliği Nedir?

    Veri Madenciliği Görev Sınıflandırması

    Birliktelik kurallarını bulma görevi

    kümeleme sorunu

    Statistica 8'deki Veri Madenciliği özellikleri

    Analiz Araçları STATISTICA Veri Madenci

    Data Minin'de çalışmaya bir örnek

    Raporlar ve toplamlar oluşturma

    sıralama bilgileri

    Konut arsa fiyatlarının analizi

    Hayatta kalma tahmin edici analizi

    Çözüm


    Veri Madenciliği Nedir?

    Modern bilgisayar terimi Veri Madenciliği, "bilgi çıkarma" veya "veri madenciliği" olarak çevrilir. Genellikle, Veri Madenciliği ile birlikte Bilgi Keşfi ("bilgi keşfi") ve Veri Ambarı ("veri ambarı") terimleri bulunur. Veri Madenciliğinin ayrılmaz bir parçası olan bu terimlerin ortaya çıkışı, verilerin işlenmesi ve saklanması için araç ve yöntemlerin geliştirilmesinde yeni bir döngü ile ilişkilidir. Bu nedenle, Veri Madenciliğinin amacı, büyük (çok büyük) miktarda verideki gizli kuralları ve kalıpları belirlemektir.

    Gerçek şu ki, insan zihninin kendisi, çok büyük heterojen bilgi dizilerinin algılanması için uyarlanmamıştır. Ortalama olarak, bir kişi, bazı bireyler dışında, küçük örneklerde bile iki veya üçten fazla ilişki yakalayamaz. Ancak, uzun süredir veri analizi için ana araç rolünü üstlenen geleneksel istatistikler, problem çözme sırasında da sıklıkla başarısız oluyor. gerçek hayat. Genellikle hayali değerler olan örneğin ortalama özellikleri üzerinde çalışır (risk fonksiyonuna veya kayıp fonksiyonuna bağlı olarak, müşterinin tutarlılığını ve niyetlerini tahmin edebilmeniz gerektiğinde, müşterinin ortalama ödeme gücü). müşteri; ortalama sinyal yoğunluğu, siz sinyal tepelerinin özellikleri ve ön koşullarıyla ilgilenirken, vb.)

    Bu nedenle yöntemler matematiksel istatistik bir hipotezin tanımı bazen oldukça karmaşık ve zaman alıcı bir görev iken, esas olarak önceden formüle edilmiş hipotezleri test etmek için yararlıdır. Modern teknolojiler için Veri Madenciliği süreç bilgileri otomatik arama heterojen çok boyutlu verilerin herhangi bir parçasının özelliği olan şablonlar (desenler). Çevrimiçi analitik işlemenin (OLAP) aksine, Veri Madenciliği, hipotez oluşturma ve beklenmeyen kalıpları belirleme yükünü kişiden bilgisayara kaydırdı. Veri madenciliği bir değil, çok sayıda farklı bilgi keşif yönteminin birleşimidir. Yöntem seçimi genellikle mevcut veri türüne ve hangi bilgileri elde etmeye çalıştığınıza bağlıdır. Örneğin, bazı yöntemler şunlardır: ilişkilendirme (birleştirme), sınıflandırma, kümeleme, zaman serisi analizi ve tahmini, sinir ağları vb.

    Tanımda verilen keşfedilen bilginin özelliklerini daha ayrıntılı olarak ele alalım.

    Bilgi yeni, daha önce bilinmeyen olmalıdır. Kullanıcı tarafından zaten bilinen bilgiyi keşfetmek için harcanan çaba, karşılığını vermez. Bu nedenle değerli olan yeni, önceden bilinmeyen bilgidir.

    Bilgi önemsiz olmamalıdır. Analizin sonuçları, sözde gizli bilgiyi oluşturan verilerdeki açık olmayan, beklenmedik kalıpları yansıtmalıdır. Daha fazla elde edilebilecek sonuçlar basit yollar(örneğin, görsel inceleme yoluyla), güçlü Veri Madenciliği yöntemlerinin kullanımını haklı çıkarmaz.

    Bilgi pratik olarak faydalı olmalıdır. Bulunan bilgi, yeni veriler de dahil olmak üzere, yeterince yüksek derecede güvenilirlikle uygulanabilir olmalıdır. Yararlılığı, bu bilginin uygulanmasında bir miktar fayda sağlayabileceği gerçeğinde yatmaktadır.

    Bilgi, insan anlayışı için erişilebilir olmalıdır. Bulunan örüntüler mantıksal olarak açıklanabilir olmalıdır, aksi takdirde rastgele olma ihtimalleri vardır. Ayrıca keşfedilen bilgi, insanların anlayabileceği bir biçimde sunulmalıdır.

    Veri Madenciliğinde, edinilen bilgiyi temsil etmek için modeller kullanılır. Model türleri, yaratılma yöntemlerine bağlıdır. En yaygın olanları şunlardır: kurallar, karar ağaçları, kümeler ve matematik işlevleri.

    Veri Madenciliğinin kapsamı sınırsızdır - Herhangi bir verinin olduğu her yerde Veri Madenciliğine ihtiyaç vardır. Bu tür birçok işletmenin deneyimi, Veri Madenciliği kullanımının getirisinin %1000'e ulaşabileceğini göstermektedir. Örneğin, 350 ila 750 bin dolar arasında başlangıç ​​maliyetlerinden 10-70 kat daha yüksek ekonomik fayda raporları var. Sadece 4 ayda amorti edilen 20 milyon dolarlık bir proje hakkında bilgi verildi. Diğer bir örnek ise yıllık 700.000 dolarlık tasarruftur. İngiltere'deki süpermarket zincirinde Veri Madenciliğinin tanıtılmasıyla. Veri madenciliği, günlük faaliyetlerinde yöneticiler ve analistler için büyük değer taşır. İş adamı Veri Madenciliği yöntemlerinin yardımıyla somut rekabet avantajları elde edebileceklerini fark ettiler.

    DataMining Görev Sınıflandırması

    DataMining yöntemleri, bir analistin karşılaştığı sorunların çoğunu çözmenize olanak tanır. Bunlardan başlıcaları: sınıflandırma, regresyon, birliktelik kurallarının aranması ve kümelemedir. Aşağıda Kısa Açıklama veri analizinin ana görevleri.

    1) Sınıflandırma görevi, bir nesnenin sınıfını özelliklerine göre belirlemeye indirgenir. Bu problemde, bir nesnenin atanabileceği sınıflar kümesinin önceden bilindiğine dikkat edilmelidir.

    2) Regresyon görevi, sınıflandırma görevi gibi, bir nesnenin bilinen özelliklerine dayalı olarak bazı parametrelerinin değerini belirlemenize olanak tanır. Sınıflandırma probleminin aksine, parametre değeri sonlu bir sınıflar kümesi değil, bir gerçek sayılar kümesidir.

    3) Derneğin görevi. Birliktelik kurallarını ararken amaç, nesneler veya olaylar arasındaki sık bağımlılıkları (veya ilişkileri) bulmaktır. Bulunan bağımlılıklar kurallar şeklinde sunulur ve hem analiz edilen verilerin doğasının daha iyi anlaşılması hem de olayların oluşumunu tahmin etmek için kullanılabilir.

    4) Kümelemenin görevi, analiz edilen tüm veri setinde bağımsız grupları (kümeler) ve bunların özelliklerini bulmaktır. Bu sorunu çözmek, verileri daha iyi anlamanıza yardımcı olur. Ek olarak, homojen nesnelerin gruplandırılması, sayılarını azaltmayı ve dolayısıyla analizi kolaylaştırmayı mümkün kılar.

    5) Sıralı örüntüler - zamanla ilgili olaylar arasında örüntüler oluşturmak, yani. X olayı meydana gelirse, Y olayının belirli bir süre sonra gerçekleşeceğine olan bağımlılığın tespiti.

    6) Sapmaların analizi - en karakteristik olmayan kalıpların belirlenmesi.

    Listelenen görevler amaca göre açıklayıcı ve öngörücü olarak ayrılmıştır.

    Tanımlayıcı görevler, analiz edilen verilerin anlaşılmasını geliştirmeye odaklanır. Bu tür modellerde kilit nokta, insan algısı için sonuçların kolaylığı ve şeffaflığıdır. Belki de keşfedilen modeller, araştırılan belirli verilerin belirli bir özelliği olacak ve başka hiçbir yerde bulunamayacak, ancak bu yine de yararlı olabilir ve bu nedenle bilinmelidir. Bu tür bir problem, kümelemeyi ve birliktelik kurallarının aranmasını içerir.

    Öngörü problemlerinin çözümü iki aşamaya ayrılır. İlk adım, bilinen sonuçlara sahip bir veri kümesine dayalı bir model oluşturmaktır. İkinci adımda, yeni veri kümelerine dayalı sonuçları tahmin etmek için kullanılır. Bu durumda elbette oluşturulan modellerin mümkün olduğunca doğru çalışması gerekir. İLE Bu tür görevler, sınıflandırma ve regresyon görevlerini içerir. Bu, çözümünün sonuçları belirli olayların oluşumunu tahmin etmek için kullanılabiliyorsa, birliktelik kurallarını bulma sorununu içerir.

    Problem çözme yöntemlerine göre denetimli öğrenme (öğretmenle öğrenme) ve denetimsiz öğrenme (öğretmensiz öğrenme) olarak ikiye ayrılırlar. Bu isim, İngiliz dili literatüründe sıklıkla kullanılan ve tüm Veri Madenciliği teknolojilerini ifade eden Makine Öğrenimi teriminden gelmektedir.

    Denetimli öğrenme durumunda, veri analizi görevi birkaç aşamada çözülür. İlk olarak, bazı Veri Madenciliği algoritması kullanılarak, analiz edilen verilerin bir modeli oluşturulur - bir sınıflandırıcı. Daha sonra sınıflandırıcı eğitilir. Başka bir deyişle, çalışmasının kalitesi kontrol edilir ve yetersiz ise sınıflandırıcı ayrıca eğitilir. Bu, istenen kalite düzeyine ulaşılana veya seçilen algoritmanın verilerle doğru çalışmadığı veya verinin kendisinin tanımlanabilecek bir yapıya sahip olmadığı anlaşılana kadar devam eder. Bu tür bir problem, sınıflandırma ve regresyon problemlerini içerir.

    Denetimsiz öğrenme, büyük bir mağazadaki müşterilerden satın alma kalıpları gibi açıklayıcı kalıpları belirleyen görevleri birleştirir. Açıkçası, eğer bu modeller varsa, o zaman model onları temsil etmelidir ve öğrenmesinden bahsetmek uygun değildir. Bu nedenle adı - denetimsiz öğrenme. Bu tür problemlerin avantajı, analiz edilen veriler hakkında önceden bilgi sahibi olmadan bunları çözme olasılığıdır. Bunlar kümeleme ve birliktelik kurallarını bulmayı içerir.

    Sınıflandırma ve regresyon problemi

    Analiz yapılırken, incelenen nesnelerin bilinen sınıflardan hangisine ait olduğunu belirlemek, yani onları sınıflandırmak genellikle gereklidir. Örneğin, bir kişi kredi için bankaya başvurduğunda, banka çalışanı bir karar vermelidir: potansiyel müşterinin kredibilitesi olup olmadığına. Böyle bir kararın, incelenen nesne hakkındaki verilere dayanarak verildiği açıktır (içinde). bu durum- kişi): iş yeri, büyüklüğü ücretler, yaş, aile yapısı vb. Bu bilgilerin analizi sonucunda bir banka çalışanı, bir kişiyi bilinen iki sınıftan birine "krediye değer" ve "güvenilmez" olarak atfetmelidir.

    E-posta filtreleme, sınıflandırma görevinin başka bir örneğidir. Bu durumda, filtreleme programı sınıflandırmalıdır beklenmeyen mesaj spam (önemsiz E-posta) veya bir mektup olarak. Bu karar mesajdaki belirli kelimelerin görülme sıklığına göre kabul edilir (örneğin, alıcının adı, kişisel olmayan adresi, kelimeler ve ifadeler: edin, "kazan", " karlı teklif" vb.).