Konsep data mining telah menjadi populer di Masuk Data Mining Wiki

Kirim karya bagus Anda di basis pengetahuan sederhana. Gunakan formulir di bawah ini

Mahasiswa, mahasiswa pascasarjana, ilmuwan muda yang menggunakan basis pengetahuan dalam studi dan pekerjaan mereka akan sangat berterima kasih kepada Anda.

Dokumen serupa

    Klasifikasi tugas DataMining. Pembuatan laporan dan ringkasan. Fitur Data Miner di Statistica. Masalah klasifikasi, clustering dan regresi. Alat Analisis Statistica Data Miner. Inti masalahnya adalah pencarian aturan asosiasi. Analisis prediktor kelangsungan hidup.

    makalah, ditambahkan 19/05/2011

    Keterangan Kegunaan Teknologi Data Mining sebagai proses untuk menemukan data yang tidak diketahui. Studi tentang sistem inferensi aturan asosiasi dan mekanisme algoritma jaringan saraf. Deskripsi algoritma clustering dan ruang lingkup Data Mining.

    tes, ditambahkan 14/06/2013

    Dasar-dasar untuk pengelompokan. Menggunakan Data Mining sebagai cara untuk "menemukan pengetahuan dalam database". Pilihan algoritma pengelompokan. Mengambil data dari penyimpanan database bengkel jarak jauh. Mengelompokkan siswa dan tugas.

    makalah, ditambahkan 07/10/2017

    Data mining, sejarah perkembangan data mining dan penemuan pengetahuan. Elemen teknologi dan metode penambangan data. Langkah-langkah dalam penemuan pengetahuan. Deteksi perubahan dan penyimpangan. Disiplin terkait, pencarian informasi dan ekstraksi teks.

    laporan, ditambahkan 16/06/2012

    Analisis masalah yang timbul dalam penerapan metode clustering dan algoritma. Algoritma pengelompokan dasar. RapidMiner sebagai lingkungan untuk pembelajaran mesin dan analisis data. Penilaian kualitas clustering menggunakan metode Data Mining.

    makalah, ditambahkan 22/10/2012

    Meningkatkan teknologi untuk merekam dan menyimpan data. Kekhususan persyaratan modern untuk pemrosesan data informasi. Konsep pola yang mencerminkan fragmen hubungan multidimensi dalam data adalah inti dari teknologi Data Mining modern.

    tes, ditambahkan 09/02/2010

    Analisis penggunaan jaringan saraf untuk peramalan situasi dan pengambilan keputusan di pasar saham menggunakan paket perangkat lunak pemodelan jaringan saraf Trajan 3.0. Transformasi data primer, tabel. Penilaian ergonomis dari program.

    tesis, ditambahkan 27/06/2011

    Kesulitan dalam menggunakan algoritma evolusioner. Konstruksi sistem komputasi berdasarkan prinsip-prinsip seleksi alam. Kekurangan dari algoritma genetika. Contoh algoritma evolusioner. Arah dan bagian dari pemodelan evolusioner.

    Data mining dibagi menjadi dua kelompok besar sesuai dengan prinsip bekerja dengan data pelatihan awal. Dalam klasifikasi ini level tertinggi ditentukan berdasarkan apakah data disimpan setelah Data Mining atau disuling untuk digunakan nanti.

    1. Penggunaan data secara langsung, atau menyimpan data.

    Dalam hal ini, data awal disimpan dalam bentuk detail yang eksplisit dan langsung digunakan pada tahapan dan/atau analisis pengecualian. Masalah dengan kelompok metode ini adalah ketika menggunakannya, mungkin sulit untuk menganalisis database yang sangat besar.

    Metode kelompok ini: analisis cluster, metode tetangga terdekat, metode k-nearest tetangga, penalaran dengan analogi.

    2. Identifikasi dan penggunaan formal pola, atau distilasi template.

    Dengan teknologi pola distilasi satu sampel (templat) informasi diekstraksi dari data sumber dan diubah menjadi beberapa konstruksi formal, yang bentuknya tergantung pada metode Data Mining yang digunakan. Proses ini dilakukan pada tahap pencarian gratis, kelompok metode pertama pada prinsipnya tidak memiliki tahap ini. Di atas panggung pemodelan prediktif Dan analisis pengecualian hasil panggung digunakan pencarian gratis, mereka jauh lebih kompak daripada database itu sendiri. Ingatlah bahwa konstruksi model ini dapat ditafsirkan oleh analis atau tidak dapat ditafsirkan ("kotak hitam").

    Metode kelompok ini: metode logis ; metode visualisasi; metode tab silang; metode berdasarkan persamaan.

    Metode logis, atau metode induksi logis, meliputi: query dan analisis fuzzy; aturan simbolis; pohon keputusan; algoritma genetika.

    Metode kelompok ini mungkin yang paling dapat ditafsirkan - mereka menyusun pola yang ditemukan, dalam banyak kasus, dalam bentuk yang cukup transparan dari sudut pandang pengguna. Aturan yang dihasilkan dapat mencakup variabel kontinu dan diskrit. Perlu dicatat bahwa pohon keputusan dapat dengan mudah diubah menjadi set aturan simbolik dengan menghasilkan satu aturan di sepanjang jalur dari akar pohon ke akarnya. simpul terminal. Pohon keputusan dan aturan sebenarnya cara yang berbeda solusi untuk masalah yang sama dan hanya berbeda dalam kemampuannya. Selain itu, implementasi aturan dilakukan oleh algoritma yang lebih lambat daripada induksi pohon keputusan.

    Metode tab silang: agen, jaringan Bayesian (kepercayaan), visualisasi tab silang. Metode terakhir tidak sesuai dengan salah satu properti Data Mining - pencarian independen pola sistem analitis. Namun, memberikan informasi dalam bentuk tab silang memberikan implementasi tugas utama Data Mining - pencarian pola, sehingga metode ini juga dapat dianggap sebagai salah satu metode Data Mining.

    Metode berdasarkan persamaan.

    Metode kelompok ini mengekspresikan pola yang terungkap dalam bentuk ekspresi matematika - persamaan. Oleh karena itu, mereka hanya dapat bekerja dengan variabel numerik, dan variabel jenis lain harus dikodekan sesuai. Hal ini agak membatasi penerapan metode kelompok ini, namun metode ini banyak digunakan dalam memecahkan berbagai masalah, terutama masalah peramalan.

    Metode utama grup ini: metode statistik dan jaringan saraf

    Metode statistik paling sering digunakan untuk memecahkan masalah peramalan. Ada banyak metode analisis data statistik, di antaranya, misalnya, analisis korelasi dan regresi, korelasi deret waktu, identifikasi tren dalam deret waktu, analisis harmonik.

    Klasifikasi lain membagi seluruh variasi metode Data Mining menjadi dua kelompok: metode statistik dan sibernetik. Skema pemisahan ini didasarkan pada pendekatan pembelajaran yang berbeda model matematika.

    Perlu dicatat bahwa ada dua pendekatan untuk mengklasifikasikan metode statistik sebagai Data Mining. Yang pertama menentang metode statistik dan Data Mining, pendukungnya menganggap metode statistik klasik sebagai area analisis data yang terpisah. Menurut pendekatan kedua, metode analisis statistik adalah bagian dari perangkat matematika Data Mining. Sebagian besar sumber otoritatif mengambil pendekatan kedua.

    Dalam klasifikasi ini, dua kelompok metode dibedakan:

    • metode statistik berdasarkan penggunaan rata-rata akumulasi pengalaman, yang tercermin dalam data retrospektif;
    • metode sibernetik, termasuk banyak pendekatan matematika yang heterogen.

    Kerugian dari klasifikasi semacam itu adalah bahwa baik algoritma statistik maupun sibernetik bergantung pada satu atau lain cara pada perbandingan pengalaman statistik dengan hasil pemantauan situasi saat ini.

    Keuntungan dari klasifikasi semacam itu adalah kemudahannya untuk interpretasi - digunakan dalam deskripsi sarana matematis dari pendekatan modern untuk menggali pengetahuan dari array pengamatan awal (operasional dan retrospektif), yaitu dalam tugas Data Mining.

    Mari kita lihat lebih dekat kelompok-kelompok di atas.

    Metode Statistik Data mining

    Dalam metode ini ada empat bagian yang saling terkait:

    • analisis awal sifat data statistik (menguji hipotesis stasioneritas, normalitas, independensi, homogenitas, evaluasi jenis fungsi distribusi, parameternya, dll.);
    • mengidentifikasi tautan dan pola(analisis regresi linier dan non-linier, analisis korelasi, dll.);
    • analisis statistik multivariat (analisis diskriminan linier dan nonlinier, analisis klaster, analisis komponen, analisis faktor dan sebagainya.);
    • model dinamis dan perkiraan berdasarkan deret waktu.

    Gudang metode statistik Data Mining diklasifikasikan menjadi empat kelompok metode:

    1. Analisis deskriptif dan deskripsi data awal.
    2. Analisis hubungan (analisis korelasi dan regresi, analisis faktor, analisis varian).
    3. Analisis statistik multivariat (analisis komponen, analisis diskriminan, analisis regresi multivariat, korelasi kanonik, dll.).
    4. Analisis deret waktu ( model dinamis dan perkiraan).

    Metode Penambangan Data Sibernetik

    Arah kedua dari Data Mining adalah seperangkat pendekatan yang disatukan oleh ide matematika komputer dan penggunaan teori kecerdasan buatan.

    Apa itu Penambangan Data?

    Basis data perusahaan dari setiap perusahaan modern biasanya berisi satu set tabel yang menyimpan catatan tentang fakta atau objek tertentu (misalnya, tentang produk, penjualannya, pelanggan, faktur). Sebagai aturan, setiap entri dalam tabel semacam itu menggambarkan objek atau fakta tertentu. Misalnya, entri dalam tabel penjualan mencerminkan fakta bahwa produk ini dan itu dijual kepada klien ini dan itu oleh manajer ini dan itu pada waktu itu, dan pada umumnya tidak berisi apa pun kecuali informasi ini. Namun, agregat jumlah yang besar catatan seperti itu yang terakumulasi selama beberapa tahun dapat menjadi sumber informasi tambahan yang jauh lebih berharga yang tidak dapat diperoleh berdasarkan satu catatan khusus, yaitu informasi tentang pola, tren, atau saling ketergantungan antara data apa pun. Contoh informasi tersebut adalah informasi tentang bagaimana penjualan produk tertentu bergantung pada hari dalam seminggu, waktu dalam sehari atau musim, kategori pembeli mana yang paling sering membeli produk tertentu, bagian mana dari pembeli satu produk tertentu yang membeli produk tertentu lainnya. produk, kategori nasabah mana yang paling sering tidak melunasi pinjaman tepat waktu.

    Informasi semacam ini biasanya digunakan dalam peramalan, perencanaan strategis, analisis risiko, dan nilainya bagi perusahaan sangat tinggi. Rupanya, inilah mengapa proses pencariannya disebut Data Mining (menambang dalam bahasa Inggris berarti "menambang", dan pencarian pola dalam kumpulan data aktual yang sangat besar sangat mirip dengan ini). Istilah Data Mining tidak terlalu mengacu pada teknologi tertentu melainkan pada proses pencarian korelasi, tren, hubungan, dan pola melalui berbagai algoritma matematika dan statistik: pengelompokan, subsampling, regresi, dan analisis korelasi. Tujuan dari pencarian ini adalah untuk menyajikan data dalam bentuk yang secara jelas mencerminkan proses bisnis, serta untuk membangun model yang dapat digunakan untuk memprediksi proses yang penting untuk perencanaan bisnis (misalnya, dinamika permintaan barang atau jasa tertentu). layanan atau ketergantungan pembelian mereka pada karakteristik konsumen tertentu).

    Perhatikan bahwa statistik matematika tradisional, yang untuk waktu yang lama tetap menjadi alat utama untuk analisis data, serta alat pemrosesan analitik online (OLAP), yang telah kami tulis berkali-kali (lihat materi tentang topik ini di CD kami) , dapat tidak selalu berhasil digunakan untuk memecahkan masalah seperti itu. Biasanya, metode statistik dan OLAP digunakan untuk menguji hipotesis yang telah dirumuskan sebelumnya. Namun, seringkali rumusan hipotesis yang ternyata paling tugas yang menantang saat menerapkan analisis bisnis untuk pengambilan keputusan selanjutnya, karena tidak semua pola dalam data terlihat jelas pada pandangan pertama.

    Dasar dari teknologi Data Mining modern adalah konsep pola yang mencerminkan pola yang melekat pada subsampel data. Pola dicari menggunakan metode yang tidak menggunakan asumsi apriori tentang subsampel ini. Sementara analisis statistik atau aplikasi OLAP biasanya merumuskan pertanyaan seperti "Berapa jumlah rata-rata faktur yang belum dibayar oleh pelanggan layanan ini?", Data mining, sebagai suatu peraturan, berarti jawaban atas pertanyaan seperti "Apakah ada kategori khas pelanggan yang tidak membayar tagihan?” . Pada saat yang sama, itu adalah jawaban atas pertanyaan kedua yang sering memberikan pendekatan yang lebih non-sepele untuk kebijakan pemasaran dan organisasi kerja dengan klien.

    Fitur penting dari Data Mining adalah pola yang tidak standar dan tidak jelas yang dicari. Dengan kata lain, alat Data Mining berbeda dari alat pemrosesan data statistik dan alat OLAP dalam hal itu, alih-alih memeriksa saling ketergantungan yang diandaikan pengguna, mereka dapat menemukan saling ketergantungan tersebut berdasarkan data yang tersedia sendiri dan membangun hipotesis tentang sifatnya.

    Perlu dicatat bahwa penggunaan alat Data Mining tidak mengecualikan penggunaan alat statistik dan alat OLAP, karena hasil pemrosesan data menggunakan yang terakhir, sebagai aturan, berkontribusi pada pemahaman yang lebih baik tentang sifat pola yang seharusnya dicari.

    Data awal untuk Data Mining

    Penggunaan Data Mining dibenarkan jika ada jumlah data yang cukup besar, idealnya terkandung dalam gudang data yang dirancang dengan benar (pada kenyataannya, gudang data itu sendiri biasanya dibuat untuk memecahkan masalah analisis dan peramalan yang terkait dengan pendukung keputusan). Kami juga berulang kali menulis tentang prinsip membangun gudang data; materi yang relevan dapat ditemukan di CD kami, jadi kami tidak akan membahas masalah ini. Kami hanya ingat bahwa data dalam penyimpanan adalah kumpulan yang diisi ulang, umum untuk seluruh perusahaan dan memungkinkan Anda untuk memulihkan gambaran aktivitasnya kapan saja. Perhatikan juga bahwa struktur data penyimpanan dirancang sedemikian rupa sehingga eksekusi kueri untuk itu dilakukan seefisien mungkin. Namun, ada alat Data Mining yang dapat mencari pola, korelasi, dan tren tidak hanya di gudang data, tetapi juga di kubus OLAP, yaitu, dalam kumpulan data statistik yang telah diproses sebelumnya.

    Jenis pola yang diungkapkan oleh metode Data Mining

    Menurut V.A.Dyuk, ada lima tipe standar pola yang diidentifikasi oleh metode Data Mining:

    Asosiasi - probabilitas tinggi untuk menghubungkan peristiwa satu sama lain (misalnya, satu produk sering dibeli bersama dengan yang lain);

    Urutan - probabilitas tinggi dari rantai peristiwa yang terkait dalam waktu (misalnya, dalam periode tertentu setelah pembelian satu produk, yang lain akan dibeli dengan tingkat probabilitas tinggi);

    Klasifikasi - ada tanda-tanda yang menjadi ciri kelompok tempat peristiwa atau objek ini atau itu berada (biasanya, aturan tertentu dirumuskan berdasarkan analisis peristiwa yang sudah diklasifikasikan);

    Pengelompokan adalah pola yang mirip dengan klasifikasi dan berbeda darinya karena grup itu sendiri tidak diatur dalam kasus ini - mereka terdeteksi secara otomatis selama pemrosesan data;

    Pola temporal - keberadaan pola dalam dinamika perilaku data tertentu (contoh tipikal adalah fluktuasi musiman dalam permintaan barang atau jasa tertentu) yang digunakan untuk peramalan.

    Metode penambangan data dalam Penambangan Data

    Saat ini ada cukup banyak metode data mining yang berbeda. Berdasarkan klasifikasi di atas yang dikemukakan oleh V.A. Dyuk, di antaranya adalah:

    Analisis regresi, dispersi dan korelasi (diimplementasikan dalam sebagian besar paket statistik modern, khususnya dalam produk SAS Institute, StatSoft, dll.);

    Metode analisis dalam bidang subjek tertentu berdasarkan model empiris (sering digunakan, misalnya, dalam alat analisis keuangan yang murah);

    Algoritma jaringan saraf, gagasan yang didasarkan pada analogi dengan fungsi jaringan saraf dan terletak pada kenyataan bahwa parameter awal dianggap sebagai sinyal yang ditransformasikan sesuai dengan koneksi yang ada antara "neuron", dan sebagai jawaban yang dihasilkan dari analisis, respon seluruh jaringan terhadap data awal. Tautan dalam hal ini dibuat menggunakan apa yang disebut pembelajaran jaringan melalui sampel besar yang berisi data asli dan jawaban yang benar;

    Algoritma - pilihan analog dekat dari data asli dari data historis yang sudah tersedia. Disebut juga metode tetangga terdekat;

    Pohon keputusan - struktur hierarkis berdasarkan serangkaian pertanyaan yang menyiratkan jawaban "Ya" atau "Tidak"; meskipun metode ini pengolahan data tidak selalu idealnya menemukan pola yang ada, cukup sering digunakan dalam sistem peramalan karena kejelasan respon yang diterima;

    Model cluster (kadang-kadang juga disebut model segmentasi) digunakan untuk mengelompokkan peristiwa serupa ke dalam grup berdasarkan nilai serupa dari beberapa bidang dalam kumpulan data; juga sangat populer dalam pembuatan sistem peramalan;

    Algoritma pencarian terbatas yang menghitung frekuensi kombinasi kejadian logis sederhana dalam subkelompok data;

    Pemrograman evolusioner - pencarian dan pembuatan algoritma yang mengekspresikan saling ketergantungan data, berdasarkan pada algoritma yang ditentukan pada awalnya, dimodifikasi dalam proses pencarian; terkadang pencarian interdependensi dilakukan di antara jenis fungsi tertentu (misalnya, polinomial).

    Anda dapat membaca lebih lanjut tentang ini dan algoritme Data Mining lainnya, serta tentang alat yang mengimplementasikannya, dalam buku “Data Mining: kursus pelatihan»V.A.Dyuk dan A.P.Samoilenko, diterbitkan oleh penerbit "Piter" pada tahun 2001. Hari ini adalah salah satu dari sedikit buku dalam bahasa Rusia yang membahas masalah ini.

    Produsen terkemuka alat penambangan data

    Alat Data Mining, seperti kebanyakan alat Business Intelligence, secara tradisional termasuk dalam alat perangkat lunak yang mahal - harga beberapa di antaranya mencapai beberapa puluh ribu dolar. Oleh karena itu, hingga saat ini, konsumen utama teknologi ini adalah bank, perusahaan keuangan dan asuransi, perusahaan perdagangan besar, dan tugas utama yang memerlukan penggunaan Data Mining dianggap sebagai penilaian risiko kredit dan asuransi dan pengembangan pemasaran. aturan, rencana tarif dan prinsip kerja lainnya dengan klien. Dalam beberapa tahun terakhir, situasinya telah mengalami perubahan tertentu: pasar perangkat lunak Alat Data Mining yang relatif murah dari beberapa vendor telah muncul, membuat teknologi ini tersedia untuk usaha kecil dan menengah yang belum pernah memikirkannya sebelumnya.

    Alat Business Intelligence modern termasuk pembuat laporan, pemrosesan analitis data, alat pengembangan BI (Platform BI) dan apa yang disebut Enterprise BI Suites - alat analisis dan pemrosesan data seluruh perusahaan yang memungkinkan Anda melakukan serangkaian tindakan yang terkait dengan analisis dan pelaporan data, dan sering kali menyertakan serangkaian BI terintegrasi alat dan alat pengembangan aplikasi BI. Yang terakhir, sebagai aturan, berisi alat pelaporan dan alat OLAP, dan seringkali alat Data Mining.

    Menurut analis Gartner Group, Business Objects, Cognos, Information Builders adalah pemimpin di pasar pemrosesan dan analisis data skala perusahaan, dan Microsoft serta Oracle juga mengklaim kepemimpinan (Gbr. 1). Adapun alat pengembangan untuk solusi BI, pesaing utama untuk kepemimpinan di bidang ini adalah Microsoft dan SAS Institute (Gbr. 2).

    Perhatikan bahwa alat Intelijen Bisnis Microsoft adalah produk yang relatif murah yang tersedia untuk berbagai perusahaan. Itulah sebabnya kami akan mempertimbangkan beberapa aspek praktis dalam menggunakan Data Mining menggunakan produk-produk perusahaan ini sebagai contoh di bagian selanjutnya dari artikel ini.

    Literatur:

    1. Adipati V.A. Penambangan Data - penambangan data. - http://www.olap.ru/basic/dm2.asp .

    2. Dyuk V.A., Samoylenko A.P. Data Mining: kursus pelatihan. - St. Petersburg: Peter, 2001.

    3. B. de Ville. Penambangan Data Microsoft. Pers Digital, 2001.

    Perkembangan metode untuk merekam dan menyimpan data telah menyebabkan peningkatan pesat dalam volume informasi yang dikumpulkan dan dianalisis. Volume data sangat mengesankan sehingga tidak mungkin bagi seseorang untuk menganalisisnya sendiri, meskipun kebutuhan akan analisis semacam itu cukup jelas, karena data "mentah" ini mengandung pengetahuan yang dapat digunakan untuk membuat keputusan. Untuk melakukan analisis data secara otomatis, digunakan Data Mining.

    Data Mining adalah proses menemukan pengetahuan non-sepele yang sebelumnya tidak diketahui, berguna secara praktis dan dapat diakses dalam data mentah, yang diperlukan untuk membuat keputusan di berbagai bidang aktivitas manusia. Data Mining merupakan salah satu tahapan Knowledge Discovery dalam Database.

    Informasi yang ditemukan dalam proses penerapan metode Data Mining harus non-sepele dan sebelumnya tidak diketahui, misalnya penjualan rata-rata tidak. Pengetahuan harus menggambarkan hubungan baru antara properti, memprediksi nilai beberapa fitur berdasarkan yang lain, dan seterusnya. Pengetahuan yang ditemukan harus dapat diterapkan pada data baru dengan tingkat kepastian tertentu. Kegunaannya terletak pada kenyataan bahwa pengetahuan ini dapat membawa manfaat tertentu ketika diterapkan. Pengetahuan harus dalam bentuk yang dapat dimengerti oleh pengguna, bukan ahli matematika. Misalnya, konstruksi logis "jika ... maka ..." paling mudah dipahami oleh seseorang. Selain itu, aturan tersebut dapat digunakan di berbagai DBMS sebagai kueri SQL. Dalam kasus ketika pengetahuan yang diekstraksi tidak transparan bagi pengguna, harus ada metode pasca-pemrosesan yang memungkinkan mereka dibawa ke bentuk yang dapat ditafsirkan.

    Algoritma yang digunakan dalam Data Mining membutuhkan banyak perhitungan. Sebelumnya, ini adalah penghalang untuk aplikasi praktis Data Mining yang tersebar luas, tetapi pertumbuhan produktivitas saat ini prosesor modern menghilangkan urgensi masalah ini. Sekarang, dalam waktu yang wajar, adalah mungkin untuk melakukan analisis kualitatif dari ratusan ribu dan jutaan catatan.

    Tugas diselesaikan dengan metode Data Mining:

    1. Klasifikasi- ini adalah penugasan objek (pengamatan, peristiwa) ke salah satu kelas yang diketahui sebelumnya.
    2. Regresi, termasuk masalah peramalan. Menetapkan ketergantungan output kontinu pada variabel input.
    3. Kekelompokan adalah pengelompokan objek (pengamatan, kejadian) berdasarkan data (properti) yang menggambarkan esensi dari objek tersebut. Objek-objek dalam suatu cluster harus “mirip” satu sama lain dan berbeda dengan objek yang termasuk dalam cluster lain. Semakin banyak objek yang mirip dalam sebuah cluster dan semakin banyak perbedaan antar cluster, semakin akurat clustering tersebut.
    4. Asosiasi- mengidentifikasi pola antara peristiwa terkait. Contoh pola tersebut adalah aturan yang menunjukkan bahwa peristiwa Y mengikuti dari peristiwa X. Aturan seperti itu disebut asosiatif. Masalah ini pertama kali diusulkan untuk menemukan pola belanja yang khas di supermarket, sehingga kadang-kadang disebut juga analisis keranjang pasar.
    5. Pola Berurutan– pembentukan pola antara peristiwa yang berhubungan dengan waktu, mis. deteksi ketergantungan bahwa jika peristiwa X terjadi, maka setelah waktu yang diberikan peristiwa Y akan terjadi.
    6. Analisis Varians– Identifikasi pola yang paling tidak biasa.

    Masalah analisis bisnis dirumuskan secara berbeda, tetapi solusi untuk sebagian besar dari mereka bermuara pada satu atau lain tugas Data Mining atau kombinasinya. Misalnya, penilaian risiko adalah solusi untuk masalah regresi atau klasifikasi, segmentasi pasar adalah pengelompokan, stimulasi permintaan adalah aturan asosiasi. Faktanya, tugas Data Mining adalah elemen dari mana Anda dapat mengumpulkan solusi untuk sebagian besar masalah bisnis nyata.

    Untuk mengatasi masalah di atas, digunakan berbagai metode dan algoritma Data Mining. Mengingat fakta bahwa Data Mining telah berkembang dan berkembang di persimpangan disiplin ilmu seperti statistik, teori informasi, pembelajaran mesin, teori database, sangat wajar bahwa sebagian besar algoritma dan metode Data Mining dikembangkan atas dasar berbagai metode dari disiplin ilmu tersebut. Misalnya, prosedur pengelompokan k-means hanya dipinjam dari statistik. Metode Data Mining berikut telah mendapatkan popularitas besar: jaringan saraf, pohon keputusan, algoritme pengelompokan, termasuk yang dapat diskalakan, algoritme untuk mendeteksi tautan asosiatif antar peristiwa, dll.

    Deductor adalah platform analitik yang mencakup seperangkat alat lengkap untuk memecahkan masalah Data Mining: regresi linier, jaringan saraf terawasi, jaringan saraf tak terawasi, pohon keputusan, pencarian aturan asosiasi, dan banyak lainnya. Untuk banyak mekanisme, visualisator khusus disediakan yang sangat memudahkan penggunaan model yang dihasilkan dan interpretasi hasil. Poin kuat platform tidak hanya implementasi algoritma analisis modern, tetapi juga kemampuan untuk menggabungkan berbagai mekanisme analisis secara sewenang-wenang.

    Apa itu Penambangan Data?

    Klasifikasi Tugas Data Mining

    Tugas mencari aturan asosiasi

    Masalah pengelompokan

    Fitur Data Miner di Statistica 8

    Alat Analisis STATISTICA Data Miner

    Contoh bekerja di Data Minin

    Buat laporan dan ringkasan

    Menyortir informasi

    Analisis harga kavling perumahan

    Analisis Prediktor Kelangsungan Hidup

    Kesimpulan


    Apa itu Penambangan Data?

    Modern istilah komputer Data Mining diterjemahkan sebagai "ekstraksi informasi" atau "penambangan data". Seringkali, bersama dengan Data Mining, istilah Penemuan Pengetahuan ("penemuan pengetahuan") dan Gudang Data ("gudang data") ditemukan. Munculnya istilah-istilah ini, yang merupakan bagian integral dari Data Mining, dikaitkan dengan babak baru dalam pengembangan alat dan metode untuk memproses dan menyimpan data. Jadi, tujuan Data Mining adalah untuk mengidentifikasi aturan dan pola tersembunyi dalam jumlah data yang besar (sangat besar).

    Faktanya adalah bahwa pikiran manusia itu sendiri tidak disesuaikan untuk persepsi sejumlah besar informasi yang heterogen. Rata-rata, seseorang, dengan pengecualian beberapa individu, tidak mampu menangkap lebih dari dua atau tiga hubungan, bahkan dalam sampel kecil. Tetapi statistik tradisional, yang untuk waktu yang lama mengklaim peran alat utama untuk analisis data, juga sering gagal ketika memecahkan masalah dari kehidupan nyata. Ini beroperasi dengan karakteristik rata-rata sampel, yang seringkali merupakan nilai fiktif (solvabilitas rata-rata klien, ketika, tergantung pada fungsi risiko atau fungsi kerugian, Anda harus dapat memprediksi solvabilitas dan niat klien; rata-rata intensitas sinyal, sementara Anda tertarik pada karakteristik dan latar belakang puncak sinyal, dll. d.).

    Oleh karena itu, metode statistik matematika berguna terutama untuk menguji hipotesis yang telah dirumuskan sebelumnya, sedangkan definisi hipotesis terkadang merupakan tugas yang cukup rumit dan memakan waktu. Teknologi modern Informasi proses Data Mining untuk pencarian otomatis templat (pola) karakteristik dari setiap fragmen data multidimensi yang heterogen. Tidak seperti pemrosesan data analitik online (OLAP), dalam Data Mining, beban merumuskan hipotesis dan mengidentifikasi pola yang tidak biasa (tidak terduga) dialihkan dari manusia ke komputer. Data mining bukanlah satu, tetapi kombinasi dari sejumlah besar metode penemuan pengetahuan yang berbeda. Pilihan metode seringkali tergantung pada jenis data yang tersedia dan informasi apa yang Anda coba dapatkan. Di sini, misalnya, ada beberapa metode: asosiasi (penggabungan), klasifikasi, pengelompokan, analisis dan peramalan deret waktu, jaringan saraf, dll.

    Mari kita pertimbangkan sifat-sifat pengetahuan yang akan ditemukan, diberikan dalam definisi, secara lebih rinci.

    Pengetahuan harus baru, yang sebelumnya tidak diketahui. Upaya yang dihabiskan untuk menemukan pengetahuan yang sudah diketahui pengguna tidak membuahkan hasil. Oleh karena itu, itu adalah pengetahuan baru yang sebelumnya tidak diketahui yang bernilai.

    Pengetahuan harus non-sepele. Hasil analisis harus mencerminkan pola yang tidak jelas dan tidak terduga dalam data yang membentuk apa yang disebut pengetahuan tersembunyi. Hasil yang bisa didapat lebih banyak cara sederhana(misalnya, dengan inspeksi visual) tidak membenarkan penggunaan metode Data Mining yang canggih.

    Pengetahuan harus berguna secara praktis. Pengetahuan yang ditemukan harus dapat diterapkan, termasuk pada data baru, dengan tingkat keandalan yang cukup tinggi. Kegunaannya terletak pada kenyataan bahwa pengetahuan ini dapat membawa beberapa manfaat dalam penerapannya.

    Pengetahuan harus dapat diakses oleh pemahaman manusia. Pola yang ditemukan harus dapat dijelaskan secara logis, jika tidak, ada kemungkinan bahwa pola tersebut acak. Selain itu, pengetahuan yang ditemukan harus disajikan dalam bentuk yang dapat dipahami manusia.

    Dalam Data Mining, model digunakan untuk merepresentasikan pengetahuan yang diperoleh. Jenis model tergantung pada metode pembuatannya. Yang paling umum adalah: aturan, pohon keputusan, cluster dan fungsi matematika.

    Cakupan Data Mining tidak terbatas - Data Mining dibutuhkan dimanapun ada data. Pengalaman banyak perusahaan semacam itu menunjukkan bahwa pengembalian penggunaan Data Mining dapat mencapai 1000%. Misalnya, ada laporan efek ekonomi yang 10-70 kali lebih tinggi dari biaya awal 350-750 ribu dolar. Informasi diberikan tentang proyek 20 juta dolar, yang terbayar hanya dalam 4 bulan. Contoh lain adalah penghematan tahunan sebesar $700.000. melalui pengenalan Data Mining di jaringan supermarket di Inggris. Data mining sangat berharga bagi manajer dan analis dalam aktivitas sehari-hari mereka. Orang bisnis menyadari bahwa dengan bantuan metode Data Mining mereka dapat memperoleh keunggulan kompetitif yang nyata.

    Klasifikasi Tugas Data Mining

    Metode DataMining memungkinkan pemecahan banyak masalah yang dihadapi oleh seorang analis. Dari jumlah tersebut, yang utama adalah: klasifikasi, regresi, pencarian aturan asosiasi dan pengelompokan. Dibawah ini adalah Deskripsi Singkat tugas utama analisis data.

    1) Tugas klasifikasi direduksi menjadi penentuan kelas suatu objek menurut karakteristiknya. Perlu dicatat bahwa dalam masalah ini himpunan kelas yang objeknya dapat ditugaskan diketahui sebelumnya.

    2) Tugas regresi, seperti tugas klasifikasi, memungkinkan Anda menentukan nilai beberapa parameternya berdasarkan karakteristik objek yang diketahui. Berbeda dengan masalah klasifikasi, nilai parameter bukanlah himpunan kelas berhingga, melainkan himpunan bilangan real.

    3) Tugas Asosiasi. Saat mencari aturan asosiasi, tujuannya adalah untuk menemukan ketergantungan (atau asosiasi) yang sering terjadi antara objek atau peristiwa. Ketergantungan yang ditemukan disajikan dalam bentuk aturan dan dapat digunakan baik untuk pemahaman yang lebih baik tentang sifat data yang dianalisis dan untuk memprediksi terjadinya peristiwa.

    4) Tugas clustering adalah mencari kelompok-kelompok independen (cluster) dan karakteristiknya di seluruh kumpulan data yang dianalisis. Memecahkan masalah ini membantu untuk lebih memahami data. Selain itu, pengelompokan objek homogen memungkinkan untuk mengurangi jumlah mereka dan, akibatnya, memfasilitasi analisis.

    5) Pola sekuensial - pembentukan pola antara peristiwa yang terkait dalam waktu, mis. mendeteksi ketergantungan bahwa jika peristiwa X terjadi, maka peristiwa Y akan terjadi setelah waktu tertentu.

    6) Analisis penyimpangan - identifikasi pola yang paling tidak biasa.

    Tugas yang terdaftar dibagi berdasarkan tujuan menjadi deskriptif dan prediktif.

    Tugas deskriptif fokus pada peningkatan pemahaman tentang data yang dianalisis. Poin kunci dalam model semacam itu adalah kemudahan dan transparansi hasil untuk persepsi manusia. Ada kemungkinan bahwa pola-pola yang ditemukan akan menjadi ciri khusus dari data tertentu yang sedang dipelajari dan tidak akan ditemukan di tempat lain, tetapi tetap dapat berguna dan oleh karena itu harus diketahui. Jenis masalah ini termasuk pengelompokan dan pencarian aturan asosiasi.

    Penyelesaian masalah prediktif dibagi menjadi dua tahap. Pada tahap pertama, model dibangun berdasarkan kumpulan data dengan hasil yang diketahui. Pada langkah kedua, digunakan untuk memprediksi hasil berdasarkan dataset baru. Dalam hal ini tentu saja diperlukan model yang dibangun bekerja seakurat mungkin. KE spesies ini tugas meliputi tugas klasifikasi dan regresi. Ini juga termasuk masalah menemukan aturan asosiasi, jika hasil pemecahannya dapat digunakan untuk memprediksi terjadinya peristiwa tertentu.

    Menurut metode pemecahan masalah, mereka dibagi menjadi pembelajaran terawasi (belajar dengan guru) dan pembelajaran tidak terawasi (belajar tanpa guru). Nama ini berasal dari istilah Machine Learning (pembelajaran mesin), yang sering digunakan dalam literatur berbahasa Inggris dan mengacu pada semua teknologi Data Mining.

    Dalam kasus pembelajaran terawasi, masalah analisis data diselesaikan dalam beberapa tahap. Pertama, dengan menggunakan algoritma Data Mining, model dari data yang dianalisis dibangun - sebuah classifier. Pengklasifikasi kemudian dilatih. Dengan kata lain, kualitas pekerjaannya diperiksa dan, jika tidak memuaskan, pengklasifikasi juga dilatih. Ini berlanjut sampai tingkat kualitas yang diperlukan tercapai atau menjadi jelas bahwa algoritma yang dipilih tidak bekerja dengan benar dengan data, atau data itu sendiri tidak memiliki struktur yang dapat diidentifikasi. Jenis masalah ini termasuk masalah klasifikasi dan regresi.

    Pembelajaran tanpa pengawasan menggabungkan tugas-tugas yang mengidentifikasi pola deskriptif, seperti pola dalam pembelian yang dilakukan oleh pelanggan di toko besar. Jelas, jika pola-pola ini ada, maka model itu harus mewakilinya dan tidak pantas membicarakan pembelajarannya. Karenanya namanya - pembelajaran tanpa pengawasan. Keuntungan dari masalah tersebut adalah kemungkinan untuk menyelesaikannya tanpa pengetahuan sebelumnya tentang data yang dianalisis. Ini termasuk pengelompokan dan pencarian aturan asosiasi.

    Masalah klasifikasi dan regresi

    Saat menganalisis, seringkali perlu untuk menentukan kelas mana yang diketahui milik objek yang diteliti, yaitu, untuk mengklasifikasikannya. Misalnya, ketika seseorang mengajukan pinjaman ke bank, petugas bank harus memutuskan apakah calon nasabah tersebut layak untuk dikreditkan atau tidak. Jelas bahwa keputusan seperti itu dibuat atas dasar data pada objek yang diteliti (dalam kasus ini- orang): tempat kerjanya, ukuran upah, usia, komposisi keluarga, dll. Sebagai hasil dari analisis informasi ini, karyawan bank harus menghubungkan seseorang dengan salah satu dari dua kelas yang dikenal "layak kredit" dan "tidak layak kredit".

    Contoh lain dari tugas klasifikasi adalah penyaringan email. Dalam hal ini, program penyaringan harus mengklasifikasikan pesan masuk spam (sampah Surel) atau sebagai huruf. Solusi ini diterima berdasarkan frekuensi kemunculan kata-kata tertentu dalam pesan (misalnya, nama penerima, alamat impersonal, kata dan frasa: memperoleh, "mendapatkan", " proposisi yang menguntungkan" dll.).