Persiapan data dalam proses data mining adalah. Teknologi Penambangan Data

Data Mining dibagi menjadi dua kelompok besar berdasarkan prinsip bekerja dengan data pelatihan asli. Dalam klasifikasi ini tingkat terbaik ditentukan berdasarkan apakah data disimpan setelah Data Mining atau disuling untuk digunakan nanti.

1. Penggunaan data secara langsung, atau penyimpanan data.

Dalam hal ini, data awal disimpan dalam bentuk yang terinci secara eksplisit dan langsung digunakan secara bertahap dan/atau analisis pengecualian... Masalah dengan kelompok metode ini adalah ketika menggunakannya, kesulitan dalam menganalisis basis data yang sangat besar dapat muncul.

Metode kelompok ini: analisis cluster, metode tetangga terdekat, metode k-nearest tetangga, penalaran dengan analogi.

2. Identifikasi dan penggunaan formal pola, atau template distilasi.

Dengan teknologi template distilasi satu sampel (templat) informasi diambil dari data awal dan diubah menjadi beberapa konstruksi formal, yang bentuknya tergantung pada metode Data Mining yang digunakan. Proses ini dilakukan pada tahap pencarian gratis, kelompok metode pertama pada prinsipnya tidak memiliki tahap ini. Secara bertahap pemodelan prediktif dan analisis pengecualian hasil panggung digunakan pencarian gratis, mereka jauh lebih kompak daripada database itu sendiri. Mari kita ingatkan bahwa konstruksi model-model ini dapat ditafsirkan oleh analis atau tidak ("kotak hitam").

Metode kelompok ini: metode logis; metode visualisasi; metode tabulasi silang; metode berdasarkan persamaan.

Metode logis, atau metode induksi logis, meliputi: query dan analisis fuzzy; aturan simbolis; pohon keputusan; algoritma genetika.

Metode kelompok ini, mungkin, yang paling dapat ditafsirkan - mereka membentuk pola yang ditemukan, dalam banyak kasus, dalam bentuk yang cukup transparan dari sudut pandang pengguna. Aturan yang dihasilkan dapat mencakup variabel kontinu dan diskrit. Perlu dicatat bahwa pohon keputusan dapat dengan mudah diubah menjadi kumpulan aturan simbolis dengan membangkitkan satu aturan di sepanjang jalur dari akar pohon ke akarnya. terminal atas... Pohon keputusan dan aturan sebenarnya cara yang berbeda solusi untuk satu masalah dan hanya berbeda dalam kemampuannya. Selain itu, implementasi aturan dilakukan oleh algoritma yang lebih lambat daripada induksi pohon keputusan.

Metode tabulasi silang: agen, jaringan Bayesian (kepercayaan), visualisasi tabular silang. Metode terakhir tidak sesuai dengan salah satu properti Data Mining - pencarian independen pola sistem analitis. Namun, penyediaan informasi dalam bentuk tabel silang memastikan pelaksanaan tugas utama Data Mining - pencarian pola, oleh karena itu metode ini juga dapat dianggap sebagai salah satu metode Data Mining.

Metode berbasis persamaan.

Metode kelompok ini mengekspresikan pola yang terungkap dalam bentuk ekspresi matematika - persamaan. Oleh karena itu, mereka hanya dapat bekerja dengan variabel numerik, dan variabel jenis lain harus dikodekan sesuai dengan itu. Hal ini agak membatasi penerapan metode kelompok ini, namun demikian metode ini banyak digunakan dalam menyelesaikan berbagai masalah, terutama masalah peramalan.

Metode utama grup ini: metode statistik dan jaringan saraf

Metode statistik paling sering digunakan untuk memecahkan masalah peramalan. Ada banyak metode analisis data statistik, di antaranya, misalnya, analisis korelasi-regresi, korelasi deret waktu, identifikasi tren dalam deret waktu, analisis harmonik.

Klasifikasi lain membagi seluruh variasi metode Data Mining menjadi dua kelompok: metode statistik dan sibernetik. Skema partisi ini didasarkan pada pendekatan pembelajaran yang berbeda model matematika.

Perlu dicatat bahwa ada dua pendekatan untuk mengklasifikasikan metode statistik sebagai Data Mining. Yang pertama membandingkan metode statistik dan Data Mining, pendukungnya menganggap metode statistik klasik sebagai arah analisis data yang terpisah. Menurut pendekatan kedua, metode analisis statistik adalah bagian dari perangkat matematika Data Mining. Sebagian besar sumber terkemuka mengambil pendekatan kedua.

Dalam klasifikasi ini, dua kelompok metode dibedakan:

  • metode statistik berdasarkan penggunaan rata-rata akumulasi pengalaman, yang tercermin dalam data retrospektif;
  • metode sibernetik, yang mencakup banyak pendekatan matematika yang heterogen.

Kerugian dari klasifikasi seperti itu: baik algoritma statistik dan sibernetik dalam satu atau lain cara bergantung pada perbandingan pengalaman statistik dengan hasil pemantauan situasi saat ini.

Keuntungan dari klasifikasi ini adalah kemudahan untuk interpretasi - digunakan untuk menggambarkan cara matematis dari pendekatan modern untuk ekstraksi pengetahuan dari array pengamatan awal (operasional dan retrospektif), yaitu dalam tugas Data Mining.

Mari kita lihat lebih dekat kelompok-kelompok yang disajikan di atas.

Metode penambangan data statistik

Metode mewakili empat bagian yang saling terkait:

  • analisis awal sifat data statistik (pengujian hipotesis stasioneritas, normalitas, independensi, homogenitas, penilaian bentuk fungsi distribusi, parameternya, dll.);
  • mengidentifikasi tautan dan pola(analisis regresi linier dan nonlinier, analisis korelasi, dll.);
  • analisis statistik multivariat (analisis diskriminan linier dan nonlinier, analisis klaster, analisis komponen, analisis faktor dan sebagainya.);
  • model dinamis dan perkiraan deret waktu.

Gudang metode statistik Data Mining diklasifikasikan menjadi empat kelompok metode:

  1. Analisis deskriptif dan deskripsi data awal.
  2. Analisis tautan (analisis korelasi dan regresi, analisis faktor, analisis varian).
  3. Analisis statistik multivariat (analisis komponen, analisis diskriminan, analisis regresi multivariat, korelasi kanonik, dll.).
  4. Analisis deret waktu ( model dinamis dan perkiraan).

Metode Cybernetic Data Mining

Arah kedua dari Data Mining adalah seperangkat pendekatan yang disatukan oleh ide matematika komputer dan penggunaan teori kecerdasan buatan.

data mining) dan analisis eksplorasi "kasar", yang menjadi dasar pemrosesan analitis operasional (OnLine Analytical Processing, OLAP), sedangkan salah satu ketentuan utama Data Mining adalah pencarian data yang tidak jelas pola... Alat Data Mining dapat menemukan pola seperti itu sendiri dan juga secara mandiri membentuk hipotesis tentang hubungan. Karena itu adalah perumusan hipotesis tentang dependensi itu sendiri tugas yang menantang, keunggulan Data Mining dibandingkan dengan metode analisis lainnya sudah jelas.

Sebagian besar metode statistik untuk mengidentifikasi hubungan dalam data menggunakan konsep rata-rata atas sampel, yang mengarah ke operasi pada nilai yang tidak ada, sementara Penambangan Data beroperasi pada nilai nyata.

OLAP lebih cocok untuk memahami data historis, Data Mining mengandalkan data historis untuk menjawab pertanyaan tentang masa depan.

Perspektif Teknologi Data Mining

Potensi Data Mining memberi lampu hijau untuk mendorong batas-batas teknologi. Berkenaan dengan prospek Data Mining, arah pengembangan berikut dapat dilakukan:

  • identifikasi jenis area subjek dengan heuristik yang sesuai, formalisasi yang akan memfasilitasi solusi dari masalah Data Mining terkait yang terkait dengan area ini;
  • pembuatan bahasa formal dan sarana logis, dengan bantuan penalaran yang akan diformalkan dan otomatisasi yang akan menjadi alat untuk memecahkan masalah Data Mining di bidang studi tertentu;
  • Penciptaan metode Data Mining yang tidak hanya dapat mengekstrak pola dari data, tetapi juga membentuk beberapa teori berdasarkan data empiris;
  • mengatasi tumpukan peluang yang signifikan peralatan Data Mining dari kemajuan teoritis di lapangan.

Jika kita mempertimbangkan masa depan Data Mining dalam jangka pendek, maka jelas bahwa perkembangan teknologi ini paling mengarah ke bidang yang terkait dengan bisnis.

Dalam jangka pendek, produk Data Mining dapat menjadi umum dan diperlukan seperti Surel, dan, misalnya, digunakan oleh pengguna untuk menemukan yang paling banyak Murah untuk produk tertentu atau untuk tiket termurah.

Dalam jangka panjang, masa depan Data Mining benar-benar menarik - ini dapat menjadi pencarian oleh agen cerdas untuk pengobatan baru untuk berbagai penyakit, dan pemahaman baru tentang sifat alam semesta.

Namun, Penambangan Data penuh dengan potensi bahaya - lagi pula, semakin banyak informasi yang tersedia melalui jaringan di seluruh dunia, termasuk informasi pribadi, dan semakin banyak pengetahuan yang dapat diperoleh darinya:

Belum lama ini, toko online terbesar, Amazon, menjadi pusat skandal atas patennya "Metode dan sistem untuk membantu pengguna membeli barang", yang tidak lebih dari produk Data Mining lain yang dirancang untuk mengumpulkan data pribadi tentang toko. pengunjung. Metodologi baru memungkinkan untuk memprediksi permintaan di masa mendatang berdasarkan fakta pembelian, serta menarik kesimpulan tentang tujuannya. Tujuan dari teknik ini adalah, seperti yang disebutkan di atas, untuk mendapatkan sebanyak mungkin lagi informasi tentang klien, termasuk yang bersifat pribadi (jenis kelamin, usia, preferensi, dll.). Dengan cara ini, data dikumpulkan tentang privasi pembeli toko, serta anggota keluarga mereka, termasuk anak-anak. Yang terakhir dilarang oleh undang-undang di banyak negara - pengumpulan informasi tentang anak di bawah umur hanya dimungkinkan di sana dengan izin orang tua.

Studi mencatat bahwa ada solusi sukses menggunakan Data Mining dan pengalaman buruk dengan teknologi ini. Area di mana teknologi Data Mining paling mungkin berhasil memiliki fitur berikut:

  • membutuhkan solusi berbasis pengetahuan;
  • memiliki lingkungan yang berubah;
  • memiliki data yang dapat diakses, memadai, dan bermakna;
  • memberikan dividen yang tinggi dari keputusan yang tepat.

Pendekatan yang ada untuk analisis

Untuk waktu yang cukup lama, disiplin Data Mining tidak diakui sebagai bidang analisis data independen yang lengkap, kadang-kadang disebut "halaman belakang statistik" (Pregibon, 1997).

Sampai saat ini, beberapa sudut pandang tentang Data Mining telah ditentukan. Pendukung salah satunya menganggapnya sebagai fatamorgana, mengalihkan perhatian dari analisis klasik.

Apa itu Penambangan Data?

Basis data perusahaan dari setiap perusahaan modern biasanya berisi satu set tabel yang menyimpan catatan tentang fakta atau objek tertentu (misalnya, tentang barang, penjualannya, pelanggan, akun). Sebagai aturan, setiap catatan dalam tabel seperti itu menggambarkan beberapa objek atau fakta tertentu. Misalnya, entri dalam tabel penjualan mencerminkan fakta bahwa produk ini dan itu dijual kepada pelanggan ini dan itu oleh manajer ini dan itu, dan pada umumnya hanya berisi informasi ini. Namun, kumpulan dari sejumlah besar catatan yang terakumulasi selama beberapa tahun dapat menjadi sumber informasi tambahan yang jauh lebih berharga yang tidak dapat diperoleh berdasarkan satu catatan tertentu, yaitu, informasi tentang pola, tren, atau saling ketergantungan antara data apa pun. . Contoh informasi tersebut adalah informasi tentang bagaimana penjualan produk tertentu bergantung pada hari dalam seminggu, waktu hari atau waktu dalam setahun, kategori pembeli mana yang paling sering membeli produk ini atau itu, bagian pembeli mana dari satu produk tertentu. membeli produk spesifik lainnya, kategori pelanggan mana yang paling sering tidak membayar kembali pinjaman yang diberikan tepat waktu.

Informasi semacam ini biasanya digunakan dalam peramalan, perencanaan strategis, analisis risiko, dan nilainya bagi perusahaan sangat tinggi. Rupanya, itulah mengapa proses pencariannya diberi nama Data Mining (menambang dalam bahasa Inggris berarti "menambang", dan pencarian pola dalam kumpulan data faktual yang sangat besar sangat mirip dengan ini). Istilah Data Mining menunjukkan tidak begitu banyak teknologi khusus sebagai proses mencari korelasi, tren, hubungan dan pola melalui berbagai algoritma matematika dan statistik: pengelompokan, sub-sampling, regresi dan analisis korelasi. Tujuan dari pencarian ini adalah untuk menyajikan data dalam bentuk yang secara jelas mencerminkan proses bisnis, serta untuk membangun model yang dapat digunakan untuk memprediksi proses yang penting untuk perencanaan bisnis (misalnya, dinamika permintaan barang atau jasa tertentu). jasa atau ketergantungan pembelian mereka pada setiap karakteristik konsumen).

Perhatikan bahwa tradisional statistik matematika, yang telah lama menjadi alat utama untuk analisis data, serta alat pemrosesan analitik online (OLAP), yang telah kami tulis berkali-kali (lihat materi tentang topik ini di CD kami), tidak selalu berhasil diterapkan pada memecahkan masalah seperti itu. Biasanya, metode statistik dan OLAP digunakan untuk menguji hipotesis yang telah dirumuskan sebelumnya. Namun, seringkali perumusan hipotesis ternyata menjadi tugas tersulit dalam implementasi analisis bisnis untuk pengambilan keputusan selanjutnya, karena tidak semua pola dalam data terlihat jelas pada pandangan pertama.

Dasarnya teknologi modern Data Mining didasarkan pada konsep template yang mencerminkan pola yang melekat pada subsampel data. Pencarian pola dilakukan dengan menggunakan metode yang tidak menggunakan asumsi apriori apapun tentang subsampel ini. Jika dalam analisis statistik atau saat menerapkan OLAP, pertanyaan seperti "Berapa rata-rata jumlah tagihan yang belum dibayar oleh pelanggan layanan ini?" ... Pada saat yang sama, itu adalah jawaban atas pertanyaan kedua yang sering memberikan pendekatan yang lebih non-sepele untuk kebijakan pemasaran dan organisasi kerja dengan klien.

Fitur penting dari Data Mining adalah pola yang dicari tidak standar dan tidak jelas. Dengan kata lain, alat Data Mining berbeda dari alat pemrosesan data statistik dan alat OLAP dalam hal itu, alih-alih memeriksa saling ketergantungan yang diasumsikan sebelumnya oleh pengguna, mereka, berdasarkan data yang tersedia, dapat menemukan saling ketergantungan tersebut sendiri dan membangun hipotesis tentang sifat mereka.

Perlu dicatat bahwa penggunaan alat Data Mining tidak mengecualikan penggunaan alat statistik dan alat OLAP, karena hasil pemrosesan data dengan bantuan yang terakhir, sebagai suatu peraturan, berkontribusi pada pemahaman yang lebih baik tentang sifat pola yang harus dicari.

Data awal untuk Data Mining

Penggunaan Data Mining dibenarkan jika ada jumlah data yang cukup besar, idealnya terkandung dalam gudang data yang dirancang dengan benar (pada kenyataannya, gudang data itu sendiri biasanya dibuat untuk memecahkan masalah analisis dan peramalan yang terkait dengan pendukung keputusan). Kami juga telah menulis tentang prinsip-prinsip membangun gudang data beberapa kali; materi yang relevan dapat ditemukan di CD-ROM kami, jadi kami tidak akan membahas masalah ini. Mari kita ingatkan bahwa data di gudang adalah kumpulan yang diisi ulang yang seragam untuk seluruh perusahaan dan memungkinkan Anda untuk memulihkan gambaran aktivitasnya kapan saja. Perhatikan juga bahwa struktur data penyimpanan dirancang sedemikian rupa sehingga eksekusi kueri ke sana dilakukan seefisien mungkin. Namun, ada alat Data Mining yang dapat mencari pola, korelasi, dan tren tidak hanya di gudang data, tetapi juga di kubus OLAP, yaitu, dalam kumpulan data statistik yang telah diproses sebelumnya.

Jenis pola yang diungkapkan oleh metode Data Mining

Menurut V.A. Duke, ada lima jenis pola standar yang diidentifikasi oleh metode Data Mining:

Asosiasi - kemungkinan besar peristiwa yang saling terkait (misalnya, satu produk sering dibeli bersama dengan yang lain);

Urutan - probabilitas tinggi dari rantai peristiwa yang terkait dalam waktu (misalnya, dalam periode tertentu setelah pembelian satu produk, yang lain akan dibeli dengan tingkat probabilitas tinggi);

Klasifikasi - ada tanda-tanda yang menjadi ciri kelompok tempat peristiwa atau objek ini atau itu berada (biasanya, beberapa aturan dirumuskan berdasarkan analisis peristiwa yang sudah diklasifikasikan);

Pengelompokan adalah pola yang mirip dengan klasifikasi dan berbeda darinya karena kelompok itu sendiri tidak ditentukan - mereka terdeteksi secara otomatis selama pemrosesan data;

Pola temporal - keberadaan pola dalam dinamika perilaku data tertentu (contoh tipikal adalah fluktuasi musiman dalam permintaan barang atau jasa tertentu) yang digunakan untuk peramalan.

Metode penambangan data dalam penambangan data

ada cukup sejumlah besar berbagai metode penambangan data. Berdasarkan klasifikasi di atas yang dikemukakan oleh V.A. Duke, di antaranya adalah:

Analisis regresi, varians dan korelasi (diimplementasikan dalam sebagian besar paket statistik modern, khususnya dalam produk SAS Institute, StatSoft, dll.);

Metode analisis dalam bidang subjek tertentu berdasarkan model empiris (sering digunakan, misalnya, dalam alat analisis keuangan yang murah);

Algoritma jaringan saraf, gagasan yang didasarkan pada analogi dengan fungsi jaringan saraf dan terletak pada kenyataan bahwa parameter awal dianggap sebagai sinyal yang ditransformasikan sesuai dengan koneksi yang ada antara "neuron", dan respon seluruh jaringan terhadap data awal. Dalam hal ini, koneksi dibuat menggunakan apa yang disebut pelatihan jaringan melalui sampel besar yang berisi data awal dan jawaban yang benar;

Algoritma - pemilihan analog dekat dari data awal dari data historis yang ada. Juga disebut metode "tetangga terdekat";

Pohon keputusan adalah struktur hierarkis berdasarkan serangkaian pertanyaan yang membutuhkan jawaban "Ya" atau "Tidak"; meskipun cara ini pengolahan data tidak selalu idealnya menemukan pola yang ada, cukup sering digunakan dalam sistem peramalan karena kejelasan jawaban yang diterima;

Model cluster (kadang-kadang juga disebut model segmentasi) digunakan untuk mengelompokkan peristiwa serupa ke dalam grup berdasarkan nilai serupa dari beberapa bidang dalam kumpulan data; juga sangat populer saat membuat sistem peramalan;

Algoritma pencarian terikat yang menghitung frekuensi kombinasi kejadian logis sederhana dalam subkelompok data;

Pemrograman evolusioner - pencarian dan pembuatan algoritma yang mengekspresikan saling ketergantungan data, berdasarkan algoritma yang ditentukan pada awalnya, dimodifikasi selama pencarian; terkadang pencarian interdependensi dilakukan di antara beberapa jenis fungsi tertentu (misalnya, polinomial).

Detail lebih lanjut tentang ini dan algoritme Data Mining lainnya, serta alat yang mengimplementasikannya, dapat ditemukan di buku “Data Mining: kursus pelatihan"V. A. Dyuk dan A. P. Samoilenko, diterbitkan oleh penerbit" Peter "pada tahun 2001. Hari ini adalah salah satu dari sedikit buku dalam bahasa Rusia yang membahas masalah ini.

Produsen terkemuka alat Data Mining

Alat Data Mining, seperti kebanyakan alat Business Intelligence, secara tradisional termasuk dalam alat perangkat lunak yang mahal - beberapa di antaranya berharga puluhan ribu dolar. Oleh karena itu, hingga saat ini, konsumen utama teknologi ini adalah bank, perusahaan keuangan dan asuransi, perusahaan perdagangan besar, dan tugas utama yang memerlukan penggunaan Data Mining adalah penilaian risiko kredit dan asuransi dan pengembangan kebijakan pemasaran. rencana tarif dan prinsip-prinsip lain dalam bekerja dengan klien. Dalam beberapa tahun terakhir, situasinya telah mengalami perubahan tertentu: di pasar perangkat lunak Alat Data Mining yang relatif murah dari beberapa produsen muncul, yang membuat teknologi ini tersedia untuk usaha kecil dan menengah yang sebelumnya tidak memikirkannya.

Alat Business Intelligence modern mencakup pembuat laporan, alat pemrosesan data analitik, alat untuk mengembangkan solusi BI (Platform BI) dan yang disebut Enterprise BI Suites - alat analisis dan pemrosesan data skala perusahaan yang memungkinkan Anda melakukan serangkaian tindakan yang terkait dengan analisis data dan pembuatan laporan, dan sering kali menyertakan seperangkat alat dan alat BI yang terintegrasi untuk mengembangkan aplikasi BI. Yang terakhir, sebagai suatu peraturan, berisi alat pelaporan dan alat OLAP, dan seringkali alat Data Mining.

Menurut analis dari Gartner Group, pemimpin pasar untuk analisis dan pemrosesan data skala perusahaan adalah Business Objects, Cognos, Information Builders, dan Microsoft serta Oracle juga mengklaim kepemimpinan (Gbr. 1). Adapun alat pengembangan untuk solusi BI, pesaing utama untuk kepemimpinan di bidang ini adalah Microsoft dan SAS Institute (Gbr. 2).

Perhatikan bahwa alat Intelijen Bisnis Microsoft adalah produk yang relatif murah yang tersedia untuk berbagai perusahaan. Itulah sebabnya kami akan mempertimbangkan beberapa aspek praktis menggunakan Data Mining menggunakan contoh produk perusahaan ini di bagian selanjutnya dari artikel ini.

Literatur:

1. Adipati V.A. Penambangan Data - penambangan data. - http://www.olap.ru/basic/dm2.asp.

2. Duke V.A., Samoilenko A.P. Data Mining: kursus pelatihan. - SPb.: Peter, 2001.

3. B. de Ville. Penambangan Data Microsoft. Pers Digital, 2001.

Penambangan Data

Data Mining adalah metodologi dan proses untuk menemukan sejumlah besar data yang terakumulasi dalam sistem Informasi perusahaan yang sebelumnya tidak dikenal, non-sepele, praktis berguna dan dapat diakses untuk interpretasi pengetahuan yang diperlukan untuk membuat keputusan di berbagai bidang aktivitas manusia. Data Mining merupakan salah satu tahapan dari Knowledge Discovery in Databases yang lebih luas.

Pengetahuan yang ditemukan dalam proses Data Mining harus non-sepele dan sebelumnya tidak diketahui. Non-trivialitas menunjukkan bahwa pengetahuan semacam itu tidak dapat ditemukan dengan analisis visual sederhana. Mereka harus menggambarkan hubungan antara properti objek bisnis, memprediksi nilai beberapa fitur berdasarkan yang lain, dll. Pengetahuan yang ditemukan harus dapat diterapkan pada objek baru juga.

Kegunaan praktis dari pengetahuan adalah karena kemungkinan penggunaannya dalam proses mendukung pengambilan keputusan manajerial dan meningkatkan kegiatan perusahaan.

Pengetahuan harus disajikan dalam bentuk yang dapat dipahami oleh pengguna yang tidak memiliki latar belakang matematika khusus. Misalnya, konstruksi logis "jika, maka" paling mudah dirasakan oleh seseorang. Selain itu, aturan tersebut dapat digunakan di berbagai DBMS sebagai kueri SQL. Dalam kasus di mana pengetahuan yang diekstraksi tidak transparan bagi pengguna, harus ada metode pasca-pemrosesan untuk membawanya ke bentuk yang dapat ditafsirkan.

Data Mining bukanlah satu, tetapi kumpulan dari sejumlah besar metode yang berbeda penemuan pengetahuan. Semua tugas yang diselesaikan dengan metode Data Mining dapat dibagi secara kondisional menjadi enam jenis:

Data Mining bersifat multidisiplin, karena mencakup elemen metode numerik, statistik matematika dan teori probabilitas, teori informasi dan logika matematika, kecerdasan buatan, dan pembelajaran mesin.

Tugas analisis bisnis dirumuskan dengan cara yang berbeda, tetapi solusi sebagian besar dari tugas tersebut bermuara pada satu atau lain tugas Data Mining atau kombinasinya. Misalnya, penilaian risiko adalah solusi untuk masalah regresi atau klasifikasi, segmentasi pasar adalah pengelompokan, stimulasi permintaan adalah aturan asosiatif. Faktanya, tugas Data Mining adalah elemen yang dapat digunakan untuk "merakit" solusi untuk sebagian besar masalah bisnis nyata.

Untuk menyelesaikan tugas di atas, berbagai metode dan algoritma Data Mining digunakan. Mengingat fakta bahwa Data Mining telah berkembang dan berkembang di persimpangan disiplin ilmu seperti statistik matematika, teori informasi, pembelajaran mesin dan database, maka wajar jika sebagian besar algoritma dan metode Data Mining dikembangkan berdasarkan berbagai metode dari ini. disiplin ilmu. Misalnya, algoritma pengelompokan k-means dipinjam dari statistik.

Kirim karya bagus Anda di basis pengetahuan sederhana. Gunakan formulir di bawah ini

Mahasiswa, mahasiswa pascasarjana, ilmuwan muda yang menggunakan basis pengetahuan dalam studi dan pekerjaan mereka akan sangat berterima kasih kepada Anda.

Dokumen serupa

    Keterangan Kegunaan Teknologi Data Mining sebagai proses mendeteksi data yang tidak diketahui. Menjelajahi sistem penarikan aturan asosiasi dan mekanisme algoritma jaringan saraf. Deskripsi algoritma clustering dan area penerapan Data Mining.

    tes, ditambahkan 14/06/2013

    Dasar-dasar untuk pengelompokan. Menggunakan Data Mining sebagai cara untuk "menemukan pengetahuan dalam database". Pilihan algoritma pengelompokan. Mengambil data dari penyimpanan database bengkel jarak jauh. Mengelompokkan siswa dan tugas.

    makalah ditambahkan pada 07/10/2017

    Peningkatan teknologi perekaman dan penyimpanan data. Kekhususan persyaratan modern untuk pemrosesan data informasi. Konsep pola yang mencerminkan fragmen hubungan multidimensi dalam data di jantung teknologi Data Mining modern.

    tes, ditambahkan 09/02/2010

    Data mining, sejarah perkembangan data mining dan penemuan pengetahuan. Elemen teknologi dan metode penambangan data. Langkah-langkah dalam penemuan pengetahuan. Deteksi perubahan dan penyimpangan. Disiplin terkait, pencarian informasi dan ekstraksi teks.

    laporan ditambahkan pada 16/06/2012

    Data Mining sebagai proses pendukung keputusan berdasarkan pencarian pola tersembunyi (information pattern) dalam data. Pola dan tahapan implementasinya, sejarah perkembangan teknologi ini, penilaian kelebihan dan kekurangan, peluang.

    esai, ditambahkan 17/12/2014

    Klasifikasi tugas DataMining. Pembuatan laporan dan total. Fitur Data Miner di Statistica. Klasifikasi, pengelompokan dan masalah regresi. Alat analisis Statistica Data Miner. Inti masalahnya adalah pencarian aturan asosiasi. Analisis prediktor kelangsungan hidup.

    makalah, ditambahkan 19/05/2011

    Arah yang menjanjikan analisis data: analisis informasi tekstual, penggalian data. Analisis informasi terstruktur yang disimpan dalam database. Proses menganalisis dokumen teks. Fitur pengolahan data awal.

    abstrak, ditambahkan 13/02/2014

    Klasifikasi tugas Data Mining. Tugas mengelompokkan dan menemukan aturan asosiasi. Menentukan kelas suatu objek berdasarkan sifat dan karakteristiknya. Menemukan ketergantungan yang sering antara objek atau peristiwa. Pengolahan data analitis operasional.

    tes, ditambahkan 13/01/2013