Data mining adalah suatu istilah yang digunakan untuk menemukan pengetahuan yang tersembunyi di dalam database.
Tugas data mining sebenarnya adalah analisis otomatis atau semi-otomatis jumlah besar data untuk mengekstrak pola yang menarik yang sebelumnya tidak diketahui seperti kelompok catatan data (analisis cluster), catatan yang tidak biasa (deteksi anomali) dan dependensi (aturan asosiasi pertambangan).
Hal ini biasanya melibatkan menggunakan teknik database seperti indeks spasial. Pola ini kemudian dapat dilihat sebagai semacam ringkasan dari input data, dan dapat digunakan dalam analisis lebih lanjut atau, misalnya, dalam pembelajaran mesin dan analisis prediktif. Misalnya, langkah data mining mungkin mengidentifikasi beberapa kelompok dalam data,
Berikut beberapa metode yang diterapkan dalam data mining:
Classification adalah metode yang paling umum pada data mining. Persoalan bisnis seperti Churn Analysis, dan Risk Management biasanya melibatkan metode Classification.
Classification adalah tindakan untuk memberikan kelompok pada setiap keadaan. Setiap keadaan berisi sekelompok atribut, salah satunya adalah class attribute. Metode ini butuh untuk menemukan sebuah model yang dapat menjelaskan class attribute itu sebagai fungsi dari input attribute.
Clustering juga disebut sebagai segmentation. Metode ini digunakan untuk mengidentifikasi kelompok alami dari sebuah kasus yang didasarkan pada sebuah kelompok atribut, mengelompokkan data yang memiliki kemiripan atribut.
Clustering adalah metode data mining yang Unsupervised, karena tidak ada satu atribut pun yang digunakan untuk memandu proses pembelajaran, jadi seluruh atribut input diperlakukan sama.
Kebanyakan Algoritma Clustering membangun sebuah model melalui serangkaian pengulangan dan berhenti ketika model tersebut telah memusat atau berkumpul (batasan dari segmentasi ini telah stabil).
Association juga disebut sebagai Market Basket Analysis. Sebuah problem bisnis yang khas adalah menganalisa tabel transaksi penjualan yang mengidentifikasi produk-produk yang seringkali dibeli bersamaan oleh customer, misalnya apabila orang membeli sambal, biasanya juga dia membeli kecap.
Kesamaan yang ada dari data pembelian digunakan untuk mengidentifikasi kelompok kesamaan dari produk dan kebiasaan apa yang terjadi guna kepentingan cross-selling
Dalam istilah association, setiap item dipertimbangkan sebagai informasi. Metode association memiliki dua tujuan:
Metode Regression mirip dengan metode Classification, yang membedakannya adalah metode regression tidak bisa mencari pola yang dijabarkan sebagai class (kelas).
Metoda regression bertujuan untuk mencari pola dan menentukan sebuah nilai numerik.
Sebuah Teknik Linear Line-fitting sederhana adalah sebuah contoh dari Regression, dimana hasilnya adalah sebuah fungsi untuk menentukan hasil yang berdasarkan nilai dari input.
Bentuk yang lebih canggih dari regression sudah mendukung input berupa kategori, jadi tidak hanya input berupa numerik.
Teknik paling populer yang digunakan untuk regression adalah linear regression dan logistic regression. Teknik lain yang didukung oleh SQL Server Data mining adalah Regression Trees (bagian dari dari algoritma Microsoft Decission Trees) dan Neural Network.
Regression digunakan untuk memecahkan banyak problem bisnis – contohnya untuk memperkirakan metode distribusi, kapasitas distribusi, musim dan untuk memperkirakan kecepatan angin berdasarkan temperatur, tekanan udara, dan kelembaban.
Forecasting juga adalah metode data mining yang sangat penting. Contohnya digunakan untuk menjawab pertanyaan seperti berikut:
Teknik Forecasting dapat membantu menjawab pertanyaan-pertanyaan diatas. Sebagai inputnya teknik Forecasting akan mengambil sederetan angka yang menunjukkan nilai yang berjalan seiring waktu dan kemudian teknik Forecasting ini akan menghubungkan nilai masa depan dengan menggunakan bermacam-macam teknik machine-learning dan teknik statistik yang berhubungan dengan musim, trend, dan noise pada data.