RSS

Contoh Aplikasi Data Mining untuk Menampilkan Informasi Tingkat Kelulusan Mahasiswa

Dalam Aplikasi Data Mining ini terdapat dua buah form. Form pertama merupakan halaman awal yang berisi perintah pengambilan data pemilihan atribut data induk mahasiswa, input threshold, perintah proses mining dan tombol keluar aplikasi. Form kedua merupakan halaman report data mining yang berisi hasil proses data mining yaitu tabel nilai support dan confidence. Perintah-perintah dalam form pertama berupa tombol ambil data untuk melakukan proses pengambilan data, inputan teks threshold untuk memasukkan nilai threshold, inputan combo box untuk memilih jurusan, inputan combo box untuk memilih atribut yang akan diproses mining, tombol proses untuk perintah proses mining dan tombol keluar untuk perintah keluar aplikasi. Selain tombol tersebut terdapat tabel data hasil dari perintah yang diberikan. Desain tampilan form awal dari Aplikasi Data Mining seperti pada gambar

Hasil keluaran dari proses data mining disajikan dalam form report Aplikasi Data Mining. Form ini terdiri dari dua informasi utama, yaitu informasi atribut dengan confidence tertinggi masing-masing kategori kelulusan dan tabel yang berisi nilai confidence dan support masing-masing kombinasi tingkat kelulusan dan Atribut. Selain itu terdapat dua tombol perintah yaitu tombol kembali ke menu utama dan tombol untuk keluar aplikasi. Desain tampilan form report Aplikasi Data Mining seperti pada gambar

 
Tinggalkan komentar

Ditulis oleh pada Agustus 6, 2012 inci Uncategorized

 

Problem Bisnis yang Dapat Diselesaikan oleh Data Mining

Teknik data mining dapat digunakan untuk memecahkan berbagai pertanyaan dalam bisnis. Sejatinya dengan adanya perangkat lunak yang ada pada saat ini, yang ada butuhkan hanya motivasi dan cara menggunakannya. Beberapa contoh dibawah ini menguraikan beberapa scenario dimana Data Mining dapat berperan:

Memunculkan Rekomendasi

Produk atau service sepertiapa yang sebaiknya anda berikan kepada customer anda?

Memunculkan rekomendasi adalah sebuah tantangan bisnis yang sangat penting bagi para pengusaha retail atau penyedia jasa. Para customer yang diberikan saran yang tepat pada waktu yang tepat akan menjadi lebih berharga (karena biasanya mereka akan membeli lebih banyak lagi) dan lebih setia (karena mereka merasakan hubungan yang kuat pada pedagang / penyedia jasa). Sebagai contoh, apabila anda browsing ke took online seperti amazon.com untuk membeli sebuah produk, anda akan disediakan dengan rekomendasi produk lain yang mungkin anda sukai. Rekomendasi ini muncul dari penggunaan data mining untuk menganalisa perilaku pembelian customer mereka dan mengaplikasikan pola yang didapat kepada anda yang memiliki karakteristik sama dengan pembeli-pembeli sebelumnya.

Pendeteksian ketidak wajaran

Bagiamana anada mengetahui apakah data anda adalah data yang baik atau tidak?

Data mining dapat menganalisa data anda dan membuang data yang tidak sesuai dengan data lainnya. Biasanya perusahaan lartu kredit menggunakan metoda data mining untuk mendeteksi dan menentukan apakah transaksi tertentu adalah valid. Apabila system data mining menandai sebuah transaksi sebagai transaksi yang tidak wajar, anda akan mendapat telepon dari perusahaan tersebut untuk menanyakan apakah benar anda yang menggunakan kartu kredit anda untuk bertransaksi. Perusahaan asuransi juga menggunakan pendeteksian ketidakwajaran untuk memeriksa apakah klaim yang diajukan merupakan klaim yang termasuk dalam kategori curang. Karena perusahaan memproses ribuan klaim per hari, adalah tidak mungkin untuk memeriksa setiap kasus, dan data mining dapat mengidentifikasi klaim mana yang tampaknya merupakan klaim bersifat curang.

Churn Analysis

Pelanggan mana yang tampaknya akan pindah ke kompetitor lain ?

Industri Telekomunikasi , Perbankan, dan Industri Asuransi memiliki kompetisi yang keras satu sama lain. Rata-rata, biaya yang dibutuhkan untuk mendapatkan sebuah pelanggan telepon selular tidaklah murah. Setiap bisnis harus bisa memelihara sebanyak mungkin pelanggan. Churn Analysis dapat membantu manager marketing untuk mengidentifikasi pelanggan mana yang tampaknya akan pindah ke kompetitor lain, dan kenapa mereka pindah, ketika jawabannya sudah didapat, mereka akan dapat meningkatkan hubungan antara perusahaan dan pelanggan serta tetap memelihara pelanggan yang ada.

Manajemen Resiko

Apakah pinjaman dapat di setujui untuk customer tertentu?

Teknik Data Mining digunakan untuk menentukan resiko dari pengajuan aplikasi pinjaman, membantu petugas pinjaman untuk membuat sebuah keputusan yang tepat atas nominal dan keabsahan yah ada pada setiap aplikasi pengajuan pinjaman.

Segmentasi Pelanggan (Pembagian / Pengelompokan Pelanggan)

Apa yang anda pikirkan tentang pelanggan anda?

Apakah pelanggan anda adalah orang-orang yang tidak dapat digambarkan, atau anda dapat belajar lebih banyak tentang pelanggan anda untuk mendapatkan hubungan yang lebih dekat dan diskusi yang lebih mengena dengan mereka. Segmentasi Pelanggan menentukan perilaku dan profil yang lebih deskriptif tentang mereka. Profil ini digunakan untuk menyediakan program marketing dan strategi yang lebih personal untuk setiap kelompok. Misalnya, apabila anda mempunyai sebuah data member, didalamnya berisi informasi hobby dari masing-masing pelanggan. Katakanlah hobby mereka adalah nonton film, anda dapat kelompokan pelanggan anda yang mempunyai hobby yang sama dan membuat sebuah program marketing yang berhubungan dengan hobby mereka, yaitu nonton film. Program promosi marketing Ini tentu akan lebih mengena dibandingkan program promosi marketing yang tidak mengandalkan segmentasi pelanggan.

 

 

 

 
Tinggalkan komentar

Ditulis oleh pada Agustus 5, 2012 inci Uncategorized

 

Penerapan Data Mining dalam Bisnis

Data mining adalah sebuah teknik memilah-milah data dalam volume yang sangat besar dengan tujuan mendapatkan informasi yang relevan terhadap sebuah subjek atau tema.
Biasanya data mining dipergunakan oleh organisasi untuk melakukan kegiatan business intelligence (BI) atau analisis finansial terutama di sektor pasar modal dan valas.
Terkait dengan ERP (enterprise resource planning), data mining juga dipergunakan oleh perusahaan di berbagai industri untuk melakukan analisis baik secara logika (logical analysis) maupun statistik (statistical analysis) data transaksi, dan menemukan sebuah pola (pattern) yang dapat membantu proses pengambilan keputusan.
Misalnya, seorang analis di sebuah perusahaan telekomunikasi melakukan data mining dari sistem CRM (Customer Relationship Management) untuk menemukan pola aktivitas pelayanan pelanggan dan calon pelanggan agar dapat meningkatkan kualitas servis perusahaan tersebut.
Dengan data mining, tanpa harus menggunakan call center or mail service, hanya prospek yang mempunyai probabilitas tinggi untuk merespons terhadap sebuah penawaran saja yang di kontak ataupun dikirim brosur.
Jadi, tujuan utama dari penerapan data mining di bisnis adalah penemuan dari suatu pengetahuan (knowledge discovery) dan model prediksi (prediction model) dari data transaksi yang telah dicatat oleh berbagai aplikasi, di mana pengetahuan ataupun prediksi tersebut dapat membantu manajemen senior dalam mengidentifikasi tren bisnis (business trend) untuk pengambilan keputusan strategis.
Knowledge discovery menyajikan informasi eksplisit dalam format yang mudah dibaca dan dimengerti oleh seorang analis sedangkan prediction model menyajikan prediksi terhadap apa yang akan terjadi pada masa mendatang di mana model tersebut cukup bervariatif, ada yang mudah dimengerti ataupun yang sangat kompleks.
Untuk memudahkan penerapan data mining dalam bisnis, diperlukan sebuah metodologi standar yang dikenal dengan nama CRISP-DM (CRoss Industry Standard Process for Data Mining). CRISP-DM terdiri dari: Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation dan Deployment. Keuntungan menggunakan CRIS-DM ini adalah tidak bergantung pada industri tertentu (industry neutral), perangkat lunak tertentu (tool tertentu) dan fokus pada proses data mining itu sendiri.
Sebagai cabang ilmu baru di bidang komputer, banyak penerapan yang dapat dilakukann oleh Data Mining. Apalagi ditunjang kekayaan dan keanekaragaman berbagai bidang ilmu (artificial intelligence, database, statistik, pemodelan matematika, pengolahan citra dsb.) membuat penerapan data mining menjadi makin luas. Penerapan data mining dapat dilakukan di beberapa bidang.

Analisa Pasar dan Manajemen
Untuk analisa pasar, banyak sekali sumber data yang dapat digunakan seperti transaksi kartu kredit, kartu anggota club tertentu, kupon diskon, keluhan pembeli, ditambah dengan studi tentang gaya hidup publik.

Beberapa solusi yang bisa diselesaikan dengan data mining diantaranya:
1. Menembak target pasar
Data mining dapat melakukan pengelompokan (clustering) dari model-model pembeli dan melakukan klasifikasi terhadap setiap pembeli sesuai dengan karakteristik yang diinginkan seperti kesukaan yang sama, tingkat penghasilan yang sama, kebiasaan membeli dan karakteristik lainnya.
2. Melihat pola beli pemakai dari waktu ke waktu
Data mining dapat digunakan untuk melihat pola beli seseorang dari waktu ke waktu.
3. Cross-Market Analysis
Kita dapat memanfaatkan data mining untuk melihat hubungan antara penjualan satu produk dengan produk lainnya.
4. Profil Customer
Data mining dapat membantu untuk melihat profil customer/pembeli/ nasabah sehingga kita dapat mengetahui kelompok customer tertentu membeli produk apa saja.
5. Identifikasi Kebutuhan Customer
Mengidentifikasi produk-produk yang terbaik untuk tiap kelompok customer dan menyusun faktor-faktor yang dapat menarik customer baru untuk bergabung/membeli.
6. Menilai Loyalitas Customer
VISA International Spanyol menggunakan data mining untuk melihat kesuksesan program-program customer loyalty mereka.
7. Informasi Summary
Memanfaatkan data mining untuk membuat laporan summary yang bersifat multi-dimensi dan dilengkapi dengan informasi statistik lainnya.

Analisa Perusahaan dan Manajemen Resiko
1. Perencanaan Keuangan dan Evaluasi Aset
Data Mining dapat membantu untuk melakukan analisis dan prediksi cash flow serta melakukan contingent claim analysis untuk mengevaluasi aset. Selain itu juga dapat menggunakannya untuk analisis trend.
2. Perencanaan Sumber Daya (Resource Planning)
Dengan melihat informasi ringkas (summary) serta pola pembelanjaan dan pemasukan dari masing-masing resource, dan memanfaatkannya untuk melakukan resource planning.
3. Persaingan (Competition)
Sekarang ini banyak perusahaan yang berupaya untuk dapat melakukan competitive intelligence. Data Mining dapat membantu untuk memonitor pesaing-pesaing dan melihat market direction mereka.
4. Telekomunikasi
Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat dari jutaan transaksi yang masuk, memilih transaksi mana sajakah yang masih harus ditangani secara manual (dilayani oleh customer service). Tujuannya adalah untuk menambah layanan khusus untuk transaksi-transaksi yang masih dilayani secara manual. Dengan demikian jumlah operator penerima transaksi manual tetap bisa ditekan minimal.
5. Keuangan
Financial Crimes Enforcement Network di Amerika Serikat baru-baru ini menggunakan data mining untuk me-nambang trilyunan dari berbagai subyek seperti property, rekening bank dan transaksi keuangan lainnya untuk mendeteksi transaksi-transaksi keuangan yang mencurigakan (seperti money laundry). Mereka menyatakan bahwa hal tersebut akan susah dilakukan jika menggunakan analisis standar.

6. Asuransi
Australian Health Insurance Commision menggunakan data mining untuk mengidentifikasi layanan kesehatan yang sebenarnya tidak membutuhkan tetapi tetap dilakukan oleh peserta asuransi. Hasilnya mereka berhasil menghemat satu juta dollar per tahunnya. Tentu saja ini tidak hanya bisa diterapkan untuk asuransi kesehatan, tetapi juga untuk berbagai jenis asuransi lainnya.
7. Olah Raga
IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan NBA (jumlah shots blocked, assists dan fouls).
8. Astronomi
Jet Propulsion Laboratory (JPL) di Pasadena, California dan Palomar Observatory berhasil menemukan 22 quasar dengan bantuan data mining. Hal ini merupakan salah satu kesuksesan penerapan data mining di bidang astronomi dan ilmu ruang angkasa..
9. Internet Web Surf-Aid
IBM Surf-Aid menggunakan algoritma data mining untuk mendata akses halaman Web khususnya yang berkaitan dengan pemasaran guna melihat prilaku dan minat customer serta melihat efektifitas pemasaran melalui Web.

Dengan melihat beberapa aplikasi yang telah disebutkan di atas, terlihat sekali potensi besar dari penerapan Data Mining di berbagai bidang. Bahkan beberapa pihak berani menyatakan bahwa Data Mining merupakan salah satu aktifitas di bidang perangkat lunak yang dapat memberikan ROI (return on investment) yang tinggi. Namun demikian, perlu diingat bahwa Data Mining hanya melihat keteraturan atau pola dari sejarah, tetapi tetap saja sejarah tidak sama dengan masa datang. Bagaimanapun juga data mining tetaplah hanya alat bantu yang dapat membantu manusia untuk melihat pola, menganalisis trend dan sebagainya dalam rangka mempercepat pembuatan keputusan.

 

 

 

 
Tinggalkan komentar

Ditulis oleh pada Agustus 5, 2012 inci Uncategorized

 

Teknik-Teknik Data Mining

Dengan definisi DM yang luas, ada banyak jenis teknik analisa yang dapat digolongkan dalam DM. Karena keterbatasan tempat, disini penulis akan memberikan sedikit gambaran tentang tiga teknik DM yang paling populer.

Association Rule Mining

Association rule mining adalah teknik mining untuk menemukan aturan assosiatif antara suatu kombinasi item. Contoh dari aturan assosiatif dari analisa pembelian di suatu pasar swalayan adalah bisa diketahui berapa besar kemungkinan seorang pelanggan membeli roti bersamaan dengan susu. Dengan pengetahuan tsb. pemilik pasar swalayan dapat mengatur penempatan barangnya atau merancang kampanye pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu. Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support yaitu persentase kombinasi item tsb. dalam database dan confidence yaitu kuatnya hubungan antar item dalam aturan assosiatif.

Algoritma yang paling populer dikenal sebagai Apriori dengan paradigma generate and test, yaitu pembuatan kandidat kombinasi item yang mungkin berdasar aturan tertentu lalu diuji apakah kombinasi item tsb memenuhi syarat support minimum. Kombinasi item yang memenuhi syarat tsb. disebut frequent itemset, yang nantinya dipakai untuk membuat aturan-aturan yang memenuhi syarat confidence minimum[1]. Algoritma baru yang lebih efisien bernama FP-Tree[5].

Classification

Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan “jika-maka”, berupa decision tree, formula matematis atau neural network.

Gambar 2: Decision Tree

Decision tree adalah salah satu metode classification yang paling populer karena mudah untuk diinterpretasi oleh manusia. Contoh dari decision tree dapat dilihat di Gambar 3. Disini setiap percabangan menyatakan kondisi yang harus dipenuhi dan tiap ujung pohon menyatakan kelas data. Contoh di Gambar 3 adalah identifikasi pembeli komputer, dari decision tree tsb. diketahui bahwa salah satu kelompok yang potensial membeli komputer adalah orang yang berusia di bawah 30 tahun dan juga pelajar.

Algoritma decision tree yang paling terkenal adalah C4.5[7], tetapi akhir-akhir ini telah dikembangkan algoritma yang mampu menangani data skala besar yang tidak dapat ditampung di main memory seperti RainForest[3]. Metode-metode classification yang lain adalah Bayesian, neural network, genetic algorithm, fuzzy, case-based reasoning, dan k-nearest neighbor.

Proses classification biasanya dibagi menjadi dua fase : learning dan test. Pada fase learning, sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model perkiraan. Kemudian pada fase test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi dari model tsb. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data yang belum diketahui.

Clustering

Berbeda dengan association rule mining dan classification dimana kelas data telah ditentukan sebelumnya, clustering melakukan penge-lompokan data tanpa berdasarkan kelas data tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang belum diketahui itu. Karena itu clustering sering digolongkan sebagai metode unsupervised learning.

Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster. Clustering dapat dilakukan pada data yan memiliki beberapa atribut yang dipetakan sebagairuang multidimensi. Ilustrasi dari clustering dapat dilihat di Gambar 4 dimana lokasi, dinyatakan dengan bidang dua dimensi, dari pelanggan suatu toko dapat dikelompokkan menjadi beberapa cluster dengan pusat cluster ditunjukkan oleh tanda positif (+).

Banyak algoritma clustering memerlukan fungsi jarak untuk mengukur kemiripan antar data, diperlukan juga metode untuk normalisasi bermacam atribut yang dimiliki data.

Beberapa kategori algoritma clustering yang banyak dikenal adalah metode partisi dimana pemakai harus menentukan jumlah k partisi yang diinginkan lalu setiap data dites untuk dimasukkan pada salah satu partisi, metode lain yang telah lama dikenal adalah metode hierarki yang terbagi dua lagi : bottom-up yang menggabungkan cluster kecil menjadi cluster lebih besar dan top-down yang memecah cluster besar menjadi cluster yang lebih kecil. Kelemahan metode ini adalah bila bila salah satu penggabungan/pemecahan dilakukan pada tempat yang salah, tidak dapat didapatkan cluster yang optimal. Pendekatan yang banyak diambil adalah menggabungkan metode hierarki dengan metode clustering lainnya seperti yang dilakukan oleh Chameleon[6].


Gambar 4: Clustering

Akhir-akhir ini dikembangkan juga metode berdasar kepadatan data, yaitu jumlah data yang ada di sekitar suatu data yang sudah teridentifikasi dalam suatu cluster. Bila jumlah data dalam jangkauan tertentu lebih besar dari nilai ambang batas, data-data tsb dimasukkan dalam cluster. Kelebihan metode ini adalah bentuk cluster yang lebih fleksibel. Algoritma yang terkenal adalah DBSCAN[2].

 
Tinggalkan komentar

Ditulis oleh pada Agustus 5, 2012 inci Uncategorized

 

Penerapan Data Mining

Sebagai cabang ilmu baru di bidang computer, cukup banyak penerapan yang dapat dilakukann oleh Data Mining. Apalagi ditunjang ke-kaya-an dan ke-anekaragam-an berbagai bidang ilmu (artificial intelligence, database, statistik, pemodelan matematika, pengolahan citra dsb.) membuat penerapan data mining menjadi makin luas. Di bidang apa saja penerapan data mining dapat dilakukan?
Analisa Pasar dan Manajemen
Untuk analisa pasar, banyak sekali sumber data yang dapat digunakan seperti transaksi kartu kredit, kartu anggota club tertentu, kupon diskon, keluhan pembeli, ditambah dengan studi tentang gaya hidup publik.

Beberapa solusi yang bisa diselesaikan dengan data mining diantaranya:
o       Menembak target pasar
Data mining dapat melakukan pengelompokan (clustering) dari model-model pembeli dan melakukan klasifikasi terhadap setiap pembeli sesuai dengan karakteristik yang diinginkan seperti kesukaan yang sama, tingkat penghasilan yang sama, kebiasaan membeli dan karakteristik lainnya.
o       Melihat pola beli pemakai dari waktu ke waktu
Data mining dapat digunakan untuk melihat pola beli seseorang dari waktu ke waktu. Sebagai contoh, ketika seseorang menikah bisa saja dia kemudian memutuskan pindah dari single account ke joint account (rekening bersama) dan kemudian setelah itu pola beli-nya berbeda dengan ketika dia masih bujangan.
o       Cross-Market Analysis
Kita dapat memanfaatkan data mining untuk melihat hubungan antara penjualan satu produk dengan produk lainnya. Berikut ini saya sajikan beberapa contoh:
1.    Cari pola penjualan Coca Cola sedemikian rupa sehingga kita  dapat mengetahui barang apa sajakah yang harus kita sediakan untuk meningkatkan penjualan Coca Cola?
2.    Cari pola penjualan IndoMie sedemikian rupa sehingga kita dapat mengetahui barang apa saja yang juga dibeli oleh pembeli IndoMie. Dengan demikian kita bisa mengetahui dampak jika kita tidak lagi menjual IndoMie.
o       Profil Customer
Data mining dapat membantu Anda untuk melihat profil customer/pembeli/nasabah sehingga kita dapat mengetahui kelompok customer tertentu suka membeli produk apa saja.
o       Identifikasi Kebutuhan Customer
Anda dapat mengidentifikasi produk-produk apa saja yang terbaik untuk tiap kelompok customer dan menyusun faktor-faktor apa saja yang kira-kira dapat menarik customer baru untuk bergabung/membeli.
o       Menilai Loyalitas Customer
VISA International Spanyol menggunakan data mining untuk melihat kesuksesan program-program customer loyalty mereka. Anda bisa lihat di http://www.visa.es/ingles/info/300300.html
                         
o       Informasi Summary
Anda juga dapat memanfaatkan data mining untuk membuat laporan summary yang bersifat multi-dimensi dan dilengkapi dengan informasi statistik lainnya.
Analisa Perusahaan dan Manajemen Resiko
o       Perencanaan Keuangan dan Evaluasi Aset
Data Mining dapat membantu Anda untuk melakukan analisis dan prediksi cash flow serta melakukan contingent claim analysis untuk mengevaluasi aset. Selain itu Anda juga dapat menggunakannya untuk analisis trend.
o       Perencanaan Sumber Daya (Resource Planning)
Dengan melihat informasi ringkas (summary) serta pola pebelanjaan dan pemasukan dari masing-masing resource, Anda dapat memanfaatkannya untuk melakukan resource planning.
o       Persaingan (Competition)
1.    Sekarang ini banyak perusahaan yang berupaya untuk dapat melakukan competitive intelligence. Data Mining dapat membantu Anda untuk memonitor pesaing-pesaing Anda dan melihat market direction mereka.
2.    Anda juga dapat melakukan pengelompokan customer Anda dan memberikan variasi harga/layanan/bonus untuk masing-masing grup.
3.    Menyusun strategi penetapan harga di pasar yang sangat kompetitif. Hal ini diterapkan oleh perusahaan minyak REPSOL di Spanyol dalam menetapkan harga jual gas di pasaran.
Telekomunikasi
Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat dari jutaan transaksi yang masuk, transaksi mana sajakah yang masih harus ditangani secara manual (dilayani oleh orang). Tujuannya tidak lain adalah untuk menambah layanan otomatis khusus untuk transaksi-transaksi yang masih dilayani secara manual. Dengan demikian jumlah operator penerima transaksi manual tetap bisa ditekan minimal.
Keuangan
Financial Crimes Enforcement Network di Amerika Serikat baru-baru ini menggunakan data mining untuk me-nambang trilyunan dari berbagai subyek seperti property, rekening bank dan transaksi keuangan lainnya untuk mendeteksi transaksi-transaksi keuangan yang mencurigakan (seperti money laundry). Mereka menyatakan bahwa hal tersebut akan susah dilakukan jika menggunakan analisis standar. Anda bisa lihat di http://www.senate.gov/~appropriations/treasury/testimony/sloan.htm. Mungkin sudah saatnya juga Badan Pemeriksa Keuangan Republik Indonesia menggunakan teknologi ini untuk mendeteksi aliran dana BLBI.
Asuransi
Australian Health Insurance Commision menggunakan data mining untuk mengidentifikasi layanan kesehatan yang sebenarnya tidak perlu tetapi tetap dilakukan oleh peserta asuransi. Hasilnya? Mereka berhasil menghemat satu juta dollar per tahunnya. Anda bisa lihat di http://www.informationtimes.com.au/data-sum.htm. Tentu saja ini tidak hanya bisa diterapkan untuk asuransi kesehatan, tetapi juga untuk berbagai jenis asuransi lainnya.
Olah Raga
IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan NBA (jumlah shots blocked, assists dan fouls) dalam rangka mencapai keunggulan bersaing (competitive advantage) untuk tim New York Knicks dan Miami Heat.
Astronomi
Jet Propulsion Laboratory (JPL) di Pasadena, California dan Palomar Observatory berhasil menemukan 22 quasar dengan bantuan data mining. Hal ini merupakan salah satu kesuksesan penerapan data mining di bidang astronomi dan ilmu ruang angkasa. Anda bisa lihat di www-aig.jpl.nasa.gov/public/mls/news/SKICAT-PR12-95.html.
Internet Web Surf-Aid
IBM Surf-Aid menggunakan algoritma data mining untuk mendata akses halaman Web khususnya yang berkaitan dengan pemasaran guna melihat prilaku dan minat customer serta melihat ke-efektif-an pemasaran melalui Web.

Dengan melihat beberapa aplikasi yang telah disebutkan di atas, terlihat sekali potensi besar dari penerapan Data Mining di berbagai bidang. Bahkan beberapa pihak berani menyatakan bahwa Data Mining merupakan salah satu aktifitas di bidang perangkat lunak yang dapat memberikan ROI (return on investment) yang tinggi. Namun demikian, perlu diingat bahwa Data Mining hanya melihat keteraturan atau pola dari sejarah, tetapi tetap saja sejarah tidak sama dengan masa datang. Contoh: jika orang terlalu banyak minum Coca Cola bukan berarti dia pasti akan kegemukan, jika orang terlalu banyak merokok bukan berarti dia pasti akan kena kanker paru-paru atau mati muda. Bagaimanapun juga data mining tetaplah hanya alat bantu yang dapat membantu manusia untuk melihat pola, menganalisis trend dsb. dalam rangka mempercepat pembuatan keputusan. Kapankah data mining akan banyak digunakan di Indonesia? Kita tunggu saja.

 
Tinggalkan komentar

Ditulis oleh pada Agustus 5, 2012 inci Uncategorized

 

Pengertian Data Mining

Data Mining memang salah satu cabang ilmu komputer yang relatif baru. Dan sampai sekarang orang masih memperdebatkan untuk menempatkan data mining di bidang ilmu mana, karena data mining menyangkut database, kecerdasan buatan (artificial intelligence), statistik, dsb. Ada pihak yang berpendapat bahwa data mining tidak lebih dari machine learning atau analisa statistik yang berjalan di atas database. Namun pihak lain berpendapat bahwa database berperanan penting di data mining karena data mining mengakses data yang ukurannya besar (bisa sampai terabyte) dan disini terlihat peran penting database terutama dalam optimisasi query-nya.

Banyak istilah yang digunakan untuk menunjukkan proses data mining (contoh : knowledge discovery, knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, dll).
Untuk dapat memberikan pemahaman tentang data mining, penulis akan mencoba menguraikan urutan fakta yang terjadi, agar dapat memberikan persepsi tersendiri. Berikut ini adalah beberapa fakta yang terjadi :
–          Banyak sekali organisasi, baik dari dunia bisnis ataupun pemerintah berurusan dengan sejumlah sumber informasi dan juga pengelolaan basis data informasi tersebut, dan bukan tidak mungkin termasuk di dalamnya kebutuhan akan pembangunan data warehouse dalam skala besar.
–          Dan seringkali data yang tersimpan tidak dapat secara langsung di analisa dengan metode metode statistik standar. Hal ini disebabkan karena adanya beberapa rekord yang hilang ataupun juga karena data nya dalam dimensi ukuran kualitatif dan bukan kuantitatif.
–          Karena tingkat pertumbuhan ukuran basis data yang sangat cepat, bahkan terkadang sistem administrator nya sendiri pun mengalami kendala untuk mengetahui informasi yang terkandung di dalamnya atau sekedar mengetahui hubungannya dengan pertanyaan pertanyaan yang timbul.
–          Akan menjadi suatu keuntungan tersendiri apabila suatu organisasi mempunyai cara untuk “menggali” sumber informasi nya yang berupa basis data yang besar, sehingga dapat diketahui informasi yang penting dan juga pola pola yang kemungkinan terkandung di dalamnya.
–          Sekarang terdapat beberapa metodologi data mining yang kemungkinan dapat berguna untuk menganalisa sumber sumber data dalam rangka menemukan pola dan tren terbaru.

Lalu apakah data mining itu? Apakah memang berhubungan erat dengan dunia pertambangan…. tambang emas, tambang timah, dsb. Definisi sederhana dari data mining adalah ekstraksi informasi atau pola yang penting atau menarik dari data yang ada di database yang besar. Dalam jurnal ilmiah, data mining juga dikenal dengan nama Knowledge Discovery in Databases (KDD).

Sesuai yang tercantum dalam buku “Advances in Knowledge Discovery dan Data mining” terdapat definisi sebagai berikut:
Knowledge discovery (data mining) in databases (KDD) adalah keseluruhan proses non-trivial untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan bersifat sah (valid), baru (novel), dapat bermanfaat (potentially usefull), dapat dimengerti (ultimately understandable)[2].

Istilah data mining dan knowledge discovery in databases (KDD) sering kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua istilah tersebut memiliki konsep yang berbeda akan tetapi berkaitan satu sama lain. Dan salah satu tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara garis besar dapat dijelaskan sebagai berikut:

1. Data Selection

Pemilihan (seleksi) data daru sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.

2. Pre-processing/ Cleaning

Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD.
Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi).
Juga dilakukan proses enrichment, yaitu  proses “memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.

3. Transformation

Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data

4. Data mining

Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.

5. Interpretation/ Evaluation

Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut dengan interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.

Proses KDD secara garis besar memang terdiri dari 5 tahap seperti yang telah dijelaskan sebelumnya. Akan tetapi, dalam proses KDD yang sesungguhnya, dapat saja terjadi iterasi atau pengulangan pada tahap tahap tertentu. Pada setiap tahap dalam proses KDD, seorang analis dapat saja kembali ke tahap sebelumnya. Sebagai contoh, pada saat coding atau data mining, analis menyadari proses cleaning belum dilakukan dengan sempurna, atau mungkin saja analis menemukan data atau informasi baru untuk “memperkaya” data yang sudah ada.

Gambar 1. Tahapan proses KDD

KDD mencakup keseluruhan proses pencarian pola atau informasi dalam basis data, dimulai dari pemilihan dan persiapan data sampai representasi pola yang ditemukan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Data mining merupakan salah satu komponen dalam KDD yang difokuskan pada penggalian pola tersembunyi dalam basis data.

Kehadiran data mining dilatar belakangi dengan problema data explosion yang dialami akhir-akhir ini dimana banyak organisasi telah mengumpulkan data sekian tahun lamanya (data pembelian, data penjualan, data nasabah, data transaksi dsb.). Hampir semua data tersebut dimasukkan dengan menggunakan aplikasi komputer yang digunakan untuk menangani transaksi sehari-hari yang kebanyakan adalah OLTP (On Line Transaction Processing). Bayangkan berapa transaksi yang dimasukkan oleh hypermarket semacam Carrefour atau transaksi kartu kredit dari sebuah bank dalam seharinya dan bayangkan betapa besarnya ukuran data mereka jika nanti telah berjalan beberapa tahun. Pertanyaannya sekarang, apakah data tersebut akan dibiarkan menggunung, tidak berguna lalu dibuang, ataukah kita dapat me-‘nambang’-nya untuk mencari ‘emas’, ‘berlian’ yaitu informasi yang berguna untuk organisasi kita. Banyak diantara kita yang kebanjiran data tapi miskin informasi.

Jika Anda mempunyai kartu kredit, sudah pasti Anda bakal sering menerima surat berisi brosur penawaran barang atau jasa. Jika Bank pemberi kartu kredit Anda mempunyai 1.000.000 nasabah, dan mengirimkan sebuah (hanya satu) penawaran dengan biaya pengiriman sebesar Rp. 1.000 per buah maka biaya yang dihabiskan adalah Rp. 1 Milyar!! Jika Bank tersebut mengirimkan penawaran sekali sebulan yang berarti 12x dalam setahun maka anggaran yang dikeluarkan per tahunnya adalah Rp. 12 Milyar!! Dari dana Rp. 12 Milyar yang dikeluarkan, berapa persenkah konsumen yang benar-benar membeli? Mungkin hanya 10 %-nya saja. Secara harfiah, berarti 90% dari dana tersebut terbuang sia-sia.

Persoalan di atas merupakan salah satu persoalan yang dapat diatasi oleh data mining dari sekian banyak potensi permasalahan yang ada. Data mining dapat menambang data transaksi belanja kartu kredit untuk melihat manakah pembeli-pembeli yang memang potensial untuk membeli produk tertentu. Mungkin tidak sampai presisi 10%, tapi bayangkan jika kita dapat menyaring 20% saja, tentunya 80% dana dapat digunakan untuk hal lainnya.

Lalu apa beda data mining dengan data warehouse dan OLAP (On-line Analytical Processing)? Secara singkat bisa dijawab bahwa teknologi yang ada di data warehouse dan OLAP dimanfaatkan penuh untuk melakukan data mining. Gambar dibawah menunjukkan posisi dari masing-masing teknologi :

Gambar 2. Data Mining dan Teknologi Database lainnya

Dari gambar diatas terlihat bahwa teknologi data warehouse digunakan untuk melakukan OLAP, sedangkan data mining digunakan untuk melakukan information discovery yang informasinya lebih ditujukan untuk seorang Data Analyst dan Business Analyst (dengan ditambah visualisasi tentunya). Dalam prakteknya, data mining juga mengambil data dari data warehouse. Hanya saja aplikasi dari data mining lebih khusus dan lebih spesifik dibandingkan OLAP mengingat database bukan satu-satunya bidang ilmu yang mempengaruhi data mining, banyak lagi bidang ilmu yang turut memperkaya data mining seperti: information science (ilmu informasi), high performance computing, visualisasi, machine learning, statistik, neural networks (jaringan syaraf tiruan), pemodelan matematika, information retrieval dan information extraction serta pengenalan pola. Bahkan pengolahan citra (image processing) juga digunakan dalam rangka melakukan data mining terhadap data image/spatial.

Dengan memadukan teknologi OLAP dengan data mining diharapkan pengguna dapat melakukan hal-hal yang biasa dilakukan di OLAP seperti drilling/rolling untuk melihat data lebih dalam atau lebih umum, pivoting, slicing dan dicing. Semua hal tersebut diharapkan nantinya dapat dilakukan secara interaktif dan dilengkapi dengan visualisasi.

Data mining tidak hanya melakukan mining terhadap data transaksi saja. Penelitian di bidang data mining saat ini sudah merambah ke sistem database lanjut seperti object oriented database, image/spatial database, time-series data/temporal database, teks (dikenal dengan nama text mining), web (dikenal dengan nama web mining) dan multimedia database.

Meskipun gaungnya mungkin tidak seramai seperti ketika Client/Server Database muncul, tetapi industri-industri seperti IBM, Microsoft, SAS, SGI, dan SPSS terus gencar melakukan penelitian-penelitian di bidang data mining dan telah menghasilkan berbagai software untuk melakukan data mining:
·        Intelligent Miner dari IBM. Berjalan di atas sistem operasi AIX, OS/390, OS/400, Solaris dan Windows NT. Dijual dengan harga sekitar US$60.000. Selain untuk data IBM juga mengeluarkan produk Intelligent Miner untuk teks. Web site:
http://www.software.ibm.com/data/iminer/fortext
www-4.inm.com/software/data/iminer/fordata/index.html •
·        Microsoft juga telah menambahkan fasilitas data mining di Microsoft SQL Server 2000
·        Enterprise Miner dari SAS. Berjalan di atas sistem operasi AIX/6000, CMS, Compaq Tru64 UNIX, HP-UX, IRIX, Intel ABI, MVS, OS/2, Open VMS Alpha, Open VMS Vax, Solaris, dan Windows. Web site: http://www.sas.com
·        MineSet dari Silicon Graphics. Berjalan di atas sistem operasi Windows 9x/NT dan IRIX. Dijual per seat seharga US$995, server (Windows NT) seharga US$35.000 dan untuk IRIX dijual US$50.000. Web site: http://www.sgi.com/software/mineset
·        Clementine dari SPSS. Berjalan di atas sistem operasi UNIX dan Windows NT. Web site: http://www.spss.com/software/clementine

Beberapa penelitian sekarang ini sedang dilakukan untuk memajukan data mining diantaranya adalah peningkatan kinerja jika berurusan dengan data berukuran terabyte, visualisasi yang lebih menarik untuk user, pengembangan bahasa query untuk data mining yang sedapat mungkin mirip dengan SQL. Tujuannya tidak lain adalah agar end-user dapat melakukan data mining dengan mudah dan cepat serta mendapatkan hasil yang akurat.

Pengertian Data Mining

Data Mining memang salah satu cabang ilmu komputer yang relatif baru. Dan sampai sekarang orang masih memperdebatkan untuk menempatkan data mining di bidang ilmu mana, karena data mining menyangkut database, kecerdasan buatan (artificial intelligence), statistik, dsb. Ada pihak yang berpendapat bahwa data mining tidak lebih dari machine learning atau analisa statistik yang berjalan di atas database. Namun pihak lain berpendapat bahwa database berperanan penting di data mining karena data mining mengakses data yang ukurannya besar (bisa sampai terabyte) dan disini terlihat peran penting database terutama dalam optimisasi query-nya.

Banyak istilah yang digunakan untuk menunjukkan proses data mining (contoh : knowledge discovery, knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, dll).
Untuk dapat memberikan pemahaman tentang data mining, penulis akan mencoba menguraikan urutan fakta yang terjadi, agar dapat memberikan persepsi tersendiri. Berikut ini adalah beberapa fakta yang terjadi :
–          Banyak sekali organisasi, baik dari dunia bisnis ataupun pemerintah berurusan dengan sejumlah sumber informasi dan juga pengelolaan basis data informasi tersebut, dan bukan tidak mungkin termasuk di dalamnya kebutuhan akan pembangunan data warehouse dalam skala besar.
–          Dan seringkali data yang tersimpan tidak dapat secara langsung di analisa dengan metode metode statistik standar. Hal ini disebabkan karena adanya beberapa rekord yang hilang ataupun juga karena data nya dalam dimensi ukuran kualitatif dan bukan kuantitatif.
–          Karena tingkat pertumbuhan ukuran basis data yang sangat cepat, bahkan terkadang sistem administrator nya sendiri pun mengalami kendala untuk mengetahui informasi yang terkandung di dalamnya atau sekedar mengetahui hubungannya dengan pertanyaan pertanyaan yang timbul.
–          Akan menjadi suatu keuntungan tersendiri apabila suatu organisasi mempunyai cara untuk “menggali” sumber informasi nya yang berupa basis data yang besar, sehingga dapat diketahui informasi yang penting dan juga pola pola yang kemungkinan terkandung di dalamnya.
–          Sekarang terdapat beberapa metodologi data mining yang kemungkinan dapat berguna untuk menganalisa sumber sumber data dalam rangka menemukan pola dan tren terbaru.

Lalu apakah data mining itu? Apakah memang berhubungan erat dengan dunia pertambangan…. tambang emas, tambang timah, dsb. Definisi sederhana dari data mining adalah ekstraksi informasi atau pola yang penting atau menarik dari data yang ada di database yang besar. Dalam jurnal ilmiah, data mining juga dikenal dengan nama Knowledge Discovery in Databases (KDD).

Sesuai yang tercantum dalam buku “Advances in Knowledge Discovery dan Data mining” terdapat definisi sebagai berikut:
Knowledge discovery (data mining) in databases (KDD) adalah keseluruhan proses non-trivial untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan bersifat sah (valid), baru (novel), dapat bermanfaat (potentially usefull), dapat dimengerti (ultimately understandable)[2].

Istilah data mining dan knowledge discovery in databases (KDD) sering kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua istilah tersebut memiliki konsep yang berbeda akan tetapi berkaitan satu sama lain. Dan salah satu tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara garis besar dapat dijelaskan sebagai berikut:

1. Data Selection

Pemilihan (seleksi) data daru sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.

2. Pre-processing/ Cleaning

Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD.
Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi).
Juga dilakukan proses enrichment, yaitu  proses “memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.

3. Transformation

Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data

4. Data mining

Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.

5. Interpretation/ Evaluation

Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut dengan interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.

Proses KDD secara garis besar memang terdiri dari 5 tahap seperti yang telah dijelaskan sebelumnya. Akan tetapi, dalam proses KDD yang sesungguhnya, dapat saja terjadi iterasi atau pengulangan pada tahap tahap tertentu. Pada setiap tahap dalam proses KDD, seorang analis dapat saja kembali ke tahap sebelumnya. Sebagai contoh, pada saat coding atau data mining, analis menyadari proses cleaning belum dilakukan dengan sempurna, atau mungkin saja analis menemukan data atau informasi baru untuk “memperkaya” data yang sudah ada.

KDD mencakup keseluruhan proses pencarian pola atau informasi dalam basis data, dimulai dari pemilihan dan persiapan data sampai representasi pola yang ditemukan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Data mining merupakan salah satu komponen dalam KDD yang difokuskan pada penggalian pola tersembunyi dalam basis data.

Kehadiran data mining dilatar belakangi dengan problema data explosion yang dialami akhir-akhir ini dimana banyak organisasi telah mengumpulkan data sekian tahun lamanya (data pembelian, data penjualan, data nasabah, data transaksi dsb.). Hampir semua data tersebut dimasukkan dengan menggunakan aplikasi komputer yang digunakan untuk menangani transaksi sehari-hari yang kebanyakan adalah OLTP (On Line Transaction Processing). Bayangkan berapa transaksi yang dimasukkan oleh hypermarket semacam Carrefour atau transaksi kartu kredit dari sebuah bank dalam seharinya dan bayangkan betapa besarnya ukuran data mereka jika nanti telah berjalan beberapa tahun. Pertanyaannya sekarang, apakah data tersebut akan dibiarkan menggunung, tidak berguna lalu dibuang, ataukah kita dapat me-‘nambang’-nya untuk mencari ‘emas’, ‘berlian’ yaitu informasi yang berguna untuk organisasi kita. Banyak diantara kita yang kebanjiran data tapi miskin informasi.

Jika Anda mempunyai kartu kredit, sudah pasti Anda bakal sering menerima surat berisi brosur penawaran barang atau jasa. Jika Bank pemberi kartu kredit Anda mempunyai 1.000.000 nasabah, dan mengirimkan sebuah (hanya satu) penawaran dengan biaya pengiriman sebesar Rp. 1.000 per buah maka biaya yang dihabiskan adalah Rp. 1 Milyar!! Jika Bank tersebut mengirimkan penawaran sekali sebulan yang berarti 12x dalam setahun maka anggaran yang dikeluarkan per tahunnya adalah Rp. 12 Milyar!! Dari dana Rp. 12 Milyar yang dikeluarkan, berapa persenkah konsumen yang benar-benar membeli? Mungkin hanya 10 %-nya saja. Secara harfiah, berarti 90% dari dana tersebut terbuang sia-sia.

Persoalan di atas merupakan salah satu persoalan yang dapat diatasi oleh data mining dari sekian banyak potensi permasalahan yang ada. Data mining dapat menambang data transaksi belanja kartu kredit untuk melihat manakah pembeli-pembeli yang memang potensial untuk membeli produk tertentu. Mungkin tidak sampai presisi 10%, tapi bayangkan jika kita dapat menyaring 20% saja, tentunya 80% dana dapat digunakan untuk hal lainnya.

Lalu apa beda data mining dengan data warehouse dan OLAP (On-line Analytical Processing)? Secara singkat bisa dijawab bahwa teknologi yang ada di data warehouse dan OLAP dimanfaatkan penuh untuk melakukan data mining. Gambar dibawah menunjukkan posisi dari masing-masing teknologi :

Gambar 2. Data Mining dan Teknologi Database lainnya

Dari gambar diatas terlihat bahwa teknologi data warehouse digunakan untuk melakukan OLAP, sedangkan data mining digunakan untuk melakukan information discovery yang informasinya lebih ditujukan untuk seorang Data Analyst dan Business Analyst (dengan ditambah visualisasi tentunya). Dalam prakteknya, data mining juga mengambil data dari data warehouse. Hanya saja aplikasi dari data mining lebih khusus dan lebih spesifik dibandingkan OLAP mengingat database bukan satu-satunya bidang ilmu yang mempengaruhi data mining, banyak lagi bidang ilmu yang turut memperkaya data mining seperti: information science (ilmu informasi), high performance computing, visualisasi, machine learning, statistik, neural networks (jaringan syaraf tiruan), pemodelan matematika, information retrieval dan information extraction serta pengenalan pola. Bahkan pengolahan citra (image processing) juga digunakan dalam rangka melakukan data mining terhadap data image/spatial.

Dengan memadukan teknologi OLAP dengan data mining diharapkan pengguna dapat melakukan hal-hal yang biasa dilakukan di OLAP seperti drilling/rolling untuk melihat data lebih dalam atau lebih umum, pivoting, slicing dan dicing. Semua hal tersebut diharapkan nantinya dapat dilakukan secara interaktif dan dilengkapi dengan visualisasi.

Data mining tidak hanya melakukan mining terhadap data transaksi saja. Penelitian di bidang data mining saat ini sudah merambah ke sistem database lanjut seperti object oriented database, image/spatial database, time-series data/temporal database, teks (dikenal dengan nama text mining), web (dikenal dengan nama web mining) dan multimedia database.

Meskipun gaungnya mungkin tidak seramai seperti ketika Client/Server Database muncul, tetapi industri-industri seperti IBM, Microsoft, SAS, SGI, dan SPSS terus gencar melakukan penelitian-penelitian di bidang data mining dan telah menghasilkan berbagai software untuk melakukan data mining:
·        Intelligent Miner dari IBM. Berjalan di atas sistem operasi AIX, OS/390, OS/400, Solaris dan Windows NT. Dijual dengan harga sekitar US$60.000. Selain untuk data IBM juga mengeluarkan produk Intelligent Miner untuk teks. Web site:
http://www.software.ibm.com/data/iminer/fortext
www-4.inm.com/software/data/iminer/fordata/index.html •
·        Microsoft juga telah menambahkan fasilitas data mining di Microsoft SQL Server 2000
·        Enterprise Miner dari SAS. Berjalan di atas sistem operasi AIX/6000, CMS, Compaq Tru64 UNIX, HP-UX, IRIX, Intel ABI, MVS, OS/2, Open VMS Alpha, Open VMS Vax, Solaris, dan Windows. Web site: http://www.sas.com
·        MineSet dari Silicon Graphics. Berjalan di atas sistem operasi Windows 9x/NT dan IRIX. Dijual per seat seharga US$995, server (Windows NT) seharga US$35.000 dan untuk IRIX dijual US$50.000. Web site: http://www.sgi.com/software/mineset
·        Clementine dari SPSS. Berjalan di atas sistem operasi UNIX dan Windows NT. Web site: http://www.spss.com/software/clementine

Beberapa penelitian sekarang ini sedang dilakukan untuk memajukan data mining diantaranya adalah peningkatan kinerja jika berurusan dengan data berukuran terabyte, visualisasi yang lebih menarik untuk user, pengembangan bahasa query untuk data mining yang sedapat mungkin mirip dengan SQL. Tujuannya tidak lain adalah agar end-user dapat melakukan data mining dengan mudah dan cepat serta mendapatkan hasil yang akurat.

Referensi : http://mentari-ilmu.blogspot.com/2010/08/data-mining.html

 

 

 

 
Tinggalkan komentar

Ditulis oleh pada Agustus 5, 2012 inci Uncategorized