TIPS : Lomba Penggalian Data (Data Mining) GEMASTIK


Tak sedikit mahasiswa yang ingin mengikuti ajang ini. Di antara cabang lomba yang ada pada GEMASTIK, mungkin penggalian data ini yang paling santai.  Jadi, ayo teman-teman ikut lomba ini.. seru kog. ^^
Kebetulan pada GEMASTIK 2011 tim saya dapat juara II. Nah, sekarang ndak ada salahnya jika saya sedikit berbagi tips bagaimana mengikuti lomba ini agar tidak salah langkah.. Bukan bermaksud sombong lo ya..hanya berbagi pengalaman saja. ^^

Untuk ikut lomba ini, teman-teman harus daftar dulu secara online di web yang dibuat oleh penyelenggara. Kabarnya tahun ini GEMASTIK 2012 akan digelar di Institut Teknologi Bandung (ITB). Pendaftaran biasanya dibuka mulai bulan Mei sampai Juli. Sewaktu daftar biasanya diminta untuk upload KTM (hasil scan).

Setelah daftar, setiap tim akan mempunyai akun pada official website nya gemastik. Rajin-rajinlah membuka website tersebut. Cari kabar kapan soal penyisihan di-launch. Biasanya ada soal warming-up juga. Namun soal ini ndak terlalu berhubungan dengan soal babak penyisihan. Soal warming up biasanya berisi dasar-dasar data mining (DM).

Kelancaran babak final bergantung pada babak penyisishan. Jadi, kerjakanlah soal pada babak penyisihan dengan sebaik mungkin. Soal babak penyisihan terdiri dari dataset (data training dan data testing) serta permasalahan yang akan dipecahkan atau informasi apa yang dapat digali dari dataset tersebut. Misalnya adalah bagaimana memprediksi kemampuan nasabah untuk mengembalikan kredit yang telah diberikan oleh bank (GEMASTIK 2011). Datasetnya adalah data histori nasabah. Data tersebut berjumlah ratusan dan terdiri dari beberapa atribut.

Dalam mengerjakan soal lomba, perhatikan beberapa hal berikut :

  1. Perhatikan pembagian kerja antar anggota kelompok. Mungkin ada yang bagian mengkaji teori, menyusun makalah, dan menyediakan data.  
  2. Untuk yang menyediakan data, usahakan dapat mengoperasikan beberapa tools-tools data mining seperti Weka atau pun SPSS. Bahkan jika terpaksa harus mempelajari tools baru yang kurang terkenal. Bahkan lagi, kalau perlu.. coding sendiri :D (kalau misalnya metode yang digunakan metode yang ndak umum, tidak disediakan di tools-tools DM).
  3. Pembagian kerja berkorelasi dengan lama pengerjaan. Jika permbagian kerja tidak jelas, biasanya pekerjaan akan menumpuk pada waktu injury time (deadline). Jika sudah seperti ini, hasil tidak akan maksimal karena tidak dapat melakukan beberapa revisi atau koreksi.
  4. Untuk yang mengkaji teori, camkan ini "Jangan cuma mencari metode yang menghasilkan akurasi paling tinggi". Carilah metode yang COCOK. Mencoba semua metode yang terdapat dalam data mining merupakan hal yang buruk (walaupun sering dilakukan). Biasanya semua metode dicoba, dan   manakah yang menghasilkan akurasi yang tinggi. Hal semacam ini akan "MEMBUNUH" anda pada saat final (jika lolos :P). Why ? Soalnya mencoba-coba itu tidak berdasar. Jika pada saat final anda ditanya "Mengapa anda menggunakan metode X?", masa mau jawab "Setelah dicoba-coba.....bla3x". Wew...ndak ilmiah. Selain itu, metode yang dipilih dari hasil "coba-coba" juga belum tentu dapat diterapkan pada dataset yang lain.
  5. Untuk memilih metode yang cocok, perhatikan karakteristik dari dataset. Berikut beberapa karakteritik dari suatu dataset :

  • Jumlah atribut. jika terlalu banyak, maka perlu dilakukan pemilihan fitur-fitur yang penting.
  • Jenis atribut (nominal, kontinu). Bagaimana perlakuan terhadap data bertipe nominal atau pun kontinu.
  • Range Nilai pada data. Normalisasi dapat dilakukan jika diperlukan.
  • Perbandingan jumlah data dalam tiap-tiap kelas yang ada.
  • Adanya Missing Value dan bagaimana mengatasi Missing Value.
  • Jenis klasifikasi (jika soalnya berupa klasifikasi, apakah klasifikasi biner atau ndak biner).

Membaca metode-metode DM yang terdapat dalam jurnal-jurnal internasional juga akan sangat membantu. Teman-teman bisa akses www.sciencedirect.com untuk mengunduh artikel ilmiah (untuk dapat mengunduh, harus berlangganan dulu. Jika tidak, harus membayar agar dapat mengunduh).


Untuk final, persiapkan slide yang semenarik mungkin. Perbaiki makalah. Kalau perlu, menyewa teman (selain anggota kelompok) untuk membaca dan mengomentari makalah anda. Setalah itu, lakukan revisi seperlunya.

Lakukan latihan presentasi sesering mungkin. Latihan ini sekalian untuk membiasakan diri dalam menggunakan Laser pointer. Mungkin ini kelihatan sepeleh, tapi jika tidak terbiasa menggunakannya maka akan sedikit kagok (percayalah :P). Nggak punya laser pointer ? Pinjam donk ! Beli juga gapapa, ada tuh yang murah, 60.000.

Prediksi semua kemungkinan pertanyaan yang akan ditanyakan oleh Juri. Dan cari jawabannya. Untuk memprdiksi ini dapat dilakukan dengan cara latihan presentasi di depan dosen pembimbing atau teman selain anggota kelompok. Sedangkan tips untuk presentasi, saya rasa sama dengan tips untuk presentasi pada umumnya. Yang harus diperhatikan adalah durasi waktunya. Karena waktu yang disediakan terbatas, maka sering-seringlah latihan untuk mem-pas kan waktunya. :D

Hemm...mungkin cukup sekian tips nya. Lain kali jika saya ingat, dan ada hal yang belum saya sampaikan di sini, insyaallah akan saya tambahkan. :D. Jika ada pertanyaan, monggo ditulis pada field komentar di bawah....
Semoga membantu...

Bagi yang berminat dengan contoh makalah dan berkas lainnya,bisa dunlud makalah tim saya. Makalah saya ini masih jauh dari kesempurnaan, jadi mohon dimaklumi kalau ada kesalahan. :)

http://downloads.ziddu.com/download/24319370/SEMANGAT_Data_Mining_Gemastik-2011_revisi.pdf.html

7 comments on "TIPS : Lomba Penggalian Data (Data Mining) GEMASTIK"

  1. wah tips yang bagus mbak erli, terutama poin 4 @.@
    "Ndak Ilmiah" hahaha.... :D

    ReplyDelete
  2. Terima kasih mas.. sudah mampir. :)

    ReplyDelete
  3. Assalamu'alaykum
    salam kenal kakak, kakak jurusan apa dulu?
    saya juga anak ITS jurusan SI,
    pingin bnget ikutan lomba yg satu ini
    kira2 utk sukses dilomba ini yang harus dikuasai apa saja ya?

    ReplyDelete
  4. Wa'alaikmslm..
    Salam kenal juga. Saya jurusan teknik informatika. Tapi sudah lulus, wisuda 104.

    Kiat2 nya bisa dibaca di atas. :D

    ReplyDelete
  5. baru ngerti, untuk outputnya ternyata harus ngoding sendiri ya.. @_@

    tak kirain.... cukup pake weka saja.
    ternyata harus ngoding juga dinetbean -_-

    ReplyDelete
  6. mantap
    http://osharedoc.blogspot.com

    ReplyDelete
  7. Salam Mbak Eril
    Terima kasih ilmunya

    Kebetulan linknya rusak, apakah bisa di re-upload ulang link yang akti?

    Terima kasih

    ReplyDelete