53700307-analisa-klasifikasi-biaya-pasien-rawat-inap-menggunakan-teknik-data-mining-attribute-importance-ai-dan-algoritma-naive-bayes-rev1.pdf...
DESCRIPTION
asaTRANSCRIPT
Analisa Klasifikasi Biaya Pasien Rawat Inap Menggunakan Teknik Data Mining Attribute Importance (AI) dan Algoritma Naive Bayes
Furqonuddin Ramdhani, Agus Mutamakin
Abstrak
Sistem Informasi Manajemen Rumah Sakit (SIMRS) secara umum telah digunakan oleh para staf rumah sakit untuk mendukung operasional sehari-hari. Sebagian besar informasi yang didapat pada operasional SIMRS berasal dari pengolahan transactional database. Sedangkan untuk mendukung pengambilan keputusan ditingkat manajerial, diperlukan akses ke database dalam ukuran besar dan dimensi yang lebih kompleks, sehingga diperlukan teknik data mining. Pendekatan data mining biasa dilakukan untuk menggali informasi, pengetahuan, pola-pola baru dan tren dengan menganalisis database dalam ukuran besar, menggunakan teknologi pengenalan pola, teknik statistik dan matematik.
Salahsatu potensi yang dapat dimanfaatkan pada penerapan data mining di rumah sakit adalah mengidentifikasi atribut-atribut penentu biaya pasien rawat inap. Dengan mengetahui atribut penentu biaya rawat, diharapkan pihak manajemen rumah sakit dapat melakukan kontrol terhadap biaya, sehingga ongkos perawatan pasien dapat ditekan tanpa mengurangi kualitas pelayanan.
Untuk mengidentifikasi atribut penentu biaya pasien rawat inap, digunakan data kunjungan pasien rawat inap RSUP Dr. Cipto Mangunkusumo dengan jaminan Jamkesmas periode 1 Januari 2009 s/d 30 September 2010 dari database SIMRS sebanyak 2022 kunjungan (jumlah sebelum dilakukan data cleaning 8383). Dengan teknik analisa Atttibute Importance (AI) didapatkan atribut-atribut penentu biaya dengan urutan sebagai berikut: prosedur medis 1 (AI=0,16), prosedur medis 4 (AI=0,15), prosedur medis 3 (AI=0,14), LOS (AI=0,13), prosedur medis 2 (AI=0,13), organisasi (AI=0.10), diagnosa utama (AI=0,08), jenis kelamin (AI=0.02) dan status kawin (AI=0.01). Hasil klasifikasi dengan teknik Algoritma Naive Bayes menunjukkan model yang dibuat memiliki predictive confidence sebesar 50,41%.
Keyword : SIMRS, data mining, biaya rawat, rawat inap
I. Pendahuluan
Perkembangan teknologi informasi yang pesat terutama di
sektor kesehatan memungkinkan data dalam jumlah besar
terakumulasi dengan cepat. Saat ini berbagai rumah sakit
sudah mulai menerapkan sistem informasi rumah sakit
berbasis komputer untuk mendukung manajemen
keuangan (khususnya billing systems) [1]. Untuk rumah
sakit yang sudah mapan sistem informasinya bahkan
mulai memperluas kebutuhannya untuk membangun
sistem informasi klinik.
Pertumbuhan yang pesat dari akumulasi data itu telah
menciptakan kondisi yang sering disebut sebagai “rich of
data but poor of knowledge”, karena data yang terkumpul
itu hanya digunakan untuk kebutuhan operasional saja,
bahkan tidak jarang kumpulan data itu dibiarkan begitu
saja seakan-akan menjadi “kuburan data” (data tombs).
Untuk melakukan analisa data dalam jumlah besar yang
tersimpan pada database, biasanya digunakan teknik data
mining. Meski telah umum digunakan pada industri
keuangan dan telekomunikasi, teknik data mining mulai
diterapkan secara intensif di sektor kesehatan. Sebagai
contoh, Mayo Clinic bekerja sama dengan IBM
menerapkan teknik data mining pada pasien dengan
kesamaan jenis kelamin, usia dan riwayat kesehatan untuk
mengetahui respon terhadap pengobatan tertentu .[2]
Teknis data mining dapat kita lihat sebagai hasil dari
evolusi alamiah teknologi informasi. Proses evolusi dalam
teknologi sistem database dapat dilihat pada Gambar 1.
Gambar 1. Evolusi teknologi sistem database
Menurut Friedman[4] ada beberapa definisi dari data
mining. Dikumpulkan dari berbagai literatur data mining
antara lain sebagai berikut:
• Data mining adalah proses ekstraksi sebelumnya
tidak dikenal dan dipahami dari database berukuran
besar dan digunakan untuk membuat keputusan bisnis
yang penting. - Zekulin.
• Data mining adalah serangkaian metode yang
digunakan dalam proses penemuan pengetahuan
untuk membedakan yang sebelumnya tidak diketahui
baik hubungan dan pola dalam data. - Ferruzza.
• Data mining adalah proses pendukung keputusan
yang digali dari basis data berukuran besar untuk
mengetahui pola yang tidak diketahui dan tak terduga
sebelumnya pada data. - Parsaye
Potensi data mining dalam bidang kesehatan sudah diakui
secara luas. Banyak studi yang diakukan menggunakan
teknik data mining modern, antara lain classification dan
predictive yang diterapkan pada rekam medis elektronis.
Beberapa dari studi tersebut antara lain adalah sebagai
berikut :
• Teknik Classification Naïve Bayes yang diterapkan
untuk masalah seleksi embrio [6]
• Teknik Decision Tree untuk mengembangkan dan
memvalidasi ukuran resiko stratifikasi mortalitas di
rumah sakit karena dekomposisi akut gagal
jantung(ADHF) [7]
• Neural Network untuk memprediksi pasien tertentu
yang akan mengalami kegagalan dialysis peritoneal
[8]
• Support Vector Machines (SVM) untuk memprediksi
sumber pendarahan dan mengidentifikasi kohort pada
pasien dengan pendarahan akut gastrointestinal (GIB)
yang memerlukan intervensi mendesak, termasuk
endoskopi [9]
• Association digunakan untuk mengkonfirmasi aturan
yang akan digunakan oleh sistem pakar yang
membantu dalam diagnosis penyakit jantung dan
untuk menemukan aturan-aturan baru
untuk memperkaya pengetahuan sistem pakar [10]
• Text Mining untuk mengidentifikasi luka yang terkait
dengan luka jatuh pada orang tua [11]
Penggunan data mining diharapkan dapat membantu para
pengambil keputusan mendapatkan informasi yang lebih
akurat dan bermakna sebagai salah satu sarana untuk
meningkatkan pelayanan kesehatan kepada masyarakat.
II. Proses Data Mining
Pada bagian ini akan dijelaskan proses data mining yang
terdiri dari beberapa tahap yang diilustrasikan di gambar
2[3]:
1. Pembersihan data (data cleaning), untuk membersihkan
noise dan data yang tidak konsisten. Dalam kasus ini
membersihkan data-data pasien yang sudah dihapus dan
identitas yang tidak lengkap (misal: umur, status marital,
pendidikan, diagnosa, dan sebagainya);
2. Integrasi data, penggabungan data dari berbagai
sumber;
3. Transformasi data, data diubah menjadi bentuk yang
sesuai untuk di mining;
4. Aplikasi teknik data mining, proses inti dimana teknik
data mining diterapkan untuk mengekstrak pola-pola
tertentu pada data;
5. Evaluasi pola yang ditemukan;
6. Presentasi pengetahuan, menggunakan teknik
visualisasi untuk menampilkan hasil data mining kepada
pengguna (user).
Gambar 2. Tahapan dalam proses data mining
III. Data dan Perangkat Pendukung
III.1. Data
Untuk mengidentifikasi atribut-atribut penentu biaya
pasien rawat inap, digunakan data kunjungan pasien rawat
inap RSUP Dr. Cipto Mangunkusumo dengan jaminan
Jamkesmas periode 1 Januari 2009 s/d 30 September 2010
yang diambil dari database SIMRS sebanyak 8383
kunjungan pasien. Setelah dilakukan data cleaning,
didapatkan 2022 kunjungan pasien yang layak untuk
dianalisa.
III.2. Perangkat Lunak
Untuk analisa data mining digunakan perangkat lunak
Oracle Data Miner dan database Oracle 11g.
III. 3 Metode & Teknik
III.3.1. Attribute Importance (AI)
Attribute Importance (AI) memberi peringkat atribut
dengan menghilangkan atribut yang berulang, tidak
relevan, atau tidak informatif dan mengidentifikasi atribut
yang mungkin memiliki pengaruh yang paling tinggi
dalam membuat prediksi.
Gambar 3. Ilustrasi Atrribut Importance
AI menggunakan algoritma Minimum Description Length
(MDL). Algoritma MDL mempertimbangkan setiap
atribut sebagai model prediktif sederhana dari kelas target.
Teknik AI digunakan untuk mengoptimalkan analisa
model classification dengan mengurangi atribut yang
digunakan dan akan meningkatkan kecepatan dan akurasi
saat membangun model.
III.3.2. Naive Bayes Algorithm (Classification)
Classification adalah proses untuk menemukan model
atau fungsi yang menjelaskan atau membedakan
konsep atau kelas data, dengan tujuan untuk dapat
memperkirakan kelas dari suatu objek yang labelnya
tidak diketahui. Model itu sendiri bisa berupa aturan
“jika-‐maka”. Dalam teknik classification terdapat
beberapa algoritma yang bisa digunakan antara lain
decision tree, naive bayes , adaptive naive bayes, logistic
regression dan support vector machine.
Bayesian Classification didasarkan pada Teorema
Bayesian. Konsep dasar teori bayes itu pada dasarnya
adalah peluang bersyarat P(H∣X). Dimana dalam Bayesian
H adalah posterior dan X adalah prior. Prior adalah
pengetahuan kita tentang karakteristik suatu parameter
(bisa dibaca sebagai pengalaman di masa lalu atas suatu
parameter atau juga bisa berdasarkan teori), sedangkan
posterior adalah karakteristik yang akan kita duga pada
kejadian yang akan datang.
Teorema Bayesian berguna untuk melakukan kalkulasi
probabilitas posterior, P(H|X), dari P(H), P(X) dan
P(X|H). Teori Bayes adalah sebagai berikut :
P(H|X) = P(X|H)P(H)
P(X)
Proses classification biasanya dibagi menjadi dua fase :
learning dan test. Pada fase learning, sebagian data yang
telah diketahui kelas datanya diumpankan untuk
membentuk model perkiraan. Kemudian pada fase test
model yang sudah terbentuk diuji dengan sebagian data
lainnya untuk mengetahui akurasi dari model tersebut.
Bila akurasinya mencukupi model ini dapat dipakai untuk
prediksi kelas data yang belum diketahui. [3]
Gambar 4. Ilustrasi pemodelan teknik Classification
untuk mengukur akurasi
III.3.3. Data Scoring
Setelah model dibuat dengan aplikasi data mining, model
tersebut bisa digunakan untuk membuat prediksi dari data
baru yang dalam hal ini diterapkan untuk memprediksi
pola biaya data kunjungan pasien. Model biasanya dibuat
dengan menggunakan data historis dari kunjungan pasien
sebelumnya. Prosesnya secara umum di ilustrasikan
sebagai berikut :
Gambar 5. Ilustrasi Pembuatan Model
Gambar 6. Ilustrasi Sistem Scoring
IV. Teknik Data Mining
IV.1. Persiapan Data
Sebelum dilakukan teknik data mining dilakukan
eksplorasi data untuk mengetahui distribusi data pasien
berdasarkan atribut tertentu (misal: distribusi pasien
berdasar umur) dan juga untuk mengidentifikasi data yang
tidak normal (outliers). Data divisualisasikan dalam
bentuk histogram. Beberapa histogram profil kunjungan
pasien ditampilkan sebagai berikut :
Gambar 5. Distribusi berdasar gender
Gambar 6 Distribusi berdasar umur
Model Data Historis
Sistem Data Mining
Data Historis
ScoringEngine
Data Prediksi
Model
Gambar 7. Distribusi berdasar unit kunjungan
Keterangan Gambar 7 :
178 = A - Penyakit Dalam 105 = A - Onkologi Obgin
108 = A - Bedah 121 = Kebidanan (IGD)
173 = A - Bedah LT 4 113 = A - Obgin
176 = A - Mata 175 = A - THT
109 = A - Neurologi
101 = PJT - Intermediate Ward Lt. 4
Gambar 8. Distribusi berdasar status kematian (tidak
meninggal=0, meninggal=1)
Gambar 9. Distribusi berdasar length of stay (LOS)
Dalam studi ini data kunjungan pasien di RSCM akan
diamati atribut-atribut yang akan mempengaruhi pola
biaya pasien yang dirawat di RSCM. Untuk biaya di buat
skala RENDAH, SEDANG dan TINGGI. Dengan aturan
sebagai berikut :
Jika Biaya Tagihan < 10 juta Maka Pola biaya RENDAH.
Jika Biaya Tagihan >10 juta dan < 50 juta maka biaya SEDANG.
Sedangkan jika Biaya tagihan > 10 juta maka pola biaya TINGGI.
Permasalahan pada data yang memiliki banyak atribut
seperti data rekam medis pasien adalah tidak semua data
akan berkontribusi jika diterapkan model prediktif, bahkan
beberapa atribut cenderung mengaburkan hasil (noise).
Teknik Attribute Importance (AI) digunakan untuk
mengidentifikasi indikator yang paling berpengaruh
terhadap pasien dengan pola biaya tinggi atau rendah.
Setelah dianalisa menggunakan teknik Attribute
Importance (AI), data akan dianalisa menggunakan teknik
klasifikasi menggunakan Algoritma Naïve Bayes yang
kemudian akan digunakan untuk melakukan scoring
terhadap kasus kunjungan pasien.
IV.2. Analisa Menggunakan Teknik Attribute
Importance (AI)
Attribute Importance (AI) memberikan solusi otomatis
untuk meningkatkan kecepatan dan akurasi model
klasifikasi yang dibangun di atas tabel data dengan atribut
dalam jumlah besar.
Atribut untuk menentukan peringkat berdasarkan pada
kekuatan korelasi atau hubungan antara atribut prediktor
dengan atribut target. Target pada kasus ini adalah
mencari faktor yang sangat berpengaruh pada pola beban
biaya pasien rawat inap di RSCM (RENDAH, SEDANG,
TINGGI).
Atribut yang digunakan untuk analisa adalah sebagai
berikut :
Tabel 1. Atribut data set
Berikut ini merupakan tabel lengkap hasil analisa
menggunakan teknik Attribute Importance (AI).
Gambar 10. Hasil Analisa Attribute Importance
Name Rank Importance
PROC1 1 0.16850816
PROC4 2 0.151484777
PROC3 3 0.148049858
LOS 4 0.136418431
PROC2 5 0.123940453
ORG_ID 6 0.102628058
PRIMARY_DIAG 7 0.084659551
ADM_GENDER_CD 8 0.024481749
MARITAL_ST 9 0.019523313
AGE 10 0.006332294
MORTALITY 11 0.005728084
EDUCATION 12 -0.005963103
JOBCLASS 13 -0.010410216
SEC_DIAG1 14 -0.024403058
SEC_DIAG3 15 -0.027612921
SEC_DIAG2 16 -0.041533283
Tabel 2. Peringkat AI
Dapat dilihat baik dari grafik maupun tabel atribut-atribut
yang mempengaruhi besarnya beban biaya pasien dari
yang tertinggi sampai yang terendah. Dari hasil analisa
dapat diketahui bahwa atribut education, jobclass,
sec_diag1, sec_diag2, dan sec_diag3 tidak memiliki
pengaruh korelasi signifikan terhadap pola biaya pasien.
IV.2. Teknik Klasifikasi (Classification) Menggunakan
Algoritma Naive Bayes
Teknik Klasifikasi merupakan teknik yang umum
digunakan untuk memprediksi outcome yang spesifik dan
biasanya bersifat kategorikal. Dalam kasus ini digunakan
untuk memprediksi pola biaya RENDAH , SEDANG dan
TINGGI. Untuk menganalisa menggunakan teknik ini
digunakan atribut hasil analisa menggunakan Attribute
Importance (AI). Atribut yang tidak memiliki pengaruh
signifikan tidak diikutsertakan dalam analisa ini.
Tabel 3. Atribut data set
Gambar 11 Predictive confidence
Predictive confidence menunjukkan bahwa model yang
dibuat menggunakan teknik klasifikasi menggunakan
Algoritma Naïve Bayes cukup baik untuk digunakan
dengan predictive confidence sebesar 50,41%. Predictive
confidence 50,41 % menandakan bahwa model Naïve
Bayes yang dibuat 50,41% lebih baik dari Naïve Rule.
Gambar 12. Akurasi dari model
Pada tabel akurasi menunjukkan bahwa model cukup baik
memprediksi kasus pola biaya RENDAH dengan
prosentase 83,36 %, kasus pola biaya SEDANG dengan
prosentase 64 % dan kasus pola biaya TINGGI dengan
prosentase 53,45 %. Average Accuracy sebesar 0.669372 ,
Overall Accuracy sebesar 0.764488.
Gambar 13. Confusion matrix
Pada gambar confusion matrix dapat diketahui ada 461
kasus yang diklasifikasi dengan benar sebagai pola biaya
RENDAH dari total 553 kasus, ada 46 kasus yang salah
klasifikasi yang seharusnya adalah pola biaya SEDANG
tetapi di prediksi sebagai pola RENDAH dan ada 9 kasus
yang salah klasifikasi yang seharusnya adalah pola biaya
TINGGI diprediksi sebagai pola biaya RENDAH.
Untuk pola biaya SEDANG dapat diketahui ada 128 kasus
yang diklasifikasi dengan benar sebagai pola biaya
SEDANG dari total 200 kasus. Sedangkan untuk pola
biaya TINGGI dapat diketahui ada 31 kasus yang
diklasifikasi dengan benar sebagai pola biaya TINGGI
dari total 58 kasus.
Dari model tersebut diterapkan model scoring untuk data
yang akan di tes maka hasil nya adalah sebagai berikut
(data sample 25 kasus kunjungan pasien):
Tabel 2. Data scoring
Kolom prediction pada tabel diatas adalah nilai target
untuk kasus(kunjungan) tersebut dan kolom probability
adalah adalah nilai confidence dari prediksi tersebut.
Kolom cost merupakan biaya (cost) dari prediksi yang
salah, dengan biaya (cost) yang rendah berarti probabilitas
yang tinggi.
V. Kesimpulan
Pada paper ini telah dilakukan studi dengan menggunakan
teknik Attribute Importance (AI) untuk mengetahui
peringkat atribut yang berpengaruh terhadap pola biaya
data kunjungan pasien yang didefinisikan sebagai kelas
target RENDAH, SEDANG dan TINGGI. Dengan
mengetahui atribut-atribut yang mempengaruhi biaya
tinggi, maka manajemen rumah sakit dapat lebih
memfokuskan program efisiensi pada prosedur-prosedur
medis berbiaya tinggi dan mengurangi LOS.
Percobaan kedua adalah dengan membuat model
menggunakan teknik classification dengan Algoritma
Naive Bayes yang kemudian digunakan untuk
memprediksi pola biaya pada data kunjungan pasien yang
akan datang (scoring data). Dengan model prediksi biaya
tersebut, dapat diperkirakan biaya pasien rawat inap pada
saat awal kunjungan. Informasi perkiraan biaya tersebut
bermanfaat bagi pihak pasien, karena dapat
mempersiapkan pembiyaan dan pihak rumah sakit karena
dapat mengetahui perkiraan biaya dan sumberdaya yang
harus disiapkan untuk merawat pasien.
Penggunaan teknik data mining pada studi ini
menunjukkan secara jelas potensi data mining untuk
menggali pengetahuan baru yang akan membantu
meningkatkan kualitas operasional pelayanan dan proses
pengambilan keputusan di rumah sakit.
Referensi
[1]. Fuad, A. 2005. Teknologi Informasi untuk
Keselamatan Pasien. http://www.desentralisasi
kesehatan.net/. 27 April 2008 14:10.
[2]. N. Wartz, “IBM, Mayo Clinic to Mine Data”, The
information Management Journal, volume 3, issue 6,
November /December 2004,p.8
[3]. J.Han and M. Kamber. Data Mining : Concepts and
Techniques. Morgan Kaufmann, 2001.8
[4]. Friedman JH: Data Mining and Statistics: What's the
Connection? Dept. of Statistics and Stanford Linear
Accelerator Center, Stanford University, Stanford, CA,
http://stat.stanford.edu/~jhf/ftp/dm-stat.ps
[5]. Hamm , Carolyn : Oracle Data Mining: Mining Gold
From Your Data Warehouse.Rampant,2007
[6]. Morales, D. A., Bengoetxea, E. et al. 2008. Selection
of human embryos for transfer by Bayesian classifiers.
Computers in Biology and Medicine 38(11–12):1177–
1186.
[7]. Fonarow, G. C., Adams, K. F., Jr. et al. 2005. Risk
stratification for in-hospital mortality in acutely
decompensated heart failure: classification and regression
tree analysis. JAMA 293(5):572–580.
[8]. Tangri, N., Ansell, D. et al. 2008. Predicting
technique survival in peritoneal dialysis patients:
comparing artificial neural networks and logistic
regression. Nephrology Dialysis Transplantation
23(9):29722981.
[9]. Chu, A., Ahn, H. et al. 2008. A decision support
system to facilitate management of patients with acute
gastrointestinal bleeding. Artificial Intelligence in
Medicine 42(3):247–259.
[10]. Ordonez, C., Santana, C. A. et al. 2000. Discovering
interesting association rules in medical data. In ACM
SIGMOD Workshop on Research Issues on Data Mining
and Knowledge Discovery.
[11]. Tremblay, M. C., Berndt, D. et al. 2005. Utilizing
text mining techniques to identify fall related injuries. In
Proceedings of the 11th Americas Conference on
Information Systems (AMCIS 2005), Omaha, NE.