53700307-analisa-klasifikasi-biaya-pasien-rawat-inap-menggunakan-teknik-data-mining-attribute-importance-ai-dan-algoritma-naive-bayes-rev1.pdf...

Analisa Klasifikasi Biaya Pasien Rawat Inap Menggunakan Teknik Data Mining Attribute Importance (AI) dan Algoritma Naive Bayes

Furqonuddin Ramdhani, Agus Mutamakin

Abstrak

Sistem Informasi Manajemen Rumah Sakit (SIMRS) secara umum telah digunakan oleh para staf rumah sakit untuk mendukung operasional sehari-hari. Sebagian besar informasi yang didapat pada operasional SIMRS berasal dari pengolahan transactional database. Sedangkan untuk mendukung pengambilan keputusan ditingkat manajerial, diperlukan akses ke database dalam ukuran besar dan dimensi yang lebih kompleks, sehingga diperlukan teknik data mining. Pendekatan data mining biasa dilakukan untuk menggali informasi, pengetahuan, pola-pola baru dan tren dengan menganalisis database dalam ukuran besar, menggunakan teknologi pengenalan pola, teknik statistik dan matematik.

Salahsatu potensi yang dapat dimanfaatkan pada penerapan data mining di rumah sakit adalah mengidentifikasi atribut-atribut penentu biaya pasien rawat inap. Dengan mengetahui atribut penentu biaya rawat, diharapkan pihak manajemen rumah sakit dapat melakukan kontrol terhadap biaya, sehingga ongkos perawatan pasien dapat ditekan tanpa mengurangi kualitas pelayanan.

Untuk mengidentifikasi atribut penentu biaya pasien rawat inap, digunakan data kunjungan pasien rawat inap RSUP Dr. Cipto Mangunkusumo dengan jaminan Jamkesmas periode 1 Januari 2009 s/d 30 September 2010 dari database SIMRS sebanyak 2022 kunjungan (jumlah sebelum dilakukan data cleaning 8383). Dengan teknik analisa Atttibute Importance (AI) didapatkan atribut-atribut penentu biaya dengan urutan sebagai berikut: prosedur medis 1 (AI=0,16), prosedur medis 4 (AI=0,15), prosedur medis 3 (AI=0,14), LOS (AI=0,13), prosedur medis 2 (AI=0,13), organisasi (AI=0.10), diagnosa utama (AI=0,08), jenis kelamin (AI=0.02) dan status kawin (AI=0.01). Hasil klasifikasi dengan teknik Algoritma Naive Bayes menunjukkan model yang dibuat memiliki predictive confidence sebesar 50,41%.

Keyword : SIMRS, data mining, biaya rawat, rawat inap

I. Pendahuluan

Perkembangan teknologi informasi yang pesat terutama di

sektor kesehatan memungkinkan data dalam jumlah besar

terakumulasi dengan cepat. Saat ini berbagai rumah sakit

sudah mulai menerapkan sistem informasi rumah sakit

berbasis komputer untuk mendukung manajemen

keuangan (khususnya billing systems) [1]. Untuk rumah

sakit yang sudah mapan sistem informasinya bahkan

mulai memperluas kebutuhannya untuk membangun

sistem informasi klinik.

Pertumbuhan yang pesat dari akumulasi data itu telah

menciptakan kondisi yang sering disebut sebagai “rich of

data but poor of knowledge”, karena data yang terkumpul

itu hanya digunakan untuk kebutuhan operasional saja,

bahkan tidak jarang kumpulan data itu dibiarkan begitu

saja seakan-akan menjadi “kuburan data” (data tombs).

Untuk melakukan analisa data dalam jumlah besar yang

tersimpan pada database, biasanya digunakan teknik data

mining. Meski telah umum digunakan pada industri

keuangan dan telekomunikasi, teknik data mining mulai

diterapkan secara intensif di sektor kesehatan. Sebagai

contoh, Mayo Clinic bekerja sama dengan IBM

menerapkan teknik data mining pada pasien dengan

kesamaan jenis kelamin, usia dan riwayat kesehatan untuk

mengetahui respon terhadap pengobatan tertentu .[2]

Teknis data mining dapat kita lihat sebagai hasil dari

evolusi alamiah teknologi informasi. Proses evolusi dalam

teknologi sistem database dapat dilihat pada Gambar 1.

Gambar 1. Evolusi teknologi sistem database

Menurut Friedman[4] ada beberapa definisi dari data

mining. Dikumpulkan dari berbagai literatur data mining

antara lain sebagai berikut:

• Data mining adalah proses ekstraksi sebelumnya

tidak dikenal dan dipahami dari database berukuran

besar dan digunakan untuk membuat keputusan bisnis

yang penting. - Zekulin.

• Data mining adalah serangkaian metode yang

digunakan dalam proses penemuan pengetahuan

untuk membedakan yang sebelumnya tidak diketahui

baik hubungan dan pola dalam data. - Ferruzza.

• Data mining adalah proses pendukung keputusan

yang digali dari basis data berukuran besar untuk

mengetahui pola yang tidak diketahui dan tak terduga

sebelumnya pada data. - Parsaye

Potensi data mining dalam bidang kesehatan sudah diakui

secara luas. Banyak studi yang diakukan menggunakan

teknik data mining modern, antara lain classification dan

predictive yang diterapkan pada rekam medis elektronis.

Beberapa dari studi tersebut antara lain adalah sebagai

berikut :

• Teknik Classification Naïve Bayes yang diterapkan

untuk masalah seleksi embrio [6]

• Teknik Decision Tree untuk mengembangkan dan

memvalidasi ukuran resiko stratifikasi mortalitas di

rumah sakit karena dekomposisi akut gagal

jantung(ADHF) [7]

• Neural Network untuk memprediksi pasien tertentu

yang akan mengalami kegagalan dialysis peritoneal

[8]

• Support Vector Machines (SVM) untuk memprediksi

sumber pendarahan dan mengidentifikasi kohort pada

pasien dengan pendarahan akut gastrointestinal (GIB)

yang memerlukan intervensi mendesak, termasuk

endoskopi [9]

• Association digunakan untuk mengkonfirmasi aturan

yang akan digunakan oleh sistem pakar yang

membantu dalam diagnosis penyakit jantung dan

untuk menemukan aturan-aturan baru

untuk memperkaya pengetahuan sistem pakar [10]

• Text Mining untuk mengidentifikasi luka yang terkait

dengan luka jatuh pada orang tua [11]

Penggunan data mining diharapkan dapat membantu para

pengambil keputusan mendapatkan informasi yang lebih

akurat dan bermakna sebagai salah satu sarana untuk

meningkatkan pelayanan kesehatan kepada masyarakat.

II. Proses Data Mining

Pada bagian ini akan dijelaskan proses data mining yang

terdiri dari beberapa tahap yang diilustrasikan di gambar

2[3]:

1. Pembersihan data (data cleaning), untuk membersihkan

noise dan data yang tidak konsisten. Dalam kasus ini

membersihkan data-data pasien yang sudah dihapus dan

identitas yang tidak lengkap (misal: umur, status marital,

pendidikan, diagnosa, dan sebagainya);

2. Integrasi data, penggabungan data dari berbagai

sumber;

3. Transformasi data, data diubah menjadi bentuk yang

sesuai untuk di mining;

4. Aplikasi teknik data mining, proses inti dimana teknik

data mining diterapkan untuk mengekstrak pola-pola

tertentu pada data;

5. Evaluasi pola yang ditemukan;

6. Presentasi pengetahuan, menggunakan teknik

visualisasi untuk menampilkan hasil data mining kepada

pengguna (user).

Gambar 2. Tahapan dalam proses data mining

III. Data dan Perangkat Pendukung

III.1. Data

Untuk mengidentifikasi atribut-atribut penentu biaya

pasien rawat inap, digunakan data kunjungan pasien rawat

inap RSUP Dr. Cipto Mangunkusumo dengan jaminan

Jamkesmas periode 1 Januari 2009 s/d 30 September 2010

yang diambil dari database SIMRS sebanyak 8383

kunjungan pasien. Setelah dilakukan data cleaning,

didapatkan 2022 kunjungan pasien yang layak untuk

dianalisa.

III.2. Perangkat Lunak

Untuk analisa data mining digunakan perangkat lunak

Oracle Data Miner dan database Oracle 11g.

III. 3 Metode & Teknik

III.3.1. Attribute Importance (AI)

Attribute Importance (AI) memberi peringkat atribut

dengan menghilangkan atribut yang berulang, tidak

relevan, atau tidak informatif dan mengidentifikasi atribut

yang mungkin memiliki pengaruh yang paling tinggi

dalam membuat prediksi.

Gambar 3. Ilustrasi Atrribut Importance

AI menggunakan algoritma Minimum Description Length

(MDL). Algoritma MDL mempertimbangkan setiap

atribut sebagai model prediktif sederhana dari kelas target.

Teknik AI digunakan untuk mengoptimalkan analisa

model classification dengan mengurangi atribut yang

digunakan dan akan meningkatkan kecepatan dan akurasi

saat membangun model.

III.3.2. Naive Bayes Algorithm (Classification)

Classification adalah proses untuk menemukan model

atau fungsi yang menjelaskan atau membedakan

konsep atau kelas data, dengan tujuan untuk dapat

memperkirakan kelas dari suatu objek yang labelnya

tidak diketahui. Model itu sendiri bisa berupa aturan

“jika-‐maka”. Dalam teknik classification terdapat

beberapa algoritma yang bisa digunakan antara lain

decision tree, naive bayes , adaptive naive bayes, logistic

regression dan support vector machine.

Bayesian Classification didasarkan pada Teorema

Bayesian. Konsep dasar teori bayes itu pada dasarnya

adalah peluang bersyarat P(H∣X). Dimana dalam Bayesian

H adalah posterior dan X adalah prior. Prior adalah

pengetahuan kita tentang karakteristik suatu parameter

(bisa dibaca sebagai pengalaman di masa lalu atas suatu

parameter atau juga bisa berdasarkan teori), sedangkan

posterior adalah karakteristik yang akan kita duga pada

kejadian yang akan datang.

Teorema Bayesian berguna untuk melakukan kalkulasi

probabilitas posterior, P(H|X), dari P(H), P(X) dan

P(X|H). Teori Bayes adalah sebagai berikut :

P(H|X) = P(X|H)P(H)

P(X)

Proses classification biasanya dibagi menjadi dua fase :

learning dan test. Pada fase learning, sebagian data yang

telah diketahui kelas datanya diumpankan untuk

membentuk model perkiraan. Kemudian pada fase test

model yang sudah terbentuk diuji dengan sebagian data

lainnya untuk mengetahui akurasi dari model tersebut.

Bila akurasinya mencukupi model ini dapat dipakai untuk

prediksi kelas data yang belum diketahui. [3]

Gambar 4. Ilustrasi pemodelan teknik Classification

untuk mengukur akurasi

III.3.3. Data Scoring

Setelah model dibuat dengan aplikasi data mining, model

tersebut bisa digunakan untuk membuat prediksi dari data

baru yang dalam hal ini diterapkan untuk memprediksi

pola biaya data kunjungan pasien. Model biasanya dibuat

dengan menggunakan data historis dari kunjungan pasien

sebelumnya. Prosesnya secara umum di ilustrasikan

sebagai berikut :

Gambar 5. Ilustrasi Pembuatan Model

Gambar 6. Ilustrasi Sistem Scoring

IV. Teknik Data Mining

IV.1. Persiapan Data

Sebelum dilakukan teknik data mining dilakukan

eksplorasi data untuk mengetahui distribusi data pasien

berdasarkan atribut tertentu (misal: distribusi pasien

berdasar umur) dan juga untuk mengidentifikasi data yang

tidak normal (outliers). Data divisualisasikan dalam

bentuk histogram. Beberapa histogram profil kunjungan

pasien ditampilkan sebagai berikut :

Gambar 5. Distribusi berdasar gender

Gambar 6 Distribusi berdasar umur

Model Data Historis

Sistem Data Mining

Data Historis

ScoringEngine

Data Prediksi

Model

Gambar 7. Distribusi berdasar unit kunjungan

Keterangan Gambar 7 :

178 = A - Penyakit Dalam 105 = A - Onkologi Obgin

108 = A - Bedah 121 = Kebidanan (IGD)

173 = A - Bedah LT 4 113 = A - Obgin

176 = A - Mata 175 = A - THT

109 = A - Neurologi

101 = PJT - Intermediate Ward Lt. 4

Gambar 8. Distribusi berdasar status kematian (tidak

meninggal=0, meninggal=1)

Gambar 9. Distribusi berdasar length of stay (LOS)

Dalam studi ini data kunjungan pasien di RSCM akan

diamati atribut-atribut yang akan mempengaruhi pola

biaya pasien yang dirawat di RSCM. Untuk biaya di buat

skala RENDAH, SEDANG dan TINGGI. Dengan aturan

sebagai berikut :

Jika Biaya Tagihan < 10 juta Maka Pola biaya RENDAH.

Jika Biaya Tagihan >10 juta dan < 50 juta maka biaya SEDANG.

Sedangkan jika Biaya tagihan > 10 juta maka pola biaya TINGGI.

Permasalahan pada data yang memiliki banyak atribut

seperti data rekam medis pasien adalah tidak semua data

akan berkontribusi jika diterapkan model prediktif, bahkan

beberapa atribut cenderung mengaburkan hasil (noise).

Teknik Attribute Importance (AI) digunakan untuk

mengidentifikasi indikator yang paling berpengaruh

terhadap pasien dengan pola biaya tinggi atau rendah.

Setelah dianalisa menggunakan teknik Attribute

Importance (AI), data akan dianalisa menggunakan teknik

klasifikasi menggunakan Algoritma Naïve Bayes yang

kemudian akan digunakan untuk melakukan scoring

terhadap kasus kunjungan pasien.

IV.2. Analisa Menggunakan Teknik Attribute

Importance (AI)

Attribute Importance (AI) memberikan solusi otomatis

untuk meningkatkan kecepatan dan akurasi model

klasifikasi yang dibangun di atas tabel data dengan atribut

dalam jumlah besar.

Atribut untuk menentukan peringkat berdasarkan pada

kekuatan korelasi atau hubungan antara atribut prediktor

dengan atribut target. Target pada kasus ini adalah

mencari faktor yang sangat berpengaruh pada pola beban

biaya pasien rawat inap di RSCM (RENDAH, SEDANG,

TINGGI).

Atribut yang digunakan untuk analisa adalah sebagai

berikut :

Tabel 1. Atribut data set

Berikut ini merupakan tabel lengkap hasil analisa

menggunakan teknik Attribute Importance (AI).

Gambar 10. Hasil Analisa Attribute Importance

Name Rank Importance

PROC1 1 0.16850816

PROC4 2 0.151484777

PROC3 3 0.148049858

LOS 4 0.136418431

PROC2 5 0.123940453

ORG_ID 6 0.102628058

PRIMARY_DIAG 7 0.084659551

ADM_GENDER_CD 8 0.024481749

MARITAL_ST 9 0.019523313

AGE 10 0.006332294

MORTALITY 11 0.005728084

EDUCATION 12 -0.005963103

JOBCLASS 13 -0.010410216

SEC_DIAG1 14 -0.024403058

SEC_DIAG3 15 -0.027612921

SEC_DIAG2 16 -0.041533283

Tabel 2. Peringkat AI

Dapat dilihat baik dari grafik maupun tabel atribut-atribut

yang mempengaruhi besarnya beban biaya pasien dari

yang tertinggi sampai yang terendah. Dari hasil analisa

dapat diketahui bahwa atribut education, jobclass,

sec_diag1, sec_diag2, dan sec_diag3 tidak memiliki

pengaruh korelasi signifikan terhadap pola biaya pasien.

IV.2. Teknik Klasifikasi (Classification) Menggunakan

Algoritma Naive Bayes

Teknik Klasifikasi merupakan teknik yang umum

digunakan untuk memprediksi outcome yang spesifik dan

biasanya bersifat kategorikal. Dalam kasus ini digunakan

untuk memprediksi pola biaya RENDAH , SEDANG dan

TINGGI. Untuk menganalisa menggunakan teknik ini

digunakan atribut hasil analisa menggunakan Attribute

Importance (AI). Atribut yang tidak memiliki pengaruh

signifikan tidak diikutsertakan dalam analisa ini.

Tabel 3. Atribut data set

Gambar 11 Predictive confidence

Predictive confidence menunjukkan bahwa model yang

dibuat menggunakan teknik klasifikasi menggunakan

Algoritma Naïve Bayes cukup baik untuk digunakan

dengan predictive confidence sebesar 50,41%. Predictive

confidence 50,41 % menandakan bahwa model Naïve

Bayes yang dibuat 50,41% lebih baik dari Naïve Rule.

Gambar 12. Akurasi dari model

Pada tabel akurasi menunjukkan bahwa model cukup baik

memprediksi kasus pola biaya RENDAH dengan

prosentase 83,36 %, kasus pola biaya SEDANG dengan

prosentase 64 % dan kasus pola biaya TINGGI dengan

prosentase 53,45 %. Average Accuracy sebesar 0.669372 ,

Overall Accuracy sebesar 0.764488.

Gambar 13. Confusion matrix

Pada gambar confusion matrix dapat diketahui ada 461

kasus yang diklasifikasi dengan benar sebagai pola biaya

RENDAH dari total 553 kasus, ada 46 kasus yang salah

klasifikasi yang seharusnya adalah pola biaya SEDANG

tetapi di prediksi sebagai pola RENDAH dan ada 9 kasus

yang salah klasifikasi yang seharusnya adalah pola biaya

TINGGI diprediksi sebagai pola biaya RENDAH.

Untuk pola biaya SEDANG dapat diketahui ada 128 kasus

yang diklasifikasi dengan benar sebagai pola biaya

SEDANG dari total 200 kasus. Sedangkan untuk pola

biaya TINGGI dapat diketahui ada 31 kasus yang

diklasifikasi dengan benar sebagai pola biaya TINGGI

dari total 58 kasus.

Dari model tersebut diterapkan model scoring untuk data

yang akan di tes maka hasil nya adalah sebagai berikut

(data sample 25 kasus kunjungan pasien):

Tabel 2. Data scoring

Kolom prediction pada tabel diatas adalah nilai target

untuk kasus(kunjungan) tersebut dan kolom probability

adalah adalah nilai confidence dari prediksi tersebut.

Kolom cost merupakan biaya (cost) dari prediksi yang

salah, dengan biaya (cost) yang rendah berarti probabilitas

yang tinggi.

V. Kesimpulan

Pada paper ini telah dilakukan studi dengan menggunakan

teknik Attribute Importance (AI) untuk mengetahui

peringkat atribut yang berpengaruh terhadap pola biaya

data kunjungan pasien yang didefinisikan sebagai kelas

target RENDAH, SEDANG dan TINGGI. Dengan

mengetahui atribut-atribut yang mempengaruhi biaya

tinggi, maka manajemen rumah sakit dapat lebih

memfokuskan program efisiensi pada prosedur-prosedur

medis berbiaya tinggi dan mengurangi LOS.

Percobaan kedua adalah dengan membuat model

menggunakan teknik classification dengan Algoritma

Naive Bayes yang kemudian digunakan untuk

memprediksi pola biaya pada data kunjungan pasien yang

akan datang (scoring data). Dengan model prediksi biaya

tersebut, dapat diperkirakan biaya pasien rawat inap pada

saat awal kunjungan. Informasi perkiraan biaya tersebut

bermanfaat bagi pihak pasien, karena dapat

mempersiapkan pembiyaan dan pihak rumah sakit karena

dapat mengetahui perkiraan biaya dan sumberdaya yang

harus disiapkan untuk merawat pasien.

Penggunaan teknik data mining pada studi ini

menunjukkan secara jelas potensi data mining untuk

menggali pengetahuan baru yang akan membantu

meningkatkan kualitas operasional pelayanan dan proses

pengambilan keputusan di rumah sakit.

Referensi

[1]. Fuad, A. 2005. Teknologi Informasi untuk

Keselamatan Pasien. http://www.desentralisasi

kesehatan.net/. 27 April 2008 14:10.

[2]. N. Wartz, “IBM, Mayo Clinic to Mine Data”, The

information Management Journal, volume 3, issue 6,

November /December 2004,p.8

[3]. J.Han and M. Kamber. Data Mining : Concepts and

Techniques. Morgan Kaufmann, 2001.8

[4]. Friedman JH: Data Mining and Statistics: What's the

Connection? Dept. of Statistics and Stanford Linear

Accelerator Center, Stanford University, Stanford, CA,

http://stat.stanford.edu/~jhf/ftp/dm-stat.ps

[5]. Hamm , Carolyn : Oracle Data Mining: Mining Gold

From Your Data Warehouse.Rampant,2007

[6]. Morales, D. A., Bengoetxea, E. et al. 2008. Selection

of human embryos for transfer by Bayesian classifiers.

Computers in Biology and Medicine 38(11–12):1177–

1186.

[7]. Fonarow, G. C., Adams, K. F., Jr. et al. 2005. Risk

stratification for in-hospital mortality in acutely

decompensated heart failure: classification and regression

tree analysis. JAMA 293(5):572–580.

[8]. Tangri, N., Ansell, D. et al. 2008. Predicting

technique survival in peritoneal dialysis patients:

comparing artificial neural networks and logistic

regression. Nephrology Dialysis Transplantation

23(9):29722981.

[9]. Chu, A., Ahn, H. et al. 2008. A decision support

system to facilitate management of patients with acute

gastrointestinal bleeding. Artificial Intelligence in

Medicine 42(3):247–259.

[10]. Ordonez, C., Santana, C. A. et al. 2000. Discovering

interesting association rules in medical data. In ACM

SIGMOD Workshop on Research Issues on Data Mining

and Knowledge Discovery.

[11]. Tremblay, M. C., Berndt, D. et al. 2005. Utilizing

text mining techniques to identify fall related injuries. In

Proceedings of the 11th Americas Conference on

Information Systems (AMCIS 2005), Omaha, NE.

53700307-analisa-klasifikasi-biaya-pasien-rawat-inap-menggunakan-teknik-data-mining-attribute-importance-ai-dan-algoritma-naive-bayes-rev1.pdf...

Documents