Teknik Random Forest untuk Meningkatan Akurasi Data Tidak Seimbang

Arie Nugroho; Dwi Harini

doi:10.53624/jsitik.v2i2.379

Authors

Arie Nugroho Universitas Nusantara PGRI Kediri https://orcid.org/0000-0001-9080-5723
Dwi Harini Universitas Nusantara PGRI Kediri

DOI:

https://doi.org/10.53624/jsitik.v2i2.379

Keywords:

Random Forest, Imbalanced data, SMOTE

Abstract

Data tidak seimbang terjadi karena jumlah data pada tiap kelas berbeda jauh dimana akan mempengaruhi hasil prediksi. Dalam penelitian ini menggunakan dataset prediksi diabetes, yang mengandung data yang tidak seimbang. Hasil prediksi ditunjukkan dengan nilai akurasi dan presisi. Tujuan penelitian ini adalah meningkatkan nilai akurasi dan presisi pada data yang tidak seimbang. Metode yang digunakan dalam penelitian ini adalah penentuan sampling dan pembelajaran ensemble. Penentuan sampling yang digunakan adalah dengan cara mengalikan data pada kelas minoritas atau oversampling. Teknik Oversampling yang digunakan adalah Synthetic Minority Oversampling Technique (SMOTE). Pembelajaran ensemble yang digunakan adalah algoritma random forest. Kombinasi algoritma SMOTE dan random forest dapat meningkatkan akurasi dan menyeimbangkan nilai presisi pada setiap kelas. Hasil penelitian ini adalah Kombinasi tersebut menghasilkan nilai akurasi sebesar 97,5% dan nilai presisi pada kelas non pasien sebesar 97% sedangkan nilai presisi pada kelas pasien sebesar 98%.

Downloads

Download data is not yet available.

Author Biographies

Arie Nugroho, Universitas Nusantara PGRI Kediri

Sistem Informasi, Universitas Nusantara PGRI Kediri

Dwi Harini, Universitas Nusantara PGRI Kediri

Sistem Informasi, Universitas Nusantara PGRI Kediri

References

R. O’Brien and H. Ishwaran, “A random forests quantile classifier for class imbalanced data,” Pattern Recognition, vol. 90, pp. 232–249, 2019, doi: 10.1016/j.patcog.2019.01.036. DOI: https://doi.org/10.1016/j.patcog.2019.01.036

A. Fernández, S. García, M. Galar, R. C. Prati, B. Krawczyk, and F. Herrera, Learning from Imbalanced Data Sets. 2018. doi: 10.1007/978-3-319-98074-4_5. DOI: https://doi.org/10.1007/978-3-319-98074-4

U. Nila, R. Firliana, and S. Sucipto, “Analisis Data Transaksi Penjualan Produk Pertanian Menggunakan Algoritma FP-Growth,” Prosiding SEMNAS INOTEK (Seminar Nasional Inovasi Teknologi), vol. 7, no. 1, pp. 175–183, Jul. 2023, doi: 10.29407/INOTEK.V7I1.3426.

J. Brownlee, “Imbalanced Classification with Python Choose Better Metrics, Balance Skewed Classes , and Apply Cost-Sensitive Learning”.

Y. Jian, M. Ye, Y. Min, L. Tian, and G. Wang, “FORF-S: A Novel Classification Technique for Class Imbalance Problem,” IEEE Access, vol. 8, pp. 218720–218728, 2020, doi: 10.1109/ACCESS.2020.3040978. DOI: https://doi.org/10.1109/ACCESS.2020.3040978

L. K. Xin and N. binti A. Rashid, “Prediction of depression among women using random oversampling and random forest,” 2021 International Conference of Women in Data Science at Taif University, WiDSTaif 2021, 2021, doi: 10.1109/WIDSTAIF52235.2021.9430215. DOI: https://doi.org/10.1109/WiDSTaif52235.2021.9430215

N. S. S. Pranavi, T. K. S. S. Sruthi, B. J. Naga Sirisha, M. S. Nayak, and V. S. Gupta Thadikemalla, “Credit Card Fraud Detection Using Minority Oversampling and Random Forest Technique,” in 2022 3rd International Conference for Emerging Technology (INCET), May 2022, pp. 1–6. doi: 10.1109/INCET54531.2022.9824146. DOI: https://doi.org/10.1109/INCET54531.2022.9824146

A. Amin et al., “Comparing Oversampling Techniques to Handle the Class Imbalance Problem: A Customer Churn Prediction Case Study,” IEEE Access, vol. 4, no. c, pp. 7940–7957, 2016, doi: 10.1109/ACCESS.2016.2619719. DOI: https://doi.org/10.1109/ACCESS.2016.2619719

M. Molinier and J. Kilpi, “Avoiding overfitting when applying spectral-spatial deep learning methods on hyperspectral images with limited labels,” International Geoscience and Remote Sensing Symposium (IGARSS), vol. 2019-Janua, pp. 5049–5052, 2019, doi: 10.1109/IGARSS.2019.8900328. DOI: https://doi.org/10.1109/IGARSS.2019.8900328

H. Hairani and T. Widiyaningtyas, “Augmented Rice Plant Disease Detection with Convolutional Neural Networks,” INTENSIF: Jurnal Ilmiah Penelitian dan Penerapan Teknologi Sistem Informasi, vol. 8, no. 1, pp. 27–39, Feb. 2024, doi: 10.29407/INTENSIF.V8I1.21168. DOI: https://doi.org/10.29407/intensif.v8i1.21168

A. M. Argina, “Penerapan Metode Klasifikasi K-Nearest Neigbor pada Dataset Penderita Penyakit Diabetes,” Indonesian Journal of Data and Science, vol. 1, no. 2, pp. 29–33, 2020, doi: 10.33096/ijodas.v1i2.11. DOI: https://doi.org/10.33096/ijodas.v1i2.11

H. Apriyani and K. Kurniati, “Perbandingan Metode Naïve Bayes Dan Support Vector Machine Dalam Klasifikasi Penyakit Diabetes Melitus,” Journal of Information Technology Ampera, vol. 1, no. 3, pp. 133–143, 2020, doi: 10.51519/journalita.volume1.isssue3.year2020.page133-143. DOI: https://doi.org/10.51519/journalita.volume1.isssue3.year2020.page133-143

Gde Agung Brahmana Suryanegara, Adiwijaya, and Mahendra Dwifebri Purbolaksono, “Peningkatan Hasil Klasifikasi pada Algoritma Random Forest untuk Deteksi Pasien Penderita Diabetes Menggunakan Metode Normalisasi,” Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi), vol. 5, no. 1, pp. 114–122, 2021, doi: 10.29207/resti.v5i1.2880. DOI: https://doi.org/10.29207/resti.v5i1.2880

N. Iriawan et al., “On The Comparison: Random Forest, SMOTEBagging, and Bernoulli Mixture to Classify Bidikmisi Dataset in East Java,” 2018 International Conference on Computer Engineering, Network and Intelligent Multimedia, CENIM 2018 - Proceeding, pp. 137–141, 2018, doi: 10.1109/CENIM.2018.8711035. DOI: https://doi.org/10.1109/CENIM.2018.8711035

K. Vijiyakumar, B. Lavanya, I. Nirmala, and S. Sofia Caroline, “Random forest algorithm for the prediction of diabetes,” 2019 IEEE International Conference on System, Computation, Automation and Networking, ICSCAN 2019, pp. 1–5, 2019, doi: 10.1109/ICSCAN.2019.8878802. DOI: https://doi.org/10.1109/ICSCAN.2019.8878802

S. C. Gupta and N. Goel, “Performance enhancement of diabetes prediction by finding optimum K for KNN classifier with feature selection method,” Proceedings of the 3rd International Conference on Smart Systems and Inventive Technology, ICSSIT 2020, no. Icssit, pp. 980–986, 2020, doi: 10.1109/ICSSIT48917.2020.9214129. DOI: https://doi.org/10.1109/ICSSIT48917.2020.9214129

S. Hosseini, B. Turhan, and D. Gunarathna, “A systematic literature review and meta-analysis on cross project defect prediction,” IEEE Transactions on Software Engineering, vol. 45, no. 2, pp. 111–147, 2019, doi: 10.1109/TSE.2017.2770124. DOI: https://doi.org/10.1109/TSE.2017.2770124

D. O. Ratmana, G. Fajar Shidik, A. Z. Fanani, Muljono, and R. A. Pramunendar, “Evaluation of feature selections on movie reviews sentiment,” Proceedings - 2020 International Seminar on Application for Technology of Information and Communication: IT Challenges for Sustainability, Scalability, and Security in the Age of Digital Disruption, iSemantic 2020, pp. 567–571, 2020, doi: 10.1109/iSemantic50169.2020.9234287. DOI: https://doi.org/10.1109/iSemantic50169.2020.9234287

A. Nugroho and A. Husin, “Analisis Performa Random Forest Menggunakan Normalisasi Atribut,” SISTEMASI: Jurnal Sistem Informasi, vol. 11, no. 1, pp. 186–196, 2022, doi: https://doi.org/10.32520/stmsi.v11i1.1681. DOI: https://doi.org/10.32520/stmsi.v11i1.1681

S. Sucipto, D. D. Prasetya, and T. Widiyaningtyas, “Educational Data Mining: Multiple Choice Question Classification in Vocational School,” Matrik: Jurnal Manajemen, Teknik Informatika, dan Rekayasa Komputer, vol. 23, no. 2, pp. 367–376, 2024, doi: 10.30812/matrik.v23i2.3499. DOI: https://doi.org/10.30812/matrik.v23i2.3499

A. Nugroho, A. Z. Fanani, and G. F. Shidik, “Evaluation of Feature Selection Using Wrapper for Numeric Dataset with Random Forest Algorithm,” Proceedings - 2021 International Seminar on Application for Technology of Information and Communication: IT Opportunities and Creativities for Digital Innovation and Communication within Global Pandemic, iSemantic 2021, pp. 179–183, 2021, doi: 10.1109/iSemantic52711.2021.9573249. DOI: https://doi.org/10.1109/iSemantic52711.2021.9573249

A. Nugroho, M. A. Soeleman, R. A. A. Pramunendar, and A. Nurhindarto, “Peningkatan Performa Ensemble Learning Pada Segmentasi Semantik Gambar Dengan Teknik Oversampling Untuk Class Imbalance.” Jurnal Teknologi Informasi dan Ilmu Komputer(JTIIK), pp. 899–908, 2023. doi: 10.25126/jtiik.2023106831. DOI: https://doi.org/10.25126/jtiik.20241046831

A. R. Ismail, A. Zainul Fanani, G. F. Shidik, and Muljono, “Implementation of naive bayes algorithm with particle swarm optimization in classification of dress recommendation,” Proceedings - 2020 International Seminar on Application for Technology of Information and Communication: IT Challenges for Sustainability, Scalability, and Security in the Age of Digital Disruption, iSemantic 2020, pp. 174–178, 2020, doi: 10.1109/iSemantic50169.2020.9234293. DOI: https://doi.org/10.1109/iSemantic50169.2020.9234293

Z. Bingzhen, Q. Xiaoming, Y. Hemeng, and Z. Zhubo, “A random forest classification model for transmission line image processing,” 15th International Conference on Computer Science and Education, ICCSE 2020, no. Iccse, pp. 613–617, 2020, doi: 10.1109/ICCSE49874.2020.9201900. DOI: https://doi.org/10.1109/ICCSE49874.2020.9201900

Z. Xu and Z. Wang, “A Risk prediction model for type 2 diabetes based on weighted feature selection of random forest and xgboost ensemble classifier,” 11th International Conference on Advanced Computational Intelligence, ICACI 2019, pp. 278–283, 2019, doi: 10.1109/ICACI.2019.8778622. DOI: https://doi.org/10.1109/ICACI.2019.8778622

F. Khanam and Md. R. H. Mondal, “Ensemble Machine Learning Algorithms for the Diagnosis of Cervical Cancer,” in 2021 International Conference on Science & Contemporary Technologies (ICSCT), Aug. 2021, pp. 1–5. doi: 10.1109/ICSCT53883.2021.9642612. DOI: https://doi.org/10.1109/ICSCT53883.2021.9642612