Ứng dụng kỹ thuật máy học vào phân loại bệnh tim

9 46 0
Ứng dụng kỹ thuật máy học vào phân loại bệnh tim

Đang tải... (xem toàn văn)

Thông tin tài liệu

Trong nghiên cứu Ứng dụng kỹ thuật máy học vào phân loại bệnh tim nhóm tác giả sử dụng kỹ thuật học máy vào phân loại bệnh tim dựa trên các triệu chứng và thông tin cận lâm sàng được ghi nhận trong tập dữ liệu của bệnh nhân. Thực nghiệm được tiến hành để phân loại có bệnh hay không có bệnh tim trên bộ dữ liệu công khai về bệnh tim lần lượt với thuật toán Naïve Bayes và mạng neuron nhân tạo (Artificial Neural Network - ANN)... Mời các bạn cùng tham khảo bài viết!

Tạp chí Khoa học Cơng nghệ Thực phẩm 22 (3) (2022) 398-406 ỨNG DỤNG KỸ THUẬT MÁY HỌC VÀO PHÂN LOẠI BỆNH TIM Trần Đình Tồn*, Dương Thị Mộng Thùy Trường Đại học Công nghiệp Thực phẩm TP.HCM *Email: toantd@hufi.edu.vn Ngày nhận bài: 10/6/2022; Ngày chấp nhận đăng: 15/7/2022 TĨM TẮT Trong nghiên cứu này, nhóm tác giả sử dụng kỹ thuật học máy vào phân loại bệnh tim dựa triệu chứng thông tin cận lâm sàng ghi nhận tập liệu bệnh nhân Thực nghiệm tiến hành để phân loại có bệnh hay khơng có bệnh tim liệu cơng khai bệnh tim với thuật tốn Naïve Bayes mạng neuron nhân tạo (Artificial Neural Network - ANN) Kết thực nghiệm đạt cho thấy việc ứng dụng kỹ thuật học máy vào phân loại bệnh tim đạt hiệu suất tốt với độ xác (Accuracy-Acc) 84% 87% Từ khóa: Bệnh tim, Naïve Bayes, ANN, phân lớp GIỚI THIỆU Bệnh tim mạch rối loạn liên quan đến tim mạch máu Bệnh tim mạch bao gồm bệnh mạch vành (nhồi máu tim), tai biến mạch máu não (đột quỵ), tăng huyết áp (cao huyết áp), bệnh động mạch ngoại biên, bệnh thấp tim, bệnh tim bẩm sinh suy tim Các nguyên nhân bệnh tim mạch sử dụng thuốc lá, thiếu hoạt động thể lực, chế độ ăn uống không lành mạnh sử dụng rượu bia mức độ nguy hại Theo chuyên gia y khoa, hầu hết bệnh tim mạch phịng ngừa cách kiểm soát tốt yếu tố nguy dẫn đến bệnh Theo báo cáo tổ chức y tế giới (WHO), bệnh tim mạch nguyên nhân hàng đầu gây nên tử vong toàn cầu, chiếm tới 31% tổng số ca tử vong Tại Việt Nam, theo báo cáo bệnh tim mạch chiếm đến 31% tổng số ca tử vong năm 2016 tương đương với 170.000 ca tử vong [1] Trong năm gần đây, máy học phát triển mạnh ứng dụng vào nhiều lĩnh vực đời sống xã hội, có lĩnh vực y khoa nhu cầu cao phân tích liệu để phát thơng tin khơng xác định có giá trị hàm chứa liệu y khoa Trong số kỹ thuật học máy phát triển gần khái qt hóa, đặc tính hóa, phân loại, phân cụm, kết hợp, so khớp mẫu, trực quan hóa liệu, v.v Việc học máy áp dụng vào lĩnh vực y khoa cho số lợi ích phát sớm bệnh, giúp đưa giải pháp y tế cho bệnh nhân lựa chọn, phát nguyên nhân bệnh, xác định tư vấn phương pháp y tế sử dụng để điều trị bệnh Học máy giúp nhà nghiên cứu chăm sóc sức khỏe thực sách chăm sóc sức khỏe hiệu quả, xây dựng hệ thống khuyến cáo thuốc, phát triển hồ sơ y tế cá nhân, Các kỹ thuật học máy áp dụng hệ thống chăm sóc sức khỏe sử dụng để phân tích yếu tố khác loại thực phẩm, môi trường làm việc khác nhau, trình độ học vấn, điều kiện sống, nguồn nước sạch, dịch vụ chăm sóc sức khỏe, văn hóa môi trường ảnh hưởng bệnh CƠ ĐIỆN TỬ - KHCB - CNTT 398 Ứng dụng kỹ thuật máy học vào phân loại bệnh tim CÁC CÔNG TRÌNH LIÊN QUAN Việc sử dụng kỹ thuật máy học vào lĩnh vực y khoa tăng mạnh năm gần với nhiều cơng trình ghi nhận Cụ thể, Victor Chang cộng xây dựng hệ thống phát bệnh tim dựa trí tuệ nhân tạo sử dụng thuật tốn học máy logistic regression random forest cho độ xác 83% liệu huấn luyện [2] Chithambaram T, Logesh Kannan N, and Gowsalya M đề xuất sử dụng thuật toán SVM, Decision tree, Random forest classifier and KNN vào phân loại bệnh tim kết đạt tốt [3] Tương tự, Likitha KN cộng đề xuất sử dụng kỹ thuật Logistic Regression, KNN, Decision Tree, Naïve Bayes, Random Forest SVM vào chẩn đoán bệnh tim [4] Zaibunnisa L H Malik cộng đề xuất sử dụng thuật toán K Neighbours Classifier, SVM, Decision Tree, Random Forest vào xây dựng hệ thống chẩn đoán bệnh tim [5] N Deepika cộng sự, áp dụng luật kết hợp vào phân loại bệnh nhân đau tim [6] K Srinivas cộng sử dụng kỹ thuật khai phá liệu vào dự đoán đau tim, định đạt hiệu suất tốt [7] Tương tự, A Sudha cộng sử dụng số thuật toán phân loại để dự đoán bệnh đột quỵ, kết thực nghiệm cho thấy mạng nơron hoạt động tốt nhiều so với thuật tốn cịn lại [8] Sujata Joshi cộng tiến hành phân loại bệnh tim sử dụng kỹ thuật khai phá liệu, kết với độ xác 84% [9] Navdeep Singh Sonika Jindal, sử dụng kỹ thuật chọn lọc đặc trưng phân lớp liệu phương pháp Nạve Bayes để chẩn đốn bệnh tim [10] H Takci kết hợp phương pháp học máy phương pháp chọn lọc đặc trưng để chẩn đoán đau tim [11] Hưng M.L nhóm nghiên cứu, chẩn đốn bệnh tim khác dựa chọn lọc đặc trưng kỹ thuật khai phá liệu [12] Trần Đình Tồn nhóm nghiên cứu, áp dụng số phương pháp học có giám sát để phân loại bệnh ba liệu cận lâm sàng bệnh tim, bệnh thận mãn tính, ung thư vú [13] Devansh Shah cộng sử dụng số kỹ thuật học máy để hỗ trợ dự đoán bệnh tim thuật tốn KNN, Decision tree, Random Forest Nạve Bayes kết đạt tốt với thuật toán KNN [14] Saima Anwar Lashari cộng đề xuất sử dụng số kỹ thuật SVM, DecisionTree, ANN, Bayesian Belief Network, KNN vào phân loại bệnh y khoa [15] Vẫn cịn nhiều cơng trình nghiên cứu khác liên quan đến ứng dụng kỹ thuật học máy phân loại bệnh dựa liệu thu thập cơng khai Kết đạt nhìn chung cịn khiêm tốn mở nhiều triển vọng cho nhà nghiên cứu tìm hiểu cải tiến phát triển để đạt hiệu suất phân loại tốt hơn, từ tiến tới xây dựng hệ thống hỗ trợ y bác sỹ chẩn đoán bệnh tư vấn điều trị cho bệnh nhân nhanh chóng kịp thời Nghiên cứu đề xuất sử dụng kỹ thuật học máy Naïve Bayes (với kernel Gaussian Bernoulli) Mạng ANN vào phân loại bệnh tim (có nguy khơng có nguy bệnh tim), liệu y khoa chứa thông tin cận lâm sàng bệnh nhân Phần lại viết gồm: trình bày giản lược số kỹ thuật đại diện cho phương pháp học máy sử dụng viết phần 3; phần trình bày kết thực nghiệm bàn luận; phần kết luận hướng phỆM VÀ THẢO LUẬN 4.1 Dữ liệu Bộ liệu bệnh tim sử dụng nghiên cứu liệu công khai [18, 19] với 1025 mẫu, có 526 mẫu gán nhãn thuộc lớp có nguy mắc bệnh tim (target = 1), số mẫu lại 499 thuộc lớp khơng có nguy (target = 0) Ở liệu gốc ban đầu, mẫu gồm 76 thuộc tính bao gồm thuộc tính chẩn đốn khác thông tin y tế thu thập từ bệnh nhân Tuy nhiên, có nhiều thuộc tính khơng có liệu thiếu liệu loại bỏ để cịn lại 14 thuộc tính (13 thuộc tính chẩn đốn thuộc tính phân lớp) Tiếp theo, tiến hành kiểm tra loại bỏ mẫu liệu trùng lặp kết lại 302 mẫu phân thành lớp có nguy mắc bệnh tim khơng có nguy mắc bệnh tim Bộ liệu ghi nhận thông tin cận lâm sàng bệnh tim bệnh nhân nam nữ, trưởng thành độ tuổi từ 29 đến 77 tuổi Bảng Thuộc tính liệu bệnh tim STT Thuộc tính age STT sex (1: male; 0: female) cp: chest pain type 10 trestbps: resting blood pressure 11 chol: serum cholesterol in mg/dl 12 fbs: (fasting blood sugar > 120 mg/dl) restecg: resting electrocardiographic results 13 14 Thuộc tính thalach: maximum heart rate achieved exang: exercise induced angina (1 = yes; = no) oldpeak = st depression induced by exercise relative to rest slope: the slope of the peak exercise st segment ca: number of major vessels (0-3) colored by fluoroscopy thal: = normal; = fixed defect; = reversable defect target: = heart disease, = No heart disease Trong đó: Age: Tuổi Sex : giới tính (1 nam, nữ) Cp: loại đau ngực 1: đau thắt ngực rõ ràng 2: đau thắt ngực không rõ ràng 3: khơng đau thắt ngực 4: khơng có triệu chứng Trestbps: Huyết áp lúc nghỉ ngơi (đơn vị mmHg) chol: cholestoral huyết tính mg/dl fbs: (đường huyết lúc đói> 120 mg / dl): = true; = false restecg: kết điện tâm đồ lúc nghỉ 401 CƠ ĐIỆN TỬ - KHCB - CNTT Trần Đình Tồn, Dương Thị Mộng Thùy thalach: nhịp tim tối đa exang: đau thắt ngực tập thể dục (1 = có; = khơng) oldpeak = ST ức chế luyện tập so với nghỉ slope: độ dốc đoạn ST tập luyện đỉnh cao 1: dốc lên 2: phẳng 3: dốc xuống ca: số lượng mạch (0-3) tơ màu phương pháp soi huỳnh quang (nội soi) thal: = bình thường; = khuyết tật cố định; = khiếm khuyết đảo ngược target: thuộc tính phân lớp (1 = Bệnh tim, = Khơng có bệnh tim) Tiến hành trực quan hóa để xem phân bố liệu, kết cho thấy độ tuổi mắc bệnh tim nhiều tập trung từ 45-65 tuổi, cao khoảng 60 tuổi (Hình 3) Hình Biểu thị độ tuổi mắc bệnh tim tập liệu Từ tập liệu cho thấy nam giới (sex = 1,0) có xu hướng mắc bệnh tim nhiều nữ (sex = 0,0) (Hình 4) Hình Biểu thị nam mắc bệnh tim nhiều nữ Khi trực quan hóa tập liệu thay tính số lần xuất điểm liệu biểu đồ tần xuất, thực phép biến đổi gaussian KDE (Kernel Density Estimation) dùng ước tính mật độ xác suất biến age (tương tự cho biến khác sex,…) Giúp làm mịn liệu làm biểu đồ smooth cho thấy tổng quan CƠ ĐIỆN TỬ - KHCB - CNTT 402 Ứng dụng kỹ thuật máy học vào phân loại bệnh tim thuộc tính với số lượng liệu có hạn Ưu điểm phép biến đổi việc biến đổi phi tham số, thấy hình dạng phân phối khác biểu đồ khác linh hoạt việc khai phá liệu (Hình 5) Hình Biểu đồ tần suất biến Age Nếu sử dụng biểu đồ tần suất, tập liệu bổ sung thêm lượng liệu không làm thay đổi phân phối trực quan biểu đồ tần suất khó phân biệt phân phối trước phân phối sau có giống hay khơng Cơng thức chuyển đổi từ count sang value (các Hình 3, 5) sau [20]: 𝑛 𝑥 − 𝑥𝑖 𝑓(𝑥) = ∑𝐾( ) 𝑛ℎ ℎ 𝑖=1 Trong đó: 𝐾(𝑥) = 𝜎 n số điểm liệu 𝑒 √2𝜋 𝑥−𝜇 − ( ) 𝜎 , h tham số bandwidth giúp phân phối ‘mượt’ hơn, Chỉ số h công thức phải lớn không (h>0) ước lượng theo cơng thức sau: 4𝜎 (3𝑛) - ℎ= - ℎ = 0.9 (𝜎, 1.34) 𝑛−5 , IQR khoảng giá trị từ tứ phân vị Q1 đến tứ phân vị cuối Q3 𝐼𝑄𝑅 4.2 Thực nghiệm Thực nghiệm thực tập liệu gồm 302 mẫu, 162 mẫu bệnh nhân có nguy bệnh tim (target = 1), cịn lại 140 mẫu bệnh nhân khơng có nguy bệnh tim (target = 0) 14 thuộc tính mơ tả Bảng a Đánh giá thực nghiệm Dựa vào Độ xác, độ nhạy độ đặc hiệu để đánh giá hiệu suất phân loại mơ hình Độ xác, độ nhạy độ đặc hiệu xác định theo công thức sau: 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 = 𝑇𝑃+𝑇𝑁 𝑇𝑃+𝐹𝑃+𝐹𝑁+𝑇𝑁 𝑇𝑃 𝑇𝑃+𝐹𝑁 403 (1) (2) CƠ ĐIỆN TỬ - KHCB - CNTT Trần Đình Tồn, Dương Thị Mộng Thùy 𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦 = 𝑇𝑁 (3) 𝑇𝑁+𝐹𝑃 Trong đó: TP, FP, TN FN True Positive, False Positive, True Negative False Negative b Thực nghiệm Trong phần này, tiến hành chia 80% tập liệu ban đầu thành tập liệu dùng để huấn luyện 20% lại tập liệu dùng để kiểm tra tiến hành thực nghiệm phân lớp liệu với kỹ thuật nêu - Thực nghiệm 1: Sử dụng thuật tốn Nạve Bayes với nhân Gaussian Bernoulli, kết đạt độ xác 83,82% 83,40%, độ nhậy độ đặc hiệu 0,89 0,78, Bảng 2: Bảng So sánh kết thực nghiệm mơ hình Naïve Bayes với kernel Methods Accuracy (%) Sensitivity Specificity Naïve Bayes (Gaussian) 83,82 0,89 0,78 Naïve Bayes (Bernoulli) 83,40 0,89 0,78 - Thực nghiệm 2: thực mạng ANN với số epochs khác 50, 100, 150, 200 300, với epochs = 200, batch_size = 16, kết đạt tốt với độ xác 87%, độ nhậy 0,91 độ đặc hiệu 0,83 Từ kết thực nghiệm cho thấy, với liệu bệnh tim sử dụng nghiên cứu dùng phương pháp ANN để phân loại có bệnh tim hay khơng có bệnh tim đạt kết tốt phương pháp Nạve Bayes, trình bày Bảng từ kết cho thấy phương pháp sử dụng nghiên cứu đạt hiệu số cơng trình cơng bố trước [2-5] Bảng So sánh kết đạt từ thực nghiệm Naïve Bayes ANN Methods Accuracy (%) Sensitivity Specificity Naïve Bayes (Gaussian) 83,82 0,89 0,78 Naïve Bayes (Bernoulli) 83,40 0,89 0,78 ANN 87 0,91 0,83 KẾT LUẬN Trong nghiên cứu này, tiến hành thực nghiệm liệu bệnh tim Thực nghiệm sử dụng phương pháp Naïve Bayes với kernel khác để phân loại liệu Thực nghiệm dùng kỹ thuật phân loại khác mạng ANN liệu Kết thực nghiệm chúng tơi cho thấy rằng: (1) Dùng phương pháp Nạve Bayes với kernel Gaussian cho kết tốt kernel lại, (2) Dùng mạng ANN với epochs=200 batch_size = 16 cho kết tương đối tốt Tuy nhiên tùy vào đặc tính khác liệu mà phương pháp khác cho kết hồn tồn khác Nhìn chung nghiên cứu này, dùng phương pháp mạng ANN cho kết tốt phương pháp Naïve Bayes CƠ ĐIỆN TỬ - KHCB - CNTT 404 Ứng dụng kỹ thuật máy học vào phân loại bệnh tim Nhóm tác giả áp dụng thành công số kỹ thuật máy học phân loại bệnh tim, từ kết đạt cho thấy kỹ thuật sử dụng vào hệ thống hỗ trợ chăm sóc sức khỏe cộng đồng dựa liệu cận lâm sàng bệnh nhân Hướng tiếp theo, tiếp tục nghiên cứu cải tiến mơ hình thực kỹ thuật phân loại liệu khác, từ tìm kỹ thuật phân loại liệu tốt nhiều tập liệu chăm sóc sức khỏe khác TÀI LIỆU THAM KHẢO https://www.who.int/vietnam/vi/health-topics/cardiovascular-disease Victor Chang, Vallabhanent Rupa Bhavani, Ariel Qianwen Xu, and MA Hossain - An artificial intelligence model for heart disease detection using machine learning algorithms, Published by Elsevier Inc 2, https://doi.org/10.1016/j.health.2022.100016, (2022) 1-17 Chithambaram T., Logesh Kannan N., and Gowsalya M - Heart disease detection using machine learning, Research Square (2020) 1-5 https://doi.org/10.21203/rs.3.rs97004/v1 Likitha KN, Nethravathi R, Nithyashree K, Ritika Kumari, Sridhar N, and Venkateswaran K - Heart disease detection using machine learning technique, DOI: 10.1109/ICESC51422.2021.9532705, IEEE, (2021) 1738-1743 Zaibunnisa L H Malik, Momin Fatema, Nikam Pooja, and Gawandar Ankita Prediction of Cardiovascular Disease Using Machine Learning Algorithms, IJERT (4) (2021) 61-64 Deepika N., Chandrashekar K - Association rule for classification of heart attack patients, International Journal of Advanced Engineering Science and Technologies 11 (2) (2011) 253-257 Srinivas K., Kavitha Rani B., and Govrdhan A - Application of data mining techniques in healthcare and prediction of heart attacks, International Journal on Computer Science and Engineering (2) (2011) 250-255 Sudha A., Gayathiri P., and Jaisankar N - Effective analysis and predictive model of stroke disease using classification methods, International Journal of Computer Applications 43 (14) (2012) 26-31 Sujata Joshi, Mydhili K Nair - Prediction of heart disease using classification based data mining techniques, Computational Intelligence in Data Mining 2, Springer India, (2015) 502-511 10 Navdeep Singh, Sonika Jindal - Heart disease prediction using classification and feature selection techniques, International Journal of Advance Research, Ideas and Innovations in Technology (2) (2018) 1124-1127 11 Takci H - Improvement of heart attack prediction by the feature selection methods, Turkish Journal of Electrical Engineering & Computer Sciences 26 (1) (2018) 1-10 12 Le Minh Hung, Tran Dinh Toan, Tran Van Lang - Automatic heart disease prediction using feature Selection and data mining technique, Journal of Computer Science and Cybernetics 34 (1) (2018) 33-47 13 Trần Đình Tồn, Huỳnh Thị Châu Lan, Trần Văn Thọ, Hoàng Tùng, Lê Minh Hưng, Trần Văn Lăng - Data mining in healthcare system on patients clinical symptoms dataset, FAIR2019, Huế (2019) 92-101 405 CƠ ĐIỆN TỬ - KHCB - CNTT Trần Đình Toàn, Dương Thị Mộng Thùy 14 Devansh Shah, Samir Patel, Santosh Kumar Bharti - Heart Disease Prediction using Machine Learning Techniques, https://doi.org/10.1007/s42979-020-00365-y, Springer (2020) 1-6 15 Saima Anwar Lashari, Rosziati Ibrahim, Norhalina Senan, and N S.A M Taujuddin - Application of data mining techniques for medical data classification: A Review, MATEC Web of Conferences 150 EDP Sciences (2018) 1-6 16 Charu C Aggarwal, Data Mining, Springer, 2015 17 https://scikit-learn.org 18 https://archive.ics.uci.edu/ml/datasets/heart+disease 19 https://www.kaggle.com/datasets 20 En.wikipedia.org 2022 Kernel density estimation - Wikipedia [online] Available at: [Accessed 20 July 2022] ABSTRACT APPLICATION OF MACHINE LEARNING TECHNOLOGY TO CLASSIFICATION OF HEART DISEASES Tran Dinh Toan*, Duong Thi Mong Thuy Ho Chi Minh City University of Food Industry *Email: toantd@hufi.edu.vn In this study, we used machine learning to classify heart disease based on symptoms and laboratory information recorded in the patient dataset Experiments were conducted to classify heart disease or not heart disease on the public data set of heart disease with the Naïve Bayes algorithm and Artificial Neural Network (ANN) respectively The obtained experimental results show that the application of machine learning techniques to heart disease classification has quite good performance with accuracy (Accuracy-Acc) of 84% and 87% Keywords: Heart disease, Naïve Bayes, ANN, classification CƠ ĐIỆN TỬ - KHCB - CNTT 406 ...- CNTT 404 Ứng dụng kỹ thuật máy học vào phân loại bệnh tim Nhóm tác giả áp dụng thành công số kỹ thuật máy học phân loại bệnh tim, từ kết đạt cho thấy kỹ thuật sử dụng vào hệ thống hỗ trợ chăm .. .Ứng dụng kỹ thuật máy học vào phân loại bệnh tim CÁC CƠNG TRÌNH LIÊN QUAN Việc sử dụng kỹ thuật máy học vào lĩnh vực y khoa tăng mạnh năm gần với nhiều... dụng số phương pháp học có giám sát để phân loại bệnh ba liệu cận lâm sàng bệnh tim, bệnh thận mãn tính, ung thư vú [13] Devansh Shah cộng sử dụng số kỹ thuật học máy để hỗ trợ dự đoán bệnh tim

Ngày đăng: 22/02/2023, 21:22

Tài liệu cùng người dùng

Tài liệu liên quan