Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 67 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
67
Dung lượng
2,13 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Nguyễn Thị Hằng Duy NGHIÊN CỨU GIẢI PHÁP HỌC MÁY CHẨN ĐOÁN NHIỄM TRÙNG MÁU DỰA TRÊN DỮ LIỆU GENE TRONG IoMT ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2023 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Nguyễn Thị Hằng Duy NGHIÊN CỨU GIẢI PHÁP HỌC MÁY CHẨN ĐOÁN NHIỄM TRÙNG MÁU DỰA TRÊN DỮ LIỆU GENE TRONG IoMT Chuyên ngành: Kĩ thuật viễn thông Mã số: 8.52.02.08 ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS Lê Hải Châu HÀ NỘI - NĂM 2023 i LỜI CAM ĐOAN Tất nội dung đề tài Đề án “Nghiên cứu giải pháp học máy chẩn đoán nhiễm trùng máu dựa liệu gene IoMT” nghiên cứu độc lập hướng dẫn, bảo, góp ý PGS.TS Lê Hải Châu, giảng viên Khoa Viễn thông 1, Học viện Cơng nghệ Bưu Viễn thơng Kết thể đề án trung thực không chép hình thức Các tài liệu tham khảo đề án trích dẫn đầy đủ, rõ ràng Tơi xin chịu hồn tồn trách nhiệm với nội dung hình thức đề án Tác giả đề án Nguyễn Thị Hằng Duy ii LỜI CẢM ƠN Lời xin chân thành cảm ơn PGS.TS Lê Hải Châu thầy cô giáo khoa Viễn Thông Khoa sau đại học – Học viện Công nghệ Bưu Viễn thơng hỗ trợ, góp ý, bảo tồn q trình thực đề án Đề án kết nỗ lực học hỏi, phấn đấu, khắc phục khó khăn bảo, giúp đỡ tận tình giảng viên hướng dẫn Tơi xin cảm ơn gia đình bạn bè tạo điều kiện thuận lợi để tơi hồn thành khố học cách tốt Sau cùng, xin cảm ơn anh chị bạn học viên lớp M21CQTE01-B sát cánh đồng hành tơi q trình học tập tại trường hoàn thành đề án Xin chân thành cảm ơn! iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN .ii DANH MỤC HÌNH VẼ v DANH MỤC BẢNG BIỂU vi DANH MỤC THUẬT NGỮ VIẾT TẮT vii LỜI MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ IoMT, HỌC MÁY VÀ ỨNG DỤNG HỌC MÁY TRONG IoMT 1.1 Tổng quan IoT IoT y tế (IoMT) 1.1.1 Tổng quan IoT 1.1.2 Tổng quan IoT Y tế 1.2 Kiến trúc hệ thống IoMT 11 1.3 Tổng quan học máy 13 1.3.1 Giới thiệu chung trí tuệ nhân tạo 13 1.3.2 Tổng quan học máy 14 1.4 Ứng dụng học máy dựa liệu gene IoMT 16 1.5 Kết luận chương 20 CHƯƠNG 2: ỨNG DỤNG THUẬT TOÁN HỌC MÁY CHẨN ĐOÁN NHIỄM TRÙNG MÁU DỰA TRÊN DỮ LIỆU BIỂU HIỆN GENE 21 2.1 Giới thiệu chung 21 2.1.1 Bệnh nhiễm trùng máu 22 2.1.2 Phương pháp chẩn đoán bệnh nhiễm trùng máu 22 2.2 Quy trình học máy hỗ trợ chẩn đốn bệnh dựa liệu gene 24 2.3 Dữ liệu biểu gene phương pháp tiền xử lý 25 2.3.1 Dữ liệu biểu gene 25 iv 2.3.2 Phương pháp tiền xử lý liệu 28 2.4 Đề xuất giải pháp học máy hỗ trợ chẩn đoán nhiễm trùng máu dựa biểu gene khác biệt 32 2.4.1 Thuật tốn học máy thơng minh 32 2.4.2 Sử dụng thuật tốn học máy để tính tầm quan trọng đặc trưng gene 36 2.4.3 Quy trình xác thực chéo 37 2.5 Kết luận chương 38 CHƯƠNG 3: THỬ NGHIỆM, ĐÁNH GIÁ MƠ HÌNH HỌC MÁY CHẨN ĐOÁN BỆNH NHIỄM TRÙNG MÁU 39 3.1 Giới thiệu chung 39 3.2 Mô hệ thống chẩn đoán sử dụng thuật toán học máy đề xuất 40 3.2.1 Công cụ thực mô 40 3.2.2 Phương pháp tham số đánh giá 42 3.3 Thử nghiệm đánh giá hiệu mơ hình đề xuất 45 3.3.1 Lựa chọn gene 45 3.3.2 Mơ mơ hình chẩn đốn bệnh 48 3.3.3 So sánh với thuật tốn cơng trình nghiên cứu khác 49 3.4 Kết luận chương 50 KẾT LUẬN 51 TÀI LIỆU THAM KHẢO 52 PHỤ LỤC A 54 PHỤ LỤC B…………………………………………………… …………………56 v DANH MỤC HÌNH VẼ Hình 1: Vai trị IoT lĩnh vực khác Hình 2: Kiến trúc IoT Hình 3: Tích hợp cơng nghệ học máy hệ thống IoMT 11 Hình 4: Kiến trúc IoMT 12 Hình 5: Tổng quan học máy 15 Hình 6: Kết nối IoMT với học máy 17 Hình 7: Ứng dụng học máy để phân tích liệu gene hệ thống IoMT 19 Hình 1: Quy trình học máy hỗ trợ chẩn đoán bệnh dựa liệu gene hệ thống IoMT ……………………………………………………………………….24 Hình 2: Các bước tiền xử lý liệu 28 Hình 3: Thống kê gene liên quan đến miễn dịch tất ba tảng 29 Hình 4: Thuật tốn Bagging 33 Hình 5: Thuật tốn KNN 35 Hình 6: Quy trình xác thực chéo lần 38 Hình 1: Phương pháp…………………………………………………………….42 Hình 2: Lưu đồ thuật tốn xây dựng tổ hợp gene 43 Hình 3: Ma trận nhầm lẫn .44 Hình A 1: Code chương trình chuẩn hóa lại thuật tốn RMA cho liệu gene GSE57065………………………………………………………………………….56 Hình A 2: Code chương trình phân tích biểu gene khác biệt cho liệu gene GSE57065 56 vi DANH MỤC BẢNG BIỂU Bảng 1: Tập liệu biểu gene 27 Bảng 1: Xếp hạng gene theo tầm quan trọng 119 gene… ………………… 45 Bảng 2: Hiệu xác thực mô hình học máy tập liệu đào tạo 47 Bảng 3: Hiệu chẩn đốn cho mơ hình học máy tập liệu kiểm tra 48 Bảng 4: Ma trận nhầm lẫn của thuật toán học máy tập liệu kiểm tra 48 Bảng 5: Thử nghiệm mơ hình BG đề xuất tập liệu kiểm định 49 Bảng 6: So sánh hiệu dựa tham số AUC mơ hình đề xuất đề án với cơng trình nghiên cứu khác 50 Bảng A 1: Giá trị FC 175 gene………………………………………… …….54 vii DANH MỤC THUẬT NGỮ VIẾT TẮT Từ viết tắt Nghĩa tiếng anh Nghĩa tiếng việt AI Artificial Intelligence Trí tuệ nhân tạo BG Bagging Thuật tốn đóng bao BS Boosting Thuật tốn tăng cường CPU Central Processing Unit Bộ xử lý trung tâm DEG Differential Expression Gene Phân thích biểu gene khác biệt ECG Electrocardiogram Điện tâm đồ EC-GSM Extended Coverage GSM Vùng phủ sóng mở rộng GSM EEG Electroencephalography Điện não đồ GAN Generative Adversarial Network Mạng sinh đối địch GPRS General Packet Radio Service Dịch vụ vơ tuyến gói tổng hợp GPU Graphics Processing Unit Đơn vị xử lý đồ họa GSM Global System for Mobile Communications Hệ thống thông tin di động toàn cầu ID Identification Nhận dạng IoMT Internet of Medical Things IoT y tế IoMT-SAF Internet of Medical Things Security, Analytics, and Framework IoT y tế- Bảo mật, Phân tích Khung IoT Internet of Things Internet vạn vật IRG Immune-related Gene Gene liên quan đến miễn dịch KNN K-Nearest Neighbors Thuật tốn K-Hàng xóm gần viii LAN Local Area Network Mạng lưới khu vực địa phương LTE-A Long-Term Evolution Advanced Phát triển dài hạn nâng cao LTE-M Long-Term Evolution for Quá trình phát triển lâu dài Machines máy móc MAC Media Access Control Kiểm soát truy cập phương tiện NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên PCA Principal Component Analysis Phân tích thành phần RFID Radio-Frequency Identification Nhận dạng tần số vô tuyến điện RMA Robust Multi-array Average Phương pháp Trung bình đa mảng mạnh mẽ SVM Support Vector Machine Máy véc tơ hỗ trợ WSN Wireless Sensor Network Mạng cảm biến khơng dây 43 đốn liệu kiểm tra tập liệu kiểm định a) Xếp hạng gene Mơ hình BS áp dụng để tính tầm quan trọng đặc trưng gene (FI) trình bày Chương 2, sau xếp hạng gene theo thứ tự từ cao đến thấp Các tổ hợp gene tạo cách xếp gene có giá trị tầm quan trọng đặc trưng cao thành tổ hợp thứ 1, tổ hợp thứ bao gồm gene có giá trị tầm quan trọng cao kết hợp với gene có giá trị tầm quan trọng cao thứ 2, tương tự ta có đến tổ hợp thứ n Lưu đồ thuật toán việc xây dựng tổ hợp gene thể Hình 3.2 Hình 2: Lưu đồ thuật tốn xây dựng tổ hợp gene b) Xác thực tổ hợp gene Trong bước này, quy trình xác thực chéo lần thuật toán học máy xem xét để xây dựng ước tính hiệu mơ hình chẩn đốn học máy cách sử dụng tổ hợp gene khác Do giới hạn tập liệu gene, đề án sử dụng tập đào tạo để huấn luyện mơ hình điều chỉnh siêu tham số Tồn tập liệu đào tạo chia ngẫu nhiên thành phần, phần sử dụng cho mơ hình huấn luyện phần cịn lại tập xác thực Mơ hình tốt thu thập sau điều chỉnh siêu tham số sau ước tính thơng qua quy trình xác thực chéo Hiệu suất chẩn đốn trung bình mơ hình học máy sau tính tốn để so sánh phân tích Việc lựa chọn tổ hợp gene tối ưu tương ứng với hiệu 44 thuật toán học máy dựa hiệu suất chẩn đoán cao Bên cạnh đó, số lượng gene coi yếu tố để chọn kết hợp tốt c) Thử nghiệm mơ hình Các mơ hình học máy khác sau đào tạo kiểm tra hiệu suất chẩn đoán chúng tập huấn luyện thử nghiệm cách sử dụng tổ hợp gene tối ưu chúng Tổ hợp gene cuối mơ hình học máy liên quan mang lại hiệu suất chẩn đoán tốt thử nghiệm lựa chọn cho giải pháp đề xuất đề án d) Tham số đánh giá hiệu suất Để đánh giá hiệu mơ hình đề xuất, đề án thực mơ tính toán tham số sau: khu vực đường cong (AUC) tính diện tích nằm đường cong ROC (Receiver Operating Characteristic), có phạm vi từ đến Mơ hình có AUC cao phân biệt tốt Ngồi ra, Độ xác (Acc), Độ nhạy (Sn) Độ đặc hiệu (Sp) coi thơng số đo lường để ước lượng chẩn đốn mơ hình học máy Tỷ lệ bệnh nhân nhiễm trùng máu xác định xác đo Acc Các giá trị Sn Sp đếm số ca liên quan đến nhiễm trùng máu người bình thường xác định xác Hình 3: Ma trận nhầm lẫn Dự đoán Thực tế Người bị nhiễm trùng máu Người khỏe mạnh Người bị nhiễm trùng máu TP FP Người khỏe mạnh FN TN Ma trận nhầm lẫn thể Hình ma trận sử dụng để xác định hiệu suất mơ hình phân loại tập liệu thử nghiệm định Ma trận xác định biết giá trị thực liệu thử nghiệm Bản thân ma trận dễ hiểu thuật ngữ liên quan gây nhầm lẫn Vì ma trận nhầm lẫn hiển thị lỗi hiệu suất mô hình dạng ma trận, cịn gọi ma trận lỗi 45 TP (True Positive): Mơ hình dự đốn người bị mắc bệnh nhiễm trùng máu TN (True Negative): Mơ hình đưa dự đốn người khơng bị bệnh nhiễm trùng máu FN (False Negative) hay gọi lỗi Loại II: Mơ hình dự đốn sai lệch, tức dự đốn người khơng bị bệnh nhiễm trùng máu người bị bệnh nhiễm trùng máu FP (False Positive) hay gọi Lỗi Loại I: Mơ hình dự đốn sai lệch, tức người bị nhiễm trùng máu lại dự đốn người khơng bị mắc bệnh nhiễm trùng máu Các cơng thức tính tham số đánh giá: Acc TP TN TP TN FP FN (3.1) Sn TP TP FN (3.2) Sp TN FP TN (3.3) 3.3 Thử nghiệm đánh giá hiệu mơ hình đề xuất 3.3.1 Lựa chọn gene a) Xếp hạng gene Bảng 1: Xếp hạng gene theo tầm quan trọng 119 gene Mã gene FI Mã gene FI Mã gene FI IL1R2 0.6103 LCK 0.00021 CD160 0.00011 TLR5 0.13387 CD96 0.00021 ITGAX 0.00011 KLRF1 0.13361 CD5 0.00021 MAPK1 0.00011 LRRN3 0.02605 THBD 0.0002 ICAM1 0.0001 HLA-DMA 0.01457 SH2D1B 0.0002 CD200 0.0001 G6PD 0.01188 ANXA1 0.0002 BST1 0.0001 46 CCRL2 0.0114 TNFSF13B 0.0002 CD7 0.0001 CD3E 0.01026 ETS1 0.00019 C1QA 0.0001 CEACAM8 0.00516 IL21R 0.00019 CDK1 0.0001 LCN2 0.00398 PYCARD 0.00018 GPI 0.0001 MERTK 0.00369 SERPING1 0.00018 BID 0.00009 TXK 0.00366 ARG1 0.00018 CD79A 0.00008 CLEC5A 0.00239 LY96 0.00018 MARCO 0.00008 TANK 0.00226 CD63 0.00018 CTSW 0.00008 CCR6 0.0021 CHIT1 0.00017 CD2 0.00007 FUT7 0.00147 GNLY 0.00017 FCER1A 0.00007 CD8A 0.00138 FLT3 0.00016 JAK3 0.00007 TFE3 0.00133 TLR1 0.00016 SERPINB2 0.00006 IL18R1 0.00128 BTLA 0.00016 IFI35 0.00006 FCGR1A 0.00111 HLA-DRA 0.00016 IL1A 0.00006 CXCR1 0.0011 KLRB1 0.00016 LILRB3 0.00005 S100A8 0.00102 IL1RAP 0.00015 IL13RA1 0.00005 FCER1G 0.00097 IL18 0.00015 ALCAM 0.00004 MS4A1 0.00078 CD163 0.00015 IL17RA 0.00004 MAPK14 0.00073 IFNGR1 0.00015 CFP 0.00004 CTSG 0.0007 CEACAM6 0.00015 IFNAR1 0.00004 ITGA6 0.00053 CD3D 0.00015 STAT4 0.00004 ENTPD1 0.00035 TLR4 0.00014 ITK 0.00003 GZMB 0.00034 NFKBIA 0.00014 IGF2R 0.00003 ALAS1 0.00032 ITGA2B 0.00014 THBS1 0.00003 IL2RB 0.00029 LY9 0.00014 KLRG1 0.00003 FADD 0.00028 ICOS 0.00014 CCR1 0.00003 TLR8 0.00028 STAT5B 0.00014 IL1B 0.00003 CCR7 0.00028 CXCL16 0.00013 CD27 0.00003 BLNK 0.00026 CD55 0.00013 ZAP70 0.00003 47 LYN 0.00025 CD81 0.00013 GZMK 0.00003 STAT3 0.00024 CEBPB 0.00012 TBX21 0.00003 EOMES 0.00024 IL18RAP 0.00012 CR1 0.00002 C1QB 0.00024 TMUB2 0.00011 CYBB 0.00002 HLA-DQB1 0.00023 TTK 0.00011 Sau q trình phân tích biểu gene khác biệt 175 gene lựa chọn từ 608 gene IRG 175 gene xác định cách sử dụng phân tích giá trị FC ≥ 1,5 p-value điều chỉnh ≤ 0,05 Các giá trị FC tương ứng với mã gene thể Phục lục Bảng A.1 Bằng cách áp dụng thuật toán BS, giá trị mức độ quan trọng 175 gene tính tốn xếp hạng từ cao đến thấp Bảng 3.1, có 56 gene có giá trị quan trọng nên bị loại bỏ Do đó, đề án xem xét tập hợp gồm 119 gene tương ứng với 119 tổ hợp gene bước xác thực tổ hợp gene tiếp b) Xác thực tổ hợp gene Bảng 2: Hiệu xác thực mơ hình học máy tập liệu đào tạo Mơ hình học máy Số lượng gene KNN 24 98.12±0.58 99.04±0.44 BG 15 98.12±0.58 98.02±1.21 98.29±2.08 99.61±0.23 BS 97.93±1.62 99.04 ± 0.4 Acc(%) Sn(%) Sp(%) AUC(%) 94.7±6.9 97.53±2.73 93.91±6.5 97.74±2.68 Trong bước này, quy trình xác thực chéo lần triển khai cho thuật toán học máy bao gồm BG, KNN BS sử dụng 119 tổ hợp gene (mỗi thuật toán học máy đánh giá với 119 tổ hợp gen) Kết hiệu suất xác thực mơ hình học máy riêng lẻ hiển thị Bảng 3.2 KNN với tổ hợp gồm 24 gene, BG với tổ hợp gồm 15 gene BS với tổ hợp gồm gene đạt hiệu cao Đây tổ hợp gene tối ưu chọn tương ứng với mơ hình thuật tốn Từ kết mơ hình học máy, thuật toán dựa tham số Acc, AUC 48 tổ hợp gene tương ứng cho mơ hình chẩn đốn lựa chọn đề xuất Trong mơ hình học máy, thuật tốn phân loại BG có hiệu tốt so với mơ hình cịn lại dựa tham số đánh giá Acc, AUC Sp 3.3.2 Mơ mơ hình chẩn đốn bệnh Các mơ hình học máy bao gồm BS, BG KNN đào tạo tập huấn luyện để chọn tham số tối ưu tổ hợp gene tối ưu Tiếp theo để đánh giá hiệu mơ hình, để án thực ước tính hiệu chẩn đốn tập thử nghiệm Bảng 3: Hiệu chẩn đốn cho mơ hình học máy tập liệu kiểm tra Mơ hình học máy Acc Sn Sp AUC (%) (%) (%) (%) BG 96.26 98.09 89.65 99.54 BS 90.29 95.23 72.41 94.67 KNN 95.52 98.09 86.2 99.47 Bảng 4: Ma trận nhầm lẫn của thuật toán học máy tập liệu kiểm tra Dự đoán Bị nhiễm trùng máu Khỏe mạnh Thực tế Bị nhiễm trùng máu Khỏe mạnh 103/100/10 2/5/4 3/8/2 26/21/25 Bảng 3.3 3.4 cho thấy kết thử nghiệm ma trận nhầm lẫn mơ hình học máy với tổ hợp gene lựa chọn (KNN với tổ hợp 24 gene, BG với tổ hợp 15 gene, BS với tổ hợp gene) Từ Bảng 3.3 3.4 cho thấy hiệu mơ hình BG đề xuất vượt trội so với mơ hình KNN BS Từ kết bảng 3.2, 3.3 3.4 cho thấy hiệu chẩn đoán 49 mơ hình BG quy trình xác thực thử nghiệm cao so với mơ hình học máy cịn lại Do đó, đề án đề xuất thuật tốn bao gồm mơ hình BG tổ hợp 15 gene bao gồm: IL1R2, TLR5, KLRF1, LRRN3, HLA-DMA, G6PD, CCRL2, CD3E, CEACAM8, LCN2, MERTK, TXK, CLEC5A, TANK, CCR6, phương pháp tốt đáng tin cậy để chẩn đoán bệnh nhiễm trùng máu ứng dụng tảng IoMT 3.3.3 So sánh với thuật tốn cơng trình nghiên cứu khác Để đánh giá hiệu tin cậy mơ hình dự đốn, đề án đánh giá mơ hình chẩn đốn đề xuất nhóm liệu kiểm định Kết minh họa bảng 3.5, cho thấy mơ hình BG với tổ hợp 15 gene đề xuất thử nghiệm gene GSE28750, GSE13904, GSE65682 E-MTAB1548 có AUC chẩn đốn đáng tin cậy tỉ lệ bị mắc bệnh nhiễm trùng máu với AUC ước tính > 95% , đặc biệt gene GSE28750 có độ xác 100% Để đánh giá xác hiệu mơ hình đề xuất, đề án thực so sánh với thuật tốn khác tập liệu cơng trình nghiên cứu khác cơng bố khác gồm tổ hợp gene bao gồm: sNIP: NLRP1, IDNK, PLAC8 sử dụng thuật toán RF [17] SeptiCyteLab: CEACAM4, LAMP1, PLA2G7, PLAC8 sử dụng thuật toán SVM [18] Bảng 5: Thử nghiệm mơ hình BG đề xuất tập liệu kiểm định Acc Sn Sp (%) (%) (%) AUC (%) 100.00 100.00 100.00 100.00 4 88.57 92.30 77.78 95.09 20 22 95.78 100.00 47.61 99.83 15 97.90 97.50 100.00 100.00 Tập liệu TP TN FP FN GSE28750 10 20 GSE13904 48 14 GSE65682 479 E-MTAB-1548 78 50 Bảng 6: So sánh hiệu dựa tham số AUC mơ hình đề xuất đề án với cơng trình nghiên cứu khác Tập liệu sNIP SeptiCyteLab Đề án GSE28750 96.5 81.5 100 GSE13904 77.46 42.84 95.09 GSE65682 99.48 52.39 99.83 Bảng 3.6 thể so sánh giá trị AUC đề xuất đề án bao gồm thuật toán BG 15 gene: IL1R2, TLR5, KLRF1, LRRN3, HLA-DMA, G6PD, CCRL2, CD3E, CEACAM8, LCN2, MERTK, TXK, CLEC5A, TANK, CCR6 với nghiên cứu khác nghiên cứu [17] [18] Rõ ràng, hiệu mơ hình đề xuất đề án vượt trội mơ hình khác 3.4 Kết luận chương Trong chương này, đề án mô phỏng, thử nghiệm đánh giá mơ hình thuật tốn đề xuất để chẩn đoán nhiễm trùng máu Do bệnh nhân nhiễm trùng máu có hệ thống miễn dịch bị rối loạn nghiêm trọng nên 608 gene IRG 11 liệu gene coi gene tiềm năm để phân tích biểu gene khác biệt Phương pháp phân tích biểu gene khác biệt thuật tốn BS để tính mức độ quan trọng loại gene áp dụng chương Bằng cách sử dụng mơ hình học máy (BG, KNN, BS) kết hợp với quy trình xác thực chéo để tìm tổ hợp gene hiệu tối ưu cho chẩn đoán bệnh nhiễm trùng máu Từ kết mơ chương này, mơ hình thuật toán đề xuất bao gồm phân loại BG 15 gene lựa chọn từ 23521 gene tảng gene Affy U133 Plus 2.0, 19040 gene tảng Affy U219 17028 gene tang AgilentV2 Bên cạnh để đánh giá xác hiệu suất mơ hình, chương trình bày so sánh hiệu suất mơ hình tập liệu kiểm định với công bố khác Các kết xác định tổ hợp 15 gene mơ hình phân loại BG có hiệu chẩn đốn xác cao đáng tin cậy làm sở cho nghiên cứu sinh học xét nghiệm chẩn đoán lâm sàng ứng dụng tảng IoMT 51 KẾT LUẬN IoMT kỷ nguyên IoT thu hút nhiều ý khả ứng dụng rộng rãi hệ thống chăm sóc sức khỏe thơng minh Hệ thống IoMT tạo điều kiện thuận lợi cho bệnh nhân với thiết bị y tế kết nối lúc, nơi thông qua giải pháp tiết kiệm chi phí cảm giác thoải mái với hỗ trợ 24/24 bệnh viện Các sở chăm sóc sức khỏe dựa vào số liệu thống kê thời gian thực hệ thống IoMT chẩn đoán cố giải pháp chúng khoảng thời gian nhỏ Với xu phát triển công nghệ ứng dụng đời sống xã hội thay đổi khơng ngừng, cơng nghệ AI ứng dụng tiềm công nghệ chủ chốt tương lai Việc ứng dụng AI hệ thống IoMT mang lại nhiều tiềm lớn lĩnh vực Trong nghiên cứu này, việc phân tích biểu gene khác biệt loại gene có liên quan đến miễn dịch lựa chọn gene dựa học máy kết hợp với phương pháp xác thực chéo sử dụng để chọn lọc loại gene hiệu đáng tin cậy cho việc chẩn đoán bệnh nhiễm trùng máu ứng dụng thực tế Trong đề án này, mơ hình thuật tốn BG đề xuất dựa tổ hợp 15 gene tiềm bao gồm IL1R2, TLR5, KLRF1, LRRN3, HLA-DMA, G6PD, CCRL2, CD3E, CEACAM8, LCN2, MERTK, TXK, CLEC5A, TANK CCR6 có hiệu chẩn đốn bệnh nhiễm trùng máu với độ xác Acc 96.26% AUC 99.54% tập thử nghiệm, đạt AUC > 95% kiểm tra lại gene tảng AffyU219 AgilentV2, đặc biệt gene GSE28750 tảng AffyU219 có hiệu suất chẩn đốn 100%, hứa hẹn tích hợp tảng IoMT mang lại hiệu phát nhanh chóng kịp thời bệnh nhiễm trùng máu Các kết đề án công bố 01 Hội nghị quốc tế RIVF 2022 công nghệ máy tính truyền thơng: [1] Nguyen, H D T., Nguyen, T H T., Le, C H., & Nguyen, M T (2022, December) Diagnosis of Sepsis Based on Potential Immune-Related Biomarker and Machine Learning Method In 2022 RIVF International Conference on Computing and Communication Technologies (RIVF) (pp 7782) IEEE 52 TÀI LIỆU THAM KHẢO [1] You, X., Wang, C X., Huang, J., Gao, X., Zhang, Z., Wang, M., & Liang, Y C (2021) Towards 6G wireless communication networks: Vision, enabling technologies, and new paradigm shifts Science China Information Sciences, 64, 174 [2] Nayak, S., & Patgiri, R (2021) 6G communication technology: A vision on intelligent healthcare Health informatics: A computational perspective in healthcare, 1-18 [3] Kakati, T., Bhattacharyya, D K., Kalita, J K., & Norden-Krichmar, T M (2022) DEGnext: classification of differentially expressed genes from RNA-seq data using a convolutional neural network with transfer learning BMC bioinformatics, 23(1), 17 [4] Abbas, M., & El-Manzalawy, Y (2020) Machine learning based refined differential gene expression analysis of pediatric sepsis BMC medical genomics, 13(1), 1-10 [5] Fan, Y., Han, Q., Li, J., Ye, G., Zhang, X., Xu, T., & Li, H (2022) Revealing potential diagnostic gene biomarkers of septic shock based on machine learning analysis BMC Infectious Diseases, 22(1), 1-16 [6] Wagan, S A., Koo, J., Siddiqui, I F., Attique, M., Shin, D R., & Qureshi, N M F (2022) Internet of medical things and trending converged technologies: A comprehensive review on real-time applications Journal of King Saud UniversityComputer and Information Sciences [7] Srivastava, J., Routray, S., Ahmad, S., & Waris, M M (2022) Internet of Medical Things (IoMT)-based smart healthcare system: Trends and progress Computational Intelligence and Neuroscience, 2022 [8] Evans, L., Rhodes, A., Alhazzani, W., Antonelli, M., Coopersmith, C M., French, C., & Levy, M (2021) Executive summary: surviving sepsis campaign: international guidelines for the management of sepsis and septic shock 2021 Critical care medicine, 49(11), 1974-1982 [9] She, H., Tan, L., Yang, R., Zheng, J., Wang, Y., Du, Y., & Li, T (2023) Identification of featured necroptosis-related genes and imbalanced immune infiltration in sepsis via machine learning Frontiers in Genetics, 14 [10] Li, L., Huang, L., Huang, C., Xu, J., Huang, Y., Luo, H., & Jiang, Y (2022) The multiomics landscape of serum exosomes during the development of sepsis Journal of Advanced Research, 39, 203-223 53 [11] Abbas, M., & El-Manzalawy, Y (2020) Machine learning based refined differential gene expression analysis of pediatric sepsis BMC medical genomics, 13(1), 1-10 [12] Banerjee, S., Mohammed, A., Wong, H R., Palaniyar, N., & Kamaleswaran, R (2021) Machine learning identifies complicated sepsis course and subsequent mortality based on 20 genes in peripheral blood immune cells at 24 H post-ICU admission Frontiers in immunology, 12, 592303 [13] Ying, J., Wang, Q., Xu, T., & Lu, Z (2021) Diagnostic potential of a gradient boosting-based model for detecting pediatric sepsis Genomics, 113(1), 874-883 [14] Lu, J., Chen, R., Ou, Y., Jiang, Q., Wang, L., Liu, G., & Chen, Z (2022) Characterization of immune-related genes and immune infiltration features for early diagnosis, prognosis and recognition of immunosuppression in sepsis International Immunopharmacology, 107, 108650 [15] Abbas, M., & El-Manzalawy, Y (2020) Machine learning based refined differential gene expression analysis of pediatric sepsis BMC medical genomics, 13(1), 1-10 [16] Chen, Z H., Zhang, W Y., Ye, H., Guo, Y Q., Zhang, K., & Fang, X M (2023) A signature of immune-related genes correlating with clinical prognosis and immune microenvironment in sepsis BMC bioinformatics, 24(1), 1-19 [17] McHugh, L., Seldon, T A., Brandon, R A., Kirk, J T., Rapisarda, A., Sutherland, A J., & Brandon, R B (2015) A molecular host response assay to discriminate between sepsis and infection-negative systemic inflammation in critically ill patients: discovery and validation in independent cohorts PLoS medicine, 12(12), e1001916 [18] Scicluna, B P., Wiewel, M A., Van Vught, L A., Hoogendijk, A J., Klarenbeek, A M., Franitza, M., & Van Der Poll, T (2018) Molecular biomarker to assist in diagnosing abdominal sepsis upon ICU admission American journal of respiratory and critical care medicine, 197(8), 1070-1073 54 PHỤ LỤC A Bảng A 1: Giá trị FC 175 gene STT Mã gene LTF FC 385.52 STT Mã gene 60 S100A8 FC 2.47 STT Mã gene 119 SERPING1 FC 1.85 CEACAM8 285.02 61 LCK 2.46 120 IL10 1.84 LCN2 212.71 62 CSF3R 2.45 121 TNFSF10 1.81 IL1R2 153.66 63 CEBPB 2.43 122 TANK 1.8 CLEC5A 31.1 64 CD3G 2.43 123 ARG2 1.8 IL18R1 14.5 65 KLRD1 2.4 124 FCGR2A 1.8 S100A12 13.28 66 PRF1 2.38 125 ALAS1 1.79 ELANE 11.88 67 HLA-DPA1 2.38 126 STAT3 1.78 CD163 8.2 68 ANXA1 2.36 127 FUT7 1.76 10 HLA-DQA1 7.83 69 CCR7 2.33 128 CYBB 1.76 11 TLR5 7.75 70 CD3E 2.32 129 OSM 1.74 12 C3AR1 6.2 71 CD96 2.28 130 IL1B 1.74 13 IL18RAP 6.01 72 CD8A 2.28 131 TNFRSF1A 1.72 14 MAPK14 5.28 73 RUNX3 2.27 132 LAMP2 1.72 15 CEACAM6 5.24 74 MERTK 2.22 133 FLT3 1.72 16 BCL6 5.21 75 CTSW 2.21 134 IL13RA1 1.72 17 C1QB 4.83 76 SLC11A1 2.2 135 FOS 1.72 18 FCER1G 4.8 77 TLR1 2.2 136 IFI35 1.71 19 KLRF1 4.44 78 IL17RA 2.19 137 BIRC5 1.7 20 SERPINB2 4.18 79 BLNK 2.18 138 MAP3K5 1.7 21 BST1 4.09 80 GZMB 2.18 139 TNFRSF10C 1.7 22 CD63 4.01 81 TLR4 2.18 140 SBNO2 1.7 23 LRRN3 3.97 82 IL4R 2.16 141 IL18 1.7 24 LY96 3.97 83 LY9 2.16 142 JAK3 1.69 25 CTSG 3.97 84 FCGR1A 2.16 143 IGF2R 1.69 26 CR1 3.85 85 IFIT1 2.16 144 CXCL1 1.69 27 GNLY 3.65 86 SH2D1B 2.15 145 THBD 1.68 28 C1QA 3.59 87 CCR6 2.15 146 GATA3 1.68 29 ITGAM 3.46 88 ENTPD1 2.14 147 CDK1 1.68 30 CD55 3.25 89 LILRB2 2.13 148 THBS1 1.67 31 CAMP 3.22 90 KLRG1 2.12 149 HLA-DQB1 1.66 32 CD247 3.21 91 STAT4 2.11 150 IFNAR1 1.65 55 33 KLRB1 3.2 92 ALCAM 2.1 151 TIGIT 1.65 34 NCF4 3.2 93 HLA-DMA 2.1 152 CFP 1.64 35 IL1R1 3.13 94 CD27 2.09 153 CD7 1.64 36 TLR2 3.13 95 G6PD 2.07 154 GZMM 1.64 37 TLR8 3.05 96 PYCARD 2.06 155 CD81 1.64 38 ITK 3.03 97 HLA-DPB1 2.04 156 ICAM1 1.64 39 IL2RB 98 CLU 2.04 157 GPI 1.64 40 CD58 2.99 99 BATF 2.02 158 DPP4 1.63 41 GZMK 2.96 100 TBX21 2.02 159 CD79A 1.63 42 FPR2 2.94 101 ETS1 2.02 160 TLR6 1.63 43 CD160 2.93 102 ZAP70 2.01 161 CD200 1.61 44 CHIT1 2.87 103 LYN 162 BTLA 1.61 45 EOMES 2.75 104 CCRL2 1.98 163 TFE3 1.6 46 IFNGR1 2.67 105 CD3D 1.97 164 ICOS 1.58 47 CD2 2.65 106 ITGA4 1.96 165 PIK3CG 1.58 48 PRKCD 2.62 107 ITGA2B 1.96 166 CHUK 1.57 49 FCER1A 2.61 108 TNFSF13B 1.95 167 BID 1.56 50 LILRB3 2.61 109 CXCL16 1.95 168 TNFSF14 1.55 51 PDGFC 2.6 110 CXCR1 1.92 169 ITGA6 1.55 52 ARG1 2.57 111 TTK 1.92 170 IL21R 1.55 53 MS4A1 2.56 112 IL1RAP 1.91 171 IL1A 1.55 54 GZMH 2.54 113 MAPK1 1.89 172 ITGAX 1.54 55 JAK2 2.53 114 STAT5B 1.89 173 FADD 1.54 56 CCR1 2.52 115 HLA-DRA 1.89 174 CD5 1.54 57 TXK 2.51 116 NFKBIA 1.89 175 IL6R 1.53 58 CD274 2.48 117 MARCO 1.88 59 GZMA 2.48 118 TMUB2 1.87 Code chương trình chuẩn hóa lại thuật tốn RMA sử dụng thư viện affy cho liệu gene GSE57065 thể hiển Hình A library(affy) library(GEOquery) library(tidyverse) untar("D:\\GSE57065\\GSE57065_RAW.tar", exdir = 'data/') 56 raw.data