1. Trang chủ
  2. » Luận Văn - Báo Cáo

(Tóm tắt luận văn thạc sĩ) nghiên cứu giải pháp học máy chẩn đoán nhiễm trùng máu dựa trên dữ liệu gene trong iomt

22 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 22
Dung lượng 680,1 KB

Nội dung

` HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN THỊ HẰNG DUY NGHIÊN CỨU GIẢI PHÁP HỌC MÁY CHẨN ĐOÁN NHIỄM TRÙNG MÁU DỰA TRÊN DỮ LIỆU GENE TRONG IoMT Chuyên ngành: Kỹ thuật Viễn thông Mã số: 8.52.02.08 TÓM TẮT ĐỀ ÁN TỐT NGHIỆP THẠC SĨ HÀ NỘI - 2023 LỜI MỞ ĐẦU Cùng với phát triển không ngừng công nghệ truyền thông, Internet vạn vật (IoT) triển khai rộng khắp giới thời gian qua, hứa hẹn mạng tích hợp tồn cơng nghệ tiên tiến mà trí tuệ nhân tạo (AI) đóng vai trị trung tâm, chủ chốt kỉ nguyên Bên cạnh đó, IoT có vai trò quan trọng nhiều lĩnh vực khác nông nghiệp, Internet, ngành công nghiệp, giáo dục y tế IoT y tế (IoMT) kỷ nguyên IoT thu hút nhiều ý khả ứng dụng rộng rãi hệ thống chăm sóc sức khỏe thơng minh IoMT đóng vai trị quan trọng ngành chăm sóc sức khỏe để tăng độ xác, độ tin cậy suất thiết bị điện tử Trong hệ thống chăm sóc sức khỏe thơng minh sử dụng nhiều kĩ thuật khác nhận dạng tần số vô tuyến (RFID), AI Blockchain Do việc ứng dụng AI lĩnh vực y tế để triển khai hệ thống IoMT mang lại nhiều tiềm lớn y tế Việc chẩn đoán sớm bệnh nguy hiểm ung thư, nhiễm trùng máu dựa tập liệu gene việc sử dụng thuật tốn thơng minh ứng dụng vô quan trọng việc phát điều trị kịp thời bệnh nguy hiểm Các kết nghiên cứu phần ứng dụng phát triển thành giải pháp tảng IoMT Trong khuôn khổ đề án này, học viên hướng đến việc nghiên cứu giải pháp học máy ứng dụng việc hỗ trợ chẩn đoán khả bị bệnh dựa tập liệu gene Việc áp dụng AI vào để hỗ trợ chuẩn đoán phát bệnh dựa tập liệu gene chủ đề thu hút nhiều quan tâm, nghiên cứu giới Các giải pháp học máy thơng minh hỗ trợ chẩn đốn bệnh dựa liệu gene có độ xác cao mở thêm phương pháp tin cậy việc chuẩn đoán tiên lượng cho số loại bệnh liên quan đến gene người Nội dung đề án trình bày theo ba chương với nội dung sau:  Chương 1: Tổng quan IoMT, học máy ứng dụng học máy IoMT: Giới thiệu khái quát IoT IoT y tế (IoMT), kiến trúc hệ thống IoMT, tổng quan học máy ứng dụng học máy dựa liệu gene IoMT  Chương 2: Thuật toán học máy chẩn đoán nhiễm trùng máu dựa liệu gene: Trình bày quy trình học máy hỗ trợ chẩn đoán bệnh dựa liệu biểu gene, đề xuất thuật toán học máy chẩn đoán nhiễm trùng máu dựa biểu khác biệt gene phương pháp tiền xử lý liệu gene  Chương 3: Thử nghiệm, đánh giá mơ hình học máy chẩn đốn nhiễm trùng máu: Xây dựng phương pháp mơ hệ thống chẩn đoán sử dụng thuật toán học máy đề xuất Bên cạnh đó, cịn đánh giá hiệu mơ hình chẩn đốn đề xuất so sánh với thuật toán học máy khác Các kết yếu nghiên cứu liên quan đề án công bố 01 Hội nghị quốc tế RIVF 2022 cơng nghệ máy tính truyền thông: [1] Nguyen, H D T., Nguyen, T H T., Le, C H., & Nguyen, M T (2022, December) Diagnosis of Sepsis Based on Potential Immune-Related Biomarker and Machine Learning Method In 2022 RIVF International Conference on Computing and Communication Technologies (RIVF) (pp 77-82) IEEE 3 CHƯƠNG 1: TỔNG QUAN VỀ IoMT, HỌC MÁY VÀ ỨNG DỤNG HỌC MÁY TRONG IoMT 1.1 Tổng quan IoT IoT y tế (IoMT) 1.1.1 Tổng quan IoT a) Giới thiệu Internet of Things (IoT) khái niệm đưa để miêu tả mạng lưới thiết bị kết nối internet giao tiếp với mà không cần can thiệp người Các thiết bị cảm biến, máy móc, thiết bị điện tử, xe hơi, thiết bị gia đình tủ lạnh, máy giặt, bếp chí đồ vật đồ chơi, sách, vật dụng nội thất IoT cho phép thu thập liệu từ thiết bị phân tích chúng để tạo thơng tin hữu ích cho người sử dụng, cải thiện sống làm việc họ b) Kiến trúc IoT i Lớp ứng dụng ii Lớp mạng iii Lớp cảm nhận 1.1.2 Tổng quan IoT Y tế a) Tổng quan IoMT IoMT hệ thống kết nối thiết bị y tế thơng minh nhằm thu thập, phân tích chia sẻ liệu y tế qua mạng Internet IoMT xem phần IoT với mục đích tập trung vào ứng dụng y tế, chăm sóc sức khỏe y tế công cộng IoMT cho phép thiết bị y tế truyền thông liệu, cung cấp thơng tin tình trạng sức khỏe người dùng, đo lường số sinh lý, theo dõi tiến trình điều trị đưa lời khuyên y tế IoMT đóng vai trị quan trọng ngành chăm sóc sức khỏe để tăng độ xác, quán thông lượng thiết bị điện tử Bằng cách sử dụng thiết bị IoMT, dễ dàng theo dõi hồ sơ sức khỏe hàng ngày từ tự thực biện pháp phòng ngừa ban đầu b) Vai trị AI IoMT Trí tuệ nhân tạo AI cung cấp khả cho máy tính rơ-bốt, điều khiển hệ thống máy tính để thực tác vụ thường người thực thơng qua trí thơng minh chúng Trong hệ thống chăm sóc sức khỏe thơng minh với kỹ thuật diễn giải liệu phù hợp, cỗ máy theo dõi thơng số sức khỏe cách sử dụng cảm biến cấy ghép/đeo thể người quan sát Quản lý phòng ngừa bệnh theo thời gian thực với trải nghiệm người dùng cuối cải thiện đạt cách sử dụng AI AI sử dụng để cung cấp bảo mật IoMT cách phát xâm nhập mạng công bảo mật trung gian hệ thống IoMT AI lĩnh vực nghiên cứu khác hỗ trợ IoMT, bao gồm việc định lâm sàng, giúp bác sĩ y khoa thực tế lĩnh vực chuyên môn họ Sử dụng thuật toán học máy học sâu, dựa liệu cung cấp chuyên gia y tế thông tin đầu vào bệnh nhân, máy tính học phán đốn phản hồi điển hình bất thường 1.2 Kiến trúc hệ thống IoMT Được phát triển kiến trúc IoT nên kiến trúc IoMT chủ yếu bao gồm lớp thể Hình 1.4 sau:  Lớp ứng dụng  Lớp mạng  Lớp cảm nhận 1.3 Tổng quan học máy 1.3.1 Giới thiệu chung trí tuệ nhân tạo Trí tuệ nhân tạo AI có nghĩa làm cho máy móc có khả thực nhiệm vụ nhanh chóng người Nói cách đơn giản, AI khả máy móc thực nhiệm vụ thường địi hỏi trí thơng minh người AI có hai thành phần chính:  Tự động hóa;  Sự thơng minh 5 1.3.2 Tổng quan học máy Học máy phương pháp sử dụng rộng rãi Trí tuệ nhân tạo thể Hình 1.5 Học máy liên quan đến khả máy tính học hỏi từ liệu cách tự động cải thiện hiệu suất tác vụ cụ thể Nó cho phép máy tính học từ kinh nghiệm mà khơng cần lập trình cụ thể cho tác vụ, phương pháp thay cho việc lập trình truyền thống Các phương pháp học tập phân loại thành học tập có giám sát, không giám sát, bán giám sát tăng cường, học sâu 1.4 Ứng dụng học máy dựa liệu gene IoMT Hình 1: Ứng dụng học máy để phân tích liệu gene hệ thống IoMT Có thể kể tới số ứng dụng học máy dựa liệu gene hệ thống IoMT như: Phát bệnh di truyền, dự đốn phản ứng thuốc, tính tốn liều lượng thuốc, dự đoán nguy mắc bệnh, dự đoán kết điều trị, phát triển thuốc mới, nghiên cứu y học Ứng dụng học máy để phát bệnh dựa liệu gene hệ thống IoMT thể Hình 1.5 Kết luận chương Chương trình bày tổng quan IoT, IoMT nêu rõ vai trò AI IoMT Nội dung chương giới thiệu số ứng dụng học máy hỗ trợ dự đoán bệnh dựa liệu gene Việc sử dụng học máy IoMT cung cấp nhiều lợi ích cho ngành y tế, giúp cải thiện chẩn đoán điều trị bệnh, đồng thời làm giảm chi phí thời gian xét nghiệm Tuy nhiên, để đảm bảo tính xác kết chẩn đốn bệnh, cần phải có đánh giá kiểm tra chất lượng liệu, chọn lọc đặc trưng quan trọng chọn phương pháp học máy phù hợp 7 CHƯƠNG 2: ỨNG DỤNG THUẬT TOÁN HỌC MÁY CHẨN ĐOÁN NHIỄM TRÙNG MÁU DỰA TRÊN DỮ LIỆU BIỂU HIỆN GENE 2.1 Giới thiệu chung Việc áp dụng AI vào để hỗ trợ chuẩn đoán phát bệnh dựa tập liệu gene chủ đề thu hút nhiều quan tâm, nghiên cứu giới Các giải pháp học máy thơng minh hỗ trợ chẩn đốn bệnh dựa liệu gene có độ xác cao mở thêm phương pháp tin cậy việc chuẩn đoán tiên lượng cho số loại bệnh liên quan đến gene người 2.1.1 Bệnh nhiễm trùng máu Nhiễm trùng máu bệnh trạng nghiêm trọng, phản ứng mức thể với vi khuẩn chất độc tố chúng máu Khi nhiễm khuẩn xảy ra, hệ miễn dịch thể phản ứng cách phóng thích hạt tự vệ chất trung gian viêm, để giúp đẩy lùi nhiễm khuẩn Tuy nhiên, phản ứng không kiểm sốt, gây tổn thương khắp thể, dẫn đến hội chứng suy tuyến thượng thận, giảm huyết áp Nhiễm trùng máu nguyên nhân hàng đầu gây tử vong bệnh nhân nằm viện thách thức lớn y tế cơng cộng 2.1.2 Phương pháp chẩn đốn bệnh nhiễm trùng máu Trước đây, phương pháp phổ biến để chẩn đốn nhiễm trùng máu ni cấy vi sinh xác định phân loại mầm bệnh Tuy nhiên, có nhiều nhược điểm áp dụng phương pháp (1) nhiều thời gian để thu kết khả quan; (2) nhiễm khuẩn máu thời gian ngắn dẫn đến cấy máu dương tính mà khơng có phản ứng viêm nghiêm trọng; (3) tỷ lệ ni cấy dương tính thành cơng giảm bệnh nhân sử dụng kháng sinh Do đó, độ xác phương pháp thấp khơng chẩn đoán nhiễm trùng máu cách hiệu Vì vậy, việc ứng dụng học máy để chẩn đốn bệnh nhiễm trùng máu dựa liệu gene bước đột phá lĩnh vực chăm sóc sức khỏe y tế Đây ứng dụng quan trọng hệ thống IoMT, cho phép bác sĩ nhân viên y tế chẩn đốn nhiễm trùng máu cách xác nhanh chóng Việc chẩn đoán nhiễm trùng máu quan trọng việc điều trị bệnh nhân bị nhiễm trùng, đặc biệt trường hợp nhiễm trùng máu nặng Việc phát chẩn đốn nhanh chóng giúp cứu sống bệnh nhân ngăn ngừa biến chứng gây nguy hiểm đến tính mạng 8 Gần đây, phương pháp lai phân tích biểu gene khác biệt học máy [11] trở thành phương pháp hiệu việc xác định dấu ấn sinh học Việc ứng dụng học máy vào q trình chẩn đốn giúp tăng tốc độ xử lý liệu giảm thiểu sai sót q trình chẩn đốn Bên cạnh đó, việc xử lý liệu gene lựa chọn gene đóng vai trị quan trọng q trình chẩn đốn bệnh Trong chương trình bày phương pháp xử lý liệu gene đề xuất mơ hình học máy cho việc chẩn đoán bệnh nhiễm trùng máu dựa tập liệu gene tiềm 2.2 Quy trình học máy hỗ trợ chẩn đoán bệnh dựa liệu gene Quy trình học máy hỗ trợ chẩn đốn bệnh dựa liệu gene hệ thống IoMT gồm giai đoạn chính: (1) Phân tích, xử lý liệu, chẩn đoán bệnh dựa liệu gene; (2)Truyền liệu lưu trữ liệu (3) Truy cập liệu Trong khn khổ đề án này, đề án tập trung vào giai đoạn học máy đề xuất mơ hình chẩn đốn bệnh, giai đoạn bao gồm bước sau:  Thu thập liệu gene  Tiền xử lý liệu gene  Lựa chọn gene  Lựa chọn mơ hình học máy  Đào tạo đánh giá mơ hình 2.3 Dữ liệu biểu gene phương pháp tiền xử lý 2.3.1 Dữ liệu biểu gene Dữ liệu biểu gene thông tin mức độ hoạt động gene mẫu sinh học cụ thể Đây liệu thu từ phép đo thử nghiệm để xác định mức độ biểu gene thông qua đo lường mức độ mRNA protein tương ứng Dữ liệu biểu gene cung cấp thông tin hoạt động gene điều kiện hay thời điểm định 11 liệu biểu gene công khai cung cấp sở liệu Gene Expression Omnibus (GEO) với mẫu nhiễm trùng máu, bao gồm ba liệu dành cho người lớn tám liệu dành cho trẻ em thể Bảng Có tổng cộng 1384 mẫu bao gồm 1144 mẫu bệnh nhân bị nhiễm trùng máu 240 mẫu bình thường thu thập trình bày thơng qua ba tảng microarray bao gồm:  Affymetrix Human Genome U133 Plus 2.0 (AffyU133P2) bao gồm 23521 loại gene  Affymetrix Human Genome U219 (AffyU219) bao gồm 19040 loại gene  Agilent Human Gene Expression 4x44K v2 (AgilentV2) bao gồm 17028 loại gene Tất mẫu xử lý trước chuẩn hóa lại thuật tốn RMA Giá trị trung bình đầu dị gene phổ biến đặt làm mức biểu gene sau ánh xạ đầu dò với gene lấy từ tệp SOFT gần GEO 11 liệu gene chia thành nhóm liệu sau:  Nhóm liệu xây dựng thuật toán bao gồm liệu (GSE57065, GSE95233, GSE26378, GSE8121, GSE26440, GSE9692, GSE4607) từ AffyU133P2  Nhóm liệu kiểm định bao gồm liệu lại, có liệu tảng khác: GSE65682 tảng AffyU219 E-MTAB-1548 tảng AgilentV2 Nhóm liệu dùng để giá khả hoạt động hiệu suất thuật toán liệu biểu gene tảng khác mà khơng sử dụng q trình phát triển mơ hình ban đầu Nhóm liệu xây dựng thuật toán chia thành liệu đào tạo thử nghiệm 80% 20% Quy trình xác thực chéo áp dụng tập huấn luyện để huấn luyện điều chỉnh siêu tham số cho mô hình chẩn đốn Bảng 1: Tập liệu biểu gene Tập liệu GSE57065 GSE26378 GSE95233 GSE8121 GSE26440 GSE9692 GSE4607 GSE28750 GSE13904 GSE65682 E-MTAB-1548 Số lượng gene Khỏe Độ tuổi mạnh Nhóm xây dựng thuật tốn 23521 82 25 Người lớn 23521 82 21 Trẻ em 23521 102 22 Người lớn 23521 60 15 Trẻ em 23521 98 32 Trẻ em 23521 30 15 Trẻ em 23521 69 15 Trẻ em Nhóm liệu kiểm định 23521 10 20 Người lớn 23521 52 18 Trẻ em 19040 479 42 Người lớn 17028 80 15 Người lớn Bị bệnh Nền tảng Affy U133 Plus 2.0 Affy U219 AgilentV2 2.3.2 Phương pháp tiền xử lý liệu Trong nghiên cứu này, quy trình xử lý gene thực để trích 10 xuất gene có nhiều thơng tin Quy trình gồm bước sau:  Bước 1: Chọn loại gene liên quan đến miễn dịch  Bước 2: Tính tốn mức độ biểu gene  Bước 3: Phân tích biểu gene khác biệt a) Gene liên quan đến miễn dịch Các gene liên quan đến miễn dịch IRG nhóm gene đóng vai trị quan trọng phản ứng hệ thống miễn dịch nhiễm trùng, viêm trình liên quan đến miễn dịch khác, sử dụng để chẩn đoán tiên lượng loại ung thư, thể độ nhạy độ đặc hiệu cao Các nghiên cứu gần việc sử dụng IRG để chẩn đoán nhiễm trùng máu cải thiện đáng kể độ xác phương pháp chẩn đốn [9, 16] Hình 1: Thống kê gene liên quan đến miễn dịch tất ba tảng b) Tính tốn mức độ biểu gene Tính tốn mức độ biểu gene trình đo lường mức độ hoạt động gene mẫu sinh học cụ thể Mức độ biểu gene thường đo cách đo lường mức độ sản xuất mRNA tương ứng protein từ gene Kết tính tốn mức độ biểu gene cung cấp thông tin hoạt động hiệu suất gene điều kiện nghiên cứu sử dụng để phân tích trình sinh học, phân loại mẫu, xác định biểu gene khác điều kiện nghiên cứu tương tác gene c) Phân tích biểu gene khác biệt 11 Phân tích biểu gene khác biệt phương pháp tính tốn thường sử dụng để xác định gene có biểu khác biệt đáng kể hai kiểu hình Đưa hồ sơ biểu gene cho bệnh nhân nhiễm trùng máu thích với kết nhắm mục tiêu (ví dụ: sống sót so với khơng sống sót), phân tích thường liên kết giá trị p mức độ thay đổi Mức độ thay đổi tính tốn sử dụng yếu tố quan trọng để phân biệt người sống sót khơng sống sót Cụ thể, mẫu khơng sống sót thể mức độ biểu gene điều chỉnh tăng cao so với mẫu cịn sống Để thực phân tích biểu gene khác biệt nghiên cứu này, đề án sử dụng ngôn ngữ R làm công cụ mô sử dụng thư viện “limma” R với phương pháp hiệu chỉnh Benjamin-Hochberg để xác định gene biểu khác Ngoài ra, đề án áp dụng p-value giá trị mức độ thay đổi thay đổi nêu [15] để chọn loại gene đại diện cho bệnh nhân bị nhiễm trùng máu khỏe mạnh 2.4 Đề xuất giải pháp học máy hỗ trợ chẩn đoán nhiễm trùng máu dựa biểu gene khác biệt 2.4.1 Thuật tốn học máy thơng minh Trong đề án để đề xuất thuật toán hiệu để chẩn đốn bệnh nhiễm trùng máu, đề án tập trung khảo sát đánh giá hiệu chuẩn đốn mơ hình thuật tốn Bagging (BG), KNN BS để lựa chọn thuật toán hiệu a) Thuật toán Bagging Bằng cách sử dụng phương pháp thay từ sở liệu ban đầu, phương pháp BG tạo số lần lặp lại liệu huấn luyện Cây định, tên gọi khác phân loại thành phần, huấn luyện lặp lặp lại cách sử dụng tập liệu huấn luyện khác Phiếu bầu phân loại thành phần khác xác định phân loại cuối Cách tiếp cận sử dụng số lượng định làm sở để thực kỹ thuật bootstrap b) Thuật toán Boosting Boosting (BS) phương pháp để hợp thành phần phân loại khác nhau, hoạt động tốt tích hợp toàn so với sử dụng Quá trình đào tạo phân loại yếu sử dụng để triển khai, phân loại yếu 12 đào tạo liệu có trọng số cách sử dụng hiệu suất phân loại yếu trước Việc phân loại cuối định đa số phiếu có trọng số phân loại c) Thuật toán KNN KNN thuật toán dựa kỹ thuật học có giám sát Thuật tốn KNN giả định giống trường hợp/dữ liệu trường hợp có sẵn đặt trường hợp vào danh mục giống với danh mục có sẵn KNN lưu trữ tất liệu có sẵn phân loại điểm liệu dựa tương đồng Điều có nghĩa liệu xuất dễ dàng phân loại thành danh mục tốt cách sử dụng thuật toán KNN KNN thuật toán phi tham số, có nghĩa khơng đưa giả định liệu Nó cịn gọi thuật tốn học lười khơng học từ tập huấn luyện thay vào lưu trữ tập liệu thời điểm phân loại, thực hành động tập liệu KNN giai đoạn đào tạo lưu trữ tập liệu nhận liệu mới, phân loại liệu thành danh mục gần giống với liệu 2.4.2 Sử dụng thuật tốn học máy để tính tầm quan trọng đặc trưng gene Trong đề án này, việc tính tốn tầm quan trọng đặc trưng gene (FI) dựa thuật toán Gradient boosting hoạt động cách xây dựng tập hợp định, đào tạo tập hợp liệu Trong trình đào tạo, thuật tốn trọng nhiều vào mẫu khó phân loại, giúp cải thiện độ xác mơ hình Khi mơ hình đào tạo, tầm quan trọng gene tính tốn dựa đóng góp gene vào độ xác dự đốn mơ hình Điều thường thực cách kiểm tra số lần gene sử dụng định tạo nên tập hợp tính trọng số dựa hiệu suất liên kết Sau đó, tầm quan trọng đặc trưng gene thu được sử dụng để xác định gene quan trọng tập liệu, điều hữu ích cho nhiệm vụ lựa chọn gene Quy trình xác thực chéo kỹ thuật phổ biến học máy thường sử dụng để đánh giá chọn mơ hình Quy trình thực cách chia liệu thành hai phần: tập liệu đào tạo tập liệu xác thực Tập liệu đào tạo sử 13 dụng để huấn luyện mơ hình, tập liệu xác thực sử dụng để đánh giá hiệu suất mơ hình liệu Quy trình xác thực chéo thể Hình Tập liệu phân chia thành tập Một phần liệu sử dụng để đánh giá hiệu suất mơ hình phần cịn lại sử dụng để huấn luyện mơ hình Sau đó, q trình lặp lại nhiều lần với phần khác sử dụng để đánh giá huấn luyện mơ hình Kết quy trình xác thực chéo trung bình kết lần đánh giá phần liệu khác Đây cách để đánh giá hiệu suất mơ hình tránh việc bị overfitting (quá khớp) liệu huấn luyện Hình 2: Quy trình xác thực chéo lần 2.5 Kết luận chương Trong chương trình bày quy trình học máy để chuẩn đốn bệnh dựa liệu gene ứng dụng tảng IoMT Từ đề, đề đề xuất mơ hình học máy để phân tích liệu gene để phát bệnh nhiễm trùng máu mang lại hiệu xác cao, tin cậy để tích hợp tảng IoMT Bên cạnh việc thu thập xử lý liệu gene vơ quan trọng, chương trình bày phương pháp xử lý liệu gene đề xuất mơ hình học máy cho chẩn đốn bệnh nhiễm trùng máu 14 CHƯƠNG 3: THỬ NGHIỆM, ĐÁNH GIÁ MƠ HÌNH HỌC MÁY CHẨN ĐỐN BỆNH NHIỄM TRÙNG MÁU 3.1 Giới thiệu chung Học máy nhánh quan trọng trí tuệ nhân tạo Bằng cách tự động học mẫu liệu bên cách trích xuất tính năng, máy học liên tục cải thiện hiệu suất Thay chế độ chẩn đoán điều trị truyền thống, học máy cung cấp nhìn sâu sắc hồn tồn để cải thiện hiệu chẩn đoán đánh giá khách quan cá nhân hóa cho bệnh nhân Dựa ưu điểm học máy phân tích biểu gene khác biệt trình bày Chương 2, chương đề xuất thuật toán đơn giản hiệu để chẩn đoán bệnh nhiễm trùng máu có tỉ lệ xác cao để ứng dụng hệ thống IoMT Lựa chọn gene phương pháp quan trọng để giảm kích thước liệu cải thiện hiệu dự đoán Nhiều nghiên cứu trước sử dụng phương pháp chọn lọc gene cách kết hợp phân tích biểu gene khác biệt với lựa chọn đăng trưng phương pháp học máy để xác định mã gene tiềm mang lại hiệu cao Phương pháp áp dụng đề án Trong chương đề án thực mơ phỏng, tính tốn tham số để đánh giá hiệu mơ hình để xuất theo giai đoạn:  Tiền xử lý liệu biểu gene  Lựa chọn gene  Thử nghiệm mơ hình Bên cạnh đó, đề án so sánh kết mô giải pháp đề xuất với cơng trình nghiên cứu cơng bố Mục đích chương đề án tạo mơ hình thuật tốn đơn giản, tin cậy hiệu xác cao để xuất tổ hợp gene tối ưu để ứng dụng tảng IoMT 3.2 Mô hệ thống chẩn đoán sử dụng thuật toán học máy đề xuất 3.2.1 Công cụ thực mô a) Phần mềm Rstudio 15 b) Phần mềm Python 3.2.2 Phương pháp tham số đánh giá Hình 1: Phương pháp Phương pháp đề xuất đề án bao gồm giai đoạn thể hình 3:  Đầu tiên trình tiền xử lý gene trình bày Chương  Giai đoạn thứ hai chọn lọc gene: nhằm mục đích chọn tổ hợp gene tối ưu Giai đoạn lựa chọn gene gồm bước: Bước Xếp hạng gene cách sử dụng thuật tốn BS để tính tầm quan trọng gene xếp chúng theo thứ tự giảm dần, sau tạo tổ hợp gene; Bước Sử dụng mơ hình học máy để xác thực tổ hợp gene 16  Giai đoạn cuối mơ hình thử nghiệm: bước tổ hợp gene chọn thuật toán học máy chọn để ước tính hiệu mơ hình chẩn đốn liệu kiểm tra tập liệu kiểm định a) Xếp hạng gene b) Xác thực tổ hợp gene c) Thử nghiệm mơ hình d) Tham số đánh giá hiệu suất Để đánh giá hiệu mô hình đề xuất, đề án thực mơ tính tốn tham số sau: khu vực đường cong (AUC) tính diện tích nằm đường cong ROC (Receiver Operating Characteristic), có phạm vi từ đến Mơ hình có AUC cao phân biệt tốt Ngồi ra, Độ xác (Acc), Độ nhạy (Sn) Độ đặc hiệu (Sp) coi thông số đo lường để ước lượng chẩn đốn mơ hình học máy Tỷ lệ bệnh nhân nhiễm trùng máu xác định xác đo Acc Các giá trị Sn Sp đếm số ca liên quan đến nhiễm trùng máu người bình thường xác định xác Hình 2: Ma trận nhầm lẫn Dự đốn Thực tế Người bị nhiễm trùng máu Người khỏe mạnh Người bị nhiễm trùng máu Người khỏe mạnh TP FN FP TN 3.3 Thử nghiệm đánh giá hiệu mơ hình đề xuất 3.3.1 Lựa chọn gene a) Xếp hạng gene Sau q trình phân tích biểu gene khác biệt 175 gene lựa chọn từ 608 gene IRG 175 gene xác định cách sử dụng phân tích giá trị FC ≥ 1,5 p-value điều chỉnh ≤ 0,05 Các giá trị FC tương ứng với mã gene thể Phục lục Bảng A.1 17 Bằng cách áp dụng thuật tốn BS, giá trị mức độ quan trọng 175 gene tính tốn xếp hạng từ cao đến thấp nhất, có 56 gene có giá trị quan trọng nên bị loại bỏ Do đó, đề án xem xét tập hợp gồm 119 gene tương ứng với 119 tổ hợp gene bước xác thực tổ hợp gene tiếp b) Xác thực tổ hợp gene Trong bước này, quy trình xác thực chéo lần triển khai cho thuật toán học máy bao gồm BG, KNN BS sử dụng 119 tổ hợp gene (mỗi thuật toán học máy đánh giá với 119 tổ hợp gen) Kết hiệu suất xác thực mơ hình học máy riêng lẻ hiển thị Bảng 3.2 KNN với tổ hợp gồm 24 gene, BG với tổ hợp gồm 15 gene BS với tổ hợp gồm gene đạt hiệu cao Đây tổ hợp gene tối ưu chọn tương ứng với mơ hình thuật tốn Từ kết mơ hình học máy, thuật tốn dựa tham số Acc, AUC tổ hợp gene tương ứng cho mơ hình chẩn đốn lựa chọn đề xuất Trong mơ hình học máy, thuật tốn phân loại BG có hiệu tốt so với mơ hình cịn lại dựa tham số đánh giá Acc, AUC Sp Bảng 1: Hiệu xác thực mơ hình học máy tập liệu đào tạo Mơ hình học máy KNN Số lượng gene 24 BG 15 BS Acc(%) Sn(%) Sp(%) AUC(%) 98.12±0.5 98.12±0.5 97.93±1.6 99.04±0.4 98.02±1.2 99.04 ± 0.4 94.7±6.9 97.53±2.7 99.61±0.2 97.74±2.6 98.29±2.0 93.91±6.5 3.3.2 Mơ mơ hình chẩn đốn bệnh Các mơ hình học máy bao gồm BS, BG KNN đào tạo tập huấn luyện để chọn tham số tối ưu tổ hợp gene tối ưu Tiếp theo để đánh giá hiệu mơ hình, để án thực ước tính hiệu chẩn đoán tập thử nghiệm Bảng 3.3 3.4 cho thấy kết thử nghiệm ma trận nhầm lẫn mơ 18 hình học máy với tổ hợp gene lựa chọn (KNN với tổ hợp 24 gene, BG với tổ hợp 15 gene, BS với tổ hợp gene) Từ Bảng 3.3 3.4 cho thấy hiệu mơ hình BG đề xuất vượt trội so với mơ hình KNN BS Từ kết bảng 3.2, 3.3 3.4 cho thấy hiệu chẩn đốn mơ hình BG quy trình xác thực thử nghiệm cao so với mô hình học máy cịn lại Do đó, đề án đề xuất thuật tốn bao gồm mơ hình BG tổ hợp 15 gene bao gồm: IL1R2, TLR5, KLRF1, LRRN3, HLA-DMA, G6PD, CCRL2, CD3E, CEACAM8, LCN2, MERTK, TXK, CLEC5A, TANK, CCR6, phương pháp tốt đáng tin cậy để chẩn đoán bệnh nhiễm trùng máu ứng dụng tảng IoMT Bảng 2: Hiệu chẩn đoán cho mơ hình học máy tập liệu kiểm tra Mơ hình học máy Acc Sn Sp AUC BG BS KNN (%) 96.26 90.29 95.52 (%) 98.09 95.23 98.09 (%) 89.65 72.41 86.2 (%) 99.54 94.67 99.47 Bảng 3: Ma trận nhầm lẫn của thuật toán BG tập liệu kiểm tra Dự đoán Thực tế Bị nhiễm trùng máu Khỏe mạnh Bị nhiễm trùng máu 103/100/10 3/8/2 Khỏe mạnh 2/5/4 26/21/25 3.3.3 So sánh với thuật tốn cơng trình nghiên cứu khác Để đánh giá hiệu tin cậy mơ hình dự đốn, đề án đánh giá mơ hình chẩn đốn đề xuất nhóm liệu kiểm định Kết minh họa bảng 3.5, cho thấy mơ hình BG với tổ hợp 15 gene đề xuất thử nghiệm gene GSE28750, GSE13904, GSE65682 E-MTAB-1548 có AUC chẩn đoán đáng tin cậy tỉ lệ bị mắc bệnh nhiễm trùng máu với AUC ước tính > 95% , đặc biệt gene GSE28750 có độ xác 100% 19 Để đánh giá xác hiệu mơ hình đề xuất, đề án thực so sánh với thuật toán khác tập liệu cơng trình nghiên cứu khác công bố khác gồm tổ hợp gene bao gồm:  sNIP: NLRP1, IDNK, PLAC8 sử dụng thuật toán RF [17]  SeptiCyteLab: CEACAM4, LAMP1, PLA2G7, PLAC8 sử dụng thuật toán SVM [18] Bảng 4: Thử nghiệm mơ hình BG đề xuất tập liệu kiểm định Tập liệu TP TN FP GSE28750 GSE13904 GSE65682 E-MTAB-1548 10 48 479 78 20 14 20 15 22 F N Acc Sn Sp (%) 100.00 88.57 95.78 97.90 (%) 100.00 92.30 100.00 97.50 (%) 100.00 77.78 47.61 100.00 AUC (%) 100.00 95.09 99.83 100.00 Bảng 5: So sánh hiệu dựa tham số AUC mơ hình đề xuất đề án với cơng trình nghiên cứu khác Tập liệu sNIP GSE28750 GSE13904 GSE65682 96.5 77.46 99.48 SeptiCyteLa b 81.5 42.84 52.39 Đề án 100 95.09 99.83 Bảng 3.6 thể so sánh giá trị AUC đề xuất đề án bao gồm thuật toán BG 15 gene: IL1R2, TLR5, KLRF1, LRRN3, HLA-DMA, G6PD, CCRL2, CD3E, CEACAM8, LCN2, MERTK, TXK, CLEC5A, TANK, CCR6 với nghiên cứu khác nghiên cứu [17] [18] Rõ ràng, hiệu mơ hình đề xuất đề án vượt trội mơ hình khác 3.4 Kết luận chương Trong chương này, đề án mô phỏng, thử nghiệm đánh giá mơ hình thuật tốn đề xuất để chẩn đoán nhiễm trùng máu Do bệnh nhân nhiễm trùng máu có hệ thống miễn dịch bị rối loạn nghiêm trọng nên 608 gene IRG 11 liệu gene coi gene tiềm năm để phân tích biểu gene khác biệt Phương pháp phân tích biểu gene khác biệt thuật

Ngày đăng: 24/08/2023, 10:19

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w