Giải pháp học máy chẩn đoán nhiễm trùng máu dựa trên dữ liệu gene trong bệnh viện thông minh

MỤC LỤC

LỜI MỞ ĐẦU

HIỆN GENE

Giới thiệu chung

Bên cạnh đó, đã có những nỗ lực để phân tầng nguy cơ nhiễm trùng máu, đặc biệt là ở trẻ em, đây vẫn là một thách thức do sự khác biệt đáng kể giữa các bệnh nhân và các định nghĩa không đầy đủ về nhiễm trùng máu ở trẻ em hiện đang tồn tại. Những nỗ lực nghiên cứu liên tục là cần thiết để xác định các mục tiêu cụ thể và nhanh nhạy hơn trong chẩn đoán và điều trị nhiễm trùng máu, đặc biệt là nhiễm trùng máu ở trẻ em và sốc nhiễm trùng, vì sự phức tạp của tình trạng này đòi hỏi một cách tiếp cận toàn diện để đảm bảo quản lý và phòng ngừa hiệu quả. Tuy nhiên, việc chẩn đoán nhiễm trùng máu thông thường đòi hỏi nhiều thời gian và công sức của các bác sĩ và nhân viên y tế, bao gồm việc thu thập và xử lý dữ liệu, phân tích kết quả xét nghiệm và đưa ra kết luận.

Tuy nhiên, có nhiều nhược điểm khi áp dụng phương pháp này như (1) mất nhiều thời gian để thu được kết quả khả quan; (2) nhiễm khuẩn máu trong thời gian ngắn có thể dẫn đến cấy máu dương tính mà không có phản ứng viêm nghiêm trọng; (3) tỷ lệ nuôi cấy dương tính thành công giảm ở những bệnh nhân đã sử dụng kháng sinh. Trong [12] tác giả sử dụng phương pháp lựa chọn đặc trưng học máy phổ biến như LASSO, loại bỏ đặc trưng RFE, mức độ liên quan tối đa và mức dự phòng tối thiểu MRMR và tầm quan trọng của đặc trưng rừng ngẫu nhiên RF để xác định một tập hợp con dấu hiệu gene để dự đoán mức độ nghiêm trọng và tỷ lệ tử vong của nhiễm trùng máu.

Quy trình học máy hỗ trợ chẩn đoán bệnh dựa trên dữ liệu gene

Trong chương này sẽ trình bày về phương pháp xử lý dữ liệu gene và đề xuất mô hình học máy cho việc chẩn đoán bệnh nhiễm trùng máu dựa trên dữ liệu biểu hiện gene. Dữ liệu gene có thể được thu thập từ các nguồn khác nhau, bao gồm các cơ sở dữ liệu gene công khai hoặc thông qua các công ty về gene cung cấp dịch vụ xét nghiệm gene được lưu trữ trên nền tảng cloud.  Tiền xử lý dữ liệu gene: Dữ liệu gene thu thập được thường là dữ liệu rời rạc và có kích thước lớn, nên cần tiền xử lý để tạo ra tập dữ liệu phù hợp cho mô hình học máy.

Bước này bao gồm loại bỏ các gene không có ý nghĩa, loại bỏ các giá trị ngoại lệ, chuẩn hoá dữ liệu và chuyển đổi định dạng dữ liệu. Sau khi mô hình được đào tạo, nó cần được đánh giá bằng cách sử dụng các phương pháp đánh giá hiệu suất như xác thực chéo, phân tích độ nhạy cảm và độ đặc hiệu.

Đề xuất giải pháp học máy hỗ trợ chẩn đoán nhiễm trùng máu dựa trên những biểu hiện gene khác biệt

 Bước 3: Sau đó, dự đoán tập hợp BG được xác định là lớp có nhiều phiếu bầu nhất trong Bước 2 (đối với mô hình phân loại) hoặc trung bình của các dự đoán được thực hiện trong Bước 2 (đối với mô hình ước tính). Nó còn được gọi là thuật toán học lười vì nó không học từ tập huấn luyện ngay lập tức thay vào đó nó lưu trữ tập dữ liệu và tại thời điểm phân loại, nó thực hiện một hành động trên tập dữ liệu.  Bước 5: Đánh giá kết quả: sau khi đưa ra dự đoán, thuật toán KNN được đánh giá bằng cách so sánh kết quả dự đoán với nhãn thực tế của điểm dữ liệu để đánh giá độ chính xác và hiệu suất của thuật toán.

Sử dụng thuật toán học máy để tính tầm quan trọng đặc trưng gene Trong đề án này, việc tính toán tầm quan trọng đặc trưng gene (FI) sẽ dựa trên thuật toán Gradient boosting hoạt động bằng cách xây dựng một tập hợp các cây quyết định, trong đó mỗi cây được đào tạo trên một tập hợp con của dữ liệu. Sau đó, tầm quan trọng của đặc trưng gene thu được có thể được sử dụng để xác định các gene quan trọng nhất trong tập dữ liệu, điều này có thể hữu ích cho các nhiệm vụ như lựa chọn gene.

Hình 2. 4: Thuật toán Bagging Thuật toán BG:
Hình 2. 4: Thuật toán Bagging Thuật toán BG:

THỬ NGHIỆM, ĐÁNH GIÁ MÔ HÌNH HỌC MÁY CHẨN ĐOÁN BỆNH NHIỄM TRÙNG MÁU

    R cung cấp các công cụ và thư viện cho việc tiền xử lý dữ liệu, xử lý dữ liệu thiếu, chuẩn hóa dữ liệu, phân tích đa biến, phân tích chuỗi thời gian, phân tích nhân tố, khám phá cấu trúc dữ liệu và tìm kiếm mẫu trong dữ liệu.  Phân tích thống kê: R là một công cụ mạnh mẽ cho phân tích thống kê, cung cấp các phương pháp và thủ tục cho việc thực hiện các phân tích như kiểm định giả thuyết, phân tích biến thể, hồi quy, phân tích phân loại, phân tích chuỗi thời gian và nhiều phương pháp khác. Python có một số thư viện mạnh mẽ như NumPy, Pandas, Matplotlib, Scikit-learn và TensorFlow, làm cho Python trở thành một lựa chọn phổ biến cho nhiều ứng dụng như xử lý dữ liệu, học máy, khoa học dữ liệu và phân tích dữ liệu.

    Mô hình BS được áp dụng để tính tầm quan trọng của đặc trưng gene (FI) được trình bày ở Chương 2, sau đó xếp hạng các gene này theo thứ tự từ cao đến thấp. Các tổ hợp gene được tạo ra bằng cách sắp xếp gene có giá trị tầm quan trọng đặc trưng cao nhất thành tổ hợp thứ 1, tổ hợp thứ 2 sẽ bao gồm gene có giá trị tầm quan trọng cao nhất kết hợp với gene có giá trị tầm quan trọng cao thứ 2, tương tự như thế ta sẽ có đến tổ hợp thứ n. Lưu đồ thuật toán việc xây dựng tổ hợp gene được thể hiện trên Hình 3.2. 2: Lưu đồ thuật toán xây dựng tổ hợp gene. b) Xác thực tổ hợp gene. Trong bước này, quy trình xác thực chéo 5 lần và thuật toán học máy được xem xét để xây dựng và ước tính hiệu quả của mô hình chẩn đoán học máy bằng. cách sử dụng các tổ hợp gene khác nhau. Do giới hạn của tập dữ liệu gene, đề án chỉ sử dụng tập đào tạo để huấn luyện mô hình và điều chỉnh siêu tham số. Toàn bộ tập dữ liệu đào tạo được chia ngẫu nhiên thành 5 phần, trong đó 4 phần được sử dụng cho các mô hình huấn luyện và một phần còn lại là tập xác thực. Mô hình tốt nhất được thu thập sau khi điều chỉnh siêu tham số sau đó được ước tính thông qua quy trình xác thực chéo. Hiệu suất chẩn đoán trung bình của mô hình học máy sau đó được tính toán để so sánh và phân tích. Việc lựa chọn các tổ hợp gene tối ưu tương ứng với hiệu quả của thuật toán học máy dựa trên hiệu suất chẩn đoán cao nhất. Bên cạnh đó, số lượng gene cũng được coi là một trong những yếu tố để chọn ra sự kết hợp tốt nhất. c) Thử nghiệm mô hình. Các mô hình học máy khác nhau sau đó được đào tạo và kiểm tra hiệu suất chẩn đoán của chúng trên tập huấn luyện và thử nghiệm bằng cách sử dụng các tổ hợp gene tối ưu của chúng. Tổ hợp gene cuối cùng và mô hình học máy liên quan mang lại hiệu suất chẩn đoán tốt nhất trên bộ thử nghiệm sẽ được lựa chọn cho giải pháp đề xuất trong đề án. d) Tham số đánh giá hiệu suất. Để đánh giá hiệu quả của mô hình đề xuất, đề án thực hiện mô phỏng và tính toán các tham số sau: khu vực dưới đường cong (AUC) được tính bằng diện tích nằm dưới đường cong ROC (Receiver Operating Characteristic), có phạm vi từ 0 đến 1.

    Hình 3. 1: Phương pháp
    Hình 3. 1: Phương pháp

    ICOS 0.00014 CCR1 0.00003

      Từ kết quả của 3 mô hình học máy, thuật toán dựa trên các tham số Acc, AUC thì tổ hợp gene tương ứng cho mô hình chẩn đoán được lựa chọn đề xuất. Để đánh giá được sự hiệu quả và sự tin cậy của mô hình dự đoán, đề án sẽ đánh giá mô hình chẩn đoán được đề xuất trong nhóm dữ liệu kiểm định. Do bệnh nhân nhiễm trùng máu có hệ thống miễn dịch bị rối loạn nghiêm trọng nên 608 gene IRG trong 11 bộ dữ liệu gene được coi là gene tiềm năm để phân tích biểu hiện gene khác biệt.

      Bằng cách sử dụng 3 mô hình học máy (BG, KNN, BS) kết hợp với quy trình xác thực chéo để tìm ra 3 tổ hợp gene hiệu quả và tối ưu nhất cho chẩn đoán bệnh nhiễm trùng máu. Các kết quả đã xác định rằng tổ hợp 15 gene và mô hình phân loại BG có hiệu quả chẩn đoán chính xác cao và đáng tin cậy có thể làm cơ sở cho các nghiên cứu sinh học và xét nghiệm chẩn đoán lâm sàng được ứng dụng trong nền tảng IoMT.

      Bảng 3. 4: Ma trận nhầm lẫn của của thuật toán học máy trên tập dữ liệu kiểm tra
      Bảng 3. 4: Ma trận nhầm lẫn của của thuật toán học máy trên tập dữ liệu kiểm tra