TỔNG QUAN VỀ IoMT, HỌC MÁY VÀ ỨNG DỤNG HỌC MÁY
Tổng quan về IoT và IoT trong y tế (IoMT)
1.1.1 Tổng quan về IoT a) Giới thiệu
Internet of Things (IoT) là một khái niệm được đưa ra để miêu tả một mạng lưới các thiết bị được kết nối internet và có thể giao tiếp với nhau mà không cần sự can thiệp của con người Các thiết bị này có thể là các cảm biến, máy móc, thiết bị điện tử, xe hơi, các thiết bị gia đình như tủ lạnh, máy giặt, bếp và thậm chí là các đồ vật như đồ chơi, sách, vật dụng nội thất IoT cho phép thu thập dữ liệu từ các thiết bị này và phân tích chúng để tạo ra thông tin hữu ích cho người sử dụng, cải thiện cuộc sống và làm việc của họ
Hình 1 1: Vai trò của IoT trong các lĩnh vực khác nhau
Các ứng dụng của IoT rất đa dạng và liên quan đến nhiều lĩnh vực khác nhau, bao gồm cả công nghiệp, nông nghiệp, y tế, gia đình, vận tải và năng lượng.
IoT cũng là một phần quan trọng của các khái niệm như Smart City (Thành phố thông minh) và Cách mạng công nghiệp 4.0 Tuy nhiên, IoT cũng đặt ra nhiều thách thức về bảo mật và quản lý dữ liệu, đặc biệt là trong lĩnh vực y tế Việc kết nối các thiết bị y tế vào mạng lưới IoT cần đảm bảo tính bảo mật và quyền riêng tư của người dùng, đồng thời cần phải tuân thủ các quy định về bảo vệ dữ liệu nhạy cảm và tuân thủ quy định pháp luật.
IoT xử lý các thiết bị máy tính, máy móc, đồ vật, con người hoặc động vật được kết nối với nhau khác nhau có ID duy nhất và có khả năng truyền dữ liệu trong mạng mà không cần sự can thiệp của con người Nó bao gồm các hệ thống giám sát và điều khiển cho phép ngôi nhà thông minh, chẳng hạn như các thiết bị điều nhiệt, sưởi ấm, thông gió và điều hòa không khí, bao gồm cả IoT IoT cũng có thể được sử dụng trong các lĩnh vực khác như giao thông vận tải, chăm sóc sức khỏe, tự động hóa công nghiệp và năng lượng ứng phó với các thảm họa tự nhiên và nhân tạo Các ứng dụng IoT khác nhau trong các lĩnh vực khác nhau được minh họa trong Hình 1 1 bao gồm:
Sản xuất: IoT được sử dụng để cải thiện quản lý vận hành, tăng cường hiệu suất và giảm chi phí sản xuất.
Y tế thông minh: IoT được sử dụng để giám sát sức khỏe của bệnh nhân và cung cấp các dịch vụ y tế từ xa Các thiết bị y tế thông minh có thể giúp giảm thiểu chi phí và tăng tính tiện lợi cho bệnh nhân.
Giáo dục: quản lý giám sát các cơ sở vật chất, cung cấp các thiết bị giáo dục thông minh, cho phép học tập từ xa thông qua các thiết bị kết nối Internet. Bên cạnh đó còn giám sát và phân tích dữ liệu học tập của học sinh, giúp giáo viên đưa ra đánh giá chính xác hơn về sự tiến hộ và cải thiện kế hoạch giảng dạy.
Giao thông vận tải: IoT giúp cải thiện an toàn và hiệu quả của giao thông vận tải thông qua các hệ thống giám sát thông minh, giúp giảm thiểu tai nạn giao thông và tăng cường độ chính xác và tốc độ của các phương tiện.
Nông nghiệp: IoT giúp cải thiện năng suất và hiệu quả sử dụng tài nguyên trong nông nghiệp, đồng thời cung cấp thông tin giám sát môi trường để quản lý sản lượng và chất lượng của các sản phẩm nông nghiệp.
Nhà thông minh: IoT giúp kiểm soát các thiết bị gia đình thông minh, giúp tiết kiệm năng lượng, tăng tính tiện dụng và cải thiện đời sống của con người.
Bảo mật: IoT được sử dụng để giám sát và bảo vệ an ninh và thông tin quan trọng, bao gồm giám sát các mạng máy tính và hệ thống giám sát video.
Năng lượng: IoT được sử dụng để giảm thiểu sự lãng phí năng lượng và tối ưu hóa các hệ thống năng lượng.
Quản lý đô thị: IoT cung cấp các giải pháp quản lý đô thị thông minh, giúp cải thiện môi trường sống và giảm thiểu lãng phí tài nguyên. b) Kiến trúc của IoT i Lớp ứng dụng
Lớp ứng dụng là lớp thứ ba trong các hệ thống IoT cung cấp dịch vụ cho người dùng thông qua phần mềm di động và dựa trên web Dựa trên các xu hướng và cách sử dụng gần đây của những thứ thông minh, IoT có rất nhiều ứng dụng trong thế giới công nghệ tiên tiến này Không gian sống, nhà ở, tòa nhà, giao thông, y tế, giáo dục, nông nghiệp, kinh doanh, thương mại, hệ thống phân phối năng lượng, đã trở nên thông minh nhờ sự hỗ trợ của hệ thống IoT và vô số dịch vụ. ii Lớp mạng
Lớp mạng quan trọng hơn trong các hệ thống IoT vì đóng vai trò là phương tiện truyền, chuyển hướng thông tin và dữ liệu bằng các giao thức kết nối khác nhau, bao gồm GSM, LTA, WiFi, 3-5G, IPv6, IEEE 802.15.4, kết nối các thiết bị với các dịch vụ thông minh Trong lớp mạng, có các đám mây và máy chủ cục bộ lưu trữ và xử lý thông tin hoạt động như một phần mềm trung gian giữa mạng và lớp tiếp theo.
Dữ liệu lớn là một yếu tố quan trọng khác trong lớp mạng vì đang thu hút sự chú ý của thị trường kinh tế ngày càng phát triển ngày nay Các đối tượng vật lý từ lớp vật lý đang liên tục tạo ra một lượng thông tin, dữ liệu khổng lồ đang được truyền tải, xử lý và lưu trữ bởi các hệ thống IoT Do thông tin, dữ liệu rất quan trọng đối với các dịch vụ thông minh trong lớp mạng, nên học máy và học sâu ngày nay được sử dụng rộng rãi để phân tích thông tin, dữ liệu được lưu trữ nhằm sử dụng các kỹ thuật phân tích tốt hơn và trích xuất các ứng dụng cho các thiết bị thông minh.
Hình 1 2: Kiến trúc của IoT iii Lớp cảm nhận
Lớp đầu tiên của kiến trúc IoT là lớp cảm nhận bao gồm các lớp vật lý và lớp MAC Lớp vật lý chủ yếu xử lý phần cứng, tức là các cảm biến và thiết bị được sử dụng để truyền và nhận thông tin bằng các giao thức truyền thông khác nhau, ví dụ: RFID, Zigbee, Bluetooth,
Kiến trúc của hệ thống IoMT
Được phát triển trên kiến trúc của IoT nên kiến trúc IoMT [7] chủ yếu bao gồm 3 lớp được thể hiện trong Hình 1 4 như sau:
Hình 1 4: Kiến trúc của IoMT
Lớp cảm nhận, liên quan đến việc thu thập dữ liệu từ nguồn và đưa ra các quan điểm quan trọng từ dữ liệu được thu thập Lớp cảm nhận bao gồm 2 lớp, là lớp truy cập dữ liệu và lớp thu thập dữ liệu Cảm nhận từ dữ liệu được thu thập là nhiệm vụ chính được thực hiện bởi lớp thu thập dữ liệu, lớp này sử dụng các thiết bị nhận biết y tế và thiết bị thu tín hiệu khác nhau Mã đồ họa, nhận dạng tần số vô tuyến RFID, GPRS, có thể được coi là các phương pháp thu thập tín hiệu chính Lớp truy cập dữ liệu kết nối dữ liệu được thu thập từ lớp thu thập dữ liệu với lớp mạng thông qua các kỹ thuật truyền dữ liệu tầm ngắn, chẳng hạn như Bluetooth, Wi-Fi, ZigBee,
Lớp mạng, liên quan đến việc cung cấp các dịch vụ liên quan đến giao diện và nền tảng khác nhau, đồng thời cung cấp các kỹ thuật truyền dữ liệu khác nhau. Lớp này được hình thành từ 2 lớp tiếp theo, cụ thể là lớp dịch vụ và lớp truyền dẫn mạng Lớp truyền dẫn mạng sử dụng mạng truyền thông di động, mạng cảm biến không dây, internet, để truyền dữ liệu nhận được từ lớp nhận thức theo cách chính xác, nhất quán, thời gian thực và không có rào cản Tuy nhiên, lớp dịch vụ thực hiện việc tích hợp nhiều mạng khác nhau, định dạng mô tả thông tin, kho dữ liệu, Để tích hợp như vậy, lớp dịch vụ cung cấp các dịch vụ giao diện mở và nhiều dịch vụ liên quan đến nền tảng khác.
Lớp ứng dụng sử dụng thông tin được thu thập từ lớp mạng để quản lý hồ sơ y tế bằng các ứng dụng khác nhau Lớp này bao gồm 2 lớp là lớp ứng dụng ra quyết định thông tin y tế và lớp ứng dụng thông tin y tế Lớp ứng dụng thông tin y tế chứa các thiết bị chăm sóc sức khỏe khác nhau và các tài liệu khác liên quan đến thông tin để duy trì thông tin bệnh nhân, chẳng hạn như hồ sơ bệnh nhân nội trú, ngoại trú,điều trị y tế, trong khi lớp ứng dụng ra quyết định thông tin y tế liên quan đến việc phân tích các loại khác nhau như bệnh nhân, loại bệnh, thuốc, chẩn đoán, điều trị,
Tổng quan về học máy
1.3.1 Giới thiệu chung về trí tuệ nhân tạo
Trí tuệ nhân tạo AI có nghĩa là làm cho máy móc có khả năng thực hiện các nhiệm vụ nhanh chóng như con người Nói một cách đơn giản, AI là khả năng của máy móc thực hiện các nhiệm vụ thường đòi hỏi trí thông minh của con người AI có hai thành phần chính:
Cùng với sự phát triển mạnh mẽ của cuộc cách mạng công nghiệp 4.0, AI ngày càng được ứng dụng phổ biển và rộng rãi trong mọi lĩnh vực của cuộc sống. Đặc trưng của công nghệ AI là năng lực “tự học” của máy tính, do đó có thể tự phán đoán, phân tích trước các dữ liệu mới mà không cần sự hỗ trợ của con người, đồng thời có khả năng xử lý dữ liệu với số lượng rất lớn và tốc độ cao AI là chủ đề được quan tâm trong hầu hết các lĩnh vực nhờ khả năng xử lý lượng dữ liệu lớn, tạo ra kết quả chính xác và kiểm soát các quy trình để tạo ra kết quả tối ưu nhất AI không phải là mới vì máy móc đang được sử dụng để đưa ra quyết định và dự đoán tác động dự kiến Trong thế giới hiện đại này, hầu hết các nhiệm vụ hàng ngày được hỗ trợ bởi máy móc và thuật toán Một số yếu tố, chẳng hạn như tính công bằng, tính minh bạch, tính chịu trách nhiệm, tính đáng tin cậy và sự chấp nhận, được xem xét trong quá trình tạo ra các kết quả đáng tin cậy được điều khiển bởi máy móc và thuật toán AI có thể được hiểu là khả năng của máy tính hoặc robot tái hiện trí thông minh con người dưới dạng phần mềm và thuật toán AI có thể thực hiện các quy trình trí tuệ như lập luận hợp lý, học dựa trên kiến thức, khám phá thuốc, hướng dẫn phẫu thuật và hình ảnh tiên tiến Một trong những lý do cho sự mở rộng gần đây của AI là sự cải thiện sức mạnh tính toán trong CPU và khả năng ứng dụng của GPU trong lĩnh vực tính toán Một lý do khác để áp dụng hệ thống dựa trên AI là dữ liệu lớn được tạo bởi nhu cầu của người dùng cần thiết để phân tích tốt hơn.
Các lĩnh vực chính trong trí tuệ nhân tạo bao gồm:
Học máy: Là lĩnh vực chính trong AI, tập trung vào việc phát triển các thuật toán và mô hình để học từ dữ liệu mà không cần được lập trình cứng Học máy dựa trên những hình thức huấn luyện được chia thành các loại khác nhau như học có giám sát, học không giám sát, học tăng cường và học sâu.
NLP- Xử lý ngôn ngữ tự nhiên: Là lĩnh vực nghiên cứu về cách máy tính có thể hiểu và xử lý ngôn ngữ tự nhiên của con người NLP được sử dụng trong rất nhiều ứng dụng từ chatbot cho đến dịch thuật và ghi chú giọng nói.
Thị giác máy tính: Là lĩnh vực tập trung vào việc phát triển các thuật toán và mô hình để máy tính có thể nhận dạng và hiểu được hình ảnh và video. Thị giác máy tính được sử dụng trong rất nhiều ứng dụng, từ nhận dạng khuôn mặt cho đến xe tự hành.
Robot và tự động hóa: Là lĩnh vực áp dụng AI vào việc phát triển các robot và hệ thống tự động hóa Robot và tự động hóa được sử dụng trong rất nhiều ngành công nghiệp, từ sản xuất cho đến y tế và dịch vụ.
1.3.2 Tổng quan về học máy
Học máy là một trong những phương pháp được sử dụng rộng rãi nhất trong Trí tuệ nhân tạo được thể hiện trên Hình 1 5 Học máy liên quan đến khả năng của máy tính học hỏi từ dữ liệu một cách tự động và cải thiện hiệu suất trong các tác vụ cụ thể Nó cho phép máy tính học từ kinh nghiệm mà không cần được lập trình cụ thể cho từng tác vụ, như là một phương pháp thay thế cho việc lập trình truyền thống.
Học máy được áp dụng rộng rãi trong nhiều lĩnh vực, bao gồm khoa học dữ liệu, thị giác máy tính, xử lý ngôn ngữ tự nhiên, robot, tài chính, y tế, marketing, và nhiều lĩnh vực khác Với sự phát triển của công nghệ, học máy đang trở thành một công cụ mạnh mẽ trong việc giải quyết các vấn đề phức tạp và cung cấp giải pháp đáng tin cậy cho nhiều thách thức khác nhau.
Các thuật toán học máy sử dụng các phương pháp thống kê và toán học để xác định mối quan hệ giữa các dữ liệu đầu vào và đầu ra Nó cho phép máy tính học từ các mẫu dữ liệu và tìm ra các quy luật hoặc mô hình phân loại, dự đoán, phát hiện bất thường hoặc tối ưu hóa một mục tiêu nào đó Dựa trên cấu trúc thuật toán và phương pháp học, học máy có thể được phân loại thành nhiều loại khác nhau.Các phương pháp học tập có thể được phân loại thành học tập có giám sát, không giám sát, bán giám sát và tăng cường, học sâu.
Hình 1 5: Tổng quan về học máy
Học có giám sát: Là phương pháp học máy sử dụng các tập dữ liệu đã được gán nhãn để học hỏi và tìm ra một mô hình để dự đoán kết quả cho các dữ liệu mới Các thuật toán phổ biến trong học có giám sát bao gồm: Linear
Regression, Logistic Regression, Decision Trees, Random Forests, Support Vector Machine và Neural Network.
Học không giám sát: Là phương pháp học máy sử dụng các tập dữ liệu không có gắn nhãn Mục tiêu của học không giám sát là khám phá cấu trúc ẩn, mẫu tổ chức hoặc nhóm các dữ liệu mà không có sự giám sát hoặc chỉ dẫn từ phía người giám sát Các thuật toán phổ biến trong học không giám sát bao gồm: Clustering, Principal Component Analysis (PCA), t-SNE,
Autoencoders và Generative Adversarial Networks (GANs).
Học bán giám sát: Là phương pháp học máy kết hợp giữa các phương pháp học có giám sát và không giám sát để học hỏi từ tập dữ liệu một phần có nhãn và một phần không nhãn Một số thuật toán phổ biến trong học bán giám sát bao gồm: Self-training, Co-training và Multi-view Learning.
Học tăng cường: Là phương pháp học máy sử dụng các thuật toán để đào tạo các hệ thống để tương tác với một môi trường và tìm cách tối đa hóa một mục tiêu Một số thuật toán phổ biến trong học tăng cường bao gồm: Q- learning, Deep Q-networks (DQNs) và Policy Gradient methods.
Học sâu là một lĩnh vực trong học máy tập trung vào việc xây dựng và huấn luyện các mô hình mạng nơ-ron đa lớp có khả năng học và thực hiện các nhiệm vụ phức tạp Mô hình học sâu sử dụng cấu trúc lớp ẩn đa tầng để tự động học biểu diễn dữ liệu từ các tầng dữ liệu trước đó, giúp nắm bắt được các đặc trưng phức tạp và hiểu sâu về dữ liệu.
Ứng dụng học máy dựa trên dữ liệu gene trong IoMT
Kết nối hệ thống IoMT với học máy được thể hiện trên Hình 1 6 đó là việc sử dụng các thuật toán học máy để xử lý dữ liệu từ các thiết bị y tế kết nối Internet như các thiết bị đo lường thông số sức khỏe, máy chụp X-quang, máy siêu âm, máy ECG, máy EEG và nhiều hơn nữa Các dữ liệu này được thu thập từ các thiết bị đo lường, truyền qua mạng Internet đến hệ thống IoMT và được lưu trữ trong cơ sở dữ liệu Sau đó, các thuật toán học máy được áp dụng để phân tích và xử lý dữ liệu, giúp phát hiện bất thường trong tình trạng sức khỏe của bệnh nhân hoặc dự đoán các vấn đề sức khỏe tiềm ẩn.
Cụ thể, các thuật toán học máy như hồi quy tuyến tính, phân loại, mạng nơ- ron, SVM, cây quyết định, Random Forest, Gradient Boosting, XGBoost, có thể được áp dụng để phân tích dữ liệu y tế trong hệ thống IoMT Các kết quả phân tích này có thể giúp cho các chuyên gia y tế đưa ra quyết định chẩn đoán, dự đoán các bệnh tiềm ẩn hoặc đánh giá hiệu quả của các liệu pháp điều trị Ngoài ra, học máy cũng có thể được sử dụng để cải thiện hiệu suất của các hệ thống IoMT bằng cách phân tích các dữ liệu quá trình để tối ưu hóa quy trình điều trị, giảm thiểu sai sót, và giảm thiểu thời gian xử lý dữ liệu
Hình 1 6: Kết nối IoMT với học máy
Học máy dựa trên dữ liệu gene trong hệ thống IoMT có rất nhiều ứng dụng tiềm năng trong lĩnh vực y tế Dữ liệu gene là tập hợp các thông tin liên quan đến các gene trong genôm của con người Gene là tập hợp toàn bộ các gene có trong một tế bào, bao gồm cả các gene mang trên các nhiễm sắc thể (chromosome) và các gene mang trên các vùng không có sắc thể (non-chromosomal regions) như mitocondria Dữ liệu gene của con người được xác định bằng các phương pháp khác nhau, chủ yếu là sử dụng kỹ thuật giải trình tự gene (gene sequencing) Khi giải trình tự gene, các nhà khoa học thu thập dữ liệu về các nucleotide (A, C, G, T) có trong gene để xác định trình tự của gene đó Dữ liệu gene của con người được sử dụng trong nhiều nghiên cứu sinh học, bao gồm cả nghiên cứu về bệnh tật, di truyền học, và phát triển dược phẩm.
Có thể kể tới một số ứng dụng của học máy dựa trên dữ liệu gene trong hệ thống IoMT như:
Phát hiện bệnh di truyền: Học máy có thể được sử dụng để phân tích các dữ liệu gene và xác định các mối liên hệ giữa các biến số gene và các bệnh di truyền, do đó có thể phát hiện và chẩn đoán các bệnh di truyền sớm hơn.
Dự đoán phản ứng thuốc: Học máy có thể được sử dụng để phân tích các dữ liệu gene và dự đoán phản ứng của bệnh nhân với các loại thuốc Điều này có thể giúp trong việc lựa chọn thuốc phù hợp và giảm thiểu rủi ro phản ứng thuốc.
Tính toán liều lượng thuốc: Học máy có thể được sử dụng để tính toán liều lượng thuốc phù hợp dựa trên các thông tin gene của bệnh nhân, do đó giúp tối ưu hóa điều trị và giảm thiểu rủi ro liên quan đến việc sử dụng thuốc.
Dự đoán nguy cơ mắc bệnh: Học máy có thể được sử dụng để phân tích các dữ liệu gene và dự đoán nguy cơ mắc các bệnh như nhiễm trùng máu, ung thư, Do đó các kết quả này giúp đưa ra các khuyến nghị về lối sống và kiểm soát được sự rủi ro bệnh tật.
Dự đoán kết quả điều trị: Học máy dựa trên dữ liệu gene có thể dự đoán kết quả điều trị dựa trên các dữ liệu gene của bệnh nhân Thông qua việc phân tích các đặc trưng gene của bệnh nhân, học máy có thể đưa ra các dự đoán về khả năng đạt được kết quả tốt sau điều trị.
Phát triển thuốc mới: Học máy có thể được sử dụng để phân tích các dữ liệu gene và phát triển các loại thuốc mới, giúp tìm ra các phương pháp điều trị mới và cải thiện chất lượng cuộc sống của bệnh nhân.
Nghiên cứu y học: Học máy dựa trên dữ liệu gene có thể giúp cho các nhà nghiên cứu y học tìm hiểu và khai thác các thông tin quan trọng từ dữ liệu gene để giải quyết các câu hỏi nghiên cứu Điều này giúp cho việc phát triển các phương pháp chẩn đoán và điều trị mới có thể được thực hiện nhanh hơn và chí.
Hình 1 7: Ứng dụng của học máy để phân tích dữ liệu gene trên hệ thống
IoMT Ứng dụng của học máy để phát hiện bệnh dựa trên dữ liệu gene trong hệ thống IoMT được thể hiển trong Hình 1 7 Công nghệ IoMT để thu thập dữ liệu từ nhiều bệnh viện với sự trợ giúp của các thiết bị kỹ thuật số khác nhau có thể khác nhau giữa các bệnh viện.Với sự trợ giúp của IoMT, việc thu thập dữ liệu gene quy trình trở nên dễ dàng và có lợi cho các công việc tiếp theo Sau đó dữ liệu được thu thập từ hệ thống IoMT sau đó được tiền xử lý dữ liệu để thực hiện các bước phân tích dữ liệu tiếp theo Dữ liệu khi được xử lý sẽ được chia thành hai tập là dữ liệu huấn luyện và dữ liệu kiểm tra Sử dụng các thuật toán để lựa chọn ra được các loại gene có nhiều ý nghĩa nhất, sau đó chúng được gán nhãn Các loại gene và nhãn lớp được áp dụng bởi trình phân loại bởi học máy Trình phân loại được đào tạo và xác thực bằng cách sử dụng bộ dữ liệu đào tạo có sẵn Nhãn lớp trong tập dữ liệu thử nghiệm thu được bằng cách sử dụng xác suất hậu nghiệm ước tính từ các mô hình học máy Mô-đun IoMT cho phép kết nối từ xa bằng cách truyền dữ liệu đến bác sĩ thông qua Internet [6].
Kết luận chương
Chương này đã trình bày tổng quan về IoT, IoMT và nêu rõ vai trò của AI trong IoMT Nội dung chương cũng giới thiệu một số ứng dụng của học máy trong hỗ trợ dự đoán bệnh dựa trên dữ liệu gene Việc sử dụng học máy trong IoMT cung cấp nhiều lợi ích cho ngành y tế, giúp cải thiện chẩn đoán và điều trị bệnh, đồng thời làm giảm chi phí và thời gian xét nghiệm Tuy nhiên, để đảm bảo tính chính xác của kết quả chẩn đoán bệnh, cần phải có sự đánh giá và kiểm tra chất lượng dữ liệu, chọn lọc các đặc trưng quan trọng và chọn phương pháp học máy phù hợp.
ỨNG DỤNG THUẬT TOÁN HỌC MÁY CHẨN ĐOÁN NHIỄM TRÙNG MÁU DỰA TRÊN DỮ LIỆU BIỂU HIỆN GENE
Giới thiệu chung
Việc áp dụng AI vào để hỗ trợ chuẩn đoán và phát hiện ra bệnh dựa trên tập dữ liệu gene đã và đang là một trong các chủ đề thu hút được nhiều sự quan tâm, nghiên cứu trên thế giới Các giải pháp học máy thông minh hỗ trợ chẩn đoán bệnh dựa trên dữ liệu gene có độ chính xác cao và mở ra thêm một phương pháp tin cậy trong việc chuẩn đoán và tiên lượng cho một số loại bệnh liên quan đến gene người. Ứng dụng của học máy trong chẩn đoán bệnh nhiễm trùng máu dựa trên dữ liệu gene là một ứng dụng tiềm năng của công nghệ trong lĩnh vực y tế Đây là một phương pháp sử dụng dữ liệu gene để đưa ra các quyết định chẩn đoán về nhiễm trùng máu Một số ứng dụng của học máy chẩn đoán nhiễm trùng máu dựa trên dữ liệu gene bao gồm:
Chẩn đoán nhiễm trùng máu: Học máy có thể phân tích dữ liệu gene để tìm ra các đặc trưng đặc biệt của nhiễm trùng máu và đưa ra các quyết định chẩn đoán một cách chính xác và nhanh chóng.
Dự báo tác động của nhiễm trùng máu: Học máy có thể phân tích dữ liệu gene để dự báo tác động của nhiễm trùng máu đến sức khỏe của bệnh nhân và đưa ra các lời khuyên về điều trị phù hợp.
Phân loại loại nhiễm trùng máu: Học máy có thể phân loại các loại nhiễm trùng máu dựa trên các đặc trưng gene đặc biệt, giúp cho việc chẩn đoán và điều trị nhanh chóng và chính xác hơn.
Tìm kiếm các chất kháng khuẩn mới: Học máy có thể phân tích dữ liệu gene để tìm kiếm các chất kháng khuẩn mới và hiệu quả hơn trong việc điều trị nhiễm trùng máu.
Đưa ra lời khuyên về phòng ngừa: Học máy có thể phân tích dữ liệu gene để đưa ra các lời khuyên về phòng ngừa nhiễm trùng máu, giúp cho việc phòng ngừa và kiểm soát dịch bệnh được hiệu quả hơn.
Nhiễm trùng máu là một bệnh trạng nghiêm trọng, do phản ứng quá mức của cơ thể với vi khuẩn và chất độc tố của chúng trong máu Khi một nhiễm khuẩn xảy ra, hệ miễn dịch của cơ thể sẽ phản ứng bằng cách phóng thích các hạt tự vệ và chất trung gian viêm, để giúp đẩy lùi nhiễm khuẩn Tuy nhiên, nếu phản ứng này không được kiểm soát, có thể gây ra tổn thương trên khắp cơ thể, dẫn đến hội chứng suy tuyến thượng thận, giảm huyết áp Nhiễm trùng máu là một trong những nguyên nhân hàng đầu gây tử vong ở các bệnh nhân nằm viện và là một thách thức lớn đối với y tế công cộng Đây là một vấn đề sức khỏe cộng đồng nghiêm trọng trên toàn cầu và là một trong những nguyên nhân hàng đầu gây tử vong được đưa vào khoa chăm sóc đặc biệt (ICU) [8] Mặc dù đã có những tiến bộ đáng kể trong chẩn đoán và điều trị nhiễm trùng máu, nhưng số ca bệnh vẫn đang gia tăng [9,10] Bên cạnh đó, đã có những nỗ lực để phân tầng nguy cơ nhiễm trùng máu, đặc biệt là ở trẻ em, đây vẫn là một thách thức do sự khác biệt đáng kể giữa các bệnh nhân và các định nghĩa không đầy đủ về nhiễm trùng máu ở trẻ em hiện đang tồn tại Điều này nhấn mạnh nhu cầu cấp thiết để đạt được một sự hiểu biết sâu sắc hơn Những nỗ lực nghiên cứu liên tục là cần thiết để xác định các mục tiêu cụ thể và nhanh nhạy hơn trong chẩn đoán và điều trị nhiễm trùng máu, đặc biệt là nhiễm trùng máu ở trẻ em và sốc nhiễm trùng, vì sự phức tạp của tình trạng này đòi hỏi một cách tiếp cận toàn diện để đảm bảo quản lý và phòng ngừa hiệu quả
Cảnh báo sớm và dự đoán chính xác về nhiễm trùng máu và sốc nhiễm trùng tạo cơ hội cho các bác sĩ thực hiện các biện pháp phòng ngừa để giảm bớt hậu quả tàn khốc của loại bệnh này Tuy nhiên, việc chẩn đoán nhiễm trùng máu thông thường đòi hỏi nhiều thời gian và công sức của các bác sĩ và nhân viên y tế, bao gồm việc thu thập và xử lý dữ liệu, phân tích kết quả xét nghiệm và đưa ra kết luận.
2.1.2 Phương pháp chẩn đoán bệnh nhiễm trùng máu
Trước đây, các phương pháp phổ biến để chẩn đoán nhiễm trùng máu là nuôi cấy vi sinh và xác định phân loại mầm bệnh Tuy nhiên, có nhiều nhược điểm khi áp dụng phương pháp này như (1) mất nhiều thời gian để thu được kết quả khả quan; (2) nhiễm khuẩn máu trong thời gian ngắn có thể dẫn đến cấy máu dương tính mà không có phản ứng viêm nghiêm trọng; (3) tỷ lệ nuôi cấy dương tính thành công giảm ở những bệnh nhân đã sử dụng kháng sinh Do đó, độ chính xác của phương pháp này khá thấp và không chẩn đoán được nhiễm trùng máu một cách hiệu quả.
Vì vậy, việc ứng dụng học máy để chẩn đoán bệnh nhiễm trùng máu dựa trên dữ liệu gene là một bước đột phá trong lĩnh vực chăm sóc sức khỏe và y tế Đây là một ứng dụng quan trọng trong hệ thống IoMT, cho phép các bác sĩ và nhân viên y tế có thể chẩn đoán nhiễm trùng máu một cách chính xác và nhanh chóng hơn Việc chẩn đoán nhiễm trùng máu là rất quan trọng trong việc điều trị các bệnh nhân bị nhiễm trùng, đặc biệt là những trường hợp nhiễm trùng máu nặng Việc phát hiện và chẩn đoán nhanh chóng có thể giúp cứu sống bệnh nhân và ngăn ngừa các biến chứng có thể gây nguy hiểm đến tính mạng.
Gần đây, một phương pháp lai giữa phân tích biểu hiện gene khác biệt và học máy [11] đã trở thành một phương pháp hiệu quả trong việc xác định dấu ấn sinh học Trong [12] tác giả sử dụng phương pháp lựa chọn đặc trưng học máy phổ biến như LASSO, loại bỏ đặc trưng RFE, mức độ liên quan tối đa và mức dự phòng tối thiểu MRMR và tầm quan trọng của đặc trưng rừng ngẫu nhiên RF để xác định một tập hợp con dấu hiệu gene để dự đoán mức độ nghiêm trọng và tỷ lệ tử vong của nhiễm trùng máu Tập hợp con gene tiềm năng được chọn bằng cách xác thực từng tập hợp con các thuật toán máy học bao gồm Gradient Boosting, Extra Trees,
Random Forest, SVM, Nạve Bayes (NB) và Neural Network (NN) [13] Trong
[14], tác giả xác định dựa trên LASSO đã sửa đổi và RF đã được kết hợp để xây dựng một bộ phân loại gene liên quan đến miễn dịch để chẩn đoán và tiên lượng nhiễm trùng huyết
Việc ứng dụng học máy vào quá trình chẩn đoán giúp tăng tốc độ xử lý dữ liệu và giảm thiểu sai sót trong quá trình chẩn đoán Bên cạnh đó, việc xử lý dữ liệu gene và lựa chọn gene cũng đóng một vai trò quan trọng trong quá trình chẩn đoán bệnh Trong chương này sẽ trình bày về phương pháp xử lý dữ liệu gene và đề xuất mô hình học máy cho việc chẩn đoán bệnh nhiễm trùng máu dựa trên dữ liệu biểu hiện gene.
Quy trình học máy hỗ trợ chẩn đoán bệnh dựa trên dữ liệu gene
Hình 2 1: Quy trình học máy hỗ trợ chẩn đoán bệnh dựa trên dữ liệu gene trên hệ thống IoMT
Quy trình học máy hỗ trợ chẩn đoán bệnh dựa trên dữ liệu gene trên hệ thống IoMT được thể hiện trên Hình 2 1 gồm 3 giai đoạn chính: (1) Phân tích, xử lý dữ liệu, chẩn đoán bệnh dựa trên dữ liệu gene; (2)Truyền dữ liệu và lưu trữ dữ liệu và
(3) Truy cập dữ liệu Từ các cơ sở bệnh viện, các mẫu dữ liệu gene được thu thập và được lưu trữ trên nền tảng Internet, đám mây Sau khi các dữ liệu gene được xử lý làm sạch thì sẽ được lưu trữ lại và tiếp tục quá trình phân tích dữ liệu để tìm ra được các thông tin, kết quả hữu ích Các kết quả này được lưu trữ trên các nền tảng mạng hoặc đám mây được sử dụng tại các bênh viện mục đích giúp bác sĩ có những phương pháp kịp thời giúp các bệnh nhân dựa trên các kết quả chẩn đoán đó
Trong khuôn khổ của đề án này, thì đề án chỉ tập trung vào giai đoạn học máy và đề xuất mô hình chẩn đoán bệnh, giai đoạn này bao gồm các bước sau:
Thu thập dữ liệu gene: Đây là bước đầu tiên và quan trọng nhất trong quá trình sử dụng học máy cho dữ liệu gene Dữ liệu gene có thể được thu thập từ các nguồn khác nhau, bao gồm các cơ sở dữ liệu gene công khai hoặc thông qua các công ty về gene cung cấp dịch vụ xét nghiệm gene được lưu trữ trên nền tảng cloud.
Tiền xử lý dữ liệu gene: Dữ liệu gene thu thập được thường là dữ liệu rời rạc và có kích thước lớn, nên cần tiền xử lý để tạo ra tập dữ liệu phù hợp cho mô hình học máy Bước này bao gồm loại bỏ các gene không có ý nghĩa, loại bỏ các giá trị ngoại lệ, chuẩn hoá dữ liệu và chuyển đổi định dạng dữ liệu.
Lựa chọn gene: Quá trình lựa chọn gene cẩn thận giúp giảm thiểu nhiễu và thông tin không cần thiết trong dữ liệu gene Bằng cách chọn lọc các gene quan trọng, ta có thể tăng cường khả năng phân loại và chẩn đoán bệnh. Đồng thời, việc giảm số lượng gene có thể giúp giảm độ phức tạp tính toán và tăng hiệu suất của thuật toán.
Lựa chọn mô hình học máy: Sau khi tiền xử lý dữ liệu, cần lựa chọn mô hình học máy phù hợp để phân tích dữ liệu
Đào tạo và đánh giá mô hình: Mô hình học máy cần được đào tạo bằng cách sử dụng tập dữ liệu đã được tiền xử lý Sau khi mô hình được đào tạo, nó cần được đánh giá bằng cách sử dụng các phương pháp đánh giá hiệu suất như xác thực chéo, phân tích độ nhạy cảm và độ đặc hiệu.
Dữ liệu biểu hiện gene và phương pháp tiền xử lý
2.3.1 Dữ liệu biểu hiện gene
Gene là một đơn vị di truyền cơ bản của các hệ thống di truyền của các sinh vật sống Nó là một phần tử của DNA (Acid Deoxyribonucleic) hoặc RNA (Acid
Ribonucleic) chứa thông tin di truyền để điều chỉnh và kiểm soát các tính trạng và chức năng của một sinh vật Gene chứa mã gen di truyền, mã hóa thông tin để sản xuất các phân tử khác nhau như protein hoặc RNA Các protein là những thành phần cấu tạo và chức năng cơ bản của tất cả các tế bào và cơ quan trong cơ thể Các
RNA có vai trò quan trọng trong việc di chuyển thông tin di truyền từ gene đến quá trình tổng hợp protein Các gene được truyền từ thế hệ này sang thế hệ kế tiếp trong quá trình sinh sản và đóng vai trò quan trọng trong việc xác định các đặc điểm và tính chất di truyền của các cá thể và loài.
Biểu hiện gene là quá trình diễn ra khi thông tin di truyền từ gene được sử dụng để sản xuất các phân tử khác nhau, chủ yếu là protein hoặc RNA Quá trình này gồm hai giai đoạn chính:
Transcription (quá trình chuyển mã): Trong giai đoạn này, gene trên DNA được sao chép thành một chuỗi RNA messenger (mRNA) thông qua quá trình gọi là transcription mRNA là bản sao của gene và mang thông tin cần thiết để tổng hợp protein.
Translation (quá trình phiên dịch): Sau khi mRNA đã được hình thành, quá trình phiên dịch xảy ra tại ribosome (ribosome là cơ quan tạo ra protein trong tế bào) Quá trình này sẽ chuyển mã từ mRNA sang chuỗi amino acid để tạo thành protein.
Sự biểu hiện gene quyết định các tính chất và chức năng của một sinh vật Các protein được tạo ra từ quá trình biểu hiện gene đóng vai trò quan trọng trong các quá trình sinh tồn và chức năng cơ bản của tế bào, mô và cơ quan trong cơ thể Điều này đóng vai trò quan trọng trong xác định các đặc điểm di truyền và sự đa dạng của các sinh vật.
Dữ liệu biểu hiện gene là thông tin về mức độ hoạt động của gene trong một mẫu sinh học cụ thể Đây là dữ liệu thu được từ các phép đo hoặc thử nghiệm để xác định mức độ biểu hiện gene thông qua đo lường mức độ mRNA hoặc protein tương ứng Dữ liệu biểu hiện gene cung cấp thông tin về sự hoạt động của gene trong một điều kiện hay một thời điểm nhất định.
Trong đề tài này, 11 bộ dữ liệu biểu hiện gene công khai được cung cấp bởi cơ sở dữ liệu Gene Expression Omnibus (GEO) với cả mẫu nhiễm trùng máu, bao gồm ba bộ dữ liệu dành cho người lớn và tám bộ dữ liệu dành cho trẻ em được thể hiện trên Bảng 2 1 Có tổng cộng 1384 mẫu bao gồm 1144 mẫu bệnh nhân bị nhiễm trùng máu và 240 mẫu bình thường đã được thu thập và trình bày thông qua ba nền tảng microarray bao gồm:
Affymetrix Human Genome U133 Plus 2.0 (AffyU133P2) bao gồm 23521 loại gene
Affymetrix Human Genome U219 (AffyU219) bao gồm 19040 loại gene
Agilent Human Gene Expression 4x44K v2 (AgilentV2) bao gồm 17028 loại gene
Bảng 2 1: Tập dữ liệu biểu hiện gene
Tập dữ liệu Số lượng gene Bị bệnh Khỏe mạnh Độ tuổi Nền tảng Nhóm dữ xây dựng thuật toán
Nhóm dữ liệu kiểm định
Tất cả các mẫu được xử lý trước và chuẩn hóa lại bằng thuật toán RMA Giá trị trung bình của các đầu dò (đầu dò là một đoạn oligonucleotide (chuỗi nhỏ của các nucleotide) được sử dụng để nhận dạng và gắn kết với một mục tiêu cụ thể trong các quá trình nghiên cứu và xác định; đầu dò thường được thiết kế để gắn kết với các mục tiêu như DNA, RNA hoặc protein, nhằm mục đích phát hiện, xác định, hoặc theo dõi các phân tử quan trọng trong mẫu sinh học) đối với các gene phổ biến được đặt làm mức biểu hiện gene sau khi ánh xạ giữa đầu dò với gene được lấy từ các tệp SOFT gần đây nhất trong GEO.
11 bộ dữ liệu gene này được chia thành 2 nhóm dữ liệu như sau:
Nhóm dữ liệu xây dựng thuật toán bao gồm 7 bộ dữ liệu (GSE57065, GSE95233, GSE26378, GSE8121, GSE26440, GSE9692, GSE4607) từ AffyU133P2.
Nhóm dữ liệu kiểm định bao gồm 4 bộ dữ liệu còn lại, trong đó có 2 bộ dữ liệu trên nền tảng khác: GSE65682 trên nền tảng AffyU219 và E-MTAB-
1548 trên nền tảng AgilentV2 Nhóm dữ liệu này dùng để giá khả năng hoạt động và hiệu suất của thuật toán đối với dữ liệu biểu hiện gene trên nền tảng khác mà không được sử dụng trong quá trình phát triển mô hình ban đầu
Nhóm dữ liệu xây dựng thuật toán được chia thành dữ liệu đào tạo và thử nghiệm lần lượt là 80% và 20% Quy trình xác thực chéo được áp dụng trong tập huấn luyện để huấn luyện và điều chỉnh siêu tham số cho mô hình chẩn đoán
2.3.2 Phương pháp tiền xử lý dữ liệu
Trong nghiên cứu này, một quy trình xử lý gene tuần tự đã được thực hiện để trích xuất các gene có nhiều thông tin nhất
Quy trình này được thể hiện trên Hình 2 2 gồm 3 bước sau:
Bước 1: Chọn các loại gene liên quan đến miễn dịch
Bước 2: Tính toán mức độ biểu hiện gene
Bước 3: Phân tích biểu hiện gene khác biệt
Hình 2 2: Các bước tiền xử lý dữ liệu a) Gene liên quan đến miễn dịch
Các gene liên quan đến miễn dịch IRG là một nhóm gene đóng vai trò quan trọng trong phản ứng của hệ thống miễn dịch đối với nhiễm trùng, viêm và các quá trình liên quan đến miễn dịch khác, đã được sử dụng để chẩn đoán và tiên lượng các loại ung thư, thể hiện độ nhạy và độ đặc hiệu cao Các nghiên cứu gần đây đã chỉ ra rằng việc sử dụng IRG để chẩn đoán nhiễm trùng máu có thể cải thiện đáng kể độ chính xác của phương pháp chẩn đoán [9, 16].
Hình 2 3: Thống kê các gene liên quan đến miễn dịch của tất cả ba nền tảng
Từ cơ sở dữ liệu nanoString (www.nanoString.com), đã được sử dụng trong hàng trăm nghiên cứu về lây nhiễm mầm bệnh và phản ứng của vật chủ có liên quan Dựa trên 770 gene liên quan đến miễn dịch được báo cáo trong cơ sở dữ liệu nanoString, số lượng gene IRG cho 3 nền tảng AffyU133P2, AffyU219 và
AgilentV2 được lọc ra lần lượt là 737, 740 và 627 Mối liên hệ giữa các số lượng gene của 3 nền tảng được thể hiện qua Hình 2 3, có 608 loại gene IRG có trong cả
3 nền tảng được chọn để tiếp tục các bước xử lý tiếp theo b) Tính toán mức độ biểu hiện gene
Kết luận chương
Trong chương này đã trình bày về quy trình học máy để chuẩn đoán bệnh dựa trên dữ liệu gene được ứng dụng trên nền tảng IoMT Từ đó đề, trong đề này đề xuất ra một mô hình học máy để phân tích dữ liệu gene để phát hiện ra bệnh nhiễm trùng máu mang lại hiệu quả chính xác cao, và tin cậy để tích hợp trên nền tảng
IoMT Bên cạnh đó việc thu thập và xử lý dữ liệu gene là vô cùng quan trọng, trong chương này cũng trình bày về phương pháp xử lý dữ liệu gene và đề xuất mô hình học máy cho chẩn đoán bệnh nhiễm trùng máu.
THỬ NGHIỆM, ĐÁNH GIÁ MÔ HÌNH HỌC MÁY CHẨN ĐOÁN BỆNH NHIỄM TRÙNG MÁU
Giới thiệu chung
Học máy là một trong những nhánh quan trọng nhất của trí tuệ nhân tạo. Bằng cách tự động học mẫu dữ liệu bên trong bằng cách trích xuất tính năng, học máy có thể liên tục cải thiện hiệu suất Thay vì chế độ chẩn đoán và điều trị truyền thống, học máy cung cấp một cái nhìn sâu sắc hoàn toàn mới để cải thiện hiệu quả chẩn đoán và đánh giá khách quan và cá nhân hóa hơn cho bệnh nhân
Phân tích biểu hiện gene khác biệt cho phép nghiên cứu sự thay đổi biểu hiện gene trên toàn bộ gene, những loại gene này được coi là các gene tiềm năng cho việc chẩn đoán bệnh Dựa trên những ưu điểm của học máy và phân tích biểu hiện gene khác biệt đã được trình bày ở Chương 2, trong chương này sẽ đề xuất một thuật toán đơn giản và hiệu quả để chẩn đoán được bệnh nhiễm trùng máu hiệu quả và tin cậy để ứng dụng trong hệ thống IoMT
Lựa chọn gene là một phương pháp rất quan trọng để giảm kích thước dữ liệu và cải thiện hiệu quả dự đoán Nhiều nghiên cứu trước đây đã sử dụng phương pháp chọn lọc gene bằng cách kết hợp phân tích biểu hiện gene khác biệt với lựa chọn đăng trưng bằng phương pháp học máy để xác định các mã gene tiềm năng mang lại hiệu quả cao Phương pháp này cũng được áp dụng trong đề án này Trong chương này đề án sẽ thực hiện mô phỏng, tính toán các tham số theo 3 giai đoạn:
Tiền xử lý dữ liệu biểu hiện gene
Chương này sẽ tập trung vào khảo sát và so sánh 3 thuật toán học máy BG,KNN, BS để chọn ra một mô hình tốt nhất và đề xuất một tập nhỏ dữ liệu biểu hiện gene tiềm năng Bên cạnh đó, đề án so sánh kết quả mô phỏng của giải pháp đề xuất với các công trình nghiên cứu đã được công bố Mục đích chính của chương cũng như đề án là tạo ra một mô hình thuật toán đơn giản, tin cậy và hiệu quả chính xác cao và để xuất một tổ hợp gene tối ưu để ứng dụng trên nền tảng IoMT.
Mô phỏng hệ thống chẩn đoán sử dụng thuật toán học máy được đề xuất
3.2.1 Công cụ thực hiện mô phỏng a) Phần mềm Rstudio
RStudio là một môi trường phát triển tích hợp được thiết kế đặc biệt cho ngôn ngữ lập trình R, cung cấp một giao diện người dùng thân thiện và nhiều công cụ hữu ích để làm việc với R dễ dàng và hiệu quả Ngôn ngữ R có nhiều ứng dụng chính trong lĩnh vực phân tích dữ liệu, thống kê và học máy Một số ứng dụng chính của ngôn ngữ R như:
Phân tích và khai phá dữ liệu: R được sử dụng để thực hiện các phân tích dữ liệu và khai phá thông tin từ các tập dữ liệu lớn R cung cấp các công cụ và thư viện cho việc tiền xử lý dữ liệu, xử lý dữ liệu thiếu, chuẩn hóa dữ liệu, phân tích đa biến, phân tích chuỗi thời gian, phân tích nhân tố, khám phá cấu trúc dữ liệu và tìm kiếm mẫu trong dữ liệu.
Phân tích thống kê: R là một công cụ mạnh mẽ cho phân tích thống kê, cung cấp các phương pháp và thủ tục cho việc thực hiện các phân tích như kiểm định giả thuyết, phân tích biến thể, hồi quy, phân tích phân loại, phân tích chuỗi thời gian và nhiều phương pháp khác Người dùng có thể thực hiện các phân tích này để khám phá mối quan hệ, đưa ra kết luận và đưa ra dự đoán.
Phân tích dữ liệu y tế: R được sử dụng rộng rãi trong lĩnh vực y tế để phân tích dữ liệu y tế và thực hiện nghiên cứu
Thư viện affy trong ngôn ngữ lập trình R là một gói phần mềm sử dụng trong phân tích dữ liệu biểu hiện gene từ nền tảng Affymetrix Gói affy cung cấp các công cụ và hàm để xử lý, phân tích và hiển thị dữ liệu biểu hiện gene từ chip Affymetrix Thư viện này hỗ trợ các bước tiền xử lý dữ liệu như làm sạch, chuẩn hóa và phân tích khối lượng
RMA là một phương pháp chuẩn hóa dữ liệu biểu hiện gene trong phân tích dữ liệu microarray Phương pháp RMA bao gồm các bước tiền xử lý dữ liệu như làm sạch nhiễu, điều chỉnh và chuẩn hóa dữ liệu để đảm bảo tính nhất quán và so sánh được giữa các mẫu microarray khác nhau Quá trình RMA cung cấp kết quả ổn định và phù hợp cho phân tích dữ liệu biểu hiện gene từ chip Affymetrix.
Thư viện limma cung cấp các công cụ và phương pháp cho việc xử lý, chuẩn hóa và phân tích dữ liệu biểu hiện gene từ mảng Gói limma là một công cụ mạnh mẽ cho phân tích dữ liệu biểu hiện gene từ mảng microarray và RNA- seq Thư viện limma cung cấp các phương pháp thống kê và mô hình hóa dữ liệu biểu hiện gen, cho phép so sánh giữa các mẫu và xác định biểu hiện gene khác biệt Thư viện hỗ trợ tính toán p-value và mức độ thay đổi b) Phần mềm Python
Python là một ngôn ngữ lập trình cao cấp, dễ học và dễ đọc Ngôn ngữ này được phát triển với mục tiêu tăng cường tính đơn giản, khả năng đọc được và tính tương tác Python có cú pháp đơn giản, dễ hiểu và hỗ trợ nhiều phong cách lập trình, bao gồm lập trình hướng đối tượng, lập trình thủ tục và lập trình hàm Python có một cộng đồng lớn, cung cấp nhiều thư viện và công cụ phong phú Python có một số thư viện mạnh mẽ như NumPy, Pandas, Matplotlib, Scikit-learn và TensorFlow, làm cho Python trở thành một lựa chọn phổ biến cho nhiều ứng dụng như xử lý dữ liệu, học máy, khoa học dữ liệu và phân tích dữ liệu
Trong đề án này, thư viện scikit-learn được sử dụng có sẵn trên:https://github.com/scikit-learn scikit-learn là một thư viện phổ biến trong Python cho việc xây dựng và huấn luyện các mô hình học máy Thư viện này cung cấp một loạt các thuật toán và công cụ tiện ích cho các nhiệm vụ phân loại, hồi quy, phân cụm, trích xuất đặc trưng và tiền xử lý dữ liệu
3.2.2 Phương pháp và tham số đánh giá
Phương pháp đề xuất của đề án bao gồm 3 giai đoạn được thể hiện trên hình 3 1:
Đầu tiên là quá trình tiền xử lý gene đã được trình bày ở Chương 2
Giai đoạn thứ hai là chọn lọc gene: nhằm mục đích chọn ra tổ hợp gene tối ưu nhất Giai đoạn lựa chọn gene gồm 2 bước: Bước 1 Xếp hạng gene bằng cách sử dụng thuật toán BS để tính tầm quan trọng của gene và sắp xếp chúng theo thứ tự giảm dần, sau đó tạo ra các tổ hợp gene; Bước 2 Sử dụng mô hình học máy để xác thực tổ hợp gene.
Giai đoạn cuối cùng là mô hình thử nghiệm: trong bước này tổ hợp gene được chọn và thuật toán học máy được chọn để ước tính hiệu quả của mô hình chẩn đoán trên dữ liệu kiểm tra và tập dữ liệu kiểm định. a) Xếp hạng gene
Mô hình BS được áp dụng để tính tầm quan trọng của đặc trưng gene (FI) được trình bày ở Chương 2, sau đó xếp hạng các gene này theo thứ tự từ cao đến thấp
Các tổ hợp gene được tạo ra bằng cách sắp xếp gene có giá trị tầm quan trọng đặc trưng cao nhất thành tổ hợp thứ 1, tổ hợp thứ 2 sẽ bao gồm gene có giá trị tầm quan trọng cao nhất kết hợp với gene có giá trị tầm quan trọng cao thứ 2, tương tự như thế ta sẽ có đến tổ hợp thứ n Lưu đồ thuật toán việc xây dựng tổ hợp gene được thể hiện trên Hình 3.2.
Hình 3 2: Lưu đồ thuật toán xây dựng tổ hợp gene b) Xác thực tổ hợp gene
Trong bước này, quy trình xác thực chéo 5 lần và thuật toán học máy được xem xét để xây dựng và ước tính hiệu quả của mô hình chẩn đoán học máy bằng cách sử dụng các tổ hợp gene khác nhau Do giới hạn của tập dữ liệu gene, đề án chỉ sử dụng tập đào tạo để huấn luyện mô hình và điều chỉnh siêu tham số Toàn bộ tập dữ liệu đào tạo được chia ngẫu nhiên thành 5 phần, trong đó 4 phần được sử dụng cho các mô hình huấn luyện và một phần còn lại là tập xác thực Mô hình tốt nhất được thu thập sau khi điều chỉnh siêu tham số sau đó được ước tính thông qua quy trình xác thực chéo Hiệu suất chẩn đoán trung bình của mô hình học máy sau đó được tính toán để so sánh và phân tích Việc lựa chọn các tổ hợp gene tối ưu tương ứng với hiệu quả của thuật toán học máy dựa trên hiệu suất chẩn đoán cao nhất Bên cạnh đó, số lượng gene cũng được coi là một trong những yếu tố để chọn ra sự kết hợp tốt nhất. c) Thử nghiệm mô hình
Các mô hình học máy khác nhau sau đó được đào tạo và kiểm tra hiệu suất chẩn đoán của chúng trên tập huấn luyện và thử nghiệm bằng cách sử dụng các tổ hợp gene tối ưu của chúng Tổ hợp gene cuối cùng và mô hình học máy liên quan mang lại hiệu suất chẩn đoán tốt nhất trên bộ thử nghiệm sẽ được lựa chọn cho giải pháp đề xuất trong đề án d) Tham số đánh giá hiệu suất Để đánh giá hiệu quả của mô hình đề xuất, đề án thực hiện mô phỏng và tính toán các tham số sau: khu vực dưới đường cong (AUC) được tính bằng diện tích nằm dưới đường cong ROC (Receiver Operating Characteristic), có phạm vi từ 0 đến 1 Mô hình có AUC cao hơn sẽ phân biệt tốt hơn Ngoài ra, Độ chính xác (Acc), Độ nhạy (Sn) và Độ đặc hiệu (Sp) cũng được coi là các thông số đo lường để ước lượng chẩn đoán của các mô hình học máy Tỷ lệ bệnh nhân nhiễm trùng máu được xác định chính xác được đo bằng Acc Các giá trị Sn và Sp lần lượt đếm số ca liên quan đến nhiễm trùng máu và những người bình thường được xác định chính xác
Hình 3 3: Ma trận nhầm lẫn
Người bị nhiễm trùng máu
Người bị nhiễm trùng máu TP FP
Người khỏe mạnh FN TN
Ma trận nhầm lẫn được thể hiện trên Hình 3 4 là ma trận được sử dụng để xác định hiệu suất của các mô hình phân loại đối với một tập dữ liệu thử nghiệm nhất định Ma trận này chỉ có thể được xác định nếu biết giá trị thực của dữ liệu thử nghiệm Bản thân ma trận có thể dễ hiểu nhưng các thuật ngữ liên quan có thể gây nhầm lẫn Vì ma trận nhầm lẫn này hiển thị các lỗi trong hiệu suất mô hình ở dạng ma trận, do đó còn được gọi là ma trận lỗi.
TP (True Positive): Mô hình đã dự đoán đúng người bị mắc bệnh nhiễm trùng máu
TN (True Negative): Mô hình đã đưa ra dự đoán đúng người không bị bệnh nhiễm trùng máu.
Thử nghiệm và đánh giá hiệu năng của mô hình đề xuất
3.3.1 Lựa chọn gene a) Xếp hạng gene
Bảng 3 1: Xếp hạng gene theo tầm quan trọng của 119 gene
Mã gene FI Mã gene FI Mã gene FI
Sau quá trình phân tích biểu hiện gene khác biệt thì 175 gene được lựa chọn từ 608 gene IRG 175 gene này được xác định bằng cách sử dụng phân tích giá trị
FC ≥ 1,5 và p-value được điều chỉnh ≤ 0,05 Các giá trị FC tương ứng với các mã gene được thể hiện ở Phục lục Bảng A.1.
Bằng cách áp dụng thuật toán BS, thì giá trị mức độ quan trọng của 175 gene đã được tính toán và xếp hạng từ cao nhất đến thấp nhất trong Bảng 3.1, trong đó có
56 gene có giá trị quan trọng bằng 0 nên đã bị loại bỏ Do đó, đề án chỉ xem xét một tập hợp con gồm 119 gene tương ứng với 119 tổ hợp gene trong bước xác thực tổ hợp gene tiếp. b) Xác thực tổ hợp gene
Bảng 3 2: Hiệu quả xác thực của các mô hình học máy trên tập dữ liệu đào tạo
8Trong bước này, quy trình xác thực chéo 5 lần được triển khai cho 3 thuật toán học máy bao gồm BG, KNN và BS sử dụng 119 tổ hợp gene (mỗi thuật toán học máy sẽ được đánh giá với 119 tổ hợp gen) Kết quả về hiệu suất xác thực của các mô hình học máy riêng lẻ được hiển thị trong Bảng 3.2 KNN với tổ hợp gồm
24 gene, BG với tổ hợp gồm 15 gene và BS với tổ hợp gồm 9 gene đạt được hiệu quả cao nhất Đây là 3 bộ tổ hợp gene tối ưu nhất được chọn tương ứng với 3 mô hình thuật toán
Từ kết quả của 3 mô hình học máy, thuật toán dựa trên các tham số Acc, AUC thì tổ hợp gene tương ứng cho mô hình chẩn đoán được lựa chọn đề xuất. Trong 3 mô hình học máy, thì thuật toán phân loại BG có hiệu quả tốt hơn so với 2 mô hình còn lại dựa trên 3 tham số đánh giá là Acc, AUC và Sp
3.3.2 Mô phỏng mô hình chẩn đoán bệnh
Các mô hình học máy bao gồm BS, BG và KNN được đào tạo trên tập huấn luyện để chọn được các tham số tối ưu và 3 tổ hợp gene tối ưu nhất Tiếp theo để đánh giá hiệu quả của mô hình, để án thực hiện ước tính hiệu quả chẩn đoán trên tập thử nghiệm
Bảng 3 3: Hiệu quả chẩn đoán cho các mô hình học máy trên tập dữ liệu kiểm tra
Mô hình học máy Acc
Bảng 3 4: Ma trận nhầm lẫn của của thuật toán học máy trên tập dữ liệu kiểm tra
Bị nhiễm trùng máu Khỏe mạnh
Bảng 3.3 và 3.4 lần lượt cho thấy kết quả thử nghiệm và ma trận nhầm lẫn của 3 mô hình học máy với 3 tổ hợp gene đã được lựa chọn (KNN với tổ hợp 24 gene, BG với tổ hợp 15 gene, BS với tổ hợp 9 gene) Từ 2 Bảng 3.3 và 3.4 cho thấy hiệu quả của mô hình BG được đề xuất vượt trội hơn so với 2 mô hình KNN và BS.
Từ những kết quả ở 3 bảng 3.2, 3.3 và 3.4 cho thấy hiệu quả chẩn đoán của mô hình BG trong quy trình xác thực và thử nghiệm cao hơn so với 2 mô hình học máy còn lại Do đó, đề án đề xuất thuật toán bao gồm mô hình BG và một tổ hợp 15 gene bao gồm: IL1R2, TLR5, KLRF1, LRRN3, HLA-DMA, G6PD, CCRL2, CD3E, CEACAM8, LCN2, MERTK, TXK, CLEC5A, TANK, CCR6, là phương pháp tốt và đáng tin cậy để chẩn đoán bệnh nhiễm trùng máu ứng dụng trên nền tảng IoMT.
3.3.3 So sánh với các thuật toán ở các công trình nghiên cứu khác Để đánh giá được sự hiệu quả và sự tin cậy của mô hình dự đoán, đề án sẽ đánh giá mô hình chẩn đoán được đề xuất trong nhóm dữ liệu kiểm định Kết quả được minh họa trên bảng 3.5, cho thấy mô hình BG cùng với tổ hợp 15 gene được đề xuất thử nghiệm trên 4 bộ gene GSE28750, GSE13904, GSE65682 và E-MTAB-
1548 có AUC chẩn đoán đáng tin cậy tỉ lệ bị mắc bệnh nhiễm trùng máu với AUC được ước tính > 95% , đặc biệt trong đó đối với bộ gene GSE28750 có độ chính xác 100% Để đánh giá được chính xác hiệu quả của mô hình đề xuất, đề án thực hiện so sánh với các thuật toán khác trên cùng tập dữ liệu ở các công trình nghiên cứu khác đã được công bố khác gồm 2 bộ tổ hợp gene bao gồm:
sNIP: NLRP1, IDNK, và PLAC8 sử dụng thuật toán RF [17]
SeptiCyteLab: CEACAM4, LAMP1, PLA2G7, và PLAC8 sử dụng thuật toán SVM [18]
Bảng 3 5: Thử nghiệm mô hình BG được đề xuất trên tập dữ liệu kiểm định
Tập dữ liệu TP TN FP F
Bảng 3 6: So sánh hiệu quả dựa trên tham số AUC của mô hình đề xuất trong đề án với các công trình nghiên cứu khác
Tập dữ liệu sNIP SeptiCyteLa b Đề án
Bảng 3.6 thể hiện sự so sánh về các giá trị AUC giữa đề xuất trong đề án bao gồm thuật toán BG và 15 gene: IL1R2, TLR5, KLRF1, LRRN3, HLA-DMA, G6PD, CCRL2, CD3E, CEACAM8, LCN2, MERTK, TXK, CLEC5A, TANK, CCR6 với 2 nghiên cứu khác trong nghiên cứu [17] và [18] Rõ ràng, hiệu quả của mô hình đề xuất của đề án vượt trội hơn các mô hình khác.
Kết luận chương
Trong chương này, đề án đã mô phỏng, thử nghiệm và đánh giá mô hình thuật toán được đề xuất để chẩn đoán nhiễm trùng máu Do bệnh nhân nhiễm trùng máu có hệ thống miễn dịch bị rối loạn nghiêm trọng nên 608 gene IRG trong 11 bộ dữ liệu gene được coi là gene tiềm năm để phân tích biểu hiện gene khác biệt. Phương pháp phân tích biểu hiện gene khác biệt và thuật toán BS để tính mức độ quan trọng của từng loại gene đã được áp dụng trong chương này Bằng cách sử dụng 3 mô hình học máy (BG, KNN, BS) kết hợp với quy trình xác thực chéo để tìm ra 3 tổ hợp gene hiệu quả và tối ưu nhất cho chẩn đoán bệnh nhiễm trùng máu.
Từ kết quả mô phỏng trong chương này, một mô hình thuật toán được đề xuất bao gồm một bộ phân loại BG và 15 gene được lựa chọn từ 23521 gene ở nền tảng geneAffy U133 Plus 2.0, 19040 gene ở nền tảng Affy U219 và 17028 gene ở nền tangAgilentV2 Bên cạnh đó để đánh giá chính xác hiệu suất của mô hình, thì chương này đã trình bày so sánh hiệu suất của mô hình trên tập dữ liệu kiểm định với các công bố khác Các kết quả đã xác định rằng tổ hợp 15 gene và mô hình phân loại
BG có hiệu quả chẩn đoán chính xác cao và đáng tin cậy có thể làm cơ sở cho các nghiên cứu sinh học và xét nghiệm chẩn đoán lâm sàng được ứng dụng trong nền tảng IoMT.