ĐẠI HỌC Y DƯỢC THÀNH PHỐ HỒ CHÍ MINHCHƯƠNG TRÌNH KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞBÁO CÁO TỔNG HỢPKẾT QUẢ NHIỆM VỤ NGHIÊN CỨU KHOA HỌC VÀ CÔNG NGHỆXÂY DỰNG MÔ HÌNH HỌC MÁY DỰ ĐOÁNVI KHUẨN
TỔNG QUAN Y VĂN
ĐỀ KHÁNG KHÁNG SINH VÀ SỬ DỤNG KHÁNG SINH
Theo Tổ chức Y tế Thế giới (WHO), vấn đề đề kháng kháng sinh (AMR) hiện đang ở mức báo động và trở thành một vấn đề cấp bách của ngành y tế trên toàn thế giới trong thập kỷ qua Ứớc tính có ít nhất 1,27 triệu ca tử vong mỗi năm do AMR, cao hơn tỷ lệ tử vong do HIV/AIDS hoặc sốt rét trên toàn thế giới
[3] Theo báo cáo của Tổ chức Y tế Thế giới (WHO), số ca tử vong ước tính do AMR sẽ vượt quá 10 triệu mỗi năm vào năm 2050 [4]. Ở các quốc gia có thu nhập thấp đến trung bình (LMIC), đã có báo cáo về tỷ lệ AMR cao Việt Nam được WHO xếp vào danh sách các nước có tỉ lệ đề kháng kháng sinh ở mức cao trên thế giới, đặc biệt là trực khuẩn Gram âm kháng carbapenem Nhiễm khuẩn bệnh viện do tác nhân đa kháng thuốc (multidrug resistance, MDR) có liên quan đến tỉ lệ tử vong cao và tăng chi phí điều trị [5,6].
1.1.2 Tình hình sử dụng kháng sinh
Một trong những yếu tố dẫn đến AMR đó là việc sử dụng kháng sinh không hợp lý Tỉ lệ sử dụng kháng sinh không hợp lý được báo cáo lên đến 25% các trường hợp dẫn đến không những làm tăng nguy cơ bệnh nhân gặp các phản ứng có hại của thuốc mà còn góp phần phát triển đề kháng kháng sinh, tăng tỉ lệ tử vong [7,8].
GIẢI PHÁP CẢI THIỆN TÌNH TRẠNG ĐỀ KHÁNG
Giải pháp hiện nay để đối phó AMR liên quan đến việc phát triển các loại kháng sinh mới nhưng cần tốn nhiều thời gian và tốn kém chi phí Một giải pháp khác là thực hiện chương trình quản lý sử dụng kháng sinh, đây là một chương trình phức tạp gồm nhiều bên liên quan, thúc đẩy việc kê đơn kháng sinh phù hợp Theo Trung tâm Kiểm soát và Phòng ngừa Dịch bệnh (CDC), cải thiện việc kê đơn kháng sinh thông qua chương trình quản lý kháng sinh là hành động quan trọng nhất để chống lại AMR [9] Tuy nhiên, một trong những thách thức chính đối với tính phù hợp của việc sử dụng kháng sinh là kê đơn theo kinh nghiệm, trong đó kháng sinh được kê đơn trước khi biết rõ mầm bệnh cụ thể và tính nhạy cảm cua mầm bệnh đó với kháng sinh Thực tiễn hiện nay cho thấy việc lựa chọn kháng sinh theo kinh nghiệm là dựa trên cơ sở tham khảo các khuyến cáo sử dụng kháng sinh của bệnh viện tại địa phương; các khuyến cáo này được xây dựng thông qua ý kiến chuyên gia trong lĩnh vực cũng như kết quả của phòng vi sinh tại cơ sở điều trị [10,11] Dù vậy, phương pháp này có thể bỏ qua những đặc điểm của bệnh nhân có thể hữu ích trong việc gợi ý điều trị phù hợp.
1.2.2 Co sở cho giải pháp tiềm năng
Từ quan điểm lâm sàng, việc sàng lọc sớm đề kháng thuốc trước khi có kết quả định danh và độ nhạy cảm giúp kịp thời thực hiện những hành động để kiểm soát nhiễm khuẩn hiệu quả như dùng kháng sinh ban đầu phù hợp hay thực hiện sớm việc cách ly người bệnh Các nghiên cứu về sử dụng kháng sinh cho thấy nếu kháng sinh kinh nghiệm phù hợp được khởi trị càng sớm thì tử lệ tử vong càng thấp, đặc biệt trong bệnh cảnh nhiễm khuẩn huyết hay sốc nhiễm khuẩn [12,13] Do đó, hiện tại, nhiều cơ sở y tế tập trung nỗ lực vào vấn đề phát hiện sớm nhiễm khuẩn nặng, bao gồm ổ nhiễm khuẩn, tác nhân nghi ngờ và nhạy cảm kháng sinh để lựa chọn sớm kháng sinh hiệu quả Tuy nhiên, cho đến nay, việc lựa chọn kháng sinh điều trị theo kinh nghiệm giai đoạn ban đầu chỉ dựa trên các hướng dẫn khuyến cáo thực hành lâm sàng và kinh nghiệm lâm sàng của bác sĩ điều trị Nhiều kỹ thuật sinh học phân tử hiện đại giúp phân loại kiểu đề kháng dựa trên giải trình tự bộ gen phức tạp, tốn kém và không phổ biến.
Tại Việt Nam, các phòng xét nghiệm vi sinh thường sử dụng phương pháp vi sinh truyền thống là nuôi cấy, định danh và làm kháng sinh đồ Mặc dù có sự cải tiến của quy trình xét nghiệm vi sinh nhưng trong đa số trường hợp vẫn cần ít nhất 24-48 giờ đến khi có kết quả nuôi cấy và tương tự 24-48 giờ cho kết quả định danh vi khuẩn cũng như kháng sinh đồ để hướng dẫn dùng kháng sinh điều trị trúng đích.
ỨNG DỤNG MÔ HÌNH HỌC MÁY TRONG HỖ TRỢ LỰA CHỌN KHÁNG SINH KINH NGHIỆM
1.3.1 Ứng dụng học máy trong dự đoán kháng sinh hiệu quả
Trí tuệ nhân tạo (AI) đang cách mạng hóa ngành chăm sóc sức khỏe bằng cách cải thiện kết quả điều trị và giảm chi phí Kỹ thuật học máy (ML), một nhánh của AI, cho phép các hệ thống "học" tự động từ dữ liệu, cho phép đưa ra quyết định chính xác hơn Trong y tế, ML hỗ trợ sàng lọc và ra quyết định lâm sàng, bao gồm cả việc kê đơn thuốc kháng sinh kinh nghiệm.
Nhiều nghiên cứu đã báo cáo về việc sử dụng các phương pháp tiếp cận dựa trên dữ liệu để hỗ trợ trong việc đề nghị kháng sinh kinh nghiệm dựa trên cá thể [14–17] Những nghiên cứu này đã cho thấy việc lựa chọn kháng sinh được tạo ra từ mô hình ML có giám sát có thể nâng cao hiệu quả của kháng sinh điều trị đồng thời giảm mức độ ảnh hưởng của AMR [1,17–19] Các thuật toán học máy này sử dụng một lượng lớn dữ liệu bệnh nhân có trong hệ thống thông tin bệnh án của bệnh viện và phòng xét nghiệm vi sinh nhằm dự đoán đề kháng kháng sinh dựa trên một số yếu tố như vị trí nhiễm khuẩn, loại mẫu cấy vi sinh,kết quả nhuộm Gram và thông tin nhạy cảm kháng sinh trước đó cũng như các đặc điểm của người bệnh (độ tuổi, giới tính, cân nặng, chiều cao, chẩn đoán, bệnh đồng mắc) để dự đoán tính nhạy cảm với kháng sinh một cách tiết kiệm thời gian và chi phí.
1.3.2 Công cụ xây dựng mô hình học máy
Thư viện phần mềm học máy miễn phí Scikit-learn, dành riêng cho Python, hỗ trợ xây dựng các mô hình học máy bằng giao diện nhất quán, chú trọng đơn giản hóa, hiệu suất và tính nhất quán, giúp dễ dàng so sánh các phương pháp khác nhau Vì dựa trên Python, Scikit-learn dễ dàng tích hợp vào các ứng dụng ngoài phạm vi phân tích dữ liệu thống kê truyền thống.
1.3.3 Điểm hạn chế của nghiên cứu liên quan
Các nghiên cứu nước ngoài trước đây sử dụng các thông tin cơ bản như tuổi, giới tính, mẫu bệnh phẩm, kết quả nhuộm Gram và kháng sinh sử dụng để dự đoán khả năng đề kháng kháng sinh Độ chính xác của các mô hình này vào khoảng 67,8-72,6% [1,2] Tuy nhiên, hầu hết các nghiên cứu này được thực hiện ở các nước có thu nhập cao, nơi tỷ lệ AMR thấp so với LMIC. Ngoài ra, một số yếu tố dự đoán kháng thuốc tiềm năng đối với thuật toán
ML đã được báo cáo trong các nghiên cứu trước đây, chẳng hạn như nhuộmGram, lại có thể không trích xuất được ỡ những nước LMIC Hơn nữa, các nghiên cứu này cũng có một hoặc nhiều hạn chế sau: (a) Tập trung vào một loại nhiễm khuẩn duy nhất, (b) Chỉ sử dụng 2 hoặc 3 mô hình ML có chọn lọc và (c) Sử dụng các công cụ dự đoán và phương pháp học máy tương tự nhau Ngoài ra, việc phát triển các thuật toán ML để dự đoán các tác nhân gây bệnh ở những khu vực có tỷ lệ AMR kháng thuốc cao chưa được nghiên cứu nhiều; chất lượng của mỗi mô hình học máy phụ thuộc vào tính đại diện và chất lượng của dữ liệu.
ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU
ĐỊA ĐIỂM NGHIÊN CỨU
Nghiên cứu này tiến hành ứng dụng các thuật toán Trí tuệ nhân tạo (ML) để hỗ trợ bác sĩ đưa ra phác đồ kê đơn kháng sinh hợp lý dựa trên dữ liệu trích xuất từ hồ sơ bệnh án điện tử của những bệnh nhân nhập viện nghi ngờ nhiễm khuẩn đang điều trị tại Bệnh viện Đại học Y Dược TPHCM - một bệnh viện hạng đặc biệt với quy mô 1.000 giường bệnh và tiếp nhận hơn 55.000 lượt bệnh nhân nội trú mỗi năm.
ĐỐI TƯỢNG NGHIÊN CỨU
Tất cả các kết quả xét nghiệm vi sinh và kháng sinh đồ từ 01/2017 đến 03/2021 từ mẫu bệnh phẩm của bệnh nhân điều trị nội trú tại bệnh viện Đại học Y Dược TP.HCM.
Mẫu xét nghiệm thiếu một trong các thông tin sau: thông tin về đặc điểm bệnh nhân (giới tính, tuổi, chẩn đoán, bệnh kèm).
PHƯƠNG PHÁP NGHIÊN CỨU
2.3.1 Cấu trúc mô hình ML
Phương pháp ML được sử dụng để xây dựng:
+ Mô hình ML giúp dự đoán vi khuẩn gây bệnh dựa vào đặc điểm của bệnh nhân và tình trạng bệnh.
+ Mô hình ML giúp dự đoán khả năng đề kháng của vi khuẩn gây bệnh với các kháng sinh liên quan dựa vào đặc điểm của bệnh nhân, tình trạng bệnh và tên vi khuẩn được dự đoán ở mô hình trước.
Một mô hình ML gồm có các đặc điểm sau:
1) Mô hình phân tích: cách thức để xây dựng một mô hình bằng các thuật toàn thống kê (ví dụ: Logistic Regression, k-Nearest Neighbors,…).
2) Biến dự đoán (predictor): một mô hình ML có thể có một hoặc nhiều biến dự đoán Các biến này góp phần dự đoán kết quả cuối cùng từ mô hình ML.
3) Biến kết quả (outcome): là kết quả thu được từ các biến dự đoán.
2.3.2 Các biến sử dụng trong mô hình ML
2.3.2.1 Cơ sở lựa chọn biến
Nhận biết sự khác biệt trong tình hình kháng thuốc kháng sinh tại Việt Nam so với các nghiên cứu nước ngoài, nhóm nghiên cứu đã xây dựng một mô hình học máy phù hợp với đặc thù của Việt Nam Mô hình này được bổ sung thêm các yếu tố dự đoán như tần suất nhập viện, tiền sử sử dụng kháng sinh, chẩn đoán và các bệnh đi kèm để tăng độ chính xác Độ tin cậy của mô hình học máy phụ thuộc vào số lượng quan sát của mỗi giá trị có trong biến dự đoán và kết quả Do đó, để tăng tính khả thi, vi khuẩn phân lập từ các mẫu bệnh phẩm được chia thành 5 nhóm: Acinetobacter spp (nhóm 1), Enterobacteriaceae (nhóm 2), nhóm Gram âm không lên men (nhóm 3), tụ cầu (nhóm 4) và vi khuẩn Gram dương khác (nhóm 5).
2 - Escherichia coli, nhóm 3 - Klebsiella spp., nhóm 4 - Staphylococcus spp., nhóm 5 - Pseudomonas aeruginosa Đây là 5 nhóm vi khuẩn thường gặp trong bệnh lý nhiễm khuẩn cũng như được báo cáo liên quan đến tình trạng đề kháng kháng sinh [1,17–19].
2.3.2.2 Biến dự đoán và biến kết quả
Có 24 biến dự đoán từ dữ liệu thu thập Tuy nhiên, dựa trên thảo luận với các dược sĩ lâm sàng tại BVĐHYD TPHCM và nghiên cứu trước đó [14–17], 9 và
10 biến dự đoán lần lượt được chọn để dự đoán các nhóm vi khuẩn và độ nhạy cảm với kháng sinh Danh sách các biến số được trình bày tại Bảng 2.1.
Các biến dự đoán của các mô hình học máy gồm có: tuổi, giới tính, mẫu bệnh phẩm, nơi lưu trú, số lần nhập viện, có nhập viện trước đó trong vòng 1 năm, chẩn đoán loại nhiễm khuẩn, bệnh kèm (gồm 10 loại), nhóm vi khuẩn (chỉ đưa vào trong mô hình dự đoán đề kháng) và kháng sinh sử dụng trong kháng sinh đồ ứng với tên vi khuẩn.
Các biến kết quả của các mô hình học máy gồm có: nhóm vi khuẩn (trong mô hình dự đoán vi khuẩn), khả năng đề kháng (trong mô hình dự đoán đề kháng/ nhạy cảm với kháng sinh) Về dự đoán độ nhạy cảm với kháng sinh, biến kết quả là biến nhị phân gồm kháng (R) hoặc nhạy cảm (S) được xác định cho 07 loại kháng sinh quan tâm (amikacin, cefoxitin, ceftazidime, levofloxacin, meropenem, piperacillin/tazobactam, vancomycin).
Bảng 2.1 Định nghĩa biến sử dụng trong mô hình học máy
Biến Loại Định nghĩa Mô hình
Tính bằng năm Dự đoán nhóm vi khuẩn; dự đoán đề kháng kháng sinh Giới tính Biến nhị phân
Nam/ nữ Dự đoán nhóm vi khuẩn; dự đoán đề kháng kháng sinh Nơi lưu trú Biến định danh
Tên tỉnh/ thành phố Dự đoán nhóm vi khuẩn; dự đoán đề kháng kháng sinh Mẫu bệnh phẩm
Bao gồm các loại mẫu sau:
Dự đoán nhóm vi khuẩn; dự đoán đề kháng kháng sinh
- Dịch các loại (như dịch não tủy)
- Mủ các loại (mủ vết mổ) Chẩn đoán Biến định danh
Bao gồm chẩn đoán liên quan đến nhiễm khuẩn như sau:
- Nhiễm khuẩn tiết niệu/ sinh dục
- Nhiễm khuẩn da, mô mềm
Dự đoán nhóm vi khuẩn; dự đoán đề kháng kháng sinh
Khoa điều trị mà bệnh nhân được lấy mẫu
Dự đoán nhóm vi khuẩn; dự đoán đề kháng kháng sinh Nhập viện trước đó trong vòng
Bệnh nhân có nhập viện trước đây trong vòng 1 năm kể từ lần nhập viện hiện tại
Dự đoán nhóm vi khuẩn; dự đoán đề kháng kháng sinh
Biến rời rạc Được xác định bằng các mã nhập viện có chung mã bệnh nhân
Dự đoán nhóm vi khuẩn; dự đoán đề kháng kháng sinh
Bệnh kèm Biến nhị phân
Bệnh nhân có các loại bệnh kèm sau hay không (10 biến nhị phân):
- Đái tháo đường (có/không)
- Bệnh phổi mãn tính (có/không)
- Suy giảm miễn dịch (kể cả dùng thuốc ức chế miễn dịch) (có/không)
- Có mang thiết bị y tế xâm lấn (có/không)
- Bệnh nhiễm khuẩn khác (có/không)
- Bệnh kèm khác (có/không)
Dự đoán nhóm vi khuẩn; dự đoán đề kháng kháng sinh
Gồm các nhóm vi khuẩn sau:
Nhóm 1 - Acinetobacter spp., Nhóm 2 - Escherichia coli, Nhóm 3 - Klebsiella spp., Nhóm
Dự đoán nhóm vi khuẩn (biến kết quả)
Dự đoán đề kháng kháng sinh (biến dự đoán)
Bao gồm các kháng sinh sau:
Amikacin, cefoxitin, ceftazidime, levofloxacin, meropenem, piperacillin/tazobactam, vancomycin
Dự đoán đề kháng kháng sinh (phân loại)
Nhạy cảm (S) hoặc đề kháng (I và R)
Dự đoán đề kháng kháng sinh (biến kết quả)
2.3.3 Phương pháp làm sạch dữ liệu
2.3.3.1 Dự đoán nhóm vi khuẩn
Thuật toán StratifiedShuffleSplit được sử dụng để phân chia ngẫu nhiên dữ liệu của từng nhóm vi khuẩn thành 80% làm tập huấn luyện và 20% tập kiểm tra tương ứng (Bảng 2.2).
Bảng 2.2 Phân chia tập huấn luyện và tập kiểm tra bằng phương pháp điều chỉnh mẫu trong xây dựng mô hình dự đoán nhóm vi khuẩn
Tập huấn luyện (sau phương pháp giảm mẫu),
Sau đó, phương pháp giảm mẫu (undersampling technique) theo tỷ lệ được áp dụng cho các tập dữ liệu huấn luyện nhằm làm cân bằng dữ liệu Kỹ thuật này được sử dụng để giảm ảnh hưởng của các nhóm đa số dựa trên số lượng của nhóm thiểu số (tức là nhóm vi khuẩn có số lượng quan sát tối thiểu) nhằm làm giảm sai lệch do chênh lệch tỷ lệ lớn Kỹ thuật này sử dụng công thức sau: trong đó xi là số lượng quan sát từ nhóm đa số thứ i; xmin là số lượng quan sát từ nhóm thiểu số; xri là tỷ lệ giảm mẫu; và % lấy mẫu dưới là phần trăm giảm quan sát từ nhóm đa số thứ i dựa trên sự khác biệt giữa nhóm đa số thứ i và nhóm thiểu số Các quan sát sau đó được loại bỏ ngẫu nhiên khỏi mỗi nhóm đa số để đạt được % mẫu giảm (Bảng 2.2).
2.3.3.2 Dự đoán khả năng đề kháng kháng sinh
Thông tin về độ nhạy cảm với kháng sinh được thu thập từ kết quả vi sinh, bao gồm R (kháng, bao gồm nhạy cảm trung gian) hoặc S (nhạy cảm) đối với các loại kháng sinh quan tâm Tuy nhiên trong nghiên cứu này, đối với mỗi nhóm vi khuẩn, độ nhạy cảm với kháng sinh chỉ được xét cho 07 loại kháng sinh phổ biến (amikacin, cefoxitin, ceftazidime, levofloxacin, meropenem, piperacillin/tazobactam, vancomycin) dựa trên hướng dẫn tại BVĐHYD TPHCM Do có sự không đồng đều về số lượng quan sát trong từng loại kháng sinh, nhóm nghiên cứu phân chia thành 07 nhóm kháng sinh và xây dựng mô hình ML theo từng nhóm Tập dữ liệu phân tích được chia ngẫu nhiên thành hai tập: 80% để huấn luyện và 20% để kiểm tra.
Ngoài ra, do tỷ lệ AMR cao, chúng tôi đã cân nhắc sự mất cân bằng giữa tỷ lệ kháng thuốc và nhạy cảm vào kế hoạch phân tích (các mẫu vi khuẩn kháng thuốc nhiều hơn những mẫu vi khuẩn nhạy cảm với kháng sinh được thử nghiệm) Do đó, phương pháp điều chỉnh mẫu (resampling technique) đã được tiến hành để giải quyết những vấn đề này Dữ liệu được xử lý trước bằng phương pháp giảm mẫu ngẫu nhiên trên mẫu vi khuẩn kháng kháng sinh (undersampling) hoặc phương pháp tăng mẫu ngẫu nhiên trên mẫu vi khuẩn còn nhạy cảm với kháng sinh (oversampling) trước giai đoạn phân tích tập huấn luyện Hai phương pháp này được thực hiện nhằm cân bằng lại mẫu đề kháng/ nhạy cảm nhằm cải thiện hiệu suất của mô hình ML phân loại.
2.3.4 Phương pháp phân tích số liệu
2.3.4.1 Dự đoán nhóm vi khuẩn
Phương pháp phân loại nhị phân nhiều bậc (multiple binary classification) với thuật toán XGBoost được sử dụng để dự đoán các nhóm vi khuẩn Theo phương pháp này, thuật toán XGBoost đã được xây dựng để phân loại nhị phân giữa từng mỗi nhóm vi khuẩn và bốn nhóm còn lại nhằm xác định một mô hình đầu tiên có độ chính xác cao nhất (mô hình 0) Sau đó, các cấu trúc cây (tree structure) khả dĩ của bốn nhóm vi khuẩn còn lại được thiết lập dựa trên mô hình
0 (Hình 2.1) và thuật toán XGBoost đã được xây dựng để xác định cấu trúc cây với độ chính xác cao nhất (mô hình 1 đến mô hình 3) Các tiêu chí đánh giá bao gồm độ chính xác và giá trị F1 được sử dụng để đánh giá và chọn ra mô hình có thông số tốt nhất (mô hình 0 ~ mô hình 3) Dựa vào các nghiên cứu đã công bố trước đây [14–17], độ chính xác và giá trị F1 được xem là tốt khi kết quả dự đoán đúng từ 70% trở lên với tập kiểm tra.
Hình 2.1 Các cấu trúc cây khả dĩ với 4 nhóm vi khuẩn 2.3.4.2 Dự đoán độ nhạy cảm với kháng sinh
Năm thuật toán ML khác nhau, bao gồm: Hồi quy logistic (Logistic Regression - LR), Máy vectơ hỗ trợ (Support Vector Machine - SVM), Cây quyết định (Decision Tree - DT), Random forest (Random Forest - RF) và XGBoost (eXtreme Gradient Boosting), được sử dụng để dự đoán độ nhạy cảm với kháng sinh của năm nhóm vi khuẩn Các mô hình này được lựa chọn dựa vào độ chính xác cao báo cáo từ các nghiên cứu trước đây [1,17–19] Sau khi được xử lý bằng phương pháp điều chỉnh mẫu, các thuật toán LR, DT, RF, SVM và XGBoost được xây dựng lần lượt cho mỗi loại kháng sinh quan tâm ở từng nhóm vi khuẩn.
Y ĐỨC VÀ BẢO MẬT THÔNG TIN
Nghiên cứu này đã được Ủy ban đạo đức nghiên cứu tại Bệnh viện Đại học Y Dược TP.HCM phê duyệt (Số phê duyệt REC: 34/GCN-HDDD) Toàn bộ thông tin của bệnh nhân tham gia nghiên cứu sẽ được mã hóa để đảm bảo tính bảo mật thông tin cá nhân Các thành viên nhóm nghiên cứu cam kết bảo mật thông tin và dữ liệu nghiên cứu.
KẾT QUẢ
ĐẶC ĐIỂM DÂN SỐ NGHIÊN CỨU
Tổng cộng có 14.632 quan sát thỏa tiêu chuẩn chọn mẫu (từ 12.740 bệnh nhân) đã được ghi nhận trong thời gian nghiên cứu Một nửa số bệnh nhân (50,8%) là nữ Nhiễm khuẩn đường tiết niệu và nhiễm khuẩn đường hô hấp là hai bệnh nhiễm khuẩn phổ biến nhất được ghi nhận, chiếm tỷ lệ lần lượt là 24,5% và 21,4% Trong số những lần bệnh nhân nhập viện, 31.704 mẫu bệnh phẩm đã được thu thập và tiếp hành cấy vi sinh Trong số các vi khuẩn được phân lập, Klebsiella spp là tác nhân gây bệnh phổ biến nhất (30,9%), tiếp theo là Escherichia coli (28,9%) và Staphylococcus spp (21,2%) Bảng 3.1 trình bày các đặc điểm của dân số nghiên cứu.
Bảng 3.1 Đặc điểm của đối tượng nghiên cứu Đặc điểm dân số N (%)
Nhiễm khuẩn tiết niệu/ sinh dục
Nhiễm khuẩn da, mô mềm
Mẫu bệnh phẩm cấy vi sinh (N1.704)
Kết quả xét nghiệm độ nhạy cảm với kháng sinh của các vi khuẩn được xác định được trình bày trong Hình 3.1 Tỷ số giữa đề kháng và nhạy cảm (tỷ sốR/S) của các vi khuẩn với 07 loại kháng sinh được khảo sát dao động từ 5,88(trong trường hợp của meropenem) đến 7,86 (trong trường hợp của vancomycin) Trong số 5 nhóm vi khuẩn, tỷ số giữa đề kháng và nhạy cảm dao động từ 2,74 (trong trường hợp meropenem thuộc nhóm 5 - Pseudomonas aeruginosa) đến 143,67 (trong trường hợp cefoxitin thuộc nhóm 1 -Acinetobacter spp.).
Hình 3.1 Mức độ nhạy cảm kháng thuốc của 5 nhóm vi khuẩn với 7 loại kháng sinh
DỰ ĐOÁN NHÓM VI KHUẨN
Nhóm nghiên cứu đã xây dựng 05 mô hình 0 từ thuật toán XGBoost để phân loại nhị phân giữa mỗi nhóm vi khuẩn và bốn nhóm còn lại Bảng 3.2 trình bày độ chính xác và giá trị F1 của các mô hình với tập kiểm tra.
Bảng 3.2 Độ chính xác và giá trị F1 của các mô hình phân loại nhị phân các nhóm vi khuẩn
Mô hình 0 (XGBoost) Độ chính xác tập huấn luận Độ chính xác tập kiểm tra
Giá trị F1 tập kiểm tra
Nhóm 1 vs các nhóm khác 99,4% 97,8% 91,5%
Nhóm 2 vs các nhóm khác 98,4% 92,4% 90,7%
Nhóm 3 vs các nhóm khác 98,3% 91,8% 90,0%
Nhóm 4 vs các nhóm khác 99,0% 95,6% 93,3%
Nhóm 5 vs các nhóm khác 99,6% 97,9% 94,7%
Mô hình 0 phân loại vi khuẩn nhóm 5 và bốn nhóm còn lại cho thấy độ chính xác và giá trị F1 cao nhất (lần lượt là 97,9% và 94,7%); vì vậy, 04 nhóm vi khuẩn còn lại (từ nhóm 1 đến nhóm 4) sau đó được phân tích để lựa chọn cấu trúc cây tối ưu nhất từ 06 loại cấu trúc cây khả dĩ (Hình 2.1).
Trong số 144 cấu trúc cây khả thi từ bốn nhóm vi khuẩn, cấu trúc cây 3421:111 đạt độ chính xác và giá trị F1 cao nhất, lần lượt là 78,8% và 95,1% Các thông số đánh giá cho cả 144 cấu trúc cây khả thi được cung cấp trong Phụ lục 3 Độ chính xác và giá trị F1 của bốn mô hình cuối cùng (mô hình 0 đến mô hình 3) cùng cấu trúc cây cuối cùng 3421:111 được trình bày chi tiết trong bài viết.
Hình 3.2 Cấu trúc cây cuối cùng với độ chính xác cao nhất và điểm F1 sử dụng thuật toán XGBoost
Bảng 3.3 Kết quả cấu trúc cây cuối cùng 3421:111
Mô hình (XGBoost) Độ chính xác tập huấn luận Độ chính xác tập kiểm tra
Giá trị F1 tập kiểm tra
Mô hình 0: nhóm 5 vs 04 nhóm còn lại
Mô hình 1: nhóm 1 vs 03 nhóm còn lại
Mô hình 2: nhóm 2 vs 02 nhóm còn lại
Mô hình 3: nhóm 3 vs nhóm 4
99,8% 90,7% 92,3% Độ chính xác tổng thể 78,8%
Mức độ đóng góp ý nghĩa của các biến dự đoán bốn mô hình XGBoost dự đoán nhóm vi khuẩn được trình bày trong Hình 3.4 Hai biến dự đoán đóng góp nhiều nhất về mức độ ảnh hưởng đối với bốn mô hình XGBoost này bao gồm số lần nhập viện và nơi lưu trú Trong đó, mô hình 0 phân biệt nhóm 5 và 04 nhóm còn lại ghi nhận mức độ ảnh hưởng của số lần nhập viện và nơi lưu trú cao nhất, nhiều hơn 20%; mô hình 1 phân biệt nhóm 1 và 03 nhóm còn lại có mức độ ảnh hưởng của nơi lưu trú, số lần nhập viện, khoa điều trị cao nhất khi có giá trị xấp xỉ 20%; mô hình 2 phân biệt nhóm 2 và 02 nhóm còn lại có mức độ ảnh hưởng của nơi lưu trú cao nhất khi giá trị nhiều hơn 20%, vượt trội hơn các biến còn lại từ 10% trở lên; mô hình 3 phân biệt nhóm 3 và nhóm 4 có mức độ ảnh hưởng của số lần nhập viện và nơi lưu trú cao nhất, nhiều hơn 20%.
Hình 3.3 Tầm quan trọng của các yếu tố dự đoán trong bốn thuật toán
XGBoost dự đoán 5 nhóm vi khuẩn (A) Mô hình 0 dự đoán nhóm 5 với 4 nhóm còn lại; (B) Mô hình 1 dự đoán nhóm 1 với 3 nhóm còn lại (C) Mô hình 2 dự đoán nhóm 2 với 2 nhóm còn lại; (D) Mô hình 3 dự đoán nhóm 3 với nhóm 4
DỰ ĐOÁN KHẢ NĂNG ĐỀ KHÁNG KHÁNG SINH
Có tổng cộng 35 cặp nhóm vi khuẩn – kháng sinh từ 05 nhóm vi khuẩn và
07 loại kháng sinh khảo sát Đặc điểm mẫu và tỷ lệ đề kháng-nhạy cảm theo
Để phân tích sâu hơn bằng thuật toán ML, 7 loại kháng sinh và 5 nhóm vi khuẩn được khảo sát đã được chia thành các cặp nhóm Do có một số kháng sinh kháng tự nhiên với một số loại vi khuẩn, 27/35 cặp nhóm đã được xử lý bằng phương pháp lấy mẫu lại dữ liệu, chia thành tập huấn luyện và kiểm tra (có 8 cặp nhóm bị loại trừ) Phương pháp giảm mẫu không áp dụng cho 7 cặp nhóm do thiếu dữ liệu Cuối cùng, chỉ có 27 cặp nhóm được tăng mẫu và 20 cặp được giảm mẫu trước khi phân tích sâu hơn.
Bảng 3.4 Đặc điểm mẫu vi sinh từ bảy loại kháng sinh khảo sát và năm nhóm vi khuẩn
Nhóm vi khuẩn Kháng sinh N Tỷ lệ
Tập huấn luyện Giảm mẫu,
Vancomycin NA NA NA NA NA
Vancomycin NA NA NA NA NA
Vancomycin NA NA NA NA NA
Ceftazidime NA NA NA NA NA
Meropenem NA NA NA NA NA Piperacillin/ tazobactam NA NA NA NA NA
Cefoxitin NA NA NA NA NA
Vancomycin NA NA NA NA NA
NA: Không áp dụng Độ chính xác, AUROC, giá trị sau cross-validation của tập kiểm tra được trình bày chi tiết trong Phụ lục 3, 4 và 5 Trong số năm thuật toán ML khác nhau, XGBoost với phương pháp tăng mẫu đạt độ chính xác trên tập kiểm tra cao nhất (dao động từ 0,683 đến 0,993) trên 26/27 cặp nhóm vi khuẩn – kháng sinh, ngoại trừ cặp nhóm vi khuẩn 1 - meropenem có độ chính xác cao nhất là 0,992 đối với mô hình SVM bằng phương pháp tăng mẫu (Phụ lục 3).
Các thuật toán ML kết hợp với các phương pháp điều chỉnh mẫu mà có giá trị AUROC cao nhất được trình bày trong Error! Reference source not found Hầu hết các thuật toán ML có giá trị AUROC cao nhất đều được kết hợp với phương pháp tăng mẫu, ngoại trừ các mô hình ML liên quan đến cefoxitin và levofloxacin trong Nhóm vi khuẩn 4 Ba giá trị AUROC lớn nhất bao gồm 0,806 (thuật toán DT với kỹ thuật tăng mẫu trong cặp piperacillin/tazobactam- nhóm vi khuẩn 1), 0,781 (thuật toán RF với kỹ thuật tăng mẫu vancomycin- nhóm vi khuẩn 4) và 0,729 (thuật toán DT với kỹ thuật tăng mẫu trong ceftazidime-nhóm vi khuẩn 1).
Mức độ đóng góp ý nghĩa của các biến dự đoán trong ba thuật toán có giá trịAUROC lớn nhất được trình bày trong Hình 3.4 Các biến dự đoán đóng góp vào hơn 20% về mức độ ảnh hưởng đối với các thuật toán này bao gồm tuổi của bệnh nhân, nơi lưu trú, khoa điều trị và mẫu bệnh phẩm.
Bảng 3.5 Thuật toán ML có giá trị AUROC lớn nhất
Kháng sinh Thuật toán ML
Phương pháp điều chỉnh mẫu
Giá trị AUROC Tỷ lệ R/S
Amikacin XGBoost Tăng mẫu 0,625 > 1:100 Cefoxitin SVM, RF,
XGBoost Tăng mẫu 0,500 > 1:100 Ceftazidime DT Tăng mẫu 0,729 > 1:100 Levofloxacin LR Tăng mẫu 0,526 > 1:100 Meropenem SVM Tăng mẫu 0,497 > 1:100 Piperacillin/ tazobactam DT Tăng mẫu 0,806 > 1:100
Cefoxitin LR Tăng mẫu 0,589 < 1:50 Ceftazidime LR Tăng mẫu 0,571 < 1:50 Levofloxacin LR Tăng mẫu 0,593 < 1:50 Meropenem RF Tăng mẫu 0,575 < 1:50 Piperacillin/ tazobactam LR Tăng mẫu 0,596 < 1:50
Cefoxitin RF Tăng mẫu 0,651 < 1:50 Ceftazidime RF Tăng mẫu 0,652 < 1:50 Levofloxacin RF Tăng mẫu 0,652 < 1:50 Meropenem RF Tăng mẫu 0,659 < 1:50 Piperacillin/ tazobactam RF Tăng mẫu 0,640 < 1:50 Nhóm vi khuẩn
Amikacin DT Tăng mẫu 0,523 1:50 - 1:100 Cefoxitin RF Giảm mẫu 0,603 1:50 - 1:100 Levofloxacin LR Giảm mẫu 0,560 1:50 - 1:100 Vancomycin RF Tăng mẫu 0,781 1:50 - 1:100
Amikacin XGBoost Tăng mẫu 0,635 < 1:50 Ceftazidime RF Tăng mẫu 0,615 < 1:50 Levofloxacin XGBoost Tăng mẫu 0,641 < 1:50 Meropenem DT Tăng mẫu 0,640 < 1:50 Piperacillin/ tazobactam RF Tăng mẫu 0,637 < 1:50
LR, Logistic Regression; SVM, Support Vector Machine; DT, Decision Tree;
RF, Random Forest; XGBoost, eXtreme Gradient Boosting
Hình 3.4 Tầm quan trọng của các yếu tố dự đoán trong ba thuật toán có giá trị AUROC lớn nhất (A) Decision Tree bằng phương pháp tăng mẫu cho cặp piperacillin/tazobactam-nhóm vi khuẩn 1 (giá trị AUROC: 0,806) (B) Decision Tree bằng phương pháp tăng mẫu cho cặp ceftazidime - nhóm vi khuẩn 1 (giá trị AUROC: 0,729) (C) Random Forest bằng phương pháp tăng mẫu cho cặp vancomycin- nhóm vi khuẩn 4 (giá trị AUROC: 0,781)
BÀN LUẬN
ĐẶC ĐIỂM DÂN SỐ NGHIÊN CỨU
Đặc điểm dân số nghiên cứu có sự phân bổ đều về giới tính, loại nhiễm khuẩn và mẫu bệnh phẩm Tương tự các nghiên cứu trước, Klebsiella spp và Escherichia coli chiếm khoảng 30% tổng số vi khuẩn, trong khi Pseudomonas aeruginosa chiếm tỷ lệ thấp nhất (7,4%) Tuy nhiên, tỷ lệ đề kháng kháng sinh (R/S) có sự dao động lớn và luôn lớn hơn 1, chỉ ra sự chênh lệch đáng kể giữa vi khuẩn đề kháng và nhạy cảm với kháng sinh trong nghiên cứu Tỷ lệ này cũng tương ứng với các nghiên cứu trước đây, trong đó vi khuẩn đề kháng kháng sinh thường được phân lập nhiều hơn từ các mẫu bệnh phẩm của bệnh nhân trong bệnh viện.
DỰ ĐOÁN NHÓM VI KHUẨN
Thuật toán XGBoost được sử dụng trong việc xây dựng mô hình dự đoán nhóm vi khuẩn gây bệnh do kết quả dự đoán chính xác cao đã được chứng minh trong các nghiên cứu trước đó Mô hình XGBoost tạo ra cấu trúc cây dự đoán nhóm vi khuẩn đạt độ chính xác 78,8% và giá trị F1 là 95,1% Đây là công trình nghiên cứu đầu tiên xây dựng mô hình dự đoán nhóm vi khuẩn gây bệnh, khác với các mô hình ML trước đây chỉ dự đoán khả năng kháng thuốc sau khi xác định được vi khuẩn gây bệnh Nghiên cứu này góp phần gợi ý khu trú tác nhân gây bệnh, hỗ trợ lựa chọn kháng sinh kinh nghiệm ban đầu.
Khi điều trị tình trạng nhiễm khuẩn do vi khuẩn, bác sĩ phải cân bằng giữa lợi ích khi bắt đầu điều trị bằng kháng sinh kinh nghiệm hiệu quả kịp thời với nguy cơ phản ứng bất lợi, biến chứng, khả năng xuất hiện đề kháng và chi phí có thể gia tăng do sử dụng kháng sinh phổ rộng không cần thiết Hiện tại, hệ thống y tế hiện đại có thể lưu giữ và truy cập thông tin từ rất nhiều bệnh nhân; bằng việc tận dụng dữ liệu lớn này, có mô hình ML có thể hỗ trợ gợi ý điều trị theo kinh nghiệm phù hợp, thậm chí cá thể hóa cho từng nhóm đối tượng bệnh nhân. Cách tiếp cận này gần đây đã thu hút được nhiều sự quân tâm và ghi nhận, tiềm năng trở thành một phần của phương pháp điều trị trong tương lai trong lĩnh vực y tế Nhiều nghiên cứu khác nhau đã xác định các yếu tố nguy cơ dẫn đến đề kháng kháng sinh, chẳng hạn như bệnh kèm, nhân khẩu học, phương pháp điều trị kháng sinh trước đó và các đặc điểm khác của bệnh nhân Các nghiên cứu gần đây đã chứng minh khả năng của các thuật toán ML nguồn mở trong việc sử dụng dữ liệu lớn để dự đoán tình trạng kháng kháng sinh ở các cơ sở điều trị khác nhau [23–26,28,29].
DỰ ĐOÁN KHẢ NĂNG ĐỀ KHÁNG KHÁNG SINH
Do có sự mất cân bằng lớn giữa số lượng mẫu vi khuẩn đề kháng so với nhạy cảm cho từng loại kháng sinh, chúng tôi thực hiện hai phương pháp điều chỉnh mẫu để so sánh hiệu quả của kỹ thuật này trong việc cải thiện khả năng dự đoán của các mô hình ML Kết quả cho thấy kỹ thuật tăng mẫu dường như cho kết quả tốt hơn so với kỹ thuật giảm mẫu, tương đồng với công bố của Chowdhury và cộng sự [29] Dù vậy, chỉ có 3/27 cặp nhóm vi khuẩn – kháng sinh có giá trị AUROC từ 0,7 trở lên (Bảng 3.5) Thông qua phân tích mức độ đóng góp ý nghĩa của các biến dự đoán, tuổi của bệnh nhân, nơi lưu trú, khoa điều trị và mẫu bệnh phẩm có mức độ ảnh hưởng từ 20% trở lên Các nghiên cứu trước đây cũng ghi nhận tuổi, khoa điều trị và mẫu bệnh phẩm có liên quan đến việc dự đoán khả năng đề kháng kháng sinh của vi khuẩn [14,16,17,24] Dù vậy, nghiên cứu chúng tôi chưa ghi nhận những biến có khả năng đóng góp mức độ ảnh hưởng cao như kết quả nhuộm Gram, tiền sử sử dụng kháng sinh trước đây
[24] Thực tế, hai biến này khó thu thập trong nghiên cứu của chúng tôi do nhuộm Gram không được thực hiện thường quy; trong khi đó, đặc điểm tiền sử dùng thuốc của mỗi bệnh nhân được ghi nhận theo hồ sơ bệnh án giấy thay vì điện tử, đồng thời đây cũng là thông tin hạn chế ghi nhận thường xuyên cho các bệnh nhân tại cơ sở điều trị Cần có thêm nhiều nghiên cứu liên quan để xác định những biến có khả năng đóng góp quan trọng cho mô hình dự đoán.
HẠN CHẾ CỦA NGHIÊN CỨU
Nghiên cứu của chúng tôi cũng có những hạn chế nhất định Các mẫu chỉ được thu thập tại một bệnh viện nên các thông số về độ chính xác có thể khác nhau khi áp dụng mô hình tại các cơ sở y tế khác Tuy nhiên, sự thiếu khái quát của các ứng dụng ML này xuất phát từ bản chất của khả năng kháng kháng sinh.
Do mô hình kháng thuốc phụ thuộc vào mỗi cơ sở điều trị khác nhau và sẽ thay đổi theo thời gian cũng như việc sử dụng kháng sinh, nên nếu mô hình được sử dụng trong thực tế, việc cập nhật dữ liệu liên tục hoặc kết hợp dữ liệu thời gian thực là điều cần thiết để đảm bảo tính chính xác của mô hình Ngoài ra, mặc dù thuật toán ML đã được xây dựng với kỹ thuật điều chỉnh mẫu, các kết quả cho thấy khả năng hạn chế trong việc dự đoán khả năng kháng kháng sinh của các cặp kháng sinh - nhóm vi khuẩn Hơn nữa, các kỹ thuật lấy mẫu lại cũng có thể ảnh hưởng đến bản chất của dữ liệu, điều này có thể dẫn đến sai lệch tiềm ẩn về dự đoán tình trạng kháng kháng sinh Thu thập cỡ mẫu lớn và giảm thiểu sự mất cân bằng giữa các phân nhóm có thể giúp giảm thiểu ảnh hưởng của phương pháp điều chỉnh mẫu đến việc xây dựng mô hình ML.