xây dựng mô hình học máy dự đoán vi khuẩn đề kháng sinh và hỗ trợ lựa chọn kháng sinh kinh nghiệm ban đầu trong điều trị nhiễm khuẩn

ĐẠI HỌC Y DƯỢC THÀNH PHỐ HỒ CHÍ MINHCHƯƠNG TRÌNH KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞBÁO CÁO TỔNG HỢPKẾT QUẢ NHIỆM VỤ NGHIÊN CỨU KHOA HỌC VÀ CÔNG NGHỆXÂY DỰNG MÔ HÌNH HỌC MÁY DỰ ĐOÁNVI KHUẨN

TỔNG QUAN Y VĂN

ĐỀ KHÁNG KHÁNG SINH VÀ SỬ DỤNG KHÁNG SINH

Theo Tổ chức Y tế Thế giới (WHO), vấn đề đề kháng kháng sinh (AMR) hiện đang ở mức báo động và trở thành một vấn đề cấp bách của ngành y tế trên toàn thế giới trong thập kỷ qua Ứớc tính có ít nhất 1,27 triệu ca tử vong mỗi năm do AMR, cao hơn tỷ lệ tử vong do HIV/AIDS hoặc sốt rét trên toàn thế giới

[3] Theo báo cáo của Tổ chức Y tế Thế giới (WHO), số ca tử vong ước tính do AMR sẽ vượt quá 10 triệu mỗi năm vào năm 2050 [4]. Ở các quốc gia có thu nhập thấp đến trung bình (LMIC), đã có báo cáo về tỷ lệ AMR cao Việt Nam được WHO xếp vào danh sách các nước có tỉ lệ đề kháng kháng sinh ở mức cao trên thế giới, đặc biệt là trực khuẩn Gram âm kháng carbapenem Nhiễm khuẩn bệnh viện do tác nhân đa kháng thuốc (multidrug resistance, MDR) có liên quan đến tỉ lệ tử vong cao và tăng chi phí điều trị [5,6].

1.1.2 Tình hình sử dụng kháng sinh

Một trong những yếu tố dẫn đến AMR đó là việc sử dụng kháng sinh không hợp lý Tỉ lệ sử dụng kháng sinh không hợp lý được báo cáo lên đến 25% các trường hợp dẫn đến không những làm tăng nguy cơ bệnh nhân gặp các phản ứng có hại của thuốc mà còn góp phần phát triển đề kháng kháng sinh, tăng tỉ lệ tử vong [7,8].

GIẢI PHÁP CẢI THIỆN TÌNH TRẠNG ĐỀ KHÁNG

Giải pháp hiện nay để đối phó AMR liên quan đến việc phát triển các loại kháng sinh mới nhưng cần tốn nhiều thời gian và tốn kém chi phí Một giải pháp khác là thực hiện chương trình quản lý sử dụng kháng sinh, đây là một chương trình phức tạp gồm nhiều bên liên quan, thúc đẩy việc kê đơn kháng sinh phù hợp Theo Trung tâm Kiểm soát và Phòng ngừa Dịch bệnh (CDC), cải thiện việc kê đơn kháng sinh thông qua chương trình quản lý kháng sinh là hành động quan trọng nhất để chống lại AMR [9] Tuy nhiên, một trong những thách thức chính đối với tính phù hợp của việc sử dụng kháng sinh là kê đơn theo kinh nghiệm, trong đó kháng sinh được kê đơn trước khi biết rõ mầm bệnh cụ thể và tính nhạy cảm cua mầm bệnh đó với kháng sinh Thực tiễn hiện nay cho thấy việc lựa chọn kháng sinh theo kinh nghiệm là dựa trên cơ sở tham khảo các khuyến cáo sử dụng kháng sinh của bệnh viện tại địa phương; các khuyến cáo này được xây dựng thông qua ý kiến chuyên gia trong lĩnh vực cũng như kết quả của phòng vi sinh tại cơ sở điều trị [10,11] Dù vậy, phương pháp này có thể bỏ qua những đặc điểm của bệnh nhân có thể hữu ích trong việc gợi ý điều trị phù hợp.

1.2.2 Co sở cho giải pháp tiềm năng

Từ quan điểm lâm sàng, việc sàng lọc sớm đề kháng thuốc trước khi có kết quả định danh và độ nhạy cảm giúp kịp thời thực hiện những hành động để kiểm soát nhiễm khuẩn hiệu quả như dùng kháng sinh ban đầu phù hợp hay thực hiện sớm việc cách ly người bệnh Các nghiên cứu về sử dụng kháng sinh cho thấy nếu kháng sinh kinh nghiệm phù hợp được khởi trị càng sớm thì tử lệ tử vong càng thấp, đặc biệt trong bệnh cảnh nhiễm khuẩn huyết hay sốc nhiễm khuẩn [12,13] Do đó, hiện tại, nhiều cơ sở y tế tập trung nỗ lực vào vấn đề phát hiện sớm nhiễm khuẩn nặng, bao gồm ổ nhiễm khuẩn, tác nhân nghi ngờ và nhạy cảm kháng sinh để lựa chọn sớm kháng sinh hiệu quả Tuy nhiên, cho đến nay, việc lựa chọn kháng sinh điều trị theo kinh nghiệm giai đoạn ban đầu chỉ dựa trên các hướng dẫn khuyến cáo thực hành lâm sàng và kinh nghiệm lâm sàng của bác sĩ điều trị Nhiều kỹ thuật sinh học phân tử hiện đại giúp phân loại kiểu đề kháng dựa trên giải trình tự bộ gen phức tạp, tốn kém và không phổ biến.

Tại Việt Nam, các phòng xét nghiệm vi sinh thường sử dụng phương pháp vi sinh truyền thống là nuôi cấy, định danh và làm kháng sinh đồ Mặc dù có sự cải tiến của quy trình xét nghiệm vi sinh nhưng trong đa số trường hợp vẫn cần ít nhất 24-48 giờ đến khi có kết quả nuôi cấy và tương tự 24-48 giờ cho kết quả định danh vi khuẩn cũng như kháng sinh đồ để hướng dẫn dùng kháng sinh điều trị trúng đích.

ỨNG DỤNG MÔ HÌNH HỌC MÁY TRONG HỖ TRỢ LỰA CHỌN KHÁNG SINH KINH NGHIỆM

1.3.1 Ứng dụng học máy trong dự đoán kháng sinh hiệu quả

Trí tuệ nhân tạo (AI) đang cách mạng hóa ngành chăm sóc sức khỏe bằng cách cải thiện kết quả điều trị và giảm chi phí Kỹ thuật học máy (ML), một nhánh của AI, cho phép các hệ thống "học" tự động từ dữ liệu, cho phép đưa ra quyết định chính xác hơn Trong y tế, ML hỗ trợ sàng lọc và ra quyết định lâm sàng, bao gồm cả việc kê đơn thuốc kháng sinh kinh nghiệm.

Nhiều nghiên cứu đã báo cáo về việc sử dụng các phương pháp tiếp cận dựa trên dữ liệu để hỗ trợ trong việc đề nghị kháng sinh kinh nghiệm dựa trên cá thể [14–17] Những nghiên cứu này đã cho thấy việc lựa chọn kháng sinh được tạo ra từ mô hình ML có giám sát có thể nâng cao hiệu quả của kháng sinh điều trị đồng thời giảm mức độ ảnh hưởng của AMR [1,17–19] Các thuật toán học máy này sử dụng một lượng lớn dữ liệu bệnh nhân có trong hệ thống thông tin bệnh án của bệnh viện và phòng xét nghiệm vi sinh nhằm dự đoán đề kháng kháng sinh dựa trên một số yếu tố như vị trí nhiễm khuẩn, loại mẫu cấy vi sinh,kết quả nhuộm Gram và thông tin nhạy cảm kháng sinh trước đó cũng như các đặc điểm của người bệnh (độ tuổi, giới tính, cân nặng, chiều cao, chẩn đoán, bệnh đồng mắc) để dự đoán tính nhạy cảm với kháng sinh một cách tiết kiệm thời gian và chi phí.

1.3.2 Công cụ xây dựng mô hình học máy

Thư viện phần mềm học máy miễn phí Scikit-learn, dành riêng cho Python, hỗ trợ xây dựng các mô hình học máy bằng giao diện nhất quán, chú trọng đơn giản hóa, hiệu suất và tính nhất quán, giúp dễ dàng so sánh các phương pháp khác nhau Vì dựa trên Python, Scikit-learn dễ dàng tích hợp vào các ứng dụng ngoài phạm vi phân tích dữ liệu thống kê truyền thống.

1.3.3 Điểm hạn chế của nghiên cứu liên quan

Các nghiên cứu nước ngoài trước đây sử dụng các thông tin cơ bản như tuổi, giới tính, mẫu bệnh phẩm, kết quả nhuộm Gram và kháng sinh sử dụng để dự đoán khả năng đề kháng kháng sinh Độ chính xác của các mô hình này vào khoảng 67,8-72,6% [1,2] Tuy nhiên, hầu hết các nghiên cứu này được thực hiện ở các nước có thu nhập cao, nơi tỷ lệ AMR thấp so với LMIC. Ngoài ra, một số yếu tố dự đoán kháng thuốc tiềm năng đối với thuật toán

ML đã được báo cáo trong các nghiên cứu trước đây, chẳng hạn như nhuộmGram, lại có thể không trích xuất được ỡ những nước LMIC Hơn nữa, các nghiên cứu này cũng có một hoặc nhiều hạn chế sau: (a) Tập trung vào một loại nhiễm khuẩn duy nhất, (b) Chỉ sử dụng 2 hoặc 3 mô hình ML có chọn lọc và (c) Sử dụng các công cụ dự đoán và phương pháp học máy tương tự nhau Ngoài ra, việc phát triển các thuật toán ML để dự đoán các tác nhân gây bệnh ở những khu vực có tỷ lệ AMR kháng thuốc cao chưa được nghiên cứu nhiều; chất lượng của mỗi mô hình học máy phụ thuộc vào tính đại diện và chất lượng của dữ liệu.

ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU

ĐỊA ĐIỂM NGHIÊN CỨU

Nghiên cứu này tiến hành ứng dụng các thuật toán Trí tuệ nhân tạo (ML) để hỗ trợ bác sĩ đưa ra phác đồ kê đơn kháng sinh hợp lý dựa trên dữ liệu trích xuất từ hồ sơ bệnh án điện tử của những bệnh nhân nhập viện nghi ngờ nhiễm khuẩn đang điều trị tại Bệnh viện Đại học Y Dược TPHCM - một bệnh viện hạng đặc biệt với quy mô 1.000 giường bệnh và tiếp nhận hơn 55.000 lượt bệnh nhân nội trú mỗi năm.

ĐỐI TƯỢNG NGHIÊN CỨU

Tất cả các kết quả xét nghiệm vi sinh và kháng sinh đồ từ 01/2017 đến 03/2021 từ mẫu bệnh phẩm của bệnh nhân điều trị nội trú tại bệnh viện Đại học Y Dược TP.HCM.

Mẫu xét nghiệm thiếu một trong các thông tin sau: thông tin về đặc điểm bệnh nhân (giới tính, tuổi, chẩn đoán, bệnh kèm).

PHƯƠNG PHÁP NGHIÊN CỨU

2.3.1 Cấu trúc mô hình ML

Phương pháp ML được sử dụng để xây dựng:

+ Mô hình ML giúp dự đoán vi khuẩn gây bệnh dựa vào đặc điểm của bệnh nhân và tình trạng bệnh.

+ Mô hình ML giúp dự đoán khả năng đề kháng của vi khuẩn gây bệnh với các kháng sinh liên quan dựa vào đặc điểm của bệnh nhân, tình trạng bệnh và tên vi khuẩn được dự đoán ở mô hình trước.

Một mô hình ML gồm có các đặc điểm sau:

1) Mô hình phân tích: cách thức để xây dựng một mô hình bằng các thuật toàn thống kê (ví dụ: Logistic Regression, k-Nearest Neighbors,…).

2) Biến dự đoán (predictor): một mô hình ML có thể có một hoặc nhiều biến dự đoán Các biến này góp phần dự đoán kết quả cuối cùng từ mô hình ML.

3) Biến kết quả (outcome): là kết quả thu được từ các biến dự đoán.

2.3.2 Các biến sử dụng trong mô hình ML

2.3.2.1 Cơ sở lựa chọn biến

Nhận biết sự khác biệt trong tình hình kháng thuốc kháng sinh tại Việt Nam so với các nghiên cứu nước ngoài, nhóm nghiên cứu đã xây dựng một mô hình học máy phù hợp với đặc thù của Việt Nam Mô hình này được bổ sung thêm các yếu tố dự đoán như tần suất nhập viện, tiền sử sử dụng kháng sinh, chẩn đoán và các bệnh đi kèm để tăng độ chính xác Độ tin cậy của mô hình học máy phụ thuộc vào số lượng quan sát của mỗi giá trị có trong biến dự đoán và kết quả Do đó, để tăng tính khả thi, vi khuẩn phân lập từ các mẫu bệnh phẩm được chia thành 5 nhóm: Acinetobacter spp (nhóm 1), Enterobacteriaceae (nhóm 2), nhóm Gram âm không lên men (nhóm 3), tụ cầu (nhóm 4) và vi khuẩn Gram dương khác (nhóm 5).

2 - Escherichia coli, nhóm 3 - Klebsiella spp., nhóm 4 - Staphylococcus spp., nhóm 5 - Pseudomonas aeruginosa Đây là 5 nhóm vi khuẩn thường gặp trong bệnh lý nhiễm khuẩn cũng như được báo cáo liên quan đến tình trạng đề kháng kháng sinh [1,17–19].

2.3.2.2 Biến dự đoán và biến kết quả

Có 24 biến dự đoán từ dữ liệu thu thập Tuy nhiên, dựa trên thảo luận với các dược sĩ lâm sàng tại BVĐHYD TPHCM và nghiên cứu trước đó [14–17], 9 và

10 biến dự đoán lần lượt được chọn để dự đoán các nhóm vi khuẩn và độ nhạy cảm với kháng sinh Danh sách các biến số được trình bày tại Bảng 2.1.

Các biến dự đoán của các mô hình học máy gồm có: tuổi, giới tính, mẫu bệnh phẩm, nơi lưu trú, số lần nhập viện, có nhập viện trước đó trong vòng 1 năm, chẩn đoán loại nhiễm khuẩn, bệnh kèm (gồm 10 loại), nhóm vi khuẩn (chỉ đưa vào trong mô hình dự đoán đề kháng) và kháng sinh sử dụng trong kháng sinh đồ ứng với tên vi khuẩn.

Các biến kết quả của các mô hình học máy gồm có: nhóm vi khuẩn (trong mô hình dự đoán vi khuẩn), khả năng đề kháng (trong mô hình dự đoán đề kháng/ nhạy cảm với kháng sinh) Về dự đoán độ nhạy cảm với kháng sinh, biến kết quả là biến nhị phân gồm kháng (R) hoặc nhạy cảm (S) được xác định cho 07 loại kháng sinh quan tâm (amikacin, cefoxitin, ceftazidime, levofloxacin, meropenem, piperacillin/tazobactam, vancomycin).

Bảng 2.1 Định nghĩa biến sử dụng trong mô hình học máy

Biến Loại Định nghĩa Mô hình

Tính bằng năm Dự đoán nhóm vi khuẩn; dự đoán đề kháng kháng sinh Giới tính Biến nhị phân

Nam/ nữ Dự đoán nhóm vi khuẩn; dự đoán đề kháng kháng sinh Nơi lưu trú Biến định danh

Tên tỉnh/ thành phố Dự đoán nhóm vi khuẩn; dự đoán đề kháng kháng sinh Mẫu bệnh phẩm

Bao gồm các loại mẫu sau:

Dự đoán nhóm vi khuẩn; dự đoán đề kháng kháng sinh

- Dịch các loại (như dịch não tủy)

- Mủ các loại (mủ vết mổ) Chẩn đoán Biến định danh

Bao gồm chẩn đoán liên quan đến nhiễm khuẩn như sau:

- Nhiễm khuẩn tiết niệu/ sinh dục

- Nhiễm khuẩn da, mô mềm

Khoa điều trị mà bệnh nhân được lấy mẫu

Dự đoán nhóm vi khuẩn; dự đoán đề kháng kháng sinh Nhập viện trước đó trong vòng

Bệnh nhân có nhập viện trước đây trong vòng 1 năm kể từ lần nhập viện hiện tại

Biến rời rạc Được xác định bằng các mã nhập viện có chung mã bệnh nhân

Bệnh kèm Biến nhị phân

Bệnh nhân có các loại bệnh kèm sau hay không (10 biến nhị phân):

- Đái tháo đường (có/không)

- Bệnh phổi mãn tính (có/không)

- Suy giảm miễn dịch (kể cả dùng thuốc ức chế miễn dịch) (có/không)

- Có mang thiết bị y tế xâm lấn (có/không)

- Bệnh nhiễm khuẩn khác (có/không)

- Bệnh kèm khác (có/không)

Gồm các nhóm vi khuẩn sau:

Nhóm 1 - Acinetobacter spp., Nhóm 2 - Escherichia coli, Nhóm 3 - Klebsiella spp., Nhóm

Dự đoán nhóm vi khuẩn (biến kết quả)

Dự đoán đề kháng kháng sinh (biến dự đoán)

Bao gồm các kháng sinh sau:

Amikacin, cefoxitin, ceftazidime, levofloxacin, meropenem, piperacillin/tazobactam, vancomycin

Dự đoán đề kháng kháng sinh (phân loại)

Nhạy cảm (S) hoặc đề kháng (I và R)

Dự đoán đề kháng kháng sinh (biến kết quả)

2.3.3 Phương pháp làm sạch dữ liệu

2.3.3.1 Dự đoán nhóm vi khuẩn

Thuật toán StratifiedShuffleSplit được sử dụng để phân chia ngẫu nhiên dữ liệu của từng nhóm vi khuẩn thành 80% làm tập huấn luyện và 20% tập kiểm tra tương ứng (Bảng 2.2).

Bảng 2.2 Phân chia tập huấn luyện và tập kiểm tra bằng phương pháp điều chỉnh mẫu trong xây dựng mô hình dự đoán nhóm vi khuẩn

Tập huấn luyện (sau phương pháp giảm mẫu),

Sau đó, phương pháp giảm mẫu (undersampling technique) theo tỷ lệ được áp dụng cho các tập dữ liệu huấn luyện nhằm làm cân bằng dữ liệu Kỹ thuật này được sử dụng để giảm ảnh hưởng của các nhóm đa số dựa trên số lượng của nhóm thiểu số (tức là nhóm vi khuẩn có số lượng quan sát tối thiểu) nhằm làm giảm sai lệch do chênh lệch tỷ lệ lớn Kỹ thuật này sử dụng công thức sau: trong đó xi là số lượng quan sát từ nhóm đa số thứ i; xmin là số lượng quan sát từ nhóm thiểu số; xri là tỷ lệ giảm mẫu; và % lấy mẫu dưới là phần trăm giảm quan sát từ nhóm đa số thứ i dựa trên sự khác biệt giữa nhóm đa số thứ i và nhóm thiểu số Các quan sát sau đó được loại bỏ ngẫu nhiên khỏi mỗi nhóm đa số để đạt được % mẫu giảm (Bảng 2.2).

2.3.3.2 Dự đoán khả năng đề kháng kháng sinh

Thông tin về độ nhạy cảm với kháng sinh được thu thập từ kết quả vi sinh, bao gồm R (kháng, bao gồm nhạy cảm trung gian) hoặc S (nhạy cảm) đối với các loại kháng sinh quan tâm Tuy nhiên trong nghiên cứu này, đối với mỗi nhóm vi khuẩn, độ nhạy cảm với kháng sinh chỉ được xét cho 07 loại kháng sinh phổ biến (amikacin, cefoxitin, ceftazidime, levofloxacin, meropenem, piperacillin/tazobactam, vancomycin) dựa trên hướng dẫn tại BVĐHYD TPHCM Do có sự không đồng đều về số lượng quan sát trong từng loại kháng sinh, nhóm nghiên cứu phân chia thành 07 nhóm kháng sinh và xây dựng mô hình ML theo từng nhóm Tập dữ liệu phân tích được chia ngẫu nhiên thành hai tập: 80% để huấn luyện và 20% để kiểm tra.

Ngoài ra, do tỷ lệ AMR cao, chúng tôi đã cân nhắc sự mất cân bằng giữa tỷ lệ kháng thuốc và nhạy cảm vào kế hoạch phân tích (các mẫu vi khuẩn kháng thuốc nhiều hơn những mẫu vi khuẩn nhạy cảm với kháng sinh được thử nghiệm) Do đó, phương pháp điều chỉnh mẫu (resampling technique) đã được tiến hành để giải quyết những vấn đề này Dữ liệu được xử lý trước bằng phương pháp giảm mẫu ngẫu nhiên trên mẫu vi khuẩn kháng kháng sinh (undersampling) hoặc phương pháp tăng mẫu ngẫu nhiên trên mẫu vi khuẩn còn nhạy cảm với kháng sinh (oversampling) trước giai đoạn phân tích tập huấn luyện Hai phương pháp này được thực hiện nhằm cân bằng lại mẫu đề kháng/ nhạy cảm nhằm cải thiện hiệu suất của mô hình ML phân loại.

2.3.4 Phương pháp phân tích số liệu

2.3.4.1 Dự đoán nhóm vi khuẩn

Phương pháp phân loại nhị phân nhiều bậc (multiple binary classification) với thuật toán XGBoost được sử dụng để dự đoán các nhóm vi khuẩn Theo phương pháp này, thuật toán XGBoost đã được xây dựng để phân loại nhị phân giữa từng mỗi nhóm vi khuẩn và bốn nhóm còn lại nhằm xác định một mô hình đầu tiên có độ chính xác cao nhất (mô hình 0) Sau đó, các cấu trúc cây (tree structure) khả dĩ của bốn nhóm vi khuẩn còn lại được thiết lập dựa trên mô hình

0 (Hình 2.1) và thuật toán XGBoost đã được xây dựng để xác định cấu trúc cây với độ chính xác cao nhất (mô hình 1 đến mô hình 3) Các tiêu chí đánh giá bao gồm độ chính xác và giá trị F1 được sử dụng để đánh giá và chọn ra mô hình có thông số tốt nhất (mô hình 0 ~ mô hình 3) Dựa vào các nghiên cứu đã công bố trước đây [14–17], độ chính xác và giá trị F1 được xem là tốt khi kết quả dự đoán đúng từ 70% trở lên với tập kiểm tra.

Hình 2.1 Các cấu trúc cây khả dĩ với 4 nhóm vi khuẩn 2.3.4.2 Dự đoán độ nhạy cảm với kháng sinh

Năm thuật toán ML khác nhau, bao gồm: Hồi quy logistic (Logistic Regression - LR), Máy vectơ hỗ trợ (Support Vector Machine - SVM), Cây quyết định (Decision Tree - DT), Random forest (Random Forest - RF) và XGBoost (eXtreme Gradient Boosting), được sử dụng để dự đoán độ nhạy cảm với kháng sinh của năm nhóm vi khuẩn Các mô hình này được lựa chọn dựa vào độ chính xác cao báo cáo từ các nghiên cứu trước đây [1,17–19] Sau khi được xử lý bằng phương pháp điều chỉnh mẫu, các thuật toán LR, DT, RF, SVM và XGBoost được xây dựng lần lượt cho mỗi loại kháng sinh quan tâm ở từng nhóm vi khuẩn.

Y ĐỨC VÀ BẢO MẬT THÔNG TIN

Nghiên cứu này đã được Ủy ban đạo đức nghiên cứu tại Bệnh viện Đại học Y Dược TP.HCM phê duyệt (Số phê duyệt REC: 34/GCN-HDDD) Toàn bộ thông tin của bệnh nhân tham gia nghiên cứu sẽ được mã hóa để đảm bảo tính bảo mật thông tin cá nhân Các thành viên nhóm nghiên cứu cam kết bảo mật thông tin và dữ liệu nghiên cứu.

KẾT QUẢ

ĐẶC ĐIỂM DÂN SỐ NGHIÊN CỨU

Tổng cộng có 14.632 quan sát thỏa tiêu chuẩn chọn mẫu (từ 12.740 bệnh nhân) đã được ghi nhận trong thời gian nghiên cứu Một nửa số bệnh nhân (50,8%) là nữ Nhiễm khuẩn đường tiết niệu và nhiễm khuẩn đường hô hấp là hai bệnh nhiễm khuẩn phổ biến nhất được ghi nhận, chiếm tỷ lệ lần lượt là 24,5% và 21,4% Trong số những lần bệnh nhân nhập viện, 31.704 mẫu bệnh phẩm đã được thu thập và tiếp hành cấy vi sinh Trong số các vi khuẩn được phân lập, Klebsiella spp là tác nhân gây bệnh phổ biến nhất (30,9%), tiếp theo là Escherichia coli (28,9%) và Staphylococcus spp (21,2%) Bảng 3.1 trình bày các đặc điểm của dân số nghiên cứu.

Bảng 3.1 Đặc điểm của đối tượng nghiên cứu Đặc điểm dân số N (%)

Nhiễm khuẩn tiết niệu/ sinh dục

Nhiễm khuẩn da, mô mềm

Mẫu bệnh phẩm cấy vi sinh (N1.704)

Kết quả xét nghiệm độ nhạy cảm với kháng sinh của các vi khuẩn được xác định được trình bày trong Hình 3.1 Tỷ số giữa đề kháng và nhạy cảm (tỷ sốR/S) của các vi khuẩn với 07 loại kháng sinh được khảo sát dao động từ 5,88(trong trường hợp của meropenem) đến 7,86 (trong trường hợp của vancomycin) Trong số 5 nhóm vi khuẩn, tỷ số giữa đề kháng và nhạy cảm dao động từ 2,74 (trong trường hợp meropenem thuộc nhóm 5 - Pseudomonas aeruginosa) đến 143,67 (trong trường hợp cefoxitin thuộc nhóm 1 -Acinetobacter spp.).

Hình 3.1 Mức độ nhạy cảm kháng thuốc của 5 nhóm vi khuẩn với 7 loại kháng sinh

DỰ ĐOÁN NHÓM VI KHUẨN

Nhóm nghiên cứu đã xây dựng 05 mô hình 0 từ thuật toán XGBoost để phân loại nhị phân giữa mỗi nhóm vi khuẩn và bốn nhóm còn lại Bảng 3.2 trình bày độ chính xác và giá trị F1 của các mô hình với tập kiểm tra.

Bảng 3.2 Độ chính xác và giá trị F1 của các mô hình phân loại nhị phân các nhóm vi khuẩn

Mô hình 0 (XGBoost) Độ chính xác tập huấn luận Độ chính xác tập kiểm tra

Giá trị F1 tập kiểm tra

Nhóm 1 vs các nhóm khác 99,4% 97,8% 91,5%

Mô hình 0 phân loại vi khuẩn nhóm 5 và bốn nhóm còn lại cho thấy độ chính xác và giá trị F1 cao nhất (lần lượt là 97,9% và 94,7%); vì vậy, 04 nhóm vi khuẩn còn lại (từ nhóm 1 đến nhóm 4) sau đó được phân tích để lựa chọn cấu trúc cây tối ưu nhất từ 06 loại cấu trúc cây khả dĩ (Hình 2.1).

Trong số 144 cấu trúc cây khả thi từ bốn nhóm vi khuẩn, cấu trúc cây 3421:111 đạt độ chính xác và giá trị F1 cao nhất, lần lượt là 78,8% và 95,1% Các thông số đánh giá cho cả 144 cấu trúc cây khả thi được cung cấp trong Phụ lục 3 Độ chính xác và giá trị F1 của bốn mô hình cuối cùng (mô hình 0 đến mô hình 3) cùng cấu trúc cây cuối cùng 3421:111 được trình bày chi tiết trong bài viết.

Hình 3.2 Cấu trúc cây cuối cùng với độ chính xác cao nhất và điểm F1 sử dụng thuật toán XGBoost

Bảng 3.3 Kết quả cấu trúc cây cuối cùng 3421:111

Mô hình (XGBoost) Độ chính xác tập huấn luận Độ chính xác tập kiểm tra

Giá trị F1 tập kiểm tra

Mô hình 0: nhóm 5 vs 04 nhóm còn lại

Mô hình 3: nhóm 3 vs nhóm 4

99,8% 90,7% 92,3% Độ chính xác tổng thể 78,8%

Mức độ đóng góp ý nghĩa của các biến dự đoán bốn mô hình XGBoost dự đoán nhóm vi khuẩn được trình bày trong Hình 3.4 Hai biến dự đoán đóng góp nhiều nhất về mức độ ảnh hưởng đối với bốn mô hình XGBoost này bao gồm số lần nhập viện và nơi lưu trú Trong đó, mô hình 0 phân biệt nhóm 5 và 04 nhóm còn lại ghi nhận mức độ ảnh hưởng của số lần nhập viện và nơi lưu trú cao nhất, nhiều hơn 20%; mô hình 1 phân biệt nhóm 1 và 03 nhóm còn lại có mức độ ảnh hưởng của nơi lưu trú, số lần nhập viện, khoa điều trị cao nhất khi có giá trị xấp xỉ 20%; mô hình 2 phân biệt nhóm 2 và 02 nhóm còn lại có mức độ ảnh hưởng của nơi lưu trú cao nhất khi giá trị nhiều hơn 20%, vượt trội hơn các biến còn lại từ 10% trở lên; mô hình 3 phân biệt nhóm 3 và nhóm 4 có mức độ ảnh hưởng của số lần nhập viện và nơi lưu trú cao nhất, nhiều hơn 20%.

Hình 3.3 Tầm quan trọng của các yếu tố dự đoán trong bốn thuật toán

XGBoost dự đoán 5 nhóm vi khuẩn (A) Mô hình 0 dự đoán nhóm 5 với 4 nhóm còn lại; (B) Mô hình 1 dự đoán nhóm 1 với 3 nhóm còn lại (C) Mô hình 2 dự đoán nhóm 2 với 2 nhóm còn lại; (D) Mô hình 3 dự đoán nhóm 3 với nhóm 4

DỰ ĐOÁN KHẢ NĂNG ĐỀ KHÁNG KHÁNG SINH

Có tổng cộng 35 cặp nhóm vi khuẩn – kháng sinh từ 05 nhóm vi khuẩn và

07 loại kháng sinh khảo sát Đặc điểm mẫu và tỷ lệ đề kháng-nhạy cảm theo

Để phân tích sâu hơn bằng thuật toán ML, 7 loại kháng sinh và 5 nhóm vi khuẩn được khảo sát đã được chia thành các cặp nhóm Do có một số kháng sinh kháng tự nhiên với một số loại vi khuẩn, 27/35 cặp nhóm đã được xử lý bằng phương pháp lấy mẫu lại dữ liệu, chia thành tập huấn luyện và kiểm tra (có 8 cặp nhóm bị loại trừ) Phương pháp giảm mẫu không áp dụng cho 7 cặp nhóm do thiếu dữ liệu Cuối cùng, chỉ có 27 cặp nhóm được tăng mẫu và 20 cặp được giảm mẫu trước khi phân tích sâu hơn.

Bảng 3.4 Đặc điểm mẫu vi sinh từ bảy loại kháng sinh khảo sát và năm nhóm vi khuẩn

Nhóm vi khuẩn Kháng sinh N Tỷ lệ

Tập huấn luyện Giảm mẫu,

Vancomycin NA NA NA NA NA

Ceftazidime NA NA NA NA NA

Meropenem NA NA NA NA NA Piperacillin/ tazobactam NA NA NA NA NA

Cefoxitin NA NA NA NA NA

Vancomycin NA NA NA NA NA

NA: Không áp dụng Độ chính xác, AUROC, giá trị sau cross-validation của tập kiểm tra được trình bày chi tiết trong Phụ lục 3, 4 và 5 Trong số năm thuật toán ML khác nhau, XGBoost với phương pháp tăng mẫu đạt độ chính xác trên tập kiểm tra cao nhất (dao động từ 0,683 đến 0,993) trên 26/27 cặp nhóm vi khuẩn – kháng sinh, ngoại trừ cặp nhóm vi khuẩn 1 - meropenem có độ chính xác cao nhất là 0,992 đối với mô hình SVM bằng phương pháp tăng mẫu (Phụ lục 3).

Các thuật toán ML kết hợp với các phương pháp điều chỉnh mẫu mà có giá trị AUROC cao nhất được trình bày trong Error! Reference source not found Hầu hết các thuật toán ML có giá trị AUROC cao nhất đều được kết hợp với phương pháp tăng mẫu, ngoại trừ các mô hình ML liên quan đến cefoxitin và levofloxacin trong Nhóm vi khuẩn 4 Ba giá trị AUROC lớn nhất bao gồm 0,806 (thuật toán DT với kỹ thuật tăng mẫu trong cặp piperacillin/tazobactam- nhóm vi khuẩn 1), 0,781 (thuật toán RF với kỹ thuật tăng mẫu vancomycin- nhóm vi khuẩn 4) và 0,729 (thuật toán DT với kỹ thuật tăng mẫu trong ceftazidime-nhóm vi khuẩn 1).

Mức độ đóng góp ý nghĩa của các biến dự đoán trong ba thuật toán có giá trịAUROC lớn nhất được trình bày trong Hình 3.4 Các biến dự đoán đóng góp vào hơn 20% về mức độ ảnh hưởng đối với các thuật toán này bao gồm tuổi của bệnh nhân, nơi lưu trú, khoa điều trị và mẫu bệnh phẩm.

Bảng 3.5 Thuật toán ML có giá trị AUROC lớn nhất

Kháng sinh Thuật toán ML

Phương pháp điều chỉnh mẫu

Giá trị AUROC Tỷ lệ R/S

Amikacin XGBoost Tăng mẫu 0,625 > 1:100 Cefoxitin SVM, RF,

XGBoost Tăng mẫu 0,500 > 1:100 Ceftazidime DT Tăng mẫu 0,729 > 1:100 Levofloxacin LR Tăng mẫu 0,526 > 1:100 Meropenem SVM Tăng mẫu 0,497 > 1:100 Piperacillin/ tazobactam DT Tăng mẫu 0,806 > 1:100

Cefoxitin LR Tăng mẫu 0,589 < 1:50 Ceftazidime LR Tăng mẫu 0,571 < 1:50 Levofloxacin LR Tăng mẫu 0,593 < 1:50 Meropenem RF Tăng mẫu 0,575 < 1:50 Piperacillin/ tazobactam LR Tăng mẫu 0,596 < 1:50

Cefoxitin RF Tăng mẫu 0,651 < 1:50 Ceftazidime RF Tăng mẫu 0,652 < 1:50 Levofloxacin RF Tăng mẫu 0,652 < 1:50 Meropenem RF Tăng mẫu 0,659 < 1:50 Piperacillin/ tazobactam RF Tăng mẫu 0,640 < 1:50 Nhóm vi khuẩn

Amikacin DT Tăng mẫu 0,523 1:50 - 1:100 Cefoxitin RF Giảm mẫu 0,603 1:50 - 1:100 Levofloxacin LR Giảm mẫu 0,560 1:50 - 1:100 Vancomycin RF Tăng mẫu 0,781 1:50 - 1:100

Amikacin XGBoost Tăng mẫu 0,635 < 1:50 Ceftazidime RF Tăng mẫu 0,615 < 1:50 Levofloxacin XGBoost Tăng mẫu 0,641 < 1:50 Meropenem DT Tăng mẫu 0,640 < 1:50 Piperacillin/ tazobactam RF Tăng mẫu 0,637 < 1:50

LR, Logistic Regression; SVM, Support Vector Machine; DT, Decision Tree;

RF, Random Forest; XGBoost, eXtreme Gradient Boosting

Hình 3.4 Tầm quan trọng của các yếu tố dự đoán trong ba thuật toán có giá trị AUROC lớn nhất (A) Decision Tree bằng phương pháp tăng mẫu cho cặp piperacillin/tazobactam-nhóm vi khuẩn 1 (giá trị AUROC: 0,806) (B) Decision Tree bằng phương pháp tăng mẫu cho cặp ceftazidime - nhóm vi khuẩn 1 (giá trị AUROC: 0,729) (C) Random Forest bằng phương pháp tăng mẫu cho cặp vancomycin- nhóm vi khuẩn 4 (giá trị AUROC: 0,781)

BÀN LUẬN

ĐẶC ĐIỂM DÂN SỐ NGHIÊN CỨU

Đặc điểm dân số nghiên cứu có sự phân bổ đều về giới tính, loại nhiễm khuẩn và mẫu bệnh phẩm Tương tự các nghiên cứu trước, Klebsiella spp và Escherichia coli chiếm khoảng 30% tổng số vi khuẩn, trong khi Pseudomonas aeruginosa chiếm tỷ lệ thấp nhất (7,4%) Tuy nhiên, tỷ lệ đề kháng kháng sinh (R/S) có sự dao động lớn và luôn lớn hơn 1, chỉ ra sự chênh lệch đáng kể giữa vi khuẩn đề kháng và nhạy cảm với kháng sinh trong nghiên cứu Tỷ lệ này cũng tương ứng với các nghiên cứu trước đây, trong đó vi khuẩn đề kháng kháng sinh thường được phân lập nhiều hơn từ các mẫu bệnh phẩm của bệnh nhân trong bệnh viện.

DỰ ĐOÁN NHÓM VI KHUẨN

Thuật toán XGBoost được sử dụng trong việc xây dựng mô hình dự đoán nhóm vi khuẩn gây bệnh do kết quả dự đoán chính xác cao đã được chứng minh trong các nghiên cứu trước đó Mô hình XGBoost tạo ra cấu trúc cây dự đoán nhóm vi khuẩn đạt độ chính xác 78,8% và giá trị F1 là 95,1% Đây là công trình nghiên cứu đầu tiên xây dựng mô hình dự đoán nhóm vi khuẩn gây bệnh, khác với các mô hình ML trước đây chỉ dự đoán khả năng kháng thuốc sau khi xác định được vi khuẩn gây bệnh Nghiên cứu này góp phần gợi ý khu trú tác nhân gây bệnh, hỗ trợ lựa chọn kháng sinh kinh nghiệm ban đầu.

Khi điều trị tình trạng nhiễm khuẩn do vi khuẩn, bác sĩ phải cân bằng giữa lợi ích khi bắt đầu điều trị bằng kháng sinh kinh nghiệm hiệu quả kịp thời với nguy cơ phản ứng bất lợi, biến chứng, khả năng xuất hiện đề kháng và chi phí có thể gia tăng do sử dụng kháng sinh phổ rộng không cần thiết Hiện tại, hệ thống y tế hiện đại có thể lưu giữ và truy cập thông tin từ rất nhiều bệnh nhân; bằng việc tận dụng dữ liệu lớn này, có mô hình ML có thể hỗ trợ gợi ý điều trị theo kinh nghiệm phù hợp, thậm chí cá thể hóa cho từng nhóm đối tượng bệnh nhân. Cách tiếp cận này gần đây đã thu hút được nhiều sự quân tâm và ghi nhận, tiềm năng trở thành một phần của phương pháp điều trị trong tương lai trong lĩnh vực y tế Nhiều nghiên cứu khác nhau đã xác định các yếu tố nguy cơ dẫn đến đề kháng kháng sinh, chẳng hạn như bệnh kèm, nhân khẩu học, phương pháp điều trị kháng sinh trước đó và các đặc điểm khác của bệnh nhân Các nghiên cứu gần đây đã chứng minh khả năng của các thuật toán ML nguồn mở trong việc sử dụng dữ liệu lớn để dự đoán tình trạng kháng kháng sinh ở các cơ sở điều trị khác nhau [23–26,28,29].

DỰ ĐOÁN KHẢ NĂNG ĐỀ KHÁNG KHÁNG SINH

Do có sự mất cân bằng lớn giữa số lượng mẫu vi khuẩn đề kháng so với nhạy cảm cho từng loại kháng sinh, chúng tôi thực hiện hai phương pháp điều chỉnh mẫu để so sánh hiệu quả của kỹ thuật này trong việc cải thiện khả năng dự đoán của các mô hình ML Kết quả cho thấy kỹ thuật tăng mẫu dường như cho kết quả tốt hơn so với kỹ thuật giảm mẫu, tương đồng với công bố của Chowdhury và cộng sự [29] Dù vậy, chỉ có 3/27 cặp nhóm vi khuẩn – kháng sinh có giá trị AUROC từ 0,7 trở lên (Bảng 3.5) Thông qua phân tích mức độ đóng góp ý nghĩa của các biến dự đoán, tuổi của bệnh nhân, nơi lưu trú, khoa điều trị và mẫu bệnh phẩm có mức độ ảnh hưởng từ 20% trở lên Các nghiên cứu trước đây cũng ghi nhận tuổi, khoa điều trị và mẫu bệnh phẩm có liên quan đến việc dự đoán khả năng đề kháng kháng sinh của vi khuẩn [14,16,17,24] Dù vậy, nghiên cứu chúng tôi chưa ghi nhận những biến có khả năng đóng góp mức độ ảnh hưởng cao như kết quả nhuộm Gram, tiền sử sử dụng kháng sinh trước đây

[24] Thực tế, hai biến này khó thu thập trong nghiên cứu của chúng tôi do nhuộm Gram không được thực hiện thường quy; trong khi đó, đặc điểm tiền sử dùng thuốc của mỗi bệnh nhân được ghi nhận theo hồ sơ bệnh án giấy thay vì điện tử, đồng thời đây cũng là thông tin hạn chế ghi nhận thường xuyên cho các bệnh nhân tại cơ sở điều trị Cần có thêm nhiều nghiên cứu liên quan để xác định những biến có khả năng đóng góp quan trọng cho mô hình dự đoán.

HẠN CHẾ CỦA NGHIÊN CỨU

Nghiên cứu của chúng tôi cũng có những hạn chế nhất định Các mẫu chỉ được thu thập tại một bệnh viện nên các thông số về độ chính xác có thể khác nhau khi áp dụng mô hình tại các cơ sở y tế khác Tuy nhiên, sự thiếu khái quát của các ứng dụng ML này xuất phát từ bản chất của khả năng kháng kháng sinh.

Do mô hình kháng thuốc phụ thuộc vào mỗi cơ sở điều trị khác nhau và sẽ thay đổi theo thời gian cũng như việc sử dụng kháng sinh, nên nếu mô hình được sử dụng trong thực tế, việc cập nhật dữ liệu liên tục hoặc kết hợp dữ liệu thời gian thực là điều cần thiết để đảm bảo tính chính xác của mô hình Ngoài ra, mặc dù thuật toán ML đã được xây dựng với kỹ thuật điều chỉnh mẫu, các kết quả cho thấy khả năng hạn chế trong việc dự đoán khả năng kháng kháng sinh của các cặp kháng sinh - nhóm vi khuẩn Hơn nữa, các kỹ thuật lấy mẫu lại cũng có thể ảnh hưởng đến bản chất của dữ liệu, điều này có thể dẫn đến sai lệch tiềm ẩn về dự đoán tình trạng kháng kháng sinh Thu thập cỡ mẫu lớn và giảm thiểu sự mất cân bằng giữa các phân nhóm có thể giúp giảm thiểu ảnh hưởng của phương pháp điều chỉnh mẫu đến việc xây dựng mô hình ML.

Tiêu đề	Xây dựng mô hình học máy dự đoán vi khuẩn đề kháng kháng sinh và hỗ trợ lựa chọn kháng sinh kinh nghiệm ban đầu trong điều trị nhiễm khuẩn
Tác giả	Nguyễn Quốc Hoà, Sun-Yuan Hsieh
Người hướng dẫn	PTS. Nguyễn Quốc Hoà
Trường học	Đại học Y Dược Thành phố Hồ Chí Minh
Chuyên ngành	Y dược
Thể loại	Báo cáo tổng hợp kết quả đề tài nghiên cứu khoa học
Năm xuất bản	2023
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	65
Dung lượng	1,71 MB

Tài liệu tham khảo	Loại	Chi tiết
1. Feretzakis G, Loupelis E, Sakagianni A, Kalles D, Martsoukou M, Lada M, et al. Using Machine Learning Techniques to Aid Empirical Antibiotic Therapy Decisions in the Intensive Care Unit of a General Hospital in Greece. Antibiot (Basel, Switzerland). 2020;9(2)	Khác
2. Martínez-Agüero S, Mora-Jiménez I, Lérida-García J, Álvarez- Rodríguez J, Soguero-Ruiz C. Machine Learning Techniques to Identify Antimicrobial Resistance in the Intensive Care Unit. Entropy (Basel).2019;21(6)	Khác
4. Price R. O’Neill report on antimicrobial resistance: funding for antimicrobial specialists should be improved. Eur J Hosp Pharm Sci Pract. 2016;23(4):245–7	Khác
5. Peters L, Olson L, Khu DTK, Linnros S, Le NK, Hanberger H, et al.Multiple antibiotic resistance as a risk factor for mortality and prolonged hospital stay: A cohort study among neonatal intensive care patients with hospital-acquired infections caused by gram-negative bacteria in Vietnam. PLoS One. 2019;14(5):e0215666	Khác
6. Mulvey MR, Simor AE. Antimicrobial resistance in hospitals: how concerned should we be? C Can Med Assoc J = J l’Association medicale Can. 2009;180(4):408–15	Khác
7. Ibrahim EH, Sherman G, Ward S, Fraser VJ, Kollef MH. The influence of inadequate antimicrobial treatment of bloodstream infections on patient outcomes in the ICU setting. Chest. 2000;118(1):146–55	Khác
8. Garnacho-Montero J, Gutiérrez-Pizarraya A, Escoresca-Ortega A, Fernández-Delgado E, López-Sánchez JM. Adequate antibiotic therapy	Khác
9. PCAST. The National Action Plan for Combating Antibiotic-Resistant Bacteria. In: Combating Antimicrobial Resistance and Protecting the Miracle of Modern Medicine. Washington (DC): National Academies Press (US); 2021. p. 7	Khác
10. McIntosh KA, Maxwell DJ, Pulver LK, Horn F, Robertson MB, Kaye KI, et al. A quality improvement initiative to improve adherence to national guidelines for empiric management of community-acquired pneumonia in emergency departments. Int J Qual Heal care J Int Soc Qual Heal Care. 2011;23(2):142–50	Khác
12. Sterling SA, Miller WR, Pryor J, Puskarich MA, Jones AE. The Impact of Timing of Antibiotics on Outcomes in Severe Sepsis and Septic Shock: A Systematic Review and Meta-Analysis. Crit Care Med.2015;43(9):1907–15	Khác
13. Sherwin R, Winters ME, Vilke GM, Wardi G. Does Early and Appropriate Antibiotic Administration Improve Mortality in Emergency Department Patients with Severe Sepsis or Septic Shock? J Emerg Med.2017;53(4):588–95	Khác
14. Corbin CK, Sung L, Chattopadhyay A, Noshad M, Chang A, Deresinksi S, et al. Personalized antibiograms for machine learning driven antibiotic selection. Commun Med. 2022;2:38	Khác
15. Yelin I, Snitser O, Novich G, Katz R, Tal O, Parizade M, et al. Personal clinical history predicts antibiotic resistance of urinary tract infections.Nat Med. 2019;25(7):1143–52	Khác
16. Hebert C, Gao Y, Rahman P, Dewart C, Lustberg M, Pancholi P, et al.Prediction of Antibiotic Susceptibility for Urinary Tract Infection in a Hospital Setting. Antimicrob Agents Chemother. 2020;64(7)	Khác
17. Oonsivilai M, Mo Y, Luangasanatip N, Lubell Y, Miliya T, Tan P, et al.Using machine learning to guide targeted and locally-tailored empiric antibiotic prescribing in a children’s hospital in Cambodia. Wellcome open Res. 2018;3:131	Khác
18. Revuelta-Zamorano P, Sánchez A, Rojo-Álvarez JL, Álvarez-Rodríguez J, Ramos-López J, Soguero-Ruiz C. Prediction of Healthcare Associated Infections in an Intensive Care Unit Using Machine Learning and Big Data Tools BT - XIV Mediterranean Conference on Medical and Biological Engineering and Computing 2016. In: Kyriacou E, Christofides S, Pattichis CS, editors. Cham: Springer International Publishing; 2016. p. 840–5	Khác
19. Nguyen M, Long SW, McDermott PF, Olsen RJ, Olson R, Stevens RL, et al. Using Machine Learning To Predict Antimicrobial MICs and Associated Genomic Features for Nontyphoidal Salmonella. J Clin Microbiol. 2019;57(2)	Khác
20. Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O, et al. Scikit-learn: Machine Learning in Python. J Mach Learn Res.2012;12	Khác
21. Hastie T, Tibshirani R, Friedman J. The elements of statistical learning:data mining, inference and prediction. Springer; 2009	Khác
22. Van An N, Hoang LH, Le HHL, Thai Son N, Hong LT, Viet TT, et al.Distribution and Antibiotic Resistance Characteristics of Bacteria Isolated from Blood Culture in a Teaching Hospital in Vietnam During 2014-2021. Infect Drug Resist. 2023;16:1677–92	Khác