nguyễn thành long xây dựng mô hình dự đoán tương tác dược chất tá dược bằng phương pháp học máy

Trong lĩnh vực sàng lọc tương tác dược chất - tá dược đã có một số nghiên cứu sử dụng trí tuệ nhân tạo để dự đoán tương tác có thể xảy ra, điển hình là nghiên cứu của tác giả S.. Ngoài r

TỔNG QUAN

Tổng quan về tương tác dược chất - tá dược

Dược chất (drug substance), còn gọi là hoạt chất (active substance) hay thành phần dược phẩm có hoạt tính (active pharmaceutical ingredient - API) là chất hoặc hỗn hợp các chất dùng để bào chế thuốc, có tác dụng dược lý hoặc có tác dụng trực tiếp trong phòng bệnh, chẩn đoán bệnh, chữa bệnh, điều trị bệnh, giảm nhẹ bệnh, điều chỉnh chức năng sinh lý cơ thể người [1]

Tá dược (excipients) là các thành phần dược dụng, không có tác dụng dược lý, được thêm vào thành phần của dạng thuốc, thực hiện các vai trò khác nhau như: làm tăng độ tan, độ nhớt, phân tán, nhũ hóa, làm thay đổi khả năng giải phóng, thay đổi tính thấm, bảo quản, cải thiện tính tương hợp, đảm bảo độ ổn định, tạo hương vị hấp dẫn,… để có được dạng thuốc đạt tiêu chuẩn chất lượng đã định [1]

Nghiên cứu về các tương tác giữa dược chất và tá dược đóng vai trò rất quan trọng trong xây dựng công thức thuốc vì nó có thể ảnh hưởng đến hiệu quả, an toàn và độ ổn định của sản phẩm [23] Tuy nhiên, nếu các tá dược không được lựa chọn cẩn thận thì các tương tác giữa dược chất và tá dược có thể gây ảnh hưởng đến tính chất của sản phẩm, chẳng hạn như làm giảm độ hòa tan, làm chậm quá trình giải phóng hoặc gây ra sự biến đổi hóa học đối với dược chất Do đó, việc lựa chọn các tá dược phù hợp để tạo ra dạng bào chế an toàn, ổn định và hiệu quả là rất cần thiết Việc sàng lọc khả năng tương thích của dược chất với tá dược được coi là một trong những yếu tố bắt buộc trong phát triển các dạng bào chế thuốc [40]

1.1.1 Các phương pháp nghiên cứu tương tác dược chất - tá dược

Các phương pháp đánh giá tương tác dược chất - tá dược có thể được thành 2 nhóm, bao gồm các kỹ thuật phân tích nhiệt và phi nhiệt

Các kỹ thuật phân tích nhiệt bao gồm phương pháp phân tích nhiệt lượng quét vi sai, phân tích nhiệt trọng lượng, phân tích nhiệt vi sai, phép đo vi nhiệt lượng đẳng nhiệt [8] Trong khi đó, một số kỹ thuật phân tích phi nhiệt thường dùng là nhiễu xạ tia X, quang phổ hồng ngoại, kính hiển vi điện tử quét và sắc ký lỏng hiệu năng cao [28]

Trong số các kỹ thuật nêu trên, ba kỹ thuật đánh giá tương tác dược chất - tá dược được sử dụng phổ biến nhất là quét nhiệt lượng vi sai, quang phổ hồng ngoại/quang phổ cận hồng ngoại và sắc ký lỏng hiệu năng cao

1.1.1.1 Quét nhiệt lượng vi sai

Quét nhiệt lượng vi sai (Differential scanning calorimetry - DSC) là kỹ thuật nhiệt phổ biến nhất được sử dụng để đánh giá sự tương thích của dược chất và tá dược [15] Kỹ thuật này thường chỉ yêu cầu cỡ mẫu nhỏ và thu được kết quả tương đối nhanh Trong phương pháp DSC, đường cong nhiệt của các thành phần (dược chất, tá dược)

3 được so sánh với đường cong thu được từ hỗn hợp Nếu các thành phần tương thích với nhau thì các đặc tính nhiệt của hỗn hợp sẽ là tổng của các thành phần riêng lẻ Sự thay đổi đáng kể về nhiệt độ nóng chảy, sự xuất hiện của đỉnh tỏa nhiệt/thu nhiệt mới và/hoặc sự biến đổi entanpy tương ứng của phản ứng trong hỗn hợp là dấu hiệu cho thấy sự không tương thích giữa các thành phần trong hỗn hợp

Một trong những ưu điểm của DSC so với các kỹ thuật thông thường khác là thời gian phân tích ngắn và lượng mẫu dùng để phân tích thường ít Tuy nhiên, hạn chế của phương pháp này là các kết luận về tính tương thích chỉ dựa trên kết quả DSC có thể gây hiểu nhầm và phải được biện giải cẩn thận bằng việc kết hợp với các kỹ thuật khác Hiện nay, kỹ thuật DSC thường được sử dụng kết hợp cùng với kỹ thuật kính hiển vi điện tử quét (Scanning Electron Microscopy - SEM), để đảm bảo độ chính xác [12]

Trong một nghiên cứu năm 2011, Aigner và cộng sự đã sử dụng kỹ thuật DSC nghiên cứu tương tác của aceclofenac với các tá dược khác nhau như Carbopol® 940, hydroxypropyl methylcellulose, cellulose vi tinh thể, Aerosil® 200 và magnesium stearat [2] Những thay đổi lớn được quan sát thấy trong hỗn hợp aceclofenac - magnesium stearat, đỉnh thu nhiệt tại điểm nóng chảy của aceclofenac biến mất và tín hiệu thu nhiệt của magnesium stearat cũng thay đổi Điều này thể hiện qua kết quả thu được, đỉnh thu nhiệt của hỗn hợp rộng với nhiệt độ ban đầu Tonset = 86.8 o C, nhiệt độ đỉnh

Tpeak là 94 o C và nhiệt độ cuối Tendset = 102.8 o C Trong khi ban đầu, với aceclofenac có

Tonset = 152.09 o C, Tpeak = 153.1 o C và Tendset = 156.65 o C còn với magnesium stearat, có 3 tín hiệu thu nhiệt bao gồm 1 tín hiệu lớn Tpeak 2 = 104.5 o C và hai tín hiệu nhỏ hơn Tpeak 1

= 89.2 o C, Tpeak 3 = 203.5 o C Như vậy, kết quả nghiên cứu cho thấy xảy ra tương tác giữa aceclofenac và magnesium stearat dẫn đến hình thành muối magnesium của aceclofenac Các tá dược khác được cho là tương thích với dược chất, tức là không quan sát thấy tương tác đáng kể giữa aceclofenac và các tá dược khác được nghiên cứu

1.1.1.2 Quang phổ hồng ngoại, quang phổ cận hồng ngoại

Quang phổ hồng ngoại (Infrared Spectroscopy - IR), quang phổ cận hồng ngoại

(Near Infrared Spectroscopy - NIR) là những kỹ thuật phi nhiệt được sử dụng phổ biến nhất để sàng lọc khả năng tương thích với tá dược của thuốc [15] Những kỹ thuật này cung cấp dấu vân tay duy nhất cho dược chất và tá dược dựa trên các thuộc tính vật lý và hóa học của chúng Do tính chất rất nhạy của các kỹ thuật này nên mọi sai lệch nhỏ về tính chất lý hóa của dược chất do tương tác với tá dược đều được phát hiện dễ dàng Những thay đổi lý hóa thường được quan sát do tương tác thuốc - tá dược bao gồm chuyển đổi dạng thù hình, mất nước, hình thành hydrat/solvat, … [6], [14]

Một số ưu điểm chung của các kỹ thuật IR và NIR bao gồm phân tích nhanh, phát hiện nhanh chóng và dễ dàng những điểm không tương thích nhờ sự dịch chuyển quang phổ và phát hiện các sản phẩm phụ tương tác Tuy nhiên, sự hiện diện của các chất chồng

4 lên nhau trong quang phổ có thể cản trở việc phân tích Đây cũng là hạn chế của các kỹ thuật này

Năm 2023, Nishant Thakur và cộng sự [43] đã tiến hành nghiên cứu tương tác có thể xảy ra trong công thức thuốc dán chứa thiococlchicosid với các tá dược là polymer (Eudragit L100, HPMC và PVP K30), chất hóa dẻo và tác nhân liên kết chéo (propylen glycol và triethyl citrat) bằng FTIR Kết quả thu được cho thấy các đỉnh đặc trưng của thiococlchicosid, carbonyl (Amide I) ở 1525.5 cm -1 , C=O (vòng tropan) ở 1664.4 cm -1 , amide (N-H) ở 3325.9 cm -1 , thioether ở 2360.7cm -1 và nhóm -OH ở 3400.2 cm -1 vẫn hiện diện trong hỗn hợp polymer sau khi bào chế dưới dạng miếng dán thấm qua da, cho thấy sự tương thích giữa dược chất - tá dược

1.1.1.3 Sắc ký lỏng hiệu năng cao (HPLC)

Sắc ký lỏng hiệu năng cao (HPLC) là một trong những kỹ thuật phân tích được sử dụng rộng rãi nhất để xác định tương tác nếu có giữa dược chất và tá dược trong công thức bào chế Kỹ thuật này có thể rất hữu ích trong trường hợp tương tác dẫn đến thay đổi về hàm lượng hoạt chất trong công thức bào chế [14] Kết quả HPLC cho phép tính được phần trăm dược chất hao hụt, từ đó đánh giá có sự tương tác giữ dược chất - tá dược hay không và ngược lại

Sắc ký lỏng hiệu năng cao có nhiều ưu điểm như độ chính xác cao, có thể kết hợp với nhiều phương pháp, kỹ thuật khác và trong các phòng thí nghiệm phân tích hầu như đều được trang bị thiết bị này Nhược điểm của HPLC là không áp dụng được để đánh giá tương tác dược chất - tá dược với những trường hợp không xảy ra sự thay đổi về lượng chất

Tổng quan về học máy

Học máy (Machine learning) là một lĩnh vực của AI liên quan đến việc nghiên cứu và xây dựng các kỹ thuật cho phép các hệ thống “học” tự động từ dữ liệu để giải quyết những vấn đề cụ thể Các mô hình của phương pháp học máy là các chương trình máy tính có khả năng học hỏi về cách hoàn thành các nhiệm vụ và cách cải thiện hiệu suất theo thời gian [39]

Học máy được hướng dẫn để sử dụng một bộ dữ liệu đào tạo, từ đó tạo ra một mô hình nguyên mẫu Khi thuật toán này tiếp nhận dữ liệu mới, nó sẽ đưa ra những dự đoán phân tích dựa trên nguyên mẫu căn bản Do cần có nguồn dữ liệu cực lớn để “học”, tuy nhiên vẫn cần có sự tham gia của con người trong việc tìm hiểu dữ liệu cơ sở và lựa chọn các kỹ thuật phù hợp để phân tích thông tin, đánh giá [10] Đồng thời, trước khi sử dụng, dữ liệu phải được làm sạch Trước đây, các mô hình học máy thường được xây dựng dựa trên các cơ sở dữ liệu chưa đủ lớn Sự xuất hiện và phát triển vượt bậc của Dữ liệu lớn (Big data) đã cung cấp những cơ sở dữ liệu khổng lồ để xây dựng các mô hình học máy với độ chính xác và khả năng dự đoán được cải thiện đáng kể [53]

Hiện nay, học máy là một công cụ mạnh mẽ được ứng dụng hiệu quả trong nhiều lĩnh vực nghiên cứu giúp tối ưu hoá công việc và dự đoán được tương lai [53] Có thể kể đến một số sản phẩm ứng dụng của học máy như: Cảnh báo giao thông trên ứng dụng Google Maps, Deepface của mạng xã hội Facebook, các máy có thể “học” cách phân

6 loại thư điện tử xem có phải thư rác (spam) hay không và tự động xếp chúng vào thư mục tương ứng [13]

Các phương pháp học máy phổ biến bao gồm học máy có giám sát, học máy không giám sát và học tăng cường

1.2.1 Các phương pháp xây dựng mô hình học máy

1.2.1.1 Học máy có giám sát

Mô hình học có giám sát là mô hình học trên dữ liệu có dán nhãn, tức là mục tiêu của bài toán học máy cần học đã được gán nhãn sẵn trong dữ liệu huấn luyện Dữ liệu đầu vào của quá trình học bao gồm cả vector đầu vào chứa các thuộc tính của dữ liệu lẫn giá trị đầu ra mục tiêu (gọi là nhãn của dữ liệu) Nói cách khác, “học máy có giám sát” cho phép dự đoán đầu ra của một dữ liệu mới dựa trên các cặp biến số (biến đầu vào, biến đầu ra) đã biết từ trước thu được từ bộ dữ liệu huấn luyện [33]

Hai dạng phổ biến nhất trong các bài toán học máy có giám sát là: phân loại và hồi quy Trong đó, mô hình phân loại cho phép dự đoán các nhãn của các lớp mục tiêu còn mô hình hồi quy cho phép dự đoán các giá trị số tương ứng với dữ liệu đầu vào Cả hai bài toán này đều nhận giá trị đầu vào là một hoặc nhiều biến thuộc dạng số [33]

Một số thuật toán thường được lựa chọn khi xây dựng mô hình phân loại gồm: vector hỗ trợ (Super Vector Machine - SVM); cây quyết định (Decision Tree - DT); mạng nơ-ron nhân tạo (Neural Network - NN); thuật toán dựa trên vector trọng tâm (Centroid - based vector - CBV); hay tuyến tính bình phương nhỏ nhất (Linear Least

1.2.1.2 Học máy không giám sát

Học không giám sát là mô hình học sử dụng một thuật toán để mô tả hoặc trích xuất ra các mối quan hệ tiềm ẩn trong dữ liệu Khác với học có giám sát, học không giám sát chỉ thực thi trên dữ liệu đầu vào không cần các thuộc tính nhãn, hoặc mục tiêu của việc học Các thuật toán được học từ dữ liệu mà không hề có bất cứ sự hướng dẫn nào như trong trường hợp học có giám sát [27]

Học máy không giám sát là kỹ thuật học sử dụng cho các bài toán phân cụm Có rất nhiều mô hình học không giám sát được ra đời và phát triển nhằm giải quyết bài toán phân cụm phục vụ khai thác hiệu quả nguồn dữ liệu chưa gán nhãn nhiều và rất đa dạng Các thuật toán thường được sử dụng để xây dựng mô hình là: k-means, HAC, SOM, DBSCAN,… [3]

Học tăng cường là mô hình học máy trong đó thuật toán tự động sử dụng các phản hồi từ môi trường để điều chỉnh hoạt động của chính mình sao cho tối đa nhất hiệu quả đạt được Học tăng cường sẽ đo các phản hồi từ môi trường và sử dụng một hàm đánh giá để tìm các phương án hành động nhằm tăng cường phần thưởng nhận được

(phản hồi tích cực) từ môi trường Trong mô hình này, tập huấn luyện không cố định, thuật toán chỉ cần một mục tiêu hoặc một nhóm các mục tiêu cần đạt, tập các hành vi có thể thực hiện, và dữ liệu phản hồi về hiệu quả thực thi của các hành động so với mục tiêu đề ra [41]

Tương tự với mô hình học có giám sát, mô hình học tăng cường dựa trên các phản hồi để học, tuy nhiên phản hồi trong mô hình học tăng cường không có sẵn trong dữ liệu được cung cấp mà được thu nhận từ môi trường và do đó nó có thể có độ trễ nhất định hoặc chứa nhiều nhiễu Điều này làm cho mô hình khó khăn trong việc kết nối giữa hành động và phản hồi một cách chính xác, ngay lập tức và cần một thời gian tương đối để thực hiện huấn luyện [41]

Trong nhiều vấn đề phức tạp, học tăng cường gần như là cách thức duy nhất để huấn luyện một chương trình có thể thực thi đạt hiệu quả cao Bởi, trong những bài toán phức tạp, dữ liệu có muôn hình vạn trạng và gần như rất khó có thể gán nhãn hoặc thậm chí chính con người còn không thể xử lý và không biết thế nào là tốt như lái xe, lái máy bay, chơi cờ thì việc áp dụng các mô hình học thông thường như ở trên là điều không tưởng Trong những trường hợp như vậy, các mô hình học tăng cường sẽ phát huy vai trò của mình [4]

1.2.2 Các thuật toán học máy

Về phân loại, có nhiều thuật toán học máy khác nhau nhưng nhìn chung chúng có thể được phân chia thành 3 loại chính được trình bày ở trên Trong số đó, 7 thuật toán học máy phổ biến nhất được ứng dụng trong đề tài khóa luận

1.2.2.1 Máy vector hỗ trợ (Support Vector Machine)

Máy vector hỗ trợ (SVM) là một kỹ thuật học máy có giám sát được sử dụng cho cả phân loại và hồi quy, nhưng thường được ứng dụng chủ yếu trong các bài toán phân loại Nguyên tắc chính của SVM là tìm ra một siêu phẳng (hyperplane) tối ưu để phân tách các điểm dữ liệu của các lớp khác nhau trong không gian đa chiều SVM tìm một siêu phẳng tối ưu (margin) sao cho khoảng cách từ đường phân chia tới các điểm dữ liệu mỗi lớp là bằng nhau và lớn nhất có thể Trường hợp dữ liệu không thể phân tách tuyến tính trong không gian, SVM sử dụng các hàm kernel để ánh xạ dữ liệu vào không gian chiều cao hơn, nơi dữ liệu có thể được phân tách [16]

SVM có nhiều ưu điểm nổi bật Trước hết, nó hoạt động hiệu quả trong không gian số chiều cao, giúp xử lý tốt các bộ dữ liệu phức tạp và nhiều đặc trưng SVM chỉ sử dụng một tập con của các điểm dữ liệu để xác định siêu phẳng, do đó tiết kiệm bộ nhớ Đặc biệt, SVM hỗ trợ nhiều loại hàm kernel cho phép linh động giữa các phương pháp tuyến tính và phi tuyến tính từ đó khiến cho hiệu suất phân loại lớn hơn

1.2.2.2 Hồi quy Logistic (Logistic Regression)

ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU

Hoá chất, thiết bị và phần mềm

Quercetin (Viện Kiểm nghiệm thuốc Trung Ương, độ tinh khiết 96.38%), magnesium carbonat (Trung Quốc)

2.1.2 Thiết bị và phần mềm

- Máy quang phổ hồng ngoại FTIR JASCO (Viện Công nghệ Dược phẩm Quốc gia)

- Máy tính Dell Latitude E7440, 256GB/8G Ram

Nội dung nghiên cứu

Để thực hiện mục tiêu đề ra, đề tài được tiến hành với các nội dung sau:

Nội dung 1: Xây dựng mô hình dự đoán tương tác dược chất - tá dược bằng phương pháp học máy

Nội dung 2: Đánh giá mô hình xây dựng trên tập kiểm định và tập kiểm tra

Nội dung 3: Kiểm tra kết quả dự đoán của mô hình bằng thực nghiệm với cặp quercetin

Nội dung 4: So sánh khả năng dự đoán của mô hình Stacking với mô hình DE-

INTERACT được phát triển bởi S Patel và cộng sự

Nội dung 5: Triển khai mô hình dự đoán tương tác dược chất - tá dược dưới dạng website

Sơ đồ thiết kế nghiên cứu được trình bày ở Hình 2.1

Hình 2.1 Sơ đồ thiết kế nghiên cứu

Xây dựng mô hình mol2vec

Triển khai mô hình dưới dạng website

Kiểm tra kết quả dự đoán bằng thực nghiệm

So sánh với mô hình của S Patel và cộng sự

Thu thập dữ liệu Đánh giá mô hình trên tập kiểm định và tập kiểm tra

Xây dựng mô hình Stacking

Phương pháp nghiên cứu

2.3.1 Xây dựng mô hình dự đoán tương tác dược chất - tá dược bằng phương pháp học máy

Tiến hành thu thập 3544 mẫu dữ liệu từ các tài liệu [15], [21], [34], [37] Trong số đó, có 3200 mẫu đã được gán nhãn là “Tương hợp” (nhãn 0) và 344 mẫu đã được gán nhãn là “Tương kỵ” (nhãn 1)

Cấu trúc hóa học của mỗi cặp dược chất - tá dược tương ứng được trình bày dưới dạng chuỗi SMILES, đã được trích xuất từ cơ sở dữ liệu PubChem [26] Quá trình thu thập dữ liệu không chỉ dừng lại ở việc thu thập mà còn bao gồm việc kiểm tra, xác minh và chuẩn hóa dữ liệu Cụ thể, dữ liệu phải được kiểm tra để đảm bảo rằng tất cả các trường thông tin cần thiết đều có giá trị, không bị thiếu Tiếp theo, dữ liệu được xác minh để đảm bảo cùng cấu trúc hóa học, nhằm tránh mâu thuẫn trong dữ liệu Sau đó, dữ liệu được đánh số thứ tự và đối chiếu với nguồn thông tin chính thức về dược chất và tá dược tương ứng Cuối cùng, dữ liệu được chuẩn hóa bằng cách chuyển đổi về một kiểu dữ liệu duy nhất, chuẩn hóa nhãn, xử lý các giá trị thiếu Tất cả các bước này nhằm đảm bảo rằng dữ liệu đầu vào mô hình học máy có chất lượng cao nhất, giúp tăng cường hiệu quả và độ chính xác của mô hình

Bộ dữ liệu ban đầu chỉ bao gồm cấu trúc hoá học của các cặp dược chất - tá dược được biểu diễn dưới dạng chuỗi SMILES Để sử dụng được trong mô hình học máy, chuỗi SMILES được chuyển sang kiểu dữ liệu số bằng sử dụng kỹ thuật mol2vec Ban đầu, chuỗi SMILES được chia thành các đoạn chuỗi nhỏ hơn, thường là các phần tử hóa học, nhóm chức, vòng thơm, Sau đó, mỗi đoạn chuỗi con được ánh xạ thành vector trong không gian đa chiều Các vector này biểu diễn một lượng lớn dữ liệu hóa học Kết quả là, từng dược chất, tá dược được biểu diễn bằng một vector có độ dài là 100, tương ứng 100 tham số phân tử Như vậy, mỗi cặp dược chất và tá dược sẽ được đặc trưng bởi

200 tham số phân tử Sau đó, bộ dữ liệu được chia ngẫu nhiên thành ba tập riêng biệt, tập huấn luyện, tập kiểm định và tập kiểm tra theo tỷ lệ 60% - 20% - 20% Tập huấn luyện được sử dụng để xây dựng mô hình, trong khi đó tập kiểm định đóng vai trò quan trọng trong việc so sánh hiệu suất của các mô hình khảo sát và hỗ trợ trong việc lựa chọn mô hình tối ưu Tập kiểm tra được sử dụng để đánh giá hiệu suất của mô hình cuối cùng

Ngoài ra, nhận thấy ngay bộ dữ liệu đang có sự mất cân bằng giữa hai nhãn

“Tương hợp” và “Tương kỵ” do nhãn “Tương kỵ” chỉ chiếm khoảng 10% trong bộ dữ liệu, điều này có thể dẫn tới mô hình dự đoán kém chính xác và đa phần kết quả dự báo sẽ thiên về nhãn đa số Để giải quyết vấn đề mất cân bằng hai nhãn này, kỹ thuật SVM

- SMOTE [42] đã được sử dụng giúp tạo các mẫu mới dựa trên sự kết hợp giữa các mẫu

20 hiện có, nhằm làm cân bằng số lượng mẫu giữa các lớp Điều này giúp cải thiện khả năng dự đoán của SVM đối với lớp thiểu số, đồng thời giảm thiểu vấn đề mất cân bằng dữ liệu [49]

2.3.1.3 Khảo sát các mô hình học máy

Trong nghiên cứu này, 7 mô hình học máy khác nhau đã được khảo sát, từ đó lựa chọn được mô hình hiệu quả nhất để xây dựng mô hình dự đoán tính tương thích giữa dược chất và tá dược Các thuật toán được sử dụng bao gồm máy vector hỗ trợ (Support

Vector Machine - SVM), hồi quy Logistic (Logistic Regresion - LR), k láng giềng gần nhất (k Nearest Neighbors - kNN), cây quyết định (Descision Tree - DT), rừng ngẫu nhiên (Random Forest - RF), XGBoost, AdaBoost Tham số phù hợp của mỗi mô hình được lựa chọn bằng phương pháp GridSearchCV [47] Sau đó, mô hình tốt nhất ứng với mỗi thuật toán được lựa chọn và so sánh dựa trên khả năng dự đoán của mô hình đối với tập kiểm định

2.3.1.4 Xây dựng mô hình mol2vec bằng phương pháp Stacking Để thu được mô hình phù hợp nhất, thay vì dựa hoàn toàn vào một mô hình học máy duy nhất, các mô hình đã được chọn trước đó (được gọi là các mô hình cơ sở) sẽ được kết hợp với nhau thành một mô hình mới, sử dụng thuật toán hồi quy Logistic (mô hình meta) để phân loại nhị phân [20], [36] Ngoài ra, để tăng cường khả năng dự đoán của mô hình đối với nhãn thiểu số (Tương kỵ) và độ chính xác tối ưu thì việc điều chỉnh trọng số được gán cho hai nhãn - 0 (Tương hợp - lớp Negative) và 1 (Tương kỵ - lớp Positive) được thực hiện Sự điều chỉnh này nhằm hướng mô hình ưu tiên dự đoán cho nhãn “Tương kỵ” Trong nghiên cứu này đã tiến hành kiểm tra bốn tỷ lệ trọng số khác nhau: 0.4:0.6, 0.3:0.7, 0.2:0.8 và 0.1:0.9, với mục tiêu tìm kiếm ra trọng số tốt nhất để cải thiện khả năng dự đoán của mô hình

2.3.3.5 Kết hợp mô hình mol2vec với các mô hình mô tả phân tử và điều chỉnh ngưỡng

Mặc dù nhiều nghiên cứu đã chứng minh hiệu suất vượt trội của mol2vec so với các tham số phân tử thông thường như 2D; 3D; ECFP, phương pháp này vẫn còn một số hạn chế nhất định, đó là chỉ áp dụng cho các hợp chất chứa H, B, C, N, O, F, P, S, Cl và

Br [22] Do đó, các hợp chất chứa các nguyên tố nằm ngoài tập hợp này, chẳng hạn như các ion kim loại sẽ không thể được biểu diễn bởi kỹ thuật mol2vec Vì vậy, ở bước tiếp theo mô hình mol2vec sử dụng tham số phân tử mol2vec sẽ được tiếp tục kết hợp với mô hình dựa trên tham số phân tử truyền thống, tạo ra mô hình Stacking [51]

Bên cạnh việc kết hợp mô hình dựa trên tham số phân tử, ngưỡng phân loại cũng đã được điều chỉnh để đạt được hai mục tiêu song song: tối đa hóa độ chính xác trong việc dự đoán nhãn 1 (Tương kỵ) nhưng vẫn duy trì độ chính xác khi dự đoán nhãn 0 (Tương hợp) Để thực hiện điều này, hai hướng tiếp cận khác nhau đã được sử dụng để xác định ngưỡng tối ưu Hướng tiếp cận đầu tiên liên quan đến việc tìm giá trị ngưỡng

21 trong khoảng (0, 1) với bước gia tăng là 0.001, với mục tiêu tối đa hóa F1 - score Điều này có nghĩa là giá trị ngưỡng được chọn sao cho F1 - score của mô hình trên tập kiểm định là cao nhất có thể [52] Hướng tiếp cận thứ hai sử dụng thuật toán GHOST, theo phương pháp được mô tả bởi C Esposito và cộng sự [18] Thuật toán GHOST là một thuật toán tối ưu hóa được sử dụng để tìm giá trị ngưỡng thích hợp cho việc phân loại Giá trị ngưỡng thích hợp đã được chọn dựa trên hiệu suất của mô hình trên tập kiểm định

2.3.2 Đánh giá mô hình Stacking

Mô hình Stacking thu được đánh giá dựa trên nhiều chỉ số khác nhau bao gồm độ chính xác, độ đúng, độ phủ, F1 - score, chỉ số AUC và MCC trên tập kiểm định và tập kiểm tra [16] Ngoài ra, mô hình cũng được đánh giá dựa trên số lượng trường hợp được dự đoán đúng trong dữ liệu thực tế

2.3.3 So sánh khả năng dự đoán của mô hình Stacking với mô hình được phát triển bởi S Patel và cộng sự

Sau khi đánh giá hiệu suất của mô hình Stacking trên tập kiểm tra, tiến hành kiểm tra trên các cặp dược chất - tá dược chưa có trong cơ sở dữ liệu gốc là cần thiết Kết quả dự đoán của mô hình xây dựng được so sánh với các kết quả thu được từ mô hình DE- INTERACT được phát triển bởi S Patel và cộng sự [34] Các cặp dược chất - tá dược này bao gồm warfarin - magnesium aluminum silicat, phenytoin - magnesium oxid, trichlormethiazid - magnesium oxid, tetracyclin - calcium phosphat, fluvoxamin - lactose, acetazolamid - lactose, acetazolamid - mannitol, hydrocortisol - magnesium stearat, hydrocortisol - beta cyclodextrin, phenytoin sodium - lactose, phenytoin sodium

THỰC NGHIỆM, KẾT QUẢ VÀ BÀN LUẬN

Kết quả xây dựng mô hình học máy dự đoán tương tác dược chất - tá dược

3.1.1 Kết quả thu thập và xử lý dữ liệu

Dữ liệu được thu thập từ các tài liệu [15], [21], [34], [37] Kết quả thu được bộ dữ liệu gồm 3544 cặp dược chất - tá dược, được gán nhãn: 0 - “Tương hợp” và 1 -

“Tương kỵ” Cấu trúc hóa học của từng dược chất và tá dược dưới dạng chuỗi SMILES

Có 3200 cặp tương hợp và 354 cặp tương kỵ, tương ứng với 514 dược chất và 352 tá dược được nhập liệu Cấu trúc hóa học của từng dược chất và tá dược được chuyển đổi từ dạng chuỗi SMILES thành một vector tương ứng có độ dài 100 bằng kỹ thuật mol2vec

Tiếp đó, bộ dữ liệu được chia ngẫu nhiên thành 3 phần: tập huấn luyện, tập kiểm định và tập kiểm tra với tỷ lệ số cặp dược chất - tá dược tương ứng là 60% - 20% - 20% Tuy nhiên, tập huấn luyện thu được thể hiện sự mất cân đối hai nhãn, với số lượng cặp tương kỵ chỉ chiếm khoảng 10% của tập dữ liệu Điều này có thể gây ra vấn đề như thiên vị về nhãn đa số và làm giảm độ chính xác dự đoán nhãn thiểu số của mô hình Để khắc phục vấn đề này, kỹ thuật SVM - SMOTE đã được áp dụng đối với tập huấn luyện Phương pháp này cho phép tạo ra các dữ liệu mới cho lớp thiểu số, tăng cường tính đại diện của nó trong bộ dữ liệu trong khi vẫn duy trì phân phối của lớp đa số Kết quả cho thấy sau khi sử dụng SVM - SMOTE thu được tập huấn luyện mới gồm 3836 dữ liệu với số lượng cặp tương kỵ và cặp tương hợp đều bằng 1913 Việc sử dụng tập huấn luyện mới này để khảo sát các mô hình phân loại đảm bảo rằng cả hai lớp đều được biểu diễn bằng nhau và các mô hình không thiên vị về lớp đa số, do đó cải thiện độ chính xác và tính tin cậy của mô hình

3.1.2 Kết quả khảo sát các mô hình học máy

7 mô hình học máy đã được xây dựng lần lượt bằng các thuật toán: SVM (Support

Vector Machine), hồi quy Logistic (Logistic Regression - LR), k - láng giềng gần nhất

(k-Nearest Neighbors - kNN), cây quyết định (Decision Tree - DT), rừng ngẫu nhiên (Random Forest - RF), XGBoost (XGB) và AdaBoost (ADA)

Các thông số tối ưu của mỗi mô hình được xác định bằng phương pháp GridSearchCV và trình bày ở Bảng 3.1

Bảng 3.1 Thông số tối ưu của các mô hình xây dựng được

Mô hình Thông số mô hình Khoảng khảo sát Giá trị tối ưu

Nhận xét: Phạm vi khảo sát và giá trị tối ưu cho 7 thuật toán học máy phổ biến, cho thấy một quy trình tối ưu hóa tham số cẩn thận và toàn diện Với rừng ngẫu nhiên (RF), số lượng cây (N_estimators) được khảo sát từ 50 đến 300, và giá trị tối ưu là 100, cân bằng giữa hiệu suất và thời gian tính toán Đối cây quyết định (DT), độ sâu tối đa (Max_depth) được khảo sát từ 5 đến 50, và giá trị tối ưu là 15, giúp tránh quá khớp mà vẫn đảm bảo độ phức tạp đủ để học tốt dữ liệu Với máy vector hỗ trợ (Support Vector Machine - SVM), tham số gamma tối ưu là 0.001 và tham số C là 5, cho thấy sự điều chỉnh hợp lý giữa mức độ ảnh hưởng của mỗi điểm dữ liệu và mức phạt cho các điểm dữ liệu bị phân loại sai K láng giềng gần nhất (k - Nearest Neighbors - kNN) hoạt động tốt nhất với số láng giềng (n_neighbors) là 6, cân bằng giữa việc tránh nhiễu và không làm mờ các điểm khác biệt Hồi quy Logistic (Logistic Regression - LR) có tham số C tối ưu là 0.6, điều chỉnh độ lớn của các hệ số hồi quy một cách hiệu quả XGBoost (XGB) có số lượng cây tối ưu là 200, độ sâu tối đa là 15, và tốc độ học là 0.9, cho thấy mô hình học nhanh và sâu để đạt hiệu suất tốt Cuối cùng, AdaBoost (ADA) hoạt động tốt nhất với tốc độ học là 0.7 và số lượng cây là 700, cho thấy cân bằng giữa số lượng lớn cây và tốc độ học Nhìn chung, việc tối ưu hóa tham số là cần thiết để đảm bảo mỗi mô hình hoạt động hiệu quả, tránh hiện tượng quá khớp hoặc chưa khớp, và tối đa hóa độ chính xác của dự đoán

Các mô hình được đánh giá về độ chính xác, độ đúng, độ phủ, F1-score, AUC và MCC [16] Kết quả được trình bày ở Bảng 3.2

Bảng 3.2 Kết quả đánh giá các mô hình xây dựng

Nhận xét: Từ kết quả ở Bảng 3.2 cho thấy, trong số 7 mô hình được xây dựng bằng các thuật toán học máy, mô hình XGBoost (XGB) đã thể hiện chất lượng tốt nhất với độ chính xác lên đến 97% Các giá trị về độ đúng, độ phủ, F1 - score, chỉ số AUC và MCC của mô hình này lần lượt là 0.87; 0.76; 0.81; 0.8 và 0.80 Mô hình XGB cũng thể hiện khả năng dự đoán tốt trên tập kiểm định với việc dự đoán chính xác 633 trên tổng số 641 trường hợp (98.8%) cho nhãn 0 (Tương hợp) Tuy nhiên, trong trường hợp tương kỵ, mô hình chỉ dự đoán chính xác 52 trên tổng số 68 trường hợp, đạt độ phủ là 76.47% Các mô hình Rừng Ngẫu Nhiên (RF) và AdaBoost (ADA) xếp hạng tiếp theo với độ chính xác là 96% Trong khi mô hình RF thể hiện độ chính xác cao (98.9%) trong việc dự đoán các cặp tương hợp, mô hình ADA thể hiện tính khả năng dự đoán tốt hơn các trường hợp tương kỵ, đạt độ phủ là 79.41% (54 trên tổng số 68 trường hợp) Ngược lại, ở mô hình SVM, mặc dù có độ chính xác tổng thể cao (95%) nhưng gặp khó khăn trong việc dự đoán sự tương kỵ khi chỉ nhận dạng chính xác 62% trong số các trường hợp tương kỵ Cuối cùng, mô hình kNN thể hiện chất lượng kém nhất, với độ chính xác, độ đúng, độ phủ và F1 - score lần lượt là 0.87; 0.42; 0.76 và 0.54

Từ kết quả khảo sát mô hình, có thể thấy rằng mặc dù các mô hình XGB, ADA và RF đã thể hiện khả năng dự đoán tốt nhưng chúng vẫn thể hiện mặt hạn chế là khả năng dự đoán chính xác các trường hợp tương kỵ chưa cao Để cải thiện khả năng phát hiện các cặp tương kỵ, mô hình mol2vec đã được xây dựng bằng cách kết hợp ba mô hình có hiệu suất tốt nhất là mô hình XGB, mô hình ADA và mô hình RF Cụ thể, mô hình mol2vec gồm ba mô hình XGB, ADA và RF tạo thành mô hình cơ sở và mô hình hồi quy Logistic làm mô hình meta đưa ra dự đoán

3.1.3 Kết quả xây dựng mô hình mol2vec bằng phương pháp Stacking

Xem xét tới sự mất cân đối của bộ dữ liệu, trong đó các cặp tương hợp chiếm 90% dữ liệu, mô hình mol2vec có khuynh hướng dự đoán lớp đa số hiệu quả hơn Nói cách khác, mô hình vẫn sẽ gặp khó khăn khi dự đoán các nhãn thiểu số Để khắc phục điểm hạn chế này, trọng số (hay tỉ trọng lớp) được điều chỉnh từ 0.5:0.5 sang các tỷ lệ

Mô hình Độ chính xác Độ đúng Độ phủ F 1 -score AUC MCC

0.4:0.6; 0.3:0.7; 0.2:0.8 và 0.1:0.9, trong đó tỉ trọng lớp “Tương kỵ” tăng dần từ 0.5 đến 0.9 còn tỉ trọng lớp “Tương hợp” giảm từ 0.5 xuống 0.1 Kết quả đánh giá chất lượng của các mô hình mol2vec khi điều chỉnh trọng số được trình bày ở Bảng 3.3

Bảng 3.3 Kết quả đánh giá các mô hình mol2vec khi điều chỉnh trọng số Điều chỉnh trọng số Độ chính xác F1 -score Độ đúng Độ phủ AUC MCC

Nhận xét: Kết quả ở Bảng 3.3 cho thấy trọng số tối ưu cho nhãn 0 - tương hợp là 0.3 và cho nhãn 1 - tương kỵ là 0.7 Khi đó, mô hình mol2vec đã thể hiện khả năng dự đoán tốt hơn rõ rệt với độ chính xác, độ đúng, F1 - score, độ phủ, chỉ số AUC và MCC lần lượt đạt 0.97; 0.83; 0.85; 0.87; 0.92 và 0.83 trên tập kiểm định

3.1.4 Kết hợp mô hình mol2vec với các mô hình mô tả phân tử và điều chỉnh ngưỡng

Các kỹ thuật mol2vec, 2D, 3D và ECFP đều đóng vai trò quan trọng trong việc chuyển đổi cấu trúc phân tử thành dạng số hóa, giúp các thuật toán học máy xử lý và phân tích Kỹ thuật mol2vec được xây dựng dựa trên mô hình word2vec trong xử lý ngôn ngữ tự nhiên, chuyển đổi cấu trúc phân tử thành vector Kỹ thuật 2D và 3D mô tả cấu trúc phân tử dưới dạng hai chiều và ba chiều, trong khi ECFP (Extended -

Connectivity Fingerprints) là một phương pháp tạo dấu vân tay cho các phân tử, đặc trưng bởi các đặc tính cấu trúc của chúng Việc kết hợp mô hình mol2vec với các mô hình phân tử khác nhau là cần thiết để cải thiện độ chính xác và khả năng dự đoán của mô hình đồng thời khắc phục hạn chế của mol2vec là chưa biểu diễn được kim loại

Tiến hành khảo sát ảnh hưởng của các tham số phân tử đến chất lượng mô hình dựa trên các thông số độ chính xác, độ đúng, độ phủ, F1 -score, chỉ số AUC và MCC Kết quả được trình bày ở bảng 3.4

Bảng 3.4 Kết quả đánh giá các mô hình mô tả phân tử

Mô hình Độ chính xác Độ đúng Độ phủ F1 -score AUC MCC

Nhận xét: Kết quả ở Bảng 3.4 cho thấy cả hai mô hình sử dụng tham số phân tử 3D và ECFP đều đạt được độ chính xác phân loại tương tự nhau trong việc xác định khả năng tương thích (độ chính xác 0.95), thấp hơn một chút so với độ chính xác của mô hình 2D (độ chính xác 0.97) Mặt khác, khi so sánh khả năng phát hiện các trường hợp không tương thích dựa trên độ phủ, mô hình 2D cũng vượt trội hơn mô hình 3D với độ phủ là 85% so với 76% Do đó, mô hình mol2vec sẽ được kết hợp với mô hình 2D, tạo ra mô hình mới gọi là mô hình Stacking

Sau khi lựa chọn được mô hình mô tả phân tử kết hợp với mô hình mol2vec, tiến hành khảo sát điều chỉnh ngưỡng Kết quả khảo sát được trình bày ở Hình 3.1 và Bảng

Hình 3.1 Ma trận nhầm lẫn A Ngưỡng ban đầu, B Điều chỉnh ngưỡng dựa trên F1- score, C Điều chỉnh ngưỡng dựa trên thuật toán GHOST

Bảng 3.5 Kết quả đánh giá mô hình Stacking sau khi điều chỉnh ngưỡng

GHOST) Độ chính xác 0.97 0.98 0.95 Độ đúng 0.87 0.87 0.67 Độ phủ 0.87 0.88 0.94

Nhận xét: Với phương pháp điều chỉnh ngưỡng dựa vào F1 - score, một loạt các giá trị ngưỡng từ 0 đến 1 đã được khảo sát Kết quả cho thấy mô hình đạt hiệu suất tối ưu với ngưỡng là 0.202 Ở giá trị này, mô hình Stacking đã thể hiện độ chính xác, F1 - score và độ đúng lần lượt đạt 0.98; 0.88 và 0.87 Đáng chú ý, giá trị độ phủ tăng nhẹ lên 0.88 (so với ban đầu là 0.87), biểu thị cho khả năng dự đoán của mô hình đối với nhãn tương kỵ vẫn duy trì ổn định Cụ thể, trong 68 cặp tương kỵ của tập kiểm định, mô hình Stacking tiếp tục nhận dạng 88% các trường hợp này, tương ứng với 60 cặp Một phương pháp khác là thuật toán GHOST, đã được sử dụng để xác định giá trị ngưỡng tối ưu và được so sánh với phương pháp đầu tiên đã được đề cập Kết quả cho thấy giá trị ngưỡng tối ưu do thuật toán này đề xuất là 0.020 Mặc dù điều này dẫn đến việc dự đoán đúng nhãn 1 tăng nhẹ (64 trên tổng số 68 cặp) so với 60 trên tổng số 68 cặp ở phương pháp điều chỉnh theo F1 - score, khả năng của mô hình dự đoán nhãn 0 giảm đáng kể Trong trường hợp này, mô hình chỉ dự đoán đúng 609 trên tổng số 641 trường hợp Do đó, giá trị ngưỡng 0.202 đã được chọn làm ngưỡng tối ưu, vì nó tạo ra sự cân đối tốt hơn giữa độ chính xác dự đoán cho cả hai nhãn.

Kết quả đánh giá mô hình Stacking

Mô hình Stacking được đánh giá lần lượt trên tập kiểm định và tập kiểm tra

3.2.1 Đánh giá mô hình Stacking trên tập kiểm định

Một phần quan trọng trong đánh giá mô hình là sử dụng tập kiểm định Tập này chỉ chiếm 20% bộ dữ liệu Mô hình đạt được kết quả tốt với độ chính xác cao 0.98, độ đúng 0.87, độ phủ 0.88, F1 - score 0.88, chỉ số AUC 0.93 và MCC 0.86 Tổng thể, mô hình đã thể hiện khả năng dự đoán rất tốt trong việc phân loại các nhãn "Tương hợp" và

3.2.2 Đánh giá mô hình Stacking trên tập kiểm tra

Tập kiểm tra chiếm 20% tổng bộ dữ liệu và được sử dụng để đánh giá mô hình Stacking Đáng chú ý, tập kiểm tra đại diện cho dữ liệu hoàn toàn mới mà mô hình chưa từng gặp trong quá trình huấn luyện hoặc tối ưu hóa ngưỡng Do đó, việc đánh giá mô hình trên tập kiểm tra giúp đo lường khả năng dự đoán của mô hình trong điều kiện gần giống với các tình huống thực tế nhất Các kết quả cho thấy rằng mô hình Stacking đã thể hiện khả năng dự đoán tương đối tốt trên tập kiểm tra với độ chính xác đạt được là 0.97 Các giá trị F1 - score, độ đúng, độ phủ, chỉ số AUC và MCC của mô hình cũng đã được xác định lần lượt là 0.84; 0.80; 0.88; 0.93 và 0.82 Giá trị độ đúng thu được trên tập kiểm tra hơi thấp hơn so với độ đúng đạt được trên tập kiểm định, biểu thị rằng mô hình có thể đã bỏ sót một số cặp tương hợp Tuy nhiên, đối với nhãn tương kỵ mô hình vẫn nhận dạng chính xác 60 trong tổng số 68 cặp trên tập kiểm tra Mặc dù vậy, kết quả này vẫn được coi là chấp nhận được

3.3 Kết quả so sánh khả năng dự đoán của mô hình Stacking với mô hình DE- INTERACT được phát triển bởi S Patel và cộng sự

Khả năng dự đoán của mô hình Stacking được xây dựng trong khóa luận này được so sánh với mô hình DE-INTERACT phát triển bởi S Patel và cộng sự [34] bằng cách tiến hành kiểm tra 12 cặp dược chất - tá dược Đáng chú ý, tính tương thích của 11 cặp đầu tiên đã được chứng minh thông qua các nghiên cứu trước đó [11], [19], [35], [37], [50] Tính tương thích của cặp cuối cùng, quercetin và magnesium carbonat chưa được nghiên cứu Không có sự trùng lặp trong số 12 cặp dược chất - tá dược có trong cơ sở dữ liệu của nghiên cứu này và trong nghiên cứu của S Patel và cộng sự Vì tập trung vào việc phát hiện khả năng tương kỵ nên các cặp tương kỵ đã được ưu tiên để dự đoán thay vì các cặp tương hợp Kết quả so sánh khả năng dự đoán của hai mô hình được trình bày ở Bảng 3.6

Bảng 3.6 So sánh khả năng dự đoán của mô hình Stacking với mô hình DE-

INTERACT của S Patel và cộng sự [34]

TT Dược chất Tá dược

Tương kỵ Tương kỵ Tương kỵ

2 Phenytoin Magnesium oxid Tương kỵ Tương hợp Tương kỵ

3 Trichlormethiazid Magnesium oxid Tương kỵ Tương hợp Tương kỵ

4 Tetracyclin Calcium phosphat Tương kỵ Tương kỵ Tương kỵ

5 Fluvoxamin Lactose Tương kỵ Tương kỵ Tương kỵ

6 Acetazolamid Lactose Tương hợp Tương hợp Tương kỵ

7 Acetazolamid Mannitol Tương hợp Tương hợp Tương kỵ

8 Phenytoin sodium Lactose Tương kỵ Tương hợp Tương kỵ

9 Phenytoin sodium Calcium sulfat Tương kỵ Tương hợp Tương kỵ

10 Hydrocortisol Magnesium stearat Tương kỵ Tương hợp Tương kỵ

Cyclodextrin Tương kỵ Tương hợp Tương kỵ

12 Quercetin Magnesium carbonat Tương kỵ Tương hợp Tương kỵ

Nhận xét: Trong số 11 cặp dược chất - tá dược đã được chứng minh tính tương thích, mô hình DE-INTERACT chỉ nhận diện được tương tác trong 3 trên tổng số 11 trường hợp, bao gồm cặp warfarin - magnesium aluminum silicat, tetracyclin - calcium phosphat và fluvoxamin - lactose Đối với các cặp còn lại, mặc dù kết quả thực nghiệm xác nhận có tương tác giữa dược chất và tá dược, mô hình DE-INTERACT lại dự đoán sai các kết quả tương kỵ thành tương hợp Trái lại, mô hình Stacking được xây dựng

31 trong khóa luận này đã dự đoán chính xác tất cả 9 trên tổng số 11 trường hợp Điều này cho thấy tính chính xác và hiệu quả của mô hình Stacking so với mô hình DE- INTERACT cho mục đích nghiên cứu ban đầu, xoay quanh việc sàng lọc tương tác tiềm ẩn giữa dược chất và tá dược.

Kết quả đánh giá khả năng dự đoán của mô hình Stacking bằng thực nghiệm với cặp quercetin - magnesium carbonat

Quercetin là một flavonoid phổ biến trong tự nhiên, được tìm thấy trong nhiều loại trái cây, rau củ, như hành tây, quả việt quất và quả lựu [30] Một số chế phẩm chứa quercetin có thể bào chế ở dạng viên nén hoặc viên nang [46] Trong khi đó, magnesium carbonat được sử dụng như một tá dược phổ biến, đóng vai trò làm tá dược độn trong viên nén và viên nang [1] Trong một số trường hợp, magnesium carbonat cũng được sử dụng như một chất chống axid [37] Tuy nhiên, chưa có nghiên cứu nào được tiến hành để xem xét sự tương thích giữa quercetin và magnesium carbonat Do đó, việc kết hợp quercetin với magnesium carbonat đã được chọn làm thực nghiệm để kiểm tra khả năng dự đoán của mô hình Tương tác giữa quercetin và magnesium carbonatđược đánh giá bằng phương pháp quét phổ hồng ngoại (IR) và quét nhiệt lượng vi sai (DSC)

Phổ hồng ngoại (IR) của quercetin, magnesium carbonat và hỗn hợp quercetin- magnesium carbonat được trình bày ở Hình 3.2

Hình 3.2 Phổ hồng ngoại (IR) của quercetin, magnesium carbonat và hỗn hợp quercetin - magnesium carbonat Phổ hồng ngoại của quercetin cho thấy các đỉnh đặc trưng ứng với các liên kết O-H và C=O tại 3406.78 cm -1 và 1667.84 cm -1 Đáng chú ý, các tín hiệu tương ứng với liên kết C-H trong vòng benzen xuất hiện tại 1613.21 cm -1 , 1562.22 cm -1 và 1520.21

T ra ns m it ta nc e

Quercetin and Magnesium carbonate.jws:

T ra ns m it ta nc e 36 47 39 33 35 10 97 86 34 46 14 12 16 12 80 22 15 79 24 89 14 83 15 67 14 22 21 52 13 33 85 63 12 68 23 00 12 01 46 41 88 3 36 45 85 2 35 32 79 9 00 87 71 5 64 63 59 4 34 77 43 2 87 27

32 cm -1 Những kết quả này phù hợp với các nghiên cứu trước đây về phổ hồng ngoại của quercetin [29] Như dự đoán, phân tích phổ hồng ngoại của hỗn hợp quercetin - magnesium carbonat không hiển thị những đỉnh đặc trưng dự kiến, như các đỉnh 3406.78 cm -1 và 1667.84 cm -1 Điều này chứng tỏ có sự tương tác giữa hai thành phần này

Kết quả quét nhiệt vi sai (DSC) của quercetin, magnesium carbonat và hỗn hợp quercetin - magnesium carbonat được trình bày ở Hình 3.3

Hình 3.3 Quét nhiệt lượng vi sai của quercetin, magnesium carbonat và hỗn hợp quercetin - magnesium carbonat Phát hiện tương kỵ của cặp quercetin - magnesium carbonat cũng tương đồng với kết quả quét nhiệt lượng vi sai Trong đó, đường cong DSC của quercetin (Đường màu xanh dương) cho thấy 3 sự kiện: đầu tiên là một sự kiện thu nhiệt mạnh ở 108.6 o C (Tonset

= 92.7 o C), tương ứng với các giá trị được báo cáo trong tài liệu (92.7 o C -118.1 o C), sự kiện thứ hai thu nhiệt mạnh có peak tại Tpeak = 326 o C; Tonset = 323.0 o C; Tendset = 328.2 oC và sự kiện thứ 3 tỏa nhiệt tại Tpeak = 355.6 o C; Tonset = 346.7 o C; Tendset = 362.6 o C Đường cong DSC của magnesium carbonat (Đường màu xanh lá) cũng cho thấy 3 sự kiện: đầu tiên là một sự kiện thu nhiệt ở 54.2 o C (Tonset = 47.9 o C; Tendset = 59.4 o C, sự kiện thứ hai thu nhiệt mạnh có peak tại Tpeak = 254.9 o C; Tonset = 229.1 o C; Tendset = 274.8 oC và sự kiện thứ 3 thu nhiệt mạnh tại Tpeak = 426.6 o C; Tonset = 373.3 o C; Tendset = 444.5 oC Đường cong DSC của quercetin - magnesium carbonat (Đường màu đỏ) cho thấy 1 sự kiện Đó là một sự kiện thu nhiệt ở 140.7 o C (Tonset = 127.1 o C; Tendset = 150 o C) Có thể nhận thấy rằng, đường cong DSC của hỗn hợp quercetin - magnesium carbonat có

33 sự thay đổi đáng kể so với đường cong DSC của 2 mẫu thành phần Đầu tiên, không còn có peak đặc trưng của quercetin tại Tpeak = 108.6 o C Tiếp đến, cường độ các peak đặc trưng của magnesium carbonat cũng có sự thay đổi rõ rệt, lần lượt với peak tại Tpeak 254.9 o C giảm từ 3.62 xuống 3.37 (mW); peak tại Tpeak = 426.6 giảm từ 3.72 xuống 2.91 (mW) Cuối cùng, có sự xuất hiện 1 peak mới tại mẫu quercetin - magnesium carbonat, cụ thể tại Tpeak = 140.7 với Tonset = 127.1; Tendset = 150 Qua đó, tương tác giữa dược chất

- tá dược: quercetin - magnesium carbonat đã được phát hiện bằng phương pháp DSC

Kết luận: Tương tác giữa dược chất - tá dược của cặp quercetin - magnesium carbonat đã được khẳng định bằng thực nghiệm thông qua phương pháp quét phổ hồng ngoại và quét nhiệt vi sai Kết quả này hoàn toàn phù hợp với kết quả dự đoán tương tác của cặp quercetin - magnesium carbonat đưa ra bởi mô hình Stacking xây dựng trong khóa luận (Bảng 3.6).

Triển khai mô hình dự đoán tương tác dược chất - tá dược dưới dạng website

Sau khi kết thúc giai đoạn huấn luyện, bước tiếp theo là triển khai mô hình Stacking ở dạng một website để người dùng nhanh chóng tiếp cận và sử dụng Trong nghiên cứu này, mô hình được đưa trên nền tảng Streamlit Cloud [25] Giao diện của website cung cấp một số kiểu nhập đầu vào, cho phép người dùng dễ dàng nhập thông tin để dự đoán Cụ thể, người dùng có thể linh hoạt nhập một trong ba loại dữ liệu: tên, PubChem CID, hoặc chuỗi SMILES dược chất và tá dược Khi thông tin được nhập vào, mô hình sẽ xử lý dữ liệu và đưa ra dự đoán về tính tương thích hoặc không tương thích, kèm theo xác suất cho biết mức độ tin cậy của kết quả

Minh họa về kết quả tìm kiếm, cùng với giao diện web được minh họa ở Hình

3.4 Người dùng có thể truy cập web thông qua URL: https://decompatibility.streamlit.app/

Bàn luận

3.6.1 Về vai trò của AI và học máy trong thiết kế thuốc

Sự phát triển của trí tuệ nhân tạo (AI) và học máy đã mở ra nhiều cơ hội trong nghiên cứu và phát triển thuốc Công nghệ này không chỉ giúp tối ưu hóa quy trình nghiên cứu và thử nghiệm thuốc, mà còn có thể dự đoán hiệu quả và tác dụng của các thuốc tiềm năng, từ đó đẩy nhanh quá trình nghiên cứu phát triển thuốc mới Đối với nghiên cứu dự đoán tương tác dược chất - tá dược, AI và học máy có thể được sử dụng để dự đoán tương tác này, giúp tăng cường hiệu quả của quá trình phát triển thuốc và giảm thời gian cần thiết cho các thử nghiệm Tổng quan, sự tích hợp của AI cũng như học máy trong lĩnh vực này đang giúp tăng cường hiệu quả nghiên cứu phát triển thuốc, đồng thời làm giảm đáng kể chi phí và thời gian của quá trình này

3.6.2 Về kết quả xây dựng mô hình học máy dự đoán tương tác dược chất - tá dược

Bước đầu của xây dựng mô hình học máy là phải có một bộ dữ liệu chuẩn Tuy nhiên, việc thu thập dữ liệu hết sức khó khăn, nguyên nhân do tính bảo mật công thức bào chế Ngoài ra số lượng bài báo nghiên cứu tương tác dược chất - tá dược không nhiều Phần lớn dữ liệu đều được thu thập từ nghiên cứu DE-INTERACT của S Patel [34] và thông tin từ một số nghiên cứu khác Dữ liệu được nhập vào gồm công thức SMLIES của từng cặp dược chất - tá dược, một cột gắn nhãn “Tương hợp” và “Tương kỵ”

Bước xử lý dữ liệu là một trong những bước quan trọng, bởi mô hình học máy không thể đọc được các chuỗi ký tự nên cần phải chuyển sang dạng ký tự khác bằng xử lý ngôn ngữ tự nhiên Phương pháp này đại diện cho một nhánh quan trọng của học máy

35 với ý nghĩa sâu rộng trên nhiều lĩnh vực khác nhau, bao gồm cả hóa học Lấy cảm hứng từ mô hình word2vec, một kỹ thuật phổ biến được sử dụng trong xử lý ngôn ngữ tự nhiên, S Jaeger và cộng sự đã giới thiệu kỹ thuật mol2vec [22] Cách tiếp cận sáng tạo này liên quan đến việc biến đổi một phân tử hóa học thành một vectơ, vectơ này có thể được sử dụng làm biến đầu vào cho các thuật toán học máy Nhiều nghiên cứu đã nhấn mạnh tính hiệu quả của phương pháp này, thường mang lại kết quả ngang bằng hoặc thậm chí vượt trội so với các phương pháp mô tả phân tử thông thường Do đó, đề tài khóa luận được tiến hành với mục đích xây dựng một mô hình học máy mạnh mẽ có khả năng dự đoán chính xác khả năng tương thích giữa dược chất và tá dược trong công thức bào chế thuốc bằng kỹ thuật mol2vec Tuy nhiên, kỹ thuật mol2vec có một số nhược điểm như chưa biểu diễn được một số chất như kim loại,… Do đó, cần kết hợp mol2vec với 1 phương pháp mô tả phân tử để khắc phục nhược điểm trên Tiến hành khảo sát các mô hình được xây dựng bằng phương pháp mô tả phân tử 2D, 3D và ECFP, từ đó lựa chọn mô hình có độ chính xác cao nhất để kết hợp với mô hình xây dựng bằng kỹ thuật mol2vec, tạo ra mô hình Stacking

Xây dựng các mô hình bằng 7 thuật toán học máy là bước mấu chốt của quá trình xây dựng mô hình mol2vec Từ kết quả tính toán tham số tối ưu và các chỉ số đánh giá bằng phương pháp Grid Search cho thấy trong số 7 mô hình được xây dựng, 3 mô hình

RF, XGB, ADA có độ chính xác cao nhất

Sau khi xử lý dữ liệu và khảo sát mô hình, bước tiếp theo là kết hợp mô hình để tăng khả năng dự đoán, bởi dùng nếu chỉ một mô hình duy nhất thì kết quả không tốt bởi quy tắc đánh đổi bởi độ chệch và phương sai Việc kết hợp các mô hình tạo thành mô hình mới sẽ khắc phục được nhược điểm của mô hình đơn lẻ, tăng độ chính xác của mô hình Phương pháp được sử dụng trong đề tài là phương pháp Stacking

Mô hình mol2vec dự đoán tương tác dược chất - tá dược đã được xây dựng bằng cách kết hợp 3 mô hình RF, XGB, ADA

3.6.3 Về kết quả đánh giá mô hình Stacking

Mô hình Stacking được đánh giá trên tập kiểm định thông qua các chỉ tiêu độ chính xác, độ đúng, độ phủ, chỉ số AUC và chỉ số MCC bởi bài toán cần giải quyết trong đề tài khóa luận là bài toán phân loại

Với mô hình Stacking xây dựng được, các chỉ số như độ chính xác, độ đúng, độ phủ, chỉ số AUC, chỉ số MCC lần lượt là 0.98; 0.87; 0.88; 0.93 và 0.86 Khả năng dự đoán của mô hình Stacking trong việc dự đoán tương kỵ giữa dược chất và tá dược ngay cả trên dữ liệu mà nó chưa từng gặp trong quá trình huấn luyện rất tốt, điều này được thể hiện qua việc tiến hành so sánh 12 mẫu tương kỵ đã có bằng chứng chứng minh, mô hình Stacking đã dự đoán chính xác 10/12 mẫu còn mô hình DE-INTERACT của tác

36 giả S Patel và cộng sự [34] chỉ dự đoán đúng 3/12 mẫu Điều này cho thấy mô hình Stacking dự đoán chính xác hơn trên các mẫu tương kỵ

3.6.4 Về khả năng ứng dụng của mô hình Stacking

Mô hình Stacking không thể phủ nhận là một công cụ hữu ích cho các nhà sản xuất dược phẩm trong quá trình chọn lựa tá dược Tá dược đóng vai trò quan trọng trong việc đảm bảo tính ổn định và hiệu quả của sản phẩm Việc áp dụng mô hình Stacking trong việc dự đoán tương tác dược chất - tá dược cung cấp một phương pháp mạnh mẽ để đánh giá và lựa chọn tá dược hiệu quả Bằng cách kết hợp dự đoán từ nhiều mô hình khác nhau, mô hình Stacking có thể cung cấp cái nhìn tổng thể và đa chiều về tương tác giữa dược chất và tá dược Tuy nhiên, việc thử nghiệm của Stacking trong trường hợp dự đoán dược chất - tá dược chưa đủ có thể gây ra những rủi ro Do đó, việc tiến hành một dự án riêng biệt với trọng tâm cụ thể về xác nhận khả năng dự đoán của mô hình là rất cần thiết Điều này đảm bảo rằng mô hình Stacking được đánh giá một cách toàn diện và đáng tin cậy trước khi áp dụng vào quy trình chọn lựa tá dược Bằng cách này, việc sử dụng mô hình Stacking có thể giúp các nhà sản xuất dược phẩm tối ưu hóa quá trình lựa chọn tá dược, đảm bảo tính ổn định và an toàn của sản phẩm cuối cùng

3.6.5 Về việc triển khai mô hình ở dạng website

Việc đưa mô hình Stacking lên website với giao diện thân thiện và dễ sử dụng mang lại nhiều lợi ích cho người dùng Một giao diện web tiện lợi giúp người dùng tiết kiệm thời gian và công sức trong quá trình đánh giá tương tác dược chất - tá dược Do không cần phải hiểu về các kỹ thuật học máy phức tạp, chỉ cần nhập dữ liệu và nhận kết quả một cách dễ dàng Điều này cũng tạo điều kiện thuận lợi cho việc tiếp cận mô hình từ nhiều thiết bị khác nhau như máy tính, điện thoại di động, hoặc máy tính bảng Bên cạnh đó, việc đưa mô hình lên website cũng tăng tính minh bạch và khách quan trong quá trình đánh giá Mọi người có thể truy cập và sử dụng mô hình một cách công khai, đồng thời đánh giá hiệu quả của nó dựa trên kết quả được hiển thị Điều này giúp đưa ra quyết định lựa chọn tá dược một cách thông minh và hiệu quả hơn, đồng thời tăng cơ hội cho nhiều người tiếp cận và sử dụng công cụ này Đó chính là lý do việc triển khai mô hình trên website đóng vai trò quan trọng trong việc đơn giản hóa quá trình đánh giá tương tác dược chất - tá dược và tạo ra lợi ích đáng kể cho cộng đồng

3.6.6 Một số ưu điểm, nhược điểm của mô hình Stacking Ưu điểm chính của mô hình là khả năng đưa ra kết quả nhanh chóng, ngoài ra mô hình còn được triển khai lên website giúp người dùng dễ dàng tiếp cận

Tuy nhiên, mô hình vẫn còn một số hạn chế như chưa thể giải thích cơ chế tương tác cụ thể do quá trình thu thập thông tin đầu vào chỉ tập trung vào việc xác định tương tác hay không có tương tác mà không chỉ rõ cơ chế tương tác là gì Ngoài ra, nghiên cứu này chủ yếu tập trung vào các loại dược chất và tá dược có cấu trúc phân tử sẵn có trong

PubChem Do đó, một số dược chất hay tá dược như polymer, mặc dù được sử dụng rất rộng rãi trong thực tế nhưng có thể sẽ không có dữ liệu, do đó không thể dự đoán bởi mô hình Những hạn chế này sẽ là tiền đề cho những nghiên cứu tiếp theo nhằm hoàn thiện mô hình nghiên cứu độ ổn định thuốc trong tương lai

KẾT LUẬN VÀ ĐỀ XUẤT KẾT LUẬN

Sau thời gian thực hiện, đề tài đã hoàn thành được hai mục tiêu đề ra và thu được các kết quả như sau:

1 Đề tài đã xây dựng thành công mô hình Stacking dự đoán tương tác dược chất - tá dược bằng phương pháp học máy Mô hình có chất lượng tốt với độ chính xác, độ đúng, độ phủ, chỉ số AUC và chỉ số MCC lần lượt là 0.98; 0.87; 0.88; 0.93 và 0.86 Mô hình đã được kiểm chứng bằng thực nghiệm với cặp quercetin - magnesium carbonat Đáng chú ý, mô hình còn phân loại chính xác 10/12 trường hợp có tương tác dược chất

- tá dược đã được chứng minh bằng thực nghiệm

2 Mô hình đã được triển khai thông qua giao diện trang web giúp người dùng dễ dàng tiếp cận và thực hiện quá trình đánh giá tương tác dược chất - tá dược ĐỀ XUẤT

Tiêu đề	Xây dựng mô hình dự đoán tương tác dược chất - tá dược bằng phương pháp học máy
Tác giả	Nguyễn Thành Long
Người hướng dẫn	ThS. Nguyễn Văn Phương, PGS.TS. Nguyễn Thu Hằng
Trường học	Trường Đại học Dược Hà Nội
Chuyên ngành	Dược Sĩ
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2024
Thành phố	Hà Nội

Định dạng
Số trang	50
Dung lượng	847,9 KB