1. Trang chủ
  2. » Luận Văn - Báo Cáo

nguyễn thành long xây dựng mô hình dự đoán tương tác dược chất tá dược bằng phương pháp học máy

50 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 2

BỘ Y TẾ TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI

Trang 3

LỜI CẢM ƠN

Với lòng kính trọng và biết ơn sâu sắc, tôi xin gửi lời cảm ơn chân thành đến

PGS.TS Nguyễn Thu Hằng Cô đã dành rất nhiều thời gian và tâm huyết để chỉ bảo,

hướng dẫn, truyền đạt cho tôi những kinh nghiệm quý báu, động viên và khích lệ tôi trong suốt quá trình làm khóa luận tốt nghiệp

Tôi xin gửi lời cảm ơn đến ThS Nguyễn Văn Phương, người thầy nhiệt huyết,

người đã hướng dẫn, quan tâm, hỗ trợ và truyền động lực cho tôi trong suốt chặng đường làm khóa luận vừa qua

Tôi cũng xin gửi lời cảm ơn đến GS TS Nguyễn Ngọc Chiến, Viện Công nghệ

dược phẩm quốc gia đã giúp kiểm tra mô hình bằng thực nghiệm, góp phần hoàn thiện đề tài khóa luận

Tôi xin chân thành cảm ơn các thầy cô giảng viên cũng như kỹ thuật viên đang công tác tại bộ môn Dược liệu - Trường Đại học Dược Hà Nội đã tạo điều kiện giúp tôi trong quá trình thực hiện khóa luận Để hoàn thành khoá luận này không thể không nhắc tới sự giúp đỡ nhiệt tình của các bạn, các em sinh viên đang học tập và nghiên cứu khoa

học tại bộ môn Đặc biệt, tôi xin được gửi lời cảm ơn sâu sắc đến hai em Nguyễn Thanh

Hoa và Nguyễn Đăng Duy, bạn Bùi Quốc Bảo đã luôn động viên, hỗ trợ và sát cánh

cùng tôi trong suốt thời gian qua

Tôi xin cảm ơn Ban Giám hiệu Nhà trưởng, các phòng ban cùng toàn thể thầy cô Trường Đại học Dược Hà Nội đã truyền đạt những kiến thức quan trọng, bổ ích không chỉ là nền tảng cho quá trình thực hiện khóa luận mà còn là hành trang cho chặng đường phía trước

Lời cảm ơn cuối cùng tôi xin được gửi đến gia đình, bạn bè, những người đã luôn bên cạnh động viên, chia sẻ giúp đỡ tôi để tôi có thêm động lực vượt qua mọi khó khăn trong cuộc sống và học tập

Và chắc chắn, khóa luận của tôi vẫn còn những hạn chế về năng lực và thiếu sót trong quá trình nghiên cứu Tôi rất mong được lắng nghe và tiếp thu những ý kiến đóng góp của các thầy cô và bạn bè để khóa luận được hoàn thiện hơn

Tôi xin chân thành cảm ơn!

Hà Nội, ngày 03 tháng 06 năm 2024

Sinh viên

Nguyễn Thành Long

Trang 4

MỤC LỤC

ĐẶT VẤN ĐỀ 1

CHƯƠNG 1: TỔNG QUAN 2

1.1 Tổng quan về tương tác dược chất - tá dược 2

1.1.1 Các phương pháp nghiên cứu tương tác dược chất - tá dược 2

1.1.2 Một số nghiên cứu về tương tác dược chất - tá dược 4

1.2 Tổng quan về học máy 5

1.2.1 Các phương pháp xây dựng mô hình học máy 6

1.2.2 Các thuật toán học máy 7

1.2.3 Phương pháp Stacking 10

1.2.4 Các phương pháp đánh giá mô hình học máy 11

CHƯƠNG 2: ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 17

2.1 Hoá chất, thiết bị và phần mềm 17

2.1.1 Hoá chất 17

2.1.2 Thiết bị và phần mềm 17

2.2 Nội dung nghiên cứu 17

2.3 Phương pháp nghiên cứu 19

2.3.1 Xây dựng mô hình dự đoán tương tác dược chất - tá dược bằng phương pháp học máy 19

2.3.2 Đánh giá mô hình Stacking 21

2.3.3 So sánh khả năng dự đoán của mô hình Stacking với mô hình được phát triển bởi S Patel và cộng sự 21

2.3.4 Kiểm tra kết quả dự đoán của mô hình Stacking bằng thực nghiệm với cặp quercetin - magnesium carbonat 21

2.3.5 Triển khai mô hình dự đoán tương tác dược chất - tá dược dưới dạng website 22

CHƯƠNG 3: THỰC NGHIỆM, KẾT QUẢ VÀ BÀN LUẬN 23

3.1 Kết quả xây dựng mô hình học máy dự đoán tương tác dược chất - tá dược 23

3.1.1 Kết quả thu thập và xử lý dữ liệu 23

3.1.2 Kết quả khảo sát các mô hình học máy 23

3.1.3 Kết quả xây dựng mô hình mol2vec bằng phương pháp Stacking 25

3.1.4 Kết hợp mô hình mol2vec với các mô hình mô tả phân tử và điều chỉnh ngưỡng 26

3.2 Kết quả đánh giá mô hình Stacking 28

3.2.1 Đánh giá mô hình Stacking trên tập kiểm định 28

3.2.2 Đánh giá mô hình Stacking trên tập kiểm tra 29

Trang 5

3.3 Kết quả so sánh khả năng dự đoán của mô hình Stacking với mô hình

DE-INTERACT được phát triển bởi S Patel và cộng sự 29

3.4 Kết quả đánh giá khả năng dự đoán của mô hình Stacking bằng thực nghiệm với cặp quercetin - magnesium carbonat 31

3.5 Triển khai mô hình dự đoán tương tác dược chất - tá dược dưới dạng website 33

3.6 Bàn luận 34

3.6.1 Về vai trò của AI và học máy trong thiết kế thuốc 34

3.6.2 Về kết quả xây dựng mô hình học máy dự đoán tương tác dược chất - tá dược 34

3.6.3 Về kết quả đánh giá mô hình Stacking 35

3.6.4 Về khả năng ứng dụng của mô hình Stacking 36

3.6.5 Về việc triển khai mô hình ở dạng website 36

3.6.6 Một số ưu điểm, nhược điểm của mô hình Stacking 36

KẾT LUẬN VÀ ĐỀ XUẤT 38 TÀI LIỆU THAM KHẢO

Trang 6

DANH MỤC CÁC KÝ HIỆU, CHỮ CÁI VIẾT TẮT

AI Trí tuệ nhân tạo (Artificial Intelligence)

API Dược chất (Active Pharmaceutical Ingredient)

AUC Diện tích dưới đường cong (Area under the Curve)

CBV Vector trọng tâm (Centroid - based vector)

CM Ma trận nhầm lẫn (Confusion matrix)

DBSCAN Phân cụm dựa trên mật độ

(Density-based spatial clustering of applications with noise)

DSC Phân tích quét nhiệt lượng vi sai (Differential scanning calorimetry)

DT Cây quyết định (Decision Tree)

HAC Phân cụm phân cấp (Hierarchical Agglomerative Clustering)

HPLC Sắc ký lỏng hiệu năng cao (High-performance liquid chromatography)

IR Quang phổ hồng ngoại (Infrared Spectroscopy)

LLSF Bình phương tối thiểu tuyến tính (Linear Least Square Fit)

LR Hồi quy Logistic (Logistic Regression) MCC Hệ số tương quan Matthews (Matthews correlation coefficient)

NIR Quang phổ hấp thụ cận hồng ngoại

(Near Infrared Reflectance Spectroscopy)

NN Mạng nơron (Neural Network)

ROC Đường cong (Receiver operating characteristic Curve)

RF Rừng ngẫu nhiên (Random Forrest)

SEM Kính hiển vi điện tử quét (Scanning Electron Microscopy)

SMOTE Kỹ thuật tạo dữ liệu mới dữ trên dữ liệu gốc

(Synthetic Minority Over - sampling Technique)

SOM Bản đồ tự tổ chức (Self-Organizing Map)

SVM Máy vector hỗ trợ (Support Vector Machine)

Trang 8

DANH MỤC CÁC HÌNH VẼ

5 Hình 3.3 Kết quả quét nhiệt lượng vi sai (DSC) 32 6 Hình 3.4 Giao diện web triển khai mô hình tới người dùng 34

Trang 9

ĐẶT VẤN ĐỀ

Tá dược là những thành phần không có tác dụng dược lý có mặt trong công thức bào chế, song có thể ảnh hưởng rất lớn đến hiệu quả và độ an toàn của thuốc [21] Chúng có thể tương tác với dược chất, từ đó làm thay đổi cấu trúc cũng như tính chất lý hoá của dược chất, và/hoặc gây ra tương tác không mong muốn Điều này có thể dẫn đến việc giảm hiệu quả điều trị, hoặc tăng nguy cơ phản ứng có hại Vì vậy, việc nghiên cứu, sàng lọc tương tác dược chất - tá dược là hết sức cần thiết Tuy nhiên, các phương pháp thử nghiệm hiện tại thường đòi hỏi thời gian khảo sát kéo dài Một số phương pháp có thể không đủ nhạy và đặc hiệu để phát hiện những tương tác nhỏ, hoặc không thể mô phỏng chính xác môi trường sinh học trong cơ thể Hơn nữa, việc thiếu dữ liệu về cấu trúc và tính chất của nhiều loại tá dược cũng làm tăng thêm khó khăn trong việc nghiên cứu Vì vậy, việc nghiên cứu tương tác giữa tá dược và dược chất trong bào chế thuốc là một lĩnh vực đầy thách thức và tiềm năng Khám phá và hiểu rõ hơn về những tương tác này không những giúp cải thiện hiệu quả điều trị, mà còn tạo điều kiện thuận lợi cho việc phát triển các loại thuốc mới an toàn và hiệu quả hơn [21]

Hiện nay, trí tuệ nhân tạo (Artificial Intelligence - AI) bùng nổ như một xu hướng

mới trong tất cả các lĩnh vực, trong đó có dược phẩm AI, với các thuật toán học máy

(machine learning) ngày càng được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau

và thu được nhiều kết quả đáng khích lệ [31], [32] Việc tích hợp AI trong quá trình nghiên cứu phát triển thuốc không chỉ tăng cường hiệu quả, rút ngắn thời gian [35], [44] mà còn mở ra những hướng đi mới trong chẩn đoán, điều trị và theo dõi bệnh lý [5] Trong lĩnh vực sàng lọc tương tác dược chất - tá dược đã có một số nghiên cứu sử dụng trí tuệ nhân tạo để dự đoán tương tác có thể xảy ra, điển hình là nghiên cứu của tác giả S Patel và cộng sự [34] Trong nghiên cứu này, mô hình dự đoán tương tác dược chất - tá dược được xây dựng có độ chính xác cao và tốc độ dự đoán nhanh Tuy nhiên, mô hình cũng bộc lộ một số nhược điểm như cấu trúc khá đơn giản dẫn đến việc dự đoán chưa chính xác một số trường hợp thực tế, mô hình chưa triển khai được thành web hoặc app để người dùng tiện sử dụng

Để khắc phục những nhược điểm của nghiên cứu trên, đề tài khóa luận “Xây dựng mô hình tương tác dược chất - tá dược bằng phương pháp học máy” được thực hiện với

2 mục tiêu: 1 Xây dựng và đánh giá mô hình học máy dự đoán tương tác dược chất - tá dược 2 Triển khai mô hình dự đoán tương tác dược chất - tá dược dưới dạng website

Trang 10

CHƯƠNG 1: TỔNG QUAN 1.1 Tổng quan về tương tác dược chất - tá dược

Dược chất (drug substance), còn gọi là hoạt chất (active substance) hay thành phần dược phẩm có hoạt tính (active pharmaceutical ingredient - API) là chất hoặc hỗn

hợp các chất dùng để bào chế thuốc, có tác dụng dược lý hoặc có tác dụng trực tiếp trong phòng bệnh, chẩn đoán bệnh, chữa bệnh, điều trị bệnh, giảm nhẹ bệnh, điều chỉnh chức năng sinh lý cơ thể người [1]

Tá dược (excipients) là các thành phần dược dụng, không có tác dụng dược lý,

được thêm vào thành phần của dạng thuốc, thực hiện các vai trò khác nhau như: làm tăng độ tan, độ nhớt, phân tán, nhũ hóa, làm thay đổi khả năng giải phóng, thay đổi tính thấm, bảo quản, cải thiện tính tương hợp, đảm bảo độ ổn định, tạo hương vị hấp dẫn,… để có được dạng thuốc đạt tiêu chuẩn chất lượng đã định [1]

Nghiên cứu về các tương tác giữa dược chất và tá dược đóng vai trò rất quan trọng trong xây dựng công thức thuốc vì nó có thể ảnh hưởng đến hiệu quả, an toàn và độ ổn định của sản phẩm [23] Tuy nhiên, nếu các tá dược không được lựa chọn cẩn thận thì các tương tác giữa dược chất và tá dược có thể gây ảnh hưởng đến tính chất của sản phẩm, chẳng hạn như làm giảm độ hòa tan, làm chậm quá trình giải phóng hoặc gây ra sự biến đổi hóa học đối với dược chất Do đó, việc lựa chọn các tá dược phù hợp để tạo ra dạng bào chế an toàn, ổn định và hiệu quả là rất cần thiết Việc sàng lọc khả năng tương thích của dược chất với tá dược được coi là một trong những yếu tố bắt buộc trong phát triển các dạng bào chế thuốc [40]

1.1.1 Các phương pháp nghiên cứu tương tác dược chất - tá dược

Các phương pháp đánh giá tương tác dược chất - tá dược có thể được thành 2 nhóm, bao gồm các kỹ thuật phân tích nhiệt và phi nhiệt

Các kỹ thuật phân tích nhiệt bao gồm phương pháp phân tích nhiệt lượng quét vi sai, phân tích nhiệt trọng lượng, phân tích nhiệt vi sai, phép đo vi nhiệt lượng đẳng nhiệt [8] Trong khi đó, một số kỹ thuật phân tích phi nhiệt thường dùng là nhiễu xạ tia X, quang phổ hồng ngoại, kính hiển vi điện tử quét và sắc ký lỏng hiệu năng cao [28]

Trong số các kỹ thuật nêu trên, ba kỹ thuật đánh giá tương tác dược chất - tá dược được sử dụng phổ biến nhất là quét nhiệt lượng vi sai, quang phổ hồng ngoại/quang phổ cận hồng ngoại và sắc ký lỏng hiệu năng cao

1.1.1.1 Quét nhiệt lượng vi sai

Quét nhiệt lượng vi sai (Differential scanning calorimetry - DSC) là kỹ thuật

nhiệt phổ biến nhất được sử dụng để đánh giá sự tương thích của dược chất và tá dược [15] Kỹ thuật này thường chỉ yêu cầu cỡ mẫu nhỏ và thu được kết quả tương đối nhanh Trong phương pháp DSC, đường cong nhiệt của các thành phần (dược chất, tá dược)

Trang 11

được so sánh với đường cong thu được từ hỗn hợp Nếu các thành phần tương thích với nhau thì các đặc tính nhiệt của hỗn hợp sẽ là tổng của các thành phần riêng lẻ Sự thay đổi đáng kể về nhiệt độ nóng chảy, sự xuất hiện của đỉnh tỏa nhiệt/thu nhiệt mới và/hoặc sự biến đổi entanpy tương ứng của phản ứng trong hỗn hợp là dấu hiệu cho thấy sự không tương thích giữa các thành phần trong hỗn hợp

Một trong những ưu điểm của DSC so với các kỹ thuật thông thường khác là thời gian phân tích ngắn và lượng mẫu dùng để phân tích thường ít Tuy nhiên, hạn chế của phương pháp này là các kết luận về tính tương thích chỉ dựa trên kết quả DSC có thể gây hiểu nhầm và phải được biện giải cẩn thận bằng việc kết hợp với các kỹ thuật khác Hiện nay, kỹ thuật DSC thường được sử dụng kết hợp cùng với kỹ thuật kính hiển vi

điện tử quét (Scanning Electron Microscopy - SEM), để đảm bảo độ chính xác [12]

Trong một nghiên cứu năm 2011, Aigner và cộng sự đã sử dụng kỹ thuật DSC nghiên cứu tương tác của aceclofenac với các tá dược khác nhau như Carbopol® 940, hydroxypropyl methylcellulose, cellulose vi tinh thể, Aerosil® 200 và magnesium stearat [2] Những thay đổi lớn được quan sát thấy trong hỗn hợp aceclofenac - magnesium stearat, đỉnh thu nhiệt tại điểm nóng chảy của aceclofenac biến mất và tín hiệu thu nhiệt của magnesium stearat cũng thay đổi Điều này thể hiện qua kết quả thu được, đỉnh thu nhiệt của hỗn hợp rộng với nhiệt độ ban đầu Tonset = 86.8oC, nhiệt độ đỉnh Tpeak là 94oC và nhiệt độ cuối Tendset = 102.8oC Trong khi ban đầu, với aceclofenac có Tonset = 152.09oC, Tpeak = 153.1oC và Tendset = 156.65oC còn với magnesium stearat, có 3 tín hiệu thu nhiệt bao gồm 1 tín hiệu lớn Tpeak 2 = 104.5oC và hai tín hiệu nhỏ hơn Tpeak 1

= 89.2oC, Tpeak 3 = 203.5oC Như vậy, kết quả nghiên cứu cho thấy xảy ra tương tác giữa aceclofenac và magnesium stearat dẫn đến hình thành muối magnesium của aceclofenac Các tá dược khác được cho là tương thích với dược chất, tức là không quan sát thấy tương tác đáng kể giữa aceclofenac và các tá dược khác được nghiên cứu

1.1.1.2 Quang phổ hồng ngoại, quang phổ cận hồng ngoại

Quang phổ hồng ngoại (Infrared Spectroscopy - IR), quang phổ cận hồng ngoại (Near Infrared Spectroscopy - NIR) là những kỹ thuật phi nhiệt được sử dụng phổ biến

nhất để sàng lọc khả năng tương thích với tá dược của thuốc [15] Những kỹ thuật này cung cấp dấu vân tay duy nhất cho dược chất và tá dược dựa trên các thuộc tính vật lý và hóa học của chúng Do tính chất rất nhạy của các kỹ thuật này nên mọi sai lệch nhỏ về tính chất lý hóa của dược chất do tương tác với tá dược đều được phát hiện dễ dàng Những thay đổi lý hóa thường được quan sát do tương tác thuốc - tá dược bao gồm chuyển đổi dạng thù hình, mất nước, hình thành hydrat/solvat, … [6], [14]

Một số ưu điểm chung của các kỹ thuật IR và NIR bao gồm phân tích nhanh, phát hiện nhanh chóng và dễ dàng những điểm không tương thích nhờ sự dịch chuyển quang phổ và phát hiện các sản phẩm phụ tương tác Tuy nhiên, sự hiện diện của các chất chồng

Trang 12

lên nhau trong quang phổ có thể cản trở việc phân tích Đây cũng là hạn chế của các kỹ thuật này

Năm 2023, Nishant Thakur và cộng sự [43] đã tiến hành nghiên cứu tương tác có thể xảy ra trong công thức thuốc dán chứa thiococlchicosid với các tá dược là polymer (Eudragit L100, HPMC và PVP K30), chất hóa dẻo và tác nhân liên kết chéo (propylen glycol và triethyl citrat) bằng FTIR Kết quả thu được cho thấy các đỉnh đặc trưng của thiococlchicosid, carbonyl (Amide I) ở 1525.5 cm-1, C=O (vòng tropan) ở 1664.4 cm-1, amide (N-H) ở 3325.9 cm-1, thioether ở 2360.7cm-1 và nhóm -OH ở 3400.2 cm-1 vẫn hiện diện trong hỗn hợp polymer sau khi bào chế dưới dạng miếng dán thấm qua da, cho thấy sự tương thích giữa dược chất - tá dược

1.1.1.3 Sắc ký lỏng hiệu năng cao (HPLC)

Sắc ký lỏng hiệu năng cao (HPLC) là một trong những kỹ thuật phân tích được sử dụng rộng rãi nhất để xác định tương tác nếu có giữa dược chất và tá dược trong công thức bào chế Kỹ thuật này có thể rất hữu ích trong trường hợp tương tác dẫn đến thay đổi về hàm lượng hoạt chất trong công thức bào chế [14] Kết quả HPLC cho phép tính được phần trăm dược chất hao hụt, từ đó đánh giá có sự tương tác giữ dược chất - tá dược hay không và ngược lại

Sắc ký lỏng hiệu năng cao có nhiều ưu điểm như độ chính xác cao, có thể kết hợp với nhiều phương pháp, kỹ thuật khác và trong các phòng thí nghiệm phân tích hầu như đều được trang bị thiết bị này Nhược điểm của HPLC là không áp dụng được để đánh giá tương tác dược chất - tá dược với những trường hợp không xảy ra sự thay đổi về lượng chất

Trong một nghiên cứu năm 2013, Julio và cộng sự [24] đã tiến hành đánh giá khả năng tương thích của sildenafil citrat với silic dioxid, natri crosscarmellose, lactose, mannitol và sucrose, sử dụng kỹ thuật DSC kết hợp HPLC Một cặp tương tác dược chất - tá dược đã được phát hiện Nghiên cứu này cho thấy hiệu quả của việc kết hợp các kỹ thuật nhiệt với HPLC trong việc phát hiện sự không tương thích dược chất - tá dược và cung cấp các phương pháp tiếp cận mạnh mẽ, chính xác hơn cho các nghiên cứu tiền công thức, đảm bảo tính tin cậy của kết quả

1.1.2 Một số nghiên cứu về tương tác dược chất - tá dược

Nhóm nghiên cứu của tác giả S Patel và cộng sự [34] đã tiến hành xây dựng mô hình học máy có tên là DE-INTERACT với mục đích dự đoán tính tương thích dược chất - tá dược Mô hình được xây dựng dựa trên thuật toán mạng nơ-ron nhân tạo

(Artificial Neural Networks), gồm 3 thành phần chính: 1 lớp đầu vào (input layer), 2 lớp ẩn (hidden layer) và 1 lớp đầu ra (output layer) Mô hình được đánh giá trên tập huấn

luyện và trên tập kiểm định với độ chính xác, hàm mất mát (loss function), các chỉ số đánh giá phân loại từng nhãn như độ đúng, độ phủ và chỉ số F1 - score Kết quả cho thấy

Trang 13

mô hình có khả năng dự đoán rất tốt với độ chính xác trên tập huấn luyện là 0.9930, trên tập kiểm định là 0.9161 Ngoài ra, tác giả cũng sử dụng mô hình để dự đoán một cặp dược chất - tá dược tương tác nằm ngoài bộ dữ liệu là paracetamol - vanilin, đồng thời cũng tiến hành kiểm tra lại bằng thực nghiệm, sử dụng các phương pháp DSC, FTIR, HPLC Kết quả thực nghiệm hoàn toàn phù hợp với dự đoán của DE-INTERACT cho thấy mô hình học máy có tiềm năng lớn trong nghiên cứu tương tác dược chất - tá dược Hạn chế chính của DE-INTERACT là mô hình tương đối đơn giản, chưa học được nhiều mối quan hệ phức tạp giữa dược chất và tá dược nên khi áp dụng một số cặp dữ liệu thực tế, kết quả dự đoán chưa được tốt mặc dù độ chính xác mô hình cao

Trong một nghiên cứu khác, Nannan Wang và cộng sự [48] đã thiết kế một hệ thống có tên là PharmDE để đánh giá nguy cơ xảy ra tương tác giữa dược chất và tá dược Từ một cơ sở dữ liệu gồm 532 cặp tương tác thu thập từ 228 bài báo, N Wang đã xây dựng 60 quy tắc và ứng dụng chúng để dự đoán tương tác có thể xảy ra trong công thức Ưu điểm của PharmDE là khả năng đưa ra thông tin nhanh về các tương tác và cơ chế liên quan đến dược chất - tá dược, tuy nhiên chỉ áp dụng được với các dữ liệu sẵn có, dữ liệu không có trong hệ thống thì sẽ không hiển thị kết quả Mặc dù như vậy, PharmDE được kỳ vọng sẽ là một công cụ hữu ích để nghiên cứu khả năng tương thích của thuốc với tá dược và đẩy nhanh quá trình thiết kế công thức thuốc

1.2 Tổng quan về học máy

Học máy (Machine learning)là một lĩnh vực của AI liên quan đến việc nghiên cứu và xây dựng các kỹ thuật cho phép các hệ thống “học” tự động từ dữ liệu để giải quyết những vấn đề cụ thể Các mô hình của phương pháp học máy là các chương trình máy tính có khả năng học hỏi về cách hoàn thành các nhiệm vụ và cách cải thiện hiệu suất theo thời gian [39]

Học máy được hướng dẫn để sử dụng một bộ dữ liệu đào tạo, từ đó tạo ra một mô hình nguyên mẫu Khi thuật toán này tiếp nhận dữ liệu mới, nó sẽ đưa ra những dự đoán phân tích dựa trên nguyên mẫu căn bản Do cần có nguồn dữ liệu cực lớn để “học”, tuy nhiên vẫn cần có sự tham gia của con người trong việc tìm hiểu dữ liệu cơ sở và lựa chọn các kỹ thuật phù hợp để phân tích thông tin, đánh giá [10] Đồng thời, trước khi sử dụng, dữ liệu phải được làm sạch Trước đây, các mô hình học máy thường được xây dựng dựa trên các cơ sở dữ liệu chưa đủ lớn Sự xuất hiện và phát triển vượt bậc của Dữ

liệu lớn (Big data) đã cung cấp những cơ sở dữ liệu khổng lồ để xây dựng các mô hình

học máy với độ chính xác và khả năng dự đoán được cải thiện đáng kể [53]

Hiện nay, học máy là một công cụ mạnh mẽ được ứng dụng hiệu quả trong nhiều lĩnh vực nghiên cứu giúp tối ưu hoá công việc và dự đoán được tương lai [53] Có thể kể đến một số sản phẩm ứng dụng của học máy như: Cảnh báo giao thông trên ứng dụng Google Maps, Deepface của mạng xã hội Facebook, các máy có thể “học” cách phân

Trang 14

loại thư điện tử xem có phải thư rác (spam) hay không và tự động xếp chúng vào thư mục tương ứng [13]

Các phương pháp học máy phổ biến bao gồm học máy có giám sát, học máy không giám sát và học tăng cường

1.2.1 Các phương pháp xây dựng mô hình học máy

1.2.1.1 Học máy có giám sát

Mô hình học có giám sát là mô hình học trên dữ liệu có dán nhãn, tức là mục tiêu của bài toán học máy cần học đã được gán nhãn sẵn trong dữ liệu huấn luyện Dữ liệu đầu vào của quá trình học bao gồm cả vector đầu vào chứa các thuộc tính của dữ liệu lẫn giá trị đầu ra mục tiêu (gọi là nhãn của dữ liệu) Nói cách khác, “học máy có giám sát” cho phép dự đoán đầu ra của một dữ liệu mới dựa trên các cặp biến số (biến đầu vào, biến đầu ra) đã biết từ trước thu được từ bộ dữ liệu huấn luyện [33]

Hai dạng phổ biến nhất trong các bài toán học máy có giám sát là: phân loại và hồi quy Trong đó, mô hình phân loại cho phép dự đoán các nhãn của các lớp mục tiêu còn mô hình hồi quy cho phép dự đoán các giá trị số tương ứng với dữ liệu đầu vào Cả hai bài toán này đều nhận giá trị đầu vào là một hoặc nhiều biến thuộc dạng số [33]

Một số thuật toán thường được lựa chọn khi xây dựng mô hình phân loại gồm:

vector hỗ trợ (Super Vector Machine - SVM); cây quyết định (Decision Tree - DT); mạng nơ-ron nhân tạo (Neural Network - NN); thuật toán dựa trên vector trọng tâm (Centroid - based vector - CBV); hay tuyến tính bình phương nhỏ nhất (Linear Least Square Fit - LLSF)…

1.2.1.2 Học máy không giám sát

Học không giám sát là mô hình học sử dụng một thuật toán để mô tả hoặc trích xuất ra các mối quan hệ tiềm ẩn trong dữ liệu Khác với học có giám sát, học không giám sát chỉ thực thi trên dữ liệu đầu vào không cần các thuộc tính nhãn, hoặc mục tiêu của việc học Các thuật toán được học từ dữ liệu mà không hề có bất cứ sự hướng dẫn nào như trong trường hợp học có giám sát [27]

Học máy không giám sát là kỹ thuật học sử dụng cho các bài toán phân cụm Có rất nhiều mô hình học không giám sát được ra đời và phát triển nhằm giải quyết bài toán phân cụm phục vụ khai thác hiệu quả nguồn dữ liệu chưa gán nhãn nhiều và rất đa dạng Các thuật toán thường được sử dụng để xây dựng mô hình là: k-means, HAC, SOM, DBSCAN,… [3]

1.2.1.3 Học tăng cường

Học tăng cường là mô hình học máy trong đó thuật toán tự động sử dụng các phản hồi từ môi trường để điều chỉnh hoạt động của chính mình sao cho tối đa nhất hiệu quả đạt được Học tăng cường sẽ đo các phản hồi từ môi trường và sử dụng một hàm đánh giá để tìm các phương án hành động nhằm tăng cường phần thưởng nhận được

Trang 15

(phản hồi tích cực) từ môi trường Trong mô hình này, tập huấn luyện không cố định, thuật toán chỉ cần một mục tiêu hoặc một nhóm các mục tiêu cần đạt, tập các hành vi có thể thực hiện, và dữ liệu phản hồi về hiệu quả thực thi của các hành động so với mục tiêu đề ra [41]

Tương tự với mô hình học có giám sát, mô hình học tăng cường dựa trên các phản hồi để học, tuy nhiên phản hồi trong mô hình học tăng cường không có sẵn trong dữ liệu được cung cấp mà được thu nhận từ môi trường và do đó nó có thể có độ trễ nhất định hoặc chứa nhiều nhiễu Điều này làm cho mô hình khó khăn trong việc kết nối giữa hành động và phản hồi một cách chính xác, ngay lập tức và cần một thời gian tương đối để thực hiện huấn luyện [41]

Trong nhiều vấn đề phức tạp, học tăng cường gần như là cách thức duy nhất để huấn luyện một chương trình có thể thực thi đạt hiệu quả cao Bởi, trong những bài toán phức tạp, dữ liệu có muôn hình vạn trạng và gần như rất khó có thể gán nhãn hoặc thậm chí chính con người còn không thể xử lý và không biết thế nào là tốt như lái xe, lái máy bay, chơi cờ thì việc áp dụng các mô hình học thông thường như ở trên là điều không tưởng Trong những trường hợp như vậy, các mô hình học tăng cường sẽ phát huy vai trò của mình [4]

1.2.2 Các thuật toán học máy

Về phân loại, có nhiều thuật toán học máy khác nhau nhưng nhìn chung chúng có thể được phân chia thành 3 loại chính được trình bày ở trên Trong số đó, 7 thuật toán học máy phổ biến nhất được ứng dụng trong đề tài khóa luận

1.2.2.1 Máy vector hỗ trợ (Support Vector Machine)

Máy vector hỗ trợ (SVM) là một kỹ thuật học máy có giám sát được sử dụng cho cả phân loại và hồi quy, nhưng thường được ứng dụng chủ yếu trong các bài toán phân

loại Nguyên tắc chính của SVM là tìm ra một siêu phẳng (hyperplane) tối ưu để phân

tách các điểm dữ liệu của các lớp khác nhau trong không gian đa chiều SVM tìm một siêu phẳng tối ưu (margin) sao cho khoảng cách từ đường phân chia tới các điểm dữ liệu mỗi lớp là bằng nhau và lớn nhất có thể Trường hợp dữ liệu không thể phân tách tuyến tính trong không gian, SVM sử dụng các hàm kernel để ánh xạ dữ liệu vào không gian chiều cao hơn, nơi dữ liệu có thể được phân tách [16]

SVM có nhiều ưu điểm nổi bật Trước hết, nó hoạt động hiệu quả trong không gian số chiều cao, giúp xử lý tốt các bộ dữ liệu phức tạp và nhiều đặc trưng SVM chỉ sử dụng một tập con của các điểm dữ liệu để xác định siêu phẳng, do đó tiết kiệm bộ nhớ Đặc biệt, SVM hỗ trợ nhiều loại hàm kernel cho phép linh động giữa các phương pháp tuyến tính và phi tuyến tính từ đó khiến cho hiệu suất phân loại lớn hơn

Trang 16

1.2.2.2 Hồi quy Logistic (Logistic Regression)

Hồi quy Logistic là một kỹ thuật học máy có giám sát được sử dụng chủ yếu để giải quyết các bài toán phân loại nhị phân Nguyên tắc chính của hồi quy Logistic là tính toán xác suất của một mẫu thuộc vào một trong hai lớp thông qua một hàm logistic (hay còn gọi là hàm sigmoid) Hàm sigmoid biến đổi đầu ra của một mô hình tuyến tính thành một giá trị trong khoảng từ 0 đến 1, đại diện cho xác suất của mẫu thuộc về lớp mục tiêu [16]

Ưu điểm lớn nhất của kỹ thuật này là tính đơn giản, thuật toán này dễ hiểu và dễ triển khai do các hệ số hồi quy có thể được diễn giải một cách trực quan, giúp người dùng hiểu rõ mối quan hệ giữa các đặc trưng và kết quả đầu ra

1.2.2.3 K láng giềng gần nhất (k - Nearest Neighbors)

K láng giềng gần nhất (kNN) là một trong thuật toán đơn giản nhất trong lĩnh vực học máy Nguyên tắc của kNN bao gồm lưu trữ toàn bộ dữ liệu huấn luyện mà không cần xây dựng một mô hình cụ thể Khi có một điểm dữ liệu mới cần phân loại hoặc dự đoán, thuật toán sẽ tính khoảng cách giữa điểm này với tất cả các điểm trong tập dữ liệu huấn luyện Các phương pháp tính khoảng cách phổ biến bao gồm Euclidean, Manhattan, hoặc Minkowski Sau đó, kNN xác định k điểm dữ liệu gần nhất, trong đó k là một số nguyên dương được chọn trước Đối với bài toán phân loại, kNN sử dụng phương pháp bỏ phiếu đa số từ k láng giềng gần nhất để xác định nhãn của điểm mới, còn đối với bài toán hồi quy, kNN tính trung bình giá trị của k láng giềng gần nhất để đưa ra dự đoán

Ưu điểm của kNN bao gồm tính đơn giản và dễ thực hiện, không yêu cầu giai đoạn huấn luyện mô hình, do đó tiết kiệm thời gian khi làm việc với dữ liệu nhỏ [16]

1.2.2.4 Cây quyết định (Decision Tree)

Cây quyết định (Decision Tree) là một thuật toán học máy linh hoạt và phổ biến,

được sử dụng rộng rãi cho cả bài toán phân loại và hồi quy Nguyên tắc của cây quyết định bao gồm việc xây dựng một mô hình dạng cây để dự đoán giá trị của một biến mục tiêu dựa trên các biến đầu vào Quá trình xây dựng cây bắt đầu từ gốc cây, nơi chọn thuộc tính tốt nhất để chia dữ liệu thành các tập con dựa trên tiêu chí chia tách như Gini impurity hoặc entropy Mỗi nút trong cây đại diện cho một điều kiện kiểm tra trên một thuộc tính, và quá trình này lặp lại đệ quy cho mỗi tập con cho đến khi tất cả các điểm dữ liệu thuộc về cùng một lớp hoặc không còn thuộc tính nào để chia tiếp Cây quyết định rất trực quan và dễ hiểu, với cấu trúc giống như một tập hợp các quy tắc "nếu - thì", giúp giải thích rõ ràng các quyết định của mô hình [16]

Ưu điểm nổi bật của cây quyết định là không yêu cầu chuẩn hóa dữ liệu Thêm vào đó, cây quyết định không yêu cầu nhiều tham số để tối ưu, làm cho quá trình huấn luyện mô hình trở nên đơn giản hơn Khả năng xử lý các mối quan hệ phi tuyến giữa

Trang 17

các thuộc tính và biến mục tiêu cũng là một điểm mạnh của cây quyết định Với hiệu suất tính toán tốt, cây quyết định có thể được huấn luyện nhanh chóng trên các tập dữ liệu lớn Nhờ những ưu điểm này, cây quyết định là một công cụ hữu ích trong nhiều bài toán học máy, đặc biệt khi cần một mô hình dễ hiểu và dễ giải thích [16]

1.2.2.5 Rừng ngẫu nhiên (Random Forest)

Rừng ngẫu nhiên được xem như một phiên bản cải tiến của kỹ thuật cây quyết định Tuy nguyên tắc hoạt động tương tự, nhưng rừng ngẫu nhiên khác biệt ở việc xây dựng nhiều cây quyết định và kết hợp kết quả từ tất cả các cây để đưa ra dự đoán cuối cùng Mỗi cây trong rừng được huấn luyện trên một tập dữ liệu con được lấy mẫu ngẫu nhiên từ tập dữ liệu huấn luyện, điều này giúp tạo ra sự đa dạng giữa các cây và giảm

thiểu hiện tượng quá khớp (overfitting) [16], [33]

Rừng ngẫu nhiên mang lại nhiều ưu điểm đáng chú ý Đầu tiên, nó thường đạt được độ chính xác cao trên cả tập dữ liệu huấn luyện và tập dữ liệu kiểm tra Thứ hai,

việc sử dụng nhiều cây và kỹ thuật lấy mẫu ngẫu nhiên giúp giảm quá khớp (overfitting),

đặc biệt là đối với các tập dữ liệu nhỏ hoặc phức tạp Thứ ba, rừng ngẫu nhiên tạo ra các cây có độ đa dạng cao, từ đó tăng tính tổng quát và ổn định của mô hình Ngoài ra, việc huấn luyện rừng ngẫu nhiên cũng khá hiệu quả trên các tập dữ liệu lớn và không đòi hỏi nhiều thời gian để điều chỉnh siêu tham số [33]

1.2.2.6 XGBoost

XGBoost, viết tắt của "Extreme Gradient Boosting", là một thuật toán học máy phổ biến và mạnh mẽ, được sử dụng rộng rãi cho cả bài toán phân loại và hồi quy Nguyên tắc hoạt động của XGBoost là xây dựng một loạt các cây quyết định nhỏ (weak learners) theo cách tăng cường (boosting), mỗi cây được xây dựng dựa trên việc học và sửa lỗi của các cây trước đó XGBoost sử dụng một hàm mất mát (loss function) để đo lường sự sai khác giữa dự đoán và giá trị thực tế, và cập nhật các cây trong quá trình huấn luyện để giảm thiểu tối đa hàm mất mát này Quá trình này được thực hiện thông qua việc điều chỉnh các trọng số của các cây và áp dụng các kỹ thuật tối ưu hàm mất

mát (regularization) để tránh quá khớp (overfitting) [16]

XGBoost có nhiều ưu điểm, đầu tiên, nó thường mang lại kết quả dự đoán cao trên cả tập dữ liệu huấn luyện và tập dữ liệu kiểm tra Thứ hai, XGBoost có khả năng xử lý hiệu quả các tập dữ liệu lớn và có nhiều biến đầu vào, nhờ vào việc sử dụng các kỹ thuật tối ưu hóa Cuối cùng, XGBoost cung cấp các siêu tham số linh hoạt cho phép điều chỉnh và tinh chỉnh mô hình dễ dàng, giúp tối ưu hóa hiệu suất dự đoán [16]

1.2.2.7 AdaBoost

AdaBoost, viết tắt của "Adaptive Boosting", là một thuật toán học máy được thiết kế để cải thiện hiệu suất dự đoán bằng cách tập hợp nhiều mô hình yếu thành một mô hình mạnh Nguyên tắc hoạt động của AdaBoost là tạo ra một chuỗi các mô hình yếu,

Trang 18

mỗi mô hình sau sẽ tập trung vào việc sửa các điểm dữ liệu mà mô hình trước đó dự đoán sai Trong quá trình huấn luyện, AdaBoost gán trọng số cho mỗi điểm dữ liệu, tăng trọng số cho các điểm dữ liệu dự đoán sai và giảm trọng số cho các điểm dữ liệu được dự đoán đúng Điều này giúp các mô hình yếu sau này tập trung vào việc dự đoán những điểm dữ liệu mà các mô hình trước đó dự đoán sai, từ đó tạo ra một mô hình mạnh với hiệu suất dự đoán cao [16]

AdaBoost có nhiều ưu điểm đáng chú ý Đầu tiên, nó thường đạt được hiệu suất dự đoán tốt trên cả tập dữ liệu huấn luyện và tập dữ liệu kiểm tra Thứ hai, AdaBoost là một thuật toán linh hoạt và dễ sử dụng, không yêu cầu nhiều siêu tham số để điều chỉnh Thứ ba, thuật toán này thích hợp cho nhiều loại dữ liệu và bài toán khác nhau, từ phân loại đến hồi quy Cuối cùng, AdaBoost có khả năng xử lý tốt dữ liệu không cân bằng và ít nhạy cảm với nhiễu, làm cho nó trở thành một lựa chọn phổ biến trong thực tế [16]

1.2.3 Phương pháp Stacking

Stacking, hay còn gọi là Stacked Generalization, là một phương pháp kết hợp các thuật toán học máy khác nhau để cải thiện hiệu suất dự đoán Thay vì sử dụng một mô hình đơn lẻ, Stacking tạo ra một tập hợp các mô hình (base models) và sử dụng một mô hình khác (meta model) để tổng hợp các dự đoán của các mô hình này [36] Ý tưởng chính của Stacking là tận dụng sức mạnh của nhiều mô hình để bù đắp cho những hạn chế của từng mô hình đơn lẻ, từ đó tạo ra một mô hình tổng hợp mạnh mẽ và chính xác

hơn Cách thức hoạt động của Stacking được thể hiện ở sơ đồ Hình 1.1

Hình 1.1 Sơ đồ phương pháp Stacking

Mô hình Stacking cơ bản thường được phân thành 2 cấp là Level-0 models và Level-1 model Trong đó, Level-0 models (Base-models) hay mô hình cơ sở học trực tiếp từ bộ dữ liệu và đưa ra dự đoán cho mô hình Level-1 Base-models thường phức tạp và đa dạng, mỗi mô hình có cách học và giải quyết vấn đề khác nhau với cùng một bài

toán như máy vector hỗ trợ (Support Vector Machine - SVM), hồi quy Logistic (Logistic Regression - LR), cây quyết định (Decision Tree - DT), rừng ngẫu nhiên (Random Forest

- RF), XGBoost, AdaBoost, Level-1 model (Meta-model) là mô hình học từ các dự đoán của mô hình cơ sở (Level-0) Cụ thể, Meta-model được huấn luyện dựa trên đầu ra dự đoán của các base-models, các kết quả này kết hợp với nhãn tạo thành cặp dữ liệu đầu vào - đầu ra trong quá trình huấn luyện Meta-model Meta-model thường đơn giản, dự đoán kết quả từ các kết quả dự đoán của base-models, thường là hồi quy tuyến tính

Dữ liệu huấn luyện

Các mô hình phân loại (level-0)

Mô hình phân loại meta

(level-1)

Dự đoán

Kết quả

Trang 19

(Linear Regression - LR) cho bài toán hồi quy (Regression) hoặc hồi quy Logistic (Logistic Regression - LR) cho bài toán phân loại (Classification)

Phương pháp Stacking có nhiều ưu điểm nổi bật Trước hết, nó cải thiện độ chính xác của dự đoán bằng cách kết hợp các mô hình khác nhau, mỗi mô hình có khả năng học và phát hiện các mẫu dữ liệu theo cách riêng Điều này giúp giảm thiểu rủi ro của

việc mô hình quá khớp (overfitting) và chưa khớp (underfitting) so với việc sử dụng một

mô hình đơn lẻ Thứ hai, Stacking tăng cường tính linh hoạt trong việc xử lý dữ liệu, vì có thể kết hợp các mô hình với các đặc tính và ưu điểm khác nhau Ví dụ, mô hình cây quyết định có thể tốt trong việc xử lý dữ liệu không tuyến tính, trong khi một mô hình hồi quy Logistic lại hiệu quả trong việc xử lý dữ liệu tuyến tính Khi kết hợp các mô hình này, phương pháp Stacking tận dụng được lợi thế của từng mô hình để cải thiện hiệu suất tổng thể Cuối cùng, phương pháp Stacking thường dẫn đến một mô hình tổng hợp ổn định và đáng tin cậy hơn, vì nó dựa trên sự đồng thuận của nhiều mô hình thay vì phụ thuộc vào một mô hình duy nhất Điều này đặc biệt quan trọng trong các ứng dụng thực tế, nơi dữ liệu thường không hoàn hảo và chứa nhiều nhiễu [36]

1.2.4 Các phương pháp đánh giá mô hình học máy

Trong nghiên cứu tương tác dược chất - tá dược, phương pháp học có giám sát được áp dụng, bởi mô hình hướng đến là phân loại dữ loại dữ liệu có gắn nhãn [34] Mô hình phân loại sẽ được đánh giá về độ chính xác, độ đúng, độ phủ, chỉ số F1 - score, chỉ số AUC và MCC

1.2.4.1 Đánh giá độ chính xác của mô hình

Trong mô hình phân loại, độ chính xác của mô hình là tỷ lệ các trường hợp được

dự đoán đúng trên tổng số các trường hợp [45] Độ chính xác giúp đánh giá hiệu quả dự

đoán của mô hình trên bộ dữ liệu Độ chính xác càng cao thì mô hình càng tốt Độ chính

xác được thể hiện ở Bảng 1.1

Tuy nhiên, một mô hình có độ chính xác cao chưa hẳn đã tốt Độ chính xác lộ rõ hạn chế khi được sử dụng trên bộ dữ liệu mất cân bằng Một ví dụ minh chứng cho điều này (Ví dụ 1): Một công ty dược phẩm muốn phát triển một mô hình để phát hiện các loại nhãn Công ty có thể cung cấp bộ dữ liệu gồm 1000 nhãn gồm hai loại là nhãn 0 và nhãn 1, trong đó có 50 sản phẩm nhãn 1 Dễ dàng thấy rằng, chỉ cần mô hình luôn dự đoán mọi sản phẩm đều là nhãn 0 thì mô hình đã có độ chính xác 99.9% Tuy nhiên, trên thực tế mô hình không thể phát hiện được các nhãn 1 Ở đây, tập dữ liệu đang bị mất cân bằng, nên việc dựa vào độ chính xác để đánh giá mô hình không mang lại nhiều kết quả khách quan Do đó cần phải sử dụng thêm các chỉ tiêu khác để đánh giá mô hình một cách khách quan hơn

Trang 20

1.2.4.2 Ma trận nhầm lẫn (Confusion matrix - CM)

Hạn chế của độ chính xác là chỉ cho biết độ chính xác của toàn mô hình, nhưng không thể hiện mô hình đang dự đoán sai như thế nào, vì vậy cần có một phương pháp đánh giá khác Một trong số kỹ thuật được sử dụng rộng rãi để đánh giá các mô hình phân loại là ma trận nhầm lẫn (CM) [45] CM thể hiện số lượng điểm dữ liệu thuộc vào một lớp và được dự đoán thuộc vào lớp CM cung cấp thêm thông tin về tỉ lệ phân lớp đúng giữa các lớp, hay giúp phát hiện các lớp có tỉ lệ phân loại nhầm cao nhờ vào các khái niệm True (False) hoặc Positive (Negative) Kỹ thuật đánh giá mô hình phân loại

bằng ma trận nhầm lẫn (CM) được trình bày tóm tắt ở Bảng 1.1

Bảng 1.1 Ma trận nhầm lẫn Thực tế

Dự đoán

Độ chính xác

(TP + TN)/(TP + TN + FP + FN)

Ghi chú: Các thành phần của ma trận nhầm lẫn bao gồm:

- P: lớp phân loại nhãn P (Positive) - N: lớp phân loại nhãn N (Negative) - TP: đối tượng ở lớp P, mô hình phân đối tượng vào lớp P (dự đoán đúng) - TN: đối tượng ở lớp N, mô hình phân đối tượng vào lớp N (dự đoán đúng) - FP: đối tượng ở lớp N, mô hình phân đối tượng vào lớp P (dự đoán sai) - Sai lầm

loại I - FN: đối tượng ở lớp P, mô hình phân đối tượng vào lớp N (dự đoán sai) - Sai lầm

loại II Đối với bài toán phân loại, vấn đề đáng chú ý nhất là đối tượng cần phân loại có thuộc lớp X không, tức là kết quả dự đoán trùng khớp với thực tế không Tiếp tục với ví dụ 1, cần dự đoán kết quả phân loại nhãn với dữ liệu 1000 nhãn Dưới đây là kết quả dự đoán của mô hình:

- Mô hình dự đoán có 50 nhãn 1, trong khi thực tế chỉ có 30 sản phẩm nhãn 1 - Mô hình dự đoán có 950 nhãn 0, nhưng thực tế trong 950 nhãn đó có 20 sản phẩm

nhãn 1

Trang 21

Kết quả dự đoán của mô hình được biểu diễn bằng ma trận nhầm lẫn như sau: - TP = 30: có 30 sản phẩm nhãn 1 được mô hình dự đoán đúng

- FP = 20: có 20 sản phẩm nhãn 0, nhưng được mô hình dự đoán thành sản phẩm nhãn 1

- TN = 930: 930 trường hợp nhãn 0 được mô hình phân loại chính xác - FN = 20: có 20 sản phẩm nhãn 1 nhưng bị mô hình phân loại sai - Độ chính xác = TP + TN

TP + TN+ FP + FN = 30 + 930

1000 = 0.96 - Độ đúng = TP

TP + FP = TP

TP + FP = 30

30 + 20 = 0.6 - Độ nhạy = TP

30 +20 = 0.6 - Độ đặc hiệu = TN

TN + FP= 930

930 +20 = 0.98 Mô hình có độ chính xác cao (0.96), cho thấy khả năng phân loại chính xác đa số các trường hợp Tuy nhiên, độ đúng (0.6) và độ nhạy (0.6) thấp, cho thấy mô hình còn gặp khó khăn trong việc nhận diện đúng các trường hợp nhãn 1 Ngược lại, độ đặc hiệu rất cao (0.98), cho thấy mô hình phân loại tốt các trường hợp nhãn 0 Điều này có nghĩa là mô hình tốt trong việc xác định các trường hợp nhãn 0 nhưng cần cải thiện để nhận diện chính xác hơn các trường hợp nhãn 1

Nhìn chung, trong ma trận nhầm lẫn, True/False thể hiện cho tính chính xác khi phân loại của mô hình, có nghĩa là khi thấy “True” đồng nghĩa với việc mô hình phân loại đúng và ngược lại Ma trận nhầm lẫn là cơ sở để tính toán những thước đo quan trọng khác đối với bài toán phân loại

1.2.4.3 Độ đúng và độ phủ

Với bài toán phân loại mà tập dữ liệu của các lớp chênh lệch nhau rất nhiều, có một phép đo hiệu quả thường được sử dụng là độ đúng - độ phủ Độ đúng trả lời cho câu hỏi: trong số các điểm dữ liệu được mô hình phân loại vào lớp Positive, có bao nhiêu điểm dữ liệu thực sự thuộc về lớp Positive Mặt khác, độ phủ cho biết có bao nhiêu điểm dữ liệu thực sự ở lớp Positive được mô hình phân lớp đúng trong mọi điểm dữ liệu thực sự ở lớp Positive [16]

Từ ma trận nhầm lẫn, công thức tính độ đúng và độ phủ như sau:

Trở lại với ví dụ 1 về phân loại nhãn 0 và 1, độ đúng và độ phủ của mô hình trong ví dụ này là:

Trang 22

Độ đúng = TP

30 + 20 = 0.60 Độ phủ = TP

30 +20 = 0.60 Có thể thấy rằng độ đúng và độ phủ của mô hình này còn thấp, tức hiệu quả phân loại nhãn của mô hình chưa cao Trong số 50 trường hợp được phân loại vào nhãn 1, chỉ có 30 trường hợp thực sự là nhãn 1 (60%, được thể hiện qua độ đúng) Việc kết quả phân loại chưa đủ tin cậy (trong trường hợp này là phân lớp sai - “báo động nhầm”) có thể khiến công ty phải thực hiện kiểm tra trực tiếp, gây lãng phí thời gian và công sức

Với giá trị độ phủ = 0.60, có thể hiểu rằng trong số 50 trường hợp thật sự là nhãn 1, mô hình chỉ phát hiện ra 30 trường hợp (60%) Trong thực tế, những sản phẩm nhãn 1 bị bỏ sót bởi mô hình có thể gây ảnh hưởng tới công ty trong quá trình phân phối Như vây, việc cải thiện độ phủ là cần thiết

1.2.4.4 Sự đánh đổi giữa độ đúng và độ phủ

Thông thường các mô hình phân loại nhị phân sẽ lựa chọn một ngưỡng mặc định là 0.5 để quyết định nhãn Tức là nếu ta có một hàm phân loại f0() thì nhãn dự báo sẽ dựa trên xác suất dự báo như sau [7]:

f0(x) ≥ 0.5, lớp P (Positive) f0(x) ≤ 0.5, lớp N (Negative) Do đó, độ đúng và độ phủ sẽ không cố định mà chịu sự biến đổi theo ngưỡng xác suất được lựa chọn Việc điều chỉnh ngưỡng xác xuất này chính là việc điều chỉnh trọng số của mô hình Đối với bộ dữ liệu mất cân bằng về nhãn thiểu số, sự điều chỉnh này có ý nghĩa rất quan trọng Khi đó ngưỡng xác xuất sẽ không phải là 0.5 nữa mà là lớn hơn 0.5 đối với nhãn thiểu số và nhỏ hơn 0.5 đối với nhãn đa số Để tìm ra ngưỡng phù hợp thì bắt buộc phải làm khảo sát

Sự đánh đổi giữa độ đúng và độ phủ khiến cho kết quả của mô hình thường là: độ đúng cao, độ phủ thấp hoặc độ đúng thấp, độ phủ cao [7] Khi đó rất khó để lựa chọn

đâu là một mô hình tốt vì không biết rằng đánh giá trên độ đúng hay độ phủ sẽ được ưu

tiên hơn Chính vì vậy cách kết hợp cả hai chỉ số trong một thước đo là điều đã xảy ra, đó chính là chỉ số F1 - score

1.2.4.5 Chỉ số F1 - score

Trong thực tế, rất ít mô hình cho ra kết quả độ đúng và độ phủ cân bằng nhau.Theo quy tắc đánh đổi thì chỉ một trong hai thứ đạt được, đó là lý do ra đời của chỉ số F1 - score [16]

Công thức tính F- score như sau:

Fβ = (1 + 𝛽2) độ đú𝑛𝑔 × độ 𝑝ℎủ

𝛽2 × độ đú𝑛𝑔 + độ 𝑝ℎủ

Trong đó, tham số β quyết định mức độ coi trọng giữa độ đúng và độ phủ β > 1: Độ phủ được coi trọng hơn độ đúng

Trang 23

β < 1: Độ đúng được coi trọng hơn độ phủ β = 1: Độ đúng và độ phủ được coi trọng ngang nhau Việc quyết định nên ưu tiên độ đúng hay độ phủ phụ thuộc vào từng bài toán Ví dụ, với bài toán phân loại nhãn 0 và nhãn 1 Trong trường hợp này, việc bỏ sót vài sản phẩm nhãn 1 có thể gây ảnh hưởng tới công ty, do đó độ phủ nên được ưu tiên hơn độ đúng Tuy nhiên, việc phân loại nhầm nhãn 1 thành nhãn 0 cũng có thể gây ra những hậu quả không mong muốn khác Do đó, cần cân nhắc cả hai chỉ số độ đúng và độ phủ trong các bài toán này

Với những bài toán mà độ đúng và độ phủ được cân nhắc ngang nhau, ta chọn β = 1, khi đó ta đang sử dụng F1 - Score F1 - score được hiểu là trung bình điều hòa giữa độ đúng và độ phủ Công thức tính F1 - score khi β = 1:

F1 - score = 2 × độ đú𝑛𝑔 × độ 𝑝ℎủ

độ đú𝑛𝑔 + độ 𝑝ℎủ Trong công thức có thể thấy rõ F1 - score lớn khi cả 2 giá trị độ đúng và độ phủ đều lớn Ngược lại, chỉ cần một trong hai giá trị nhỏ sẽ làm cho F1 - score nhỏ

1.2.4.6 Chỉ số Area under the Curve (AUC)

AUC là một phép đo tổng hợp về hiệu suất của phân loại nhị phân trên tất cả các giá trị ngưỡng có thể có Để hiểu rõ hơn về chỉ số này, cần tìm hiểu về một khái niệm

cơ sở trước, đó là đường cong ROC (Receiver Operating Characteristic) [9]

ROC là một đường cong biểu diễn hiệu suất phân loại của một mô hình phân loại tại các ngưỡng threshold Về cơ bản, nó hiển thị TPR so với FPR đối với các giá trị ngưỡng khác nhau Các giá trị TPR, FPR được tính như sau:

Từ ROC, thấy rằng chỉ số AUC chính là con số thể hiện hiệu suất phân loại của mô hình AUC là chỉ số được tính toán dựa trên đường cong ROC nhằm đánh giá khả năng phân loại của mô hình tốt như thế nào Phần diện tích nằm dưới đường cong ROC và trên trục hoành chính là AUC, có giá trị nằm trong khoảng [0, 1] Chỉ số AUC càng

Trang 24

gần 1 thì mô hình càng phân loại chính xác, còn càng gần 0 thì mô hình càng không có khả năng phân loại

1.2.4.7 Chỉ số Matthews correlation coefficient (MCC)

MCC là một phương pháp riêng đánh giá của học máy, dùng để đánh giá mô hình phân loại nhị phân, được giới thiệu bởi Brian W Matthews vào năm 1975 [12] Mục tiêu của MCC là khắc phục vấn đề dữ liệu bị mất cân bằng MCC có bản chất là một hệ số tương quan giữa giá trị “Thực tế” và “Kết quả dự báo của mô hình”, được xác định như sau:

MCC = (TP x TN) − (FP x FN)

√(TP +FP) x (TP + FN) x (TN + FP) x (TN + FN)

Như vậy có thể thấy rằng, giá trị của MCC dao động trong khoảng -1 đến +1, MCC = +1 biểu thị cho “kết quả phân loại hoàn hảo”, MCC = 0 cho thấy mô hình không có khả năng phân loại (phán đoán ngẫu nhiên) còn MCC = -1 cho thấy mô hình dự đoán sai tuyệt đối, vì kết quả phân loại hoàn toàn trái nghịch với quan sát thực tế

Trang 25

CHƯƠNG 2: ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 2.1 Hoá chất, thiết bị và phần mềm

2.2 Nội dung nghiên cứu

Để thực hiện mục tiêu đề ra, đề tài được tiến hành với các nội dung sau:

Nội dung 1: Xây dựng mô hình dự đoán tương tác dược chất - tá dược bằng phương

pháp học máy

Nội dung 2: Đánh giá mô hình xây dựng trên tập kiểm định và tập kiểm tra Nội dung 3: Kiểm tra kết quả dự đoán của mô hình bằng thực nghiệm với cặp quercetin

- magnesium carbonat

Nội dung 4: So sánh khả năng dự đoán của mô hình Stacking với mô hình

DE-INTERACT được phát triển bởi S Patel và cộng sự

Nội dung 5: Triển khai mô hình dự đoán tương tác dược chất - tá dược dưới dạng website

Sơ đồ thiết kế nghiên cứu được trình bày ở Hình 2.1

Ngày đăng: 23/08/2024, 00:40