1. Trang chủ
  2. » Luận Văn - Báo Cáo

trương cao minh nghiên cứu thiết kế một số cấu trúc mới hướng ức chế glutaminyl cyclase bằng phương pháp học máy kết hợp mô hình pharmacophore

83 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

BỘ Y TẾ

TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI

TRƯƠNG CAO MINH

NGHIÊN CỨU THIẾT KẾ MỘT SỐ CẤU TRÚC MỚI HƯỚNG ỨC CHẾ

GLUTAMINYL CYCLASE BẰNG PHƯƠNG PHÁP HỌC MÁY KẾT HỢP

MÔ HÌNH PHARMACOPHORE

KHÓA LUẬN TỐT NGHIỆP DƯỢC SĨ

HÀ NỘI – 2024

Trang 2

BỘ Y TẾ

TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI

TRƯƠNG CAO MINH MÃ SINH VIÊN: 1901452

NGHIÊN CỨU THIẾT KẾ MỘT SỐ CẤU TRÚC MỚI HƯỚNG ỨC CHẾ

GLUTAMINYL CYCLASE BẰNG PHƯƠNG PHÁP HỌC MÁY KẾT HỢP

HÀ NỘI – 2024

Trang 3

LỜI CẢM ƠN

Lời đầu tiên, tôi xin được gửi lời cảm ơn sâu sắc nhất tới PGS TS Trần Phương

Thảo – bộ môn Hoá Dược, Trường Đại học Dược Hà Nội, người Thầy đã dìu dắt tôi

những bước đi chập chững đầu tiên trên con đường nghiên cứu khoa học và đã luôn tạo điều kiện hết mức cho tôi được học hỏi và trau dồi bản thân trong suốt bốn năm làm thực nghiệm tại bộ môn Hoá Dược

Tôi xin được gửi lời cảm ơn chân thành nhất tới TS Đỗ Thị Mai Dung – bộ môn

Hoá Dược, Trường Đại học Dược Hà Nội, người Thầy hướng dẫn, chỉ bảo, góp ý và động viên tôi trong suốt quá trình thực hiện đề tài này để từ đó tôi có thể hoàn thiện khóa luận này một cách trọn vẹn nhất

Tôi cũng xin được gửi lời cảm ơn tới TS Dương Tiến Anh – bộ môn Hoá Dược, Trường Đại học Dược Hà Nội, TS Hoàng Văn Hải – Trường Đại học Phenikaa, NCS

Dương Văn Hiếu – Đại học Sungkyunkwan, Hàn Quốc và NCS Nguyễn Hữu Long –

Đại học Quốc gia Pusan, Hàn Quốc, đã cho tôi những bài học, kinh nghiệm quý báu trong suốt khoảng thời gian làm nghiên cứu khoa học tại bộ môn Bên cạnh đó, tôi xin

được gửi lời cảm ơn tới PGS TS Nguyễn Tuấn Anh và NCS Lê Công Trực - Đại

học Khoa học và Công nghệ Hồng Kông, đã cho tôi cơ hội được học hỏi và khám phá những tri thức rất mới mẻ nhưng lại vô cùng quý giá mà từ đó, tôi có động lực để hoàn thành khóa luận này

Tôi xin được gửi lời cảm ơn đặc biệt tới các Anh, Chị, Bạn và Em trong đại gia

đình “Tập thể sinh viên NCKH lab PGS Trần Phương Thảo” Hành trình nghiên

cứu khoa học và làm khóa luận tốt nghiệp vô cùng đáng nhớ của tôi không thể tới cuối chặng đường nếu thiếu đi sự sẻ chia và động viên của mọi người Cảm ơn mọi người rất nhiều vì đã đồng hành cùng tôi qua những năm tháng rực rỡ nhất thời sinh viên, nơi mà tôi luôn cảm thấy xúc động và biết ơn khi nhớ về

Và lời cuối cùng, tôi xin được gửi lời cảm ơn vô giá tới ba người Thầy vĩ đại nhất

cuộc đời tôi, đó là Bố Trương Cao Sơn, Mẹ Phương Tuyết Hòa và Anh Trương Minh

Hồng Tôi vô cùng biết ơn khi có sự đồng hành, tin tưởng của Bố, Mẹ và Anh trong suốt

khoảng thời gian tôi tham gia nghiên cứu khoa học và tôi tin rằng sự dõi theo của gia đình đã, đang và tiếp tục cổ vũ tôi bước những bước đi vững chắc hơn trong hành trình đầy chông gai sắp tới Con cảm ơn và biết ơn Bố, Mẹ và Anh rất nhiều

Hà Nội, ngày 03 tháng 06 năm 2024

Sinh viên

Trương Cao Minh

Trang 4

MỤC LỤC DANH MỤC CÁC CHỮ, KÝ HIỆU VIẾT TẮT DANH MỤC CÁC BẢNG

1.1.2 Mối liên quan giữa QC và bệnh Alzheimer 2

1.1.3 Đặc điểm cấu trúc của QC ở người 4

1.1.4 Một số chất ức chế QC đã được nghiên cứu 6

1.1.5 Liên quan cấu trúc - tác dụng các chất ức chế QC 7

1.2 Tổng quan về QSAR 8

1.2.1 Đại cương về QSAR 8

1.2.2 Tham số mô tả phân tử và dấu vân tay phân tử 9

1.2.3 Các bước xây dựng mô hình QSAR 10

1.3 Tổng quan về mô hình pharmacophore 12

1.3.1 Khái niệm về mô hình pharmacophore 12

1.3.2 Mô hình pharmacophore dựa trên phối tử 14

1.3.3 Mô hình pharmacophore dựa trên cấu trúc 14

1.4 Tổng quan phương pháp mô phỏng tương tác phân tử (Molecular docking) 15

CHƯƠNG 2 NGUYÊN LIỆU, THIẾT BỊ, NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 17

2.1 Nguyên liệu, thiết bị 17

2.1.1 Nguyên liệu 17

2.1.2 Thiết bị 17

2.2 Nội dung nghiên cứu 17

2.3 Phương pháp nghiên cứu 18

2.3.1 Phương pháp xây dựng mô hình QSAR 18

2.3.2 Phương pháp xây dựng mô hình pharmacophore 20

2.3.3 Phương pháp thiết kế một số cấu trúc mới hướng ức chế QC 23

Trang 5

2.3.4 Phương pháp Docking phân tử 24

CHƯƠNG 3 KẾT QUẢ NGHIÊN CỨU 26

3.1 Mô hình QSAR 26

3.1.1 Kết quả phân chia tập huấn luyện và tập kiểm tra 26

3.1.2 Kết quả huấn luyện mô hình QSAR 28

3.1.3 Kết quả dự đoán của mô hình trên tập kiểm tra 30

3.2 Mô hình pharmacophore 31

3.2.1 Kết quả huấn luyện mô hình pharmacophore 31

3.2.2 Kết quả đánh giá mô hình pharmacophore 32

3.3 Thiết kế một số cấu trúc mới hướng ức chế QC 34

3.4 Kết quả sàng lọc ảo 38

3.5 Mô phỏng docking phân tử 39

CHƯƠNG 4 BÀN LUẬN 44

4.1 Bàn luận về xây dựng mô hình QSAR 44

4.2 Bàn luận về xây dựng mô hình pharmacophore 46

4.3 Bàn luận về thiết kế và kết quả sàng lọc 48

4.4 Bàn luận về kết quả mô phỏng docking phân tử 49

Trang 6

DANH MỤC CÁC CHỮ, KÝ HIỆU VIẾT TẮT

amin tại đầu tận nitơ AICD Miền nội bào APP (Amyloid precursor protein Intracellular

CAS University of Texas, Burden eigenvalue descriptors) BFGS Phương pháp của Broyden-Fletcher-Goldfarb-Shanno

DPP4 Dipeptidyl peptidase 4 ECFP Dấu vân tay tương tác mở rộng (Extended Connectivity Fingerprint) EF Hệ số làm giàu (Enrichment Factor)

FCFP Dấu vân tay nhóm chức (Functional Class Fingerprint) FDA Cục quản lý Thực phẩm và Dược phẩm Hoa Kỳ

GETAWAY Tham số mô tả phân tử dựa trên hình học, cấu trúc và trọng lượng

nguyên tử (GEometry, Topology, and Atom-Weights AssemblY)

Trang 7

MCC Hệ số tương quan Matthew (Matthew’s Correlation

Coefficient) MoRSE Tham số mô tả phân tử biểu diễn cấu trúc dựa trên nhiễu xạ điện tử NMDA N-methyl-D-aspartat

OECD Tổ chức Hợp tác và Phát triển Kinh tế PCA Phân tích thành phần chính

PDB Ngân hàng dữ liệu Protein (Protein Data Bank) pE3-A𝛽 Pyroglutamat beta-amyloid

pE-peptid Pyroglutamat peptid

Q10CV2 Hệ số thẩm định chéo 10 lần Qrand2 Trung bình hệ số thẩm định chéo 10 lần của kiểm tra Y ngẫu nhiên

Trang 8

sQC hQC phân bố trong túi bài tiết SSE Tổng sai số toàn phương (Sum of Squared Error) SVR Máy hỗ trợ vector hồi quy (Support Vector Regression)

Trang 9

DANH MỤC CÁC BẢNG

Bảng 2.1 Một số chỉ số dùng để đánh giá mô hình QSAR 19

Bảng 2.2 Một số chỉ số dùng để đánh giá mô hình pharmacophore 23

Bảng 3.1 Kết quả thống kê hoạt tính sinh học của hai tập 27

Bảng 3.2 Kết quả đánh giá các mô hình pharmacophore 33

Bảng 3.3 Kết quả dự đoán hoạt tính thông qua mô hình QSAR 39

Bảng 3.4 Kết quả giá trị RMSD của quá trình docking lại các phối tử đồng kết tinh 40 Bảng 3.5 Kết quả ∆G thực nghiệm và dự đoán giữa phối tử đồng kết tinh và tinh thể 40

Bảng 3.6 Kết quả docking của 10 chất có năng lượng liên kết thấp nhất và PQ912 42

Bảng 4.1 So sánh giữa mô hình QSAR của nghiên cứu hiện tại và của các nghiên cứu khác 46

Bảng 4.2 So sánh giữa mô hình pharmacophore của nghiên cứu hiện tại và các nghiên cứu khác 48

Trang 10

Hình 1.5 Một số chất ức chế QC đã được nghiên cứu 7

Hình 1.6 Bộ khung pharmacophore các chất ức chế QC cổ điển [25] 8

Hình 1.7 Quy trình xây dựng mô hình QSAR [70] 12

Hình 1.8 Phương pháp sàng lọc ảo bằng mô hình pharmacophore [68] 13

Hình 2.1 Quy trình xây dựng mô hình pharmacophore 21

Hình 2.2 Dạng đồ thị pharmacophore của một chất 22

Hình 2.3 Ma trận nhầm lẫn 22

Hình 3.1 Trực quan hoá bằng t-SNE 2 chiều 26

Hình 3.2 Trực quan hoá bằng t-SNE 3 chiều 27

Hình 3.3 Phân bố hoạt tính sinh học của hai tập 27

Hình 3.4 Bản đồ nhiệt thể hiện kết quả tối ưu hoá siêu tham số bằng lưới tìm kiếm 29

Hình 3.5 Miền cấu trúc ứng dụng của mô hình 30

Hình 3.6 Đồ thị tương quan giá trị pIC50 thực tế và dự đoán 31

Hình 3.7 Tóm tắt kết quả đánh giá các mô hình pharmacophore 32

Hình 3.8 Đồ thị pharmacophore mô hình 3 34

Hình 3.9 Lựa chọn số cụm tối ưu theo phương pháp elbow 34

Hình 3.10 Kết quả phân cụm của 428 chất 35

Hình 3.11 Sự tương đồng về cấu trúc giữa các phân cụm 35

Hình 3.12 Khung cấu trúc chung của phân cụm 1, 3 và ý tưởng thiết kế 36

Hình 3.13 Khung cấu trúc chung của phân cụm 2, 4 và ý tưởng thiết kế 37

Hình 3.14 Tóm tắt quá trình sàng lọc ảo trong nghiên cứu 38

Hình 3.15 Tương quan giữa ∆G thực nghiệm và ∆G dự đoán 40

Hình 3.16 Xếp chồng cấu dạng của PBD150 docking lại có mức năng lượng thấp nhất và phối tử đồng kết tinh vào tinh thể của QC 41

Hình 3.17 Mô phỏng tương tác của phối tử docking lại (A) và đồng kết tinh (B) 41

Hình 4.1 Giản đồ William và biểu đồ KDE 45

Hình 4.2 Bản đồ nhiệt của chỉ số Tanimoto tập huấn luyện mô hình pharmacophore 47

Hình 4.3 Tương tác giữa 5 chất với kết quả docking tốt nhất và PQ912 với trung tâm hoạt động của QC 50

Trang 11

ĐẶT VẤN ĐỀ

Bệnh Alzheimer là một dạng phổ biến của hội chứng sa sút trí tuệ, được đặc trưng bởi sự suy giảm không hồi phục hoạt động trí nhớ, nhận thức và ngôn ngữ của người bệnh [2] Theo thống kê của Hiệp hội Alzheimer vào năm 2023, ước tính chỉ riêng ở Mỹ có khoảng 6,7 triệu ca mắc bệnh Alzheimer trên 65 tuổi, đồng thời đây cũng là nguyên nhân gây tử vong cao thứ bảy trên khắp thế giới với số ca tử vong lên tới hơn 121,000 người [2] Ở Việt Nam, ước tính có khoảng 660,000 người đang mắc hội chứng sa sút trí tuệ vào năm 2020 và được dự đoán tăng tới 2,4 triệu vào năm 2050, với chi phí liên quan lên đến 960 triệu đô [18, 60] Con số này tiếp tục gia tăng trong tương lai bởi hậu quả đến từ tốc độ già hoá dân số tại Việt Nam ngày một nhanh cùng với việc thiếu nhận thức đúng đắn về các bệnh thần kinh nói chung và bệnh Alzheimer nói riêng [5]

Giả thuyết amyloid hiện nay được coi là giả thuyết trung tâm trong cơ chế bệnh sinh bệnh Alzheimer, bắt nguồn từ quá trình tích tụ và hình thành mảng bám amyloid [29] Glutaminyl cyclase (QC) là enzym xúc tác cho phản ứng đóng vòng pyroglutamat ở đầu tận nitơ của mảnh beta-amyloid (A𝛽) ngắn tạo ra sản phẩm pyroglutamat beta-amyloid (pE3-A𝛽) trung gian, thúc đẩy việc kết tập với các chuỗi A𝛽 khác, từ đó khởi phát “dòng thác amyloid” (amyloid cascade) gây độc tế bào thần kinh [3] Nhiều nghiên cứu đã chỉ ra rằng việc ức chế QC có mối liên quan chặt chẽ với sự cải thiện khả năng nhận thức và giảm mức độ tiến triển bệnh ở các bệnh nhân Alzheimer [3, 91] Do đó, QC là một mục tiêu phân tử tiềm năng trong điều trị bệnh Alzheimer

Với sự bùng nổ của kỉ nguyên công nghệ thông tin cùng với sự ra đời của trí tuệ nhân tạo, các phương pháp nghiên cứu và phát triển thuốc bằng phương pháp mô phỏng

trên máy tính, hay còn gọi là phương pháp in silico, ngày càng được ứng dụng rộng rãi,

giúp đẩy nhanh quá trình tìm kiếm các hợp chất tiềm năng làm thuốc, đồng thời tiết kiệm chi phí hơn so với các phương pháp truyền thống [61] Trên cơ sở đó, chúng tôi đã thực

hiện đề tài “Nghiên cứu thiết kế một số cấu trúc mới theo hướng ức chế glutaminyl

cyclase bằng phương pháp học máy kết hợp với mô hình pharmacophore” với các

Trang 12

CHƯƠNG 1 TỔNG QUAN 1.1 Tổng quan về QC

1.1.1 Giới thiệu về QC

QC thuộc họ enzym acyltransferase phụ thuộc kim loại, xúc tác cho quá trình sửa đổi sau dịch mã ở một số protein hoặc peptid bằng cách chuyển phần dư glutamin (Gln) hoặc glutamat (Glu) ở đầu tận nitơ thành cấu trúc pyroglutamat-peptid (pE-peptid), đồng

thời giải phóng một phân tử amoniac hoặc một phân tử nước tương ứng (Hình 1.1) [12]

QC lần đầu được phân lập vào năm 1963 bởi Michael và cộng sự sau khi quan sát thấy

sự giải phóng khí amoniac khi hòa tan nhựa mủ của cây đu đủ Carica papaya trong dung dịch chứa L-glutamin và L-glutaminyl peptid [40] Sau đó đến năm 1987, nhóm nghiên

cứu của Walker báo cáo về enzym có khả năng chuyển glutaminyl-peptid thành peptid ở tuyến yên, tuyến tủy thượng thận và ở một số tế bào lympho ở người [8] Cho đến nay, hai nhóm QC đã được tìm thấy và đặt tên lần lượt là QC nhóm I (chủ yếu ở thực vật và vi khuẩn) và QC nhóm II (ở một số vi khuẩn, động vật và con người) Vai trò của QC nhóm I chưa được nghiên cứu đầy đủ, tuy nhiên nhiều nghiên cứu chỉ ra rằng một số pE-peptid là sản phẩm chuyển hoá của QC nhóm I tham gia vào quá trình đáp ứng miễn dịch, chống lại kí sinh trùng ở một số loài thực vật, hay tạo điều kiện cho kí

pE-sinh trùng sốt rét trốn thoát khỏi hệ miễn dịch ở một số chủng Plasmodium [12] Ngược

lại, nhiều nghiên cứu đã chỉ ra rằng khả năng pyroglutamat hoá của QC nhóm II được phát hiện ở đa dạng các cơ chất như hormon giải phóng gonadotropin (GnRH), hormon giải phóng thyrotropin (TRH), neurotensin, fibronectin, hoặc một số cytokin khởi động phản ứng viêm như CCL2, CX3CL1 [23, 30, 74] Việc sửa đổi sau phiên mã tạo ra sản phẩm pE-peptid của QC nhóm II đã làm tăng tính bền vững của các cơ chất, ngăn chặn sự thủy phân từ các aminopeptidase, đồng thời làm tăng khả năng gắn kết của peptid với các receptor [12, 15]

Hình 1.1 Sự hình thành pE-peptid bởi QC

1.1.2 Mối liên quan giữa QC và bệnh Alzheimer

Hiện nay, giả thuyết amyloid được coi là giả thuyết trung tâm trong cơ chế bệnh

sinh bệnh Alzheimer [29] Giả thuyết này bắt nguồn từ việc tích tụ mảnh Aβ là mảnh

peptid có nguồn gốc từ protein amyloid tiền thân (APP), một glycoprotein xuyên màng biểu hiện ở nhiều mô khác nhau và đóng vai trò quan trọng trong sự hình thành, phát triển, tái tạo và tính khả biến của tế bào thần kinh [9, 11, 29] APP được chuyển hoá theo hai con đường khác nhau: Con đường sinh amyloid (amyloidogenic pathway) và

Trang 13

con đường không sinh amyloid (non-amyloidogenic pathway) Trong con đường không

sinh amyloid, enzym α-secretase cắt bỏ APP để tạo ra mảnh sAPPα đầu tận nitơ và mảnh 𝛼CTF 83 đầu tận carbon Mảnh αCTF 83 tiếp tục được phân cắt bởi phức hợp enzym γ-

secretase, giải phóng ra đoạn peptid p3 và miền nội bào APP (AICD) Ngược lại, trong

con đường sinh amyloid, enzym β-secretase (BACE) chịu trách nhiệm chính trong việc chuyển hoá APP để tạo thành mảnh sAPPβ Phần peptid gồm 99 acid amin còn lại của APP sẽ tiếp tục được phân cắt bởi phức hợp enzym γ-secretase và giải phóng ra mảnh Aβ không tan có chiều dài từ 37 đến 42 acid amin, trong đó đáng chú ý là mảnh Aβ40 và

42 [9] Tỉ lệ Aβ42: Aβ40 tăng làm thúc đẩy quá trình tích tụ mảnh Aβ42, các mảnh đó sẽ kết tập, kéo dài và dần hình thành nên mảng bám amyloid [22] Đây chính là trung tâm của rất nhiều con đường bệnh sinh khác nhau của bệnh Alzheimer, bao gồm tăng cường phosphoryl hoá protein tau hình thành đám rối thần kinh tau, kích hoạt quá trình

stress oxy hoá gây tổn thương viêm lan rộng, hoạt hoá receptor N-methyl-D-aspartat

(NMDA) gây độc tế bào thần kinh… từ đó dẫn tới sự chết theo chu trình của tế bào thần kinh, tổn thương khớp thần kinh hay thiếu hụt chất dẫn truyền thần kinh [55, 77]

Năm 1985, khi thực hiện nghiên cứu mảnh A𝛽 được phân lập từ mảng bám amyloid ở những bệnh nhân Alzheimer, Masters và cộng sự nhận thấy sự bất thường trong cấu trúc ở đầu tận nitơ khi tới 64% mảnh A𝛽 bắt đầu từ phenylalanin (Phe) ở vị trí số 4 [39] Ngay sau đó, vào năm 1986, nhóm nghiên cứu của Selkoe báo cáo về việc không thu được mảnh peptid có chứa đầu tận nitơ nào sau khi tinh chế mảng bám amyloid, gợi ý rằng có thể đầu tận nitơ đã bị khóa bởi một cấu trúc hoá học nào đó [76] Giả thuyết trên đã được kiểm chứng vào năm 1992 bởi Mori và cộng sự khi đã phát hiện sự tồn tại của cấu trúc pyroglutamat ở đầu tận nitơ của khoảng 15-20% mảnh A𝛽, hay được biết đến là mảnh pE3-A𝛽, từ đó mở ra nhiều nghiên cứu sâu hơn về vai trò của mảnh trên trong cơ chế bệnh sinh bệnh Alzheimer [54]

Mảnh pE3-A𝛽 có nguồn gốc từ các mảnh A𝛽 có chiều dài 40 hoặc 42 acid amin

γ-secretase Sau khi được giải phóng vào khe synap từ các tế bào thần kinh, mảnh A𝛽 sẽ được xử lý bằng cách được loại bỏ lần lượt hai acid amin ở đầu tận nitơ lần lượt là aspartat (Asp) và alanin (Ala) bởi một số enzym như aminopeptidase A (APA), merpin-𝛽 hoặc dipeptidyl peptidase 4 (DPP4), tạo ra sản phẩm là mảnh A𝛽3-40/42 có chứa Glu ở đầu tận nitơ Sau đó, QC sẽ thực hiện phản ứng đóng vòng và loại nước để chuyển Glu thành pyroglutamat ở đầu tận nitơ, tạo ra sản phẩm pE3-A𝛽 (Hình 1.2)

Do đã bị mất đi hai điện tích âm và một điện tích dương, đồng thời đầu tận nitơ hình thành cấu trúc vòng lactam nên mảnh pE3-A𝛽 sẽ có xu hướng kết tập với nhau dễ dàng hơn, nhanh hơn và ổn định hơn, đặc biệt là trước tác động của một số peptidase [3] Khi nghiên cứu về cấu trúc bậc 2 các mảnh A𝛽, nhiều nghiên cứu đã chỉ ra rằng

Trang 14

mảnh pE3-A𝛽 có khả năng hình thành cấu trúc nếp gấp beta dễ dàng hơn các đoạn peptid có độ dài hoàn chỉnh, từ đó cho thấy mảnh pE3-A𝛽 hoạt động như một “chất mồi” (seed species), có thể tự kết tập hoặc kết tập với các mảnh A𝛽 có độ dài khác nhau, thúc đẩy quá trình oligomer hoá để tạo nên mảng bám amyloid Tuy nhiên, do tốc độ oligomer hoá nhanh dẫn tới việc hình thành nên các đoạn peptid được cuộn gập bất thường (misfolded peptide), từ đó ức chế điện thế hoá dài hạn (long-term potentiation) ở các tế bào thần kinh vùng hồi hải mã Bên cạnh đó, pE3-A𝛽 hoạt động như một chất ức chế sự hình thành sợi cơ (fibrillogenesis) ở các mảnh A𝛽1-40/42, từ đó có thể duy trì ở dạng oligomer hoặc dạng tiền sợi cơ (prefibrillar) có khả năng gây độc các tế bào thần kinh Một số ảnh hưởng khác của pE3-A𝛽 tới cơ chế bệnh sinh bệnh Alzheimer có thể kể đến như khả năng kích hoạt thúc đẩy quá trình chết của tế bào theo chương trình (apoptosis) và quá trình hoại tử ở các tế bào thần kinh đệm hình sao thông qua việc hoạt hoá caspase, thay đổi tính thấm của màng tế bào hay tạo ra các cytokin gây viêm [66]

Hình 1.2 Cơ chế hình thành pE3-A𝛽 [27]

1.1.3 Đặc điểm cấu trúc của QC ở người

QC ở người (hQC) thuộc QC nhóm II, biểu hiện cao ở hệ thần kinh như trong tế bào urocortin-1, nhân Edinger-Westphal của hệ cholinergic, nhân xanh (locus coerulus) và hạt nhân cơ bản Meynert (nucleus basalis Meynert) [52] Sự phân bố khác nhau của hQC trong tế bào dẫn tới việc hình thành nên hai dạng isoform, cụ thể là hQC phân bố trong túi bài tiết (sQC, mã hoá bởi gen QPCT) và hQC phân bố trong thể golgi (gQC hoặc isoQC, mã hoá bởi gen QPCTL) Hai dạng isoform trên có trình tự các acid amin giống nhau tới hơn 45% với kích cỡ của trung tâm hoạt động gần tương tự nhau (gồm khoảng 330 acid amin) Tuy nhiên, do sự phân bố ở các tế bào và các mô là khác nhau nên hai isoform trên hoạt động với các cơ chất khác nhau, do đó chúng đóng vai trò sinh lý và bệnh lý khác nhau trong cơ thể [4, 13, 90]

Hai dạng isoform của hQC đều có cấu trúc hình cầu với trung tâm là một nếp gấp beta gồm 6 sợi, trong đó có 2 sợi phản song song, nằm giữa cấu trúc gồm hai và sáu

Trang 15

xoắn alpha ở hai phía đối diện nhau (Hình 1.3A) Phần còn lại của protein chứa các cấu

trúc xoắn 310 và các vòng lặp phi cấu trúc (unstructured loops) (Hình 1.3B) Trung tâm

hoạt động của cả hai dạng isoform đều chứa ion Zn2+, hình thành phức tứ diện với ba acid amin là aspartat (Asp), glutamat (Glu), histidin (His) (Asp159, Glu202 và His330

ở sQC; Asp186, Glu226 và His351 ở gQC) và một nguyên tử nước (Hình 1.3C) Đối

với sQC, trung tâm hoạt động được giới hạn bởi hai phần dư tryptophan (Trp) là Trp207 và Trp329, hơn nữa sự định hướng của Trp207 trong không gian sẽ quyết định cấu dạng của trung tâm hoạt động Cụ thể, khi khung indol của Trp207 quay về hướng cơ chất thì trung tâm hoạt động tồn tại ở dạng cấu hình A (cấu hình mở), ngược lại đối với cấu hình B (cấu hình đóng) thì khung indol sẽ định hướng về phía ion Zn2+ Một số nghiên cứu chỉ ra rằng khi tồn tại ở cấu hình A, thể tích của trung tâm hoạt động sẽ tăng lên, tạo thuận lợi cho việc hình thành sản phẩm đã được đóng vòng Đối với gQC, vai trò của 5 vòng lặp quanh trung tâm hoạt động, đặc biệt là vòng lặp 2 chứa lysin (Lys) từ Lys229 đến Lys234 đã làm tăng đáng kể thể tích trung tâm hoạt động của gQC so với của sQC Bên cạnh đó, ba acid amin (Glu201, Asp248 và Asp305 ở sQC; Glu225, Asp269 và Asp326 ở gQC) hình thành mạng lưới liên kết hydro với nhau, có khả năng làm ổn định trạng thái chuyển tiếp của cơ chất và tạo điều kiện thuận lợi cho quá trình xúc tác của enzym Mạng lưới liên kết hydro trên dễ dàng bị phá vỡ khi liên kết cis peptid giữa Asp thuộc phức tứ diện của ion Zn2+ và phần dư serin (Ser) kế cạnh không được hình thành (Asp159 và Ser160 ở sQC; Asp186 và Ser187 ở gQC), từ đó cho thấy vai trò của các phần dư Ser trên đối với hoạt tính [90]

Hình 1.3 Cấu trúc hai dạng isoform của hQC [26, 90]

Chú thích: (A) Cấu trúc xếp chồng của sQC (vàng) và gQC (xanh); (B) Cấu trúc xoắn 310 và các vòng lặp phi cấu trúc của sQC (hồng) và gQC (xanh); (C) Phức tứ diện với trung tâm là ion Zn2+ và bốn đỉnh là ba acid amin (Asp, Glu, His) và một phân tử nước

Cơ chất của QC là A𝛽3-40/42 chứa Glu ở đầu tận nitơ có nhóm 𝛼-amino nằm ở vị trí kế cận trong không gian với nhóm 𝛾-carbonyl, tạo điều kiện thuận lợi cho phản ứng đóng vòng nội phân tử Tại trung tâm hoạt động, nhóm 𝛾-carbonyl của cơ chất hình thành liên kết phối trí với ion Zn2+ thay thế cho phân tử nước, từ đó hình thành cấu trúc oxyanion nhờ phản ứng cộng ái nhân giữa nhóm 𝛼-amino và 𝛾-carbonyl Sau đó,

Trang 16

Glu201/225 và Asp248/269 chuyển proton từ nhóm 𝛼-amino tới nhóm hydroxyl rời đi, từ đó tạo thành một phân tử nước và giải phóng sản phẩm đã được đóng vòng [90] Cơ

chế xúc tác của QC được mô tả ở Hình 1.4

Hình 1.4 Cơ chế xúc tác của QC [90]

1.1.4 Một số chất ức chế QC đã được nghiên cứu

Công ty Probiodrug AG (hiện nay là Vivoryon Therapeutics N.V.) là một trong những nơi tiên phong trong việc nghiên cứu và phát triển các chất ức chế QC và là nơi đầu tiên báo cáo về vai trò của khung imidazol ở các chất ức chế trong việc hình thành phức tứ diện với ion Zn2+ của hQC Vào năm 2006, công ty đã công bố chất ức chế QC

mang khung imidazol là PBD150 với Ki = 60 nM, được thiết kế dựa trên cấu trúc của tripeptid (Glu-Phe-Arg) ở đầu tận nitơ của cơ chất A𝛽3-40/42 [7] Sau đó, rất nhiều nghiên cứu đã tìm cách tối ưu hoá hoặc thay thế khung imidazol bằng các khung có khả năng

gắn kẽm khác, nổi bật trong số đó là khung 5-methylimidazol với chất TQ1 có khả năng ức chế QC mạnh gấp 10 lần PBD150, hay khung benzimidazol với chất TQ2 và khung methyltriazol với chất TQ3 đều có khả năng ức chế QC tốt hơn PBD150 [6, 28, 67, 69] Bên cạnh đó, chất TQ4 được báo cáo có khả năng làm giảm đáng kể nồng độ pE3-A𝛽 ở vùng hồi hải mã và vỏ não, đồng thời cải thiện khả năng nhận thức và hành vi ở mô hình

chuột chuyển gen B6C3-Tg [36] Đặc biệt, chất PQ912 mang khung benzimidazol là

chất phân tử nhỏ đầu tiên ức chế QC được tiến hành thử nghiệm lâm sàng Kết quả thử

Trang 17

nghiệm lâm sàng ở pha I, IIa và IIb của PQ912 cho thấy mức độ an toàn và khả năng

dung nạp tốt ở nồng độ thử nghiệm, đồng thời cải thiện trí nhớ, khả năng tập trung và giảm nồng độ một số chỉ dấu sinh học như neurogranin, YKL40 trong dịch não tủy ở các bệnh nhân Alzheimer mức độ trung bình [91] Do đó, có thể thấy QC là một mục tiêu phân tử tiềm năng trong việc nghiên cứu và phát triển thuốc điều trị bệnh Alzheimer

Cấu trúc các chất ức chế QC được mô tả ở Hình 1.5

Hình 1.5 Một số chất ức chế QC đã được nghiên cứu

1.1.5 Liên quan cấu trúc - tác dụng các chất ức chế QC

Xuất phát từ công bố của Buchholz và cộng sự năm 2006 về dẫn chất ức chế QC tiềm năng đầu tiên [7], nhiều nghiên cứu về liên quan cấu trúc - tác dụng đều chỉ ra rằng để thiết kế một chất ức chế QC cổ điển cần dựa trên cấu trúc tripeptid (Glu-Phe-Arg) ở đầu tận nitơ của cơ chất A𝛽3-40/42 cần có bộ khung pharmacophore gồm 4 phần:

- Phần A: chứa nhóm gắn kẽm (ZBG) như imidazol, benzimidazol, methyltriazol, - Phần B: chứa mạch alkyl với các nhóm thế khác nhau, trong đó có ít nhất một nhóm nhận liên kết hydro (HBA) hoặc một nhóm cho liên kết hydro (HBD) như nhóm urea, thiourea, để hình thành liên kết hydro với Gln304

- Phần C: chứa vòng thơm hoặc hệ vòng thơm nằm đối diện hoặc gần với ZBG, “bắt chước” cấu trúc của Phe trong tripeptid, tạo liên kết xếp chồng với Phe325 và liên kết kị nước với túi thân dầu

- Phần D: chứa hợp phần “bắt chước” cấu trúc guanidin của Arg trong tripeptid Cấu trúc một chất ức chế QC cổ điển cần phải có ít nhất phần A và B trong bộ khung pharmacophore cổ điển trên Ngoài ra, một số đặc điểm khác trong cấu trúc ảnh hưởng tới khả năng ức chế enzym đã được nghiên cứu có thể kể đến như: nhóm thế methyl của ZBG tạo tương tác kị nước với Leu249 và Ile303, nhóm thế “khóa” cấu dạng quay của phần B, hay nhóm thế ở phần D tạo liên kết tĩnh điện với Glu327 [10, 90] Bộ

Trang 18

khung pharmacophore của các chất ức chế QC cổ điển dựa trên cấu trúc tripeptid được

mô tả ở Hình 1.6

Hình 1.6 Bộ khung pharmacophore các chất ức chế QC cổ điển [25] 1.2 Tổng quan về QSAR

1.2.1 Đại cương về QSAR

Mô hình QSAR mô tả và định lượng hoá mối quan hệ giữa các đặc điểm hoá lý với hoạt tính sinh học dựa trên giả thuyết là giữa các hợp chất có sự tương đồng về cấu trúc sẽ có tính chất sinh học giống nhau [64] Một trong những nghiên cứu đầu tiên về QSAR là của A F A Cros tại đại học Strasbourg vào năm 1863 khi ông đã quan sát thấy mối liên hệ giữa độ tan trong nước và độc tính của một số alcol bậc nhất mạch thẳng Đến năm 1868, Brown và Fraser nghiên cứu về ảnh hưởng của việc methyl hoá nhóm amin trong một số alkaloid đến hoạt tính sinh học của chúng, từ đó họ kết luận rằng hoạt tính sinh học (ϕ) có thể được mô tả bằng một hàm số của cấu trúc hoá học (C) Đến năm 1964, C Hansch đề xuất mô hình QSAR tuyến tính đầu tiên mô tả mối tương quan giữa tác dụng sinh học với rất nhiều các đặc điểm lý hoá của hợp chất, đặt nền móng cho các mô hình QSAR phức tạp hơn sau này [20, 31] Mô hình của Hansch được biểu diễn theo phương trình sau:

log (1/C) = k1π– k2 π2+ k3σ+ k4Es + k5

trong đó: C là nồng độ mà tại đó hợp chất thể hiện tác dụng sinh học; π là hệ số phân bố dầu - nước; σ là hằng số thế Hammett; Es là tham số không gian Taft; k1, k2, k3, k4, k5 là hệ số của phương trình hồi quy

Về mặt toán học, mô hình QSAR biểu diễn mối quan hệ định lượng giữa cấu trúc

phân tử và hoạt tính sinh học thông qua phương trình Y = f(X) Trong đó, Y là biến phụ

thuộc, phản ánh hoạt tính sinh học của hợp chất và được xác định thông qua các nghiên

cứu thực nghiệm in vitro (phần trăm ức chế, IC50, Ki) hay in vivo (sinh khả dụng, khả

năng thấm qua hàng rào máu não, độc tính) Biến độc lập X là các tham số mô tả phân

tử (molecular descriptor), đặc trưng cho cấu trúc và tính chất lý hoá của hợp chất và được xác định bằng các mô hình dự đoán trên máy tính (logP, độ tan trong nước, độ dịch chuyển hoá học trong phổ cộng hưởng từ hạt nhân) hoặc được tính dựa trên cấu trúc của

Trang 19

hợp chất bằng các thuật toán khác nhau (các tham số mô tả phân tử 1D, 2D, 3D, )

Ngoài ra, biến X cũng có thể là các dấu vân tay phân tử (molecular fingerprint), mã hoá

các thông tin về cấu trúc hoá học dưới dạng chuỗi nhị phân Cuối cùng, mối tương quan

giữa biến độc lập X và biến phụ thuộc Y được định lượng hoá thông qua hàm số f dựa

trên nền tảng là lý thuyết thống kê cổ điển Tuy nhiên, với sự phát triển của khoa học máy tính và trí tuệ nhân tạo, các thuật toán học máy (machine learning) và học sâu (deep learning) đang được ứng dụng rất nhiều trong việc xây dựng các mô hình QSAR phức tạp mà lý thuyết thống kê cổ điển không giải quyết được [78, 81]

1.2.2 Tham số mô tả phân tử và dấu vân tay phân tử

1.2.2.1 Tham số mô tả phân tử

Theo định nghĩa của Todeschini và Consonni, tham số mô tả phân tử là kết quả của quá trình toán học và logic, có vai trò chuyển đổi những thông tin đã được mã hoá trong cấu trúc hoá học thành các số đặc trưng cho cấu trúc đó hoặc thành kết quả của các thí nghiệm đã được chuẩn hoá Do đó, tham số mô tả phân tử phải thỏa mãn một số tiêu chí nhất định, như có mối tương quan chặt chẽ với ít nhất một đặc tính của phân tử, có khả năng phân biệt giữa các đồng phân khác nhau, và có khả năng tổng quát hoá cho các tham số bậc cao hơn Bậc của tham số mô tả phân tử là số chiều không gian của cấu trúc hoá học mà thuật toán sử dụng để tính ra các tham số, cụ thể là các tham số 0D, 1D, 2D, 3D và bậc cao hơn [81]

• Tham số mô tả 0D/1D: là các tham số mà không chứa đựng thông tin về cấu trúc hoá học và sự kết nối giữa các nguyên tử hoặc chỉ chứa đựng thông tin về các mảnh cấu trúc hoá học Thông thường, các tham số mô tả 0D bao gồm số lượng các nguyên tử và các liên kết hoá học, khối lượng phân tử, các đặc tính nguyên tử, còn tham số mô tả 1D mang thông tin về sự có mặt của các nhóm chức hoặc mảnh cấu trúc khi lấy một nguyên tử làm trung tâm [81]

• Tham số mô tả 2D: là các tham số được xây dựng dựa vào cấu trúc phẳng của phân tử (topological structure) trên cơ sở của lý thuyết ma trận hoặc lý thuyết đồ thị với đỉnh là các nguyên tử và cạnh là các liên kết giữa các nguyên tử tương ứng Các tham số mô tả 2D phản ánh về khoảng cách, sự kế cận giữa các nguyên tử với nhau, góc giữa các liên kết, trạng thái lai hoá và cấu hình electron của các nguyên tử Một số nhóm tham số mô tả 2D có thể kể đến như: BCUT, Burden, E-state, Kappa, Moreau-Broto, [81]

• Tham số mô tả 3D: là các tham số chứa đựng thông tin về các đặc điểm hình học của cấu trúc hoá học khi đặt trong hệ tọa độ Descartes x-y-z Phương pháp xây dựng nên tham số mô tả 3D khác nhau giữa các nhóm tham số, ví dụ như tham số WHIM cung cấp đặc tính của các nguyên tử khi được gióng hàng trên các trục tọa độ, tham số GETAWAY phản ánh đặc điểm cấu trúc hoá học dựa trên ma

Trang 20

trận ảnh hưởng phân tử, tham số 3D-MoRSE mô tả thông tin về tương tác giữa các nguyên tử khi sử dụng phương pháp nhiễu xạ điện tử và tán xạ [81]

• Tham số mô tả 4D trở lên: là các tham số mô tả các đặc điểm về cấu trúc hoá học 3D và năng lượng phân tử tương tác với các đầu dò (probe) khi được đặt trong một mạng lưới nguyên tử giả định Ngoài ra, các tham số mô tả bậc cao sẽ phản ánh sự tương tác giữa protein-phối tử với nhiều cấu dạng khác nhau và mức độ ảnh hưởng khi xem xét sự tương tác trên trong một môi trường cụ thể cùng với nhiều trường lực kết hợp bao quanh [17]

1.2.2.2 Dấu vân tay phân tử

Dấu vân tay phân tử dùng để mã hoá thông tin cấu trúc hoá học dưới dạng một chuỗi bit hay một vector nhị phân Dấu vân tay phân tử phải có một số đặc điểm nhất định, như mang tính đại diện cho cấu trúc hoá học cục bộ (đặc trưng cho từng nguyên tử và các nguyên tử kế cận), có khả năng giải mã từ đoạn mã hoá thành cấu trúc hoá học tương ứng một cách chính xác, và các đặc điểm trong cùng một dấu vân tay phải độc lập với nhau Các loại dấu vân tay phân tử khác nhau có cách thức mã hoá khác nhau, có thể kể đến như:

• Dấu vân tay xuyên tâm (circular fingerprint): được xây dựng dựa trên thuật toán của Morgan năm 1965 [53] Mỗi nguyên tử khác hydro trong cấu trúc hoá học sẽ được lấy làm tâm, tạo nên các đường tròn đồng tâm với bán kính được xác định từ đó sẽ thu được thông tin về các mảnh cấu trúc kế cận với tâm nguyên tử Một số dấu vân tay xuyên tâm có thể kể đến như ECFP, FCFP, Molprint2D

• Dấu vân tay cấu trúc (structural key fingerprint): chứa được thông tin về sự có mặt hoặc thiếu các nhóm chức, mảnh hoặc khung cấu trúc đã được định trước Mỗi hợp chất sẽ được được mã hoá thành một chuỗi N-bit bằng hàm băm (hash function), từ đó sẽ so sánh từng cặp bit đã mã hoá với ngân hàng cấu trúc có sẵn để thu được số lượng lớn thông tin về cấu trúc hoá học Một số dấu vân tay cấu trúc có thể kể đến như MACCS, BCI, PubChem [94]

1.2.3 Các bước xây dựng mô hình QSAR

Theo Tổ chức Hợp tác và Phát triển Kinh tế (OECD), một mô hình QSAR được đánh giá theo 5 nguyên tắc sau [62]:

(1) Có đích xác định (2) Các thuật toán được sử dụng để xây dựng mô hình rõ ràng (mô hình có thể

được tái xây dựng lại những hợp chất mới) (3) Có miền cấu trúc ứng dụng (applicability domain) xác định (4) Có phương pháp đánh giá rõ ràng độ phù hợp (goodness-of-fit), độ ổn định

(robustness) và khả năng dự đoán (predictivity) (5) Giải thích được cơ chế (nếu có thể)

Trang 21

Trên cơ sở 5 nguyên tắc trên, việc xây dựng mô hình QSAR được thực hiện theo

các bước sau (Hình 1.7) [70]:

Bước 1: Xây dựng cơ sở dữ liệu (CSDL)

CSDL là tập hợp các hợp chất có hoạt tính hoặc độc tính với một đích cụ thể Để tránh sự sai khác giữa kết quả hoạt tính hoặc độc tính giữa các hợp chất, thông thường CSDL được lấy từ cùng một nghiên cứu hoặc các nghiên cứu có phương pháp thử hoạt tính sinh học tương tự nhau

Bước 2: Tính toán tham số mô tả phần tử/ dấu vân tay phân tử

Sử dụng các phần mềm, thuật toán để tính toán các tham số mô tả phần tử hoặc mã hoá đặc điểm cấu trúc dưới dạng dấu vân tay phân tử cho bộ CSDL

Bước 3: Chia CSDL thành tập huấn luyện và tập kiểm tra

Sử dụng một số thuật toán như phân cụm K-Means (K-Means Clustering), thuật toán Kennard Stone, phân tích thành phần chính (PCA), tiếp cận dựa trên hoạt tính (activity-based approach), để có thể chia CSDL thành tập huấn luyện và tập kiểm tra

Bước 4: Huấn luyện mô hình và đánh giá nội mô hình dựa trên tập huấn luyện

Dựa vào đặc điểm mô hình cần phải xây dựng là hồi quy hoặc phân loại, lựa chọn thuật toán phù hợp để huấn luyện mô hình dựa trên tập huấn luyện Thuật toán sử dụng có thể là các thuật toán thống kê cổ điển (hồi quy tuyến tính, hồi quy logistic, phân tích Bayesian, ) hoặc thuật toán học máy, học sâu (máy vector hỗ trợ, rừng ngẫu nhiên, cây quyết định, mạng lưới neural nhân tạo, ) Mô hình cần được đánh giá nội thông qua thẩm định chéo (cross-validation), kiểm tra Y ngẫu nhiên (Y-randomization test) nhằm đánh giá mức độ phù hợp và mức độ ổn định của mô hình

Bước 5: Đánh giá khả năng dự đoán của mô hình dựa trên tập kiểm tra

Sử dụng mô hình đã xây dựng ở trên để đánh giá khả năng dự đoán trên tập kiểm tra Nếu mô hình lựa chọn không dự đoán tốt trên tập kiểm tra, lặp lại từ bước 3

Bước 6: Xây dựng miền cấu trúc ứng dụng (applicability domain) và đánh giá độ

tin cậy của các dự đoán Sau khi khả năng dự đoán của mô hình thỏa mãn trên tập kiểm tra, tính tin cậy của các dự đoán đó sẽ được đánh giá thông qua miền cấu trúc ứng dụng Miền cấu trúc ứng dụng của mô hình QSAR là không gian hoá học bao trùm các hợp chất mà tại đó mô hình có khả năng đưa ra những dự đoán đáng tin cậy [57] Một số phương pháp để xây dựng miền cấu trúc ứng dụng bao gồm: giản đồ William với giá trị đòn bẩy (leverage), phương pháp k láng giềng gần nhất (Z-kNN), chỉ số Tanimoto,

Bước 7: Giải thích cơ chế của mô hình (nếu có)

Mô hình đã xây dựng có thể được giải thích hoặc xác định một số yếu tố đóng vai trò quan trọng trong việc xây dựng mô hình, từ đó làm cơ sở cho các nghiên cứu về thiết kế hoặc sàng lọc ảo sau này

Trang 22

Hình 1.7 Quy trình xây dựng mô hình QSAR [70] 1.3 Tổng quan về mô hình pharmacophore

1.3.1 Khái niệm về mô hình pharmacophore

Khái niệm về pharmacophore lần đầu tiên được giới thiệu bởi Ehrlich vào năm

1909 khi ông cho rằng pharmacophore là khung cấu trúc mà mang (phoros) những đặc điểm cần thiết cho hoạt tính sinh học của thuốc (pharmacon) [19] Theo định nghĩa gần

đây nhất của IUPAC, mô hình pharmacophore là tập hợp các đặc điểm về lập thể và điện tử cần thiết để đảm bảo cho các tương tác của một phân tử với một đích phân tử cụ thể nhằm kích hoạt hay ngăn chặn đáp ứng sinh học của nó [93] Như vậy, khái niệm pharmacophore của IUPAC đã mở rộng hơn so với Ehrlich khi cho rằng mô hình pharmacophore không đơn thuần là một nhóm chức hay một khung cấu trúc, mà là tập hợp nhiều đặc điểm khác nhau và khoảng cách trong không gian giữa chúng phải được xác định Các nhóm đặc trưng của mô hình pharmacophore bao gồm: nhóm HBA, nhóm HBD, nhóm mang điện tích dương, nhóm mang điện tích âm, nhóm cấu trúc thân dầu, nhóm mang vòng thơm, nhóm liên kết với kim loại và nhóm halogen Ngoài ra, khái niệm về thể tích loại trừ (excluded volumes) được sử dụng như một nhóm đặc trưng của mô hình pharmacophore nhằm giới hạn vùng không gian phù hợp của vị trí gắn giữa phối tử và protein [72]

Các nhóm đặc trưng trên được tích hợp trong các phần mềm hỗ trợ xây dựng mô hình pharmacophore như MOE, LigandScout, Catalyst, PHASE, Các nhóm đặc trưng được biểu diễn trong các phần mềm dưới dạng điểm ảo hoặc hình cầu, có bán kính ảo và khoảng cách giữa các tâm cầu được xác định Bên cạnh đó, một số phần mềm còn cho phép tinh chỉnh (fine-tune) một số tham số như dung sai sai lệch (deviation tolerance) và hệ số riêng của từng nhóm đặc trưng nhằm điều chỉnh bán kính ảo cũng

Trang 23

như mức độ ưu tiên của các nhóm đặc trưng trong cùng một mô hình pharmacophore

[72] Mô hình pharmacophore được ứng dụng trong việc thiết kế de novo, thiết kế thuốc

đa đối tượng, tối ưu hoá chất dẫn đường (lead optimization), và sàng lọc ảo Quá trình sàng lọc ảo bằng mô hình pharmacophore dựa trên nguyên tắc: mô hình pharmacophore là tập hợp các hình cầu đại diện cho các nhóm đặc trưng, một hợp chất được coi là thỏa mãn mô hình trên khi hợp chất đó cũng có những nhóm đặc trưng nằm trọn trong hình cầu của mô hình khi tồn tại ở cấu dạng có mức năng lượng thấp nhất Phương pháp sàng lọc trên còn được gọi là phương pháp gióng hàng nhóm đặc trưng (pharmacophore features alignment) [92, 95] Ví dụ về sàng lọc ảo bằng mô hình pharmacophore được

mô tả ở Hình 1.8

Hình 1.8 Phương pháp sàng lọc ảo bằng mô hình pharmacophore [68]

Chú thích: (A) Mô hình pharmacophore 9 điểm gồm 1 vòng thơm (xanh dương), 4 nhóm

kị nước (vàng), 3 nhóm HBA (đỏ) và 1 nhóm HBD (xanh lục) Các nhóm đặc trưng được biểu diễn dưới dạng hình cầu, khoảng cách giữa các tâm được tính theo đơn vị Angstrom

(B) Dẫn chất TQ5 thỏa mãn mô hình pharmacophore trên bằng phương pháp gióng

hàng nhóm đặc trưng

Tương tự mô hình QSAR, CSDL để xây dựng mô hình pharmacophore cũng được chia thành tập huấn luyện và tập kiểm tra Mô hình pharmacophore được xây dựng trên tập huấn luyện bằng các phương pháp khác nhau, tùy thuộc vào loại mô hình là dựa trên phối tử hay dựa trên cấu trúc Tập kiểm tra dùng để thẩm định khả năng dự đoán của mô hình đã được dựng Một trong những khó khăn khi tạo tập huấn luyện và tập kiểm tra là kiểm soát số lượng, sự đa dạng về cấu trúc và sự đa dạng về hoạt tính sinh học của phối tử ở mỗi tập Nếu tập huấn luyện sử dụng quá nhiều phối tử với các cấu trúc đa dạng, máy tính sẽ phải cần tiêu tốn một lượng lớn bộ nhớ để có thể lưu trữ thư viện cấu dạng các chất và thời gian CPU chạy sẽ lâu hơn, đồng thời mô hình tạo ra sẽ có nhiều “nhiễu” khi số lượng nhóm đặc trưng tạo ra quá lớn, bao gồm những nhóm đặc trưng không thật

Trang 24

sự đóng vai trò quan trọng trong việc quyết định hoạt tính của chất [95] Bên cạnh đó, nếu tập kiểm tra gồm ít hợp chất với độ đa dạng về cấu trúc không cao sẽ giảm hiệu quả đánh giá mô hình Do đó, tập kiểm tra thường sẽ được “làm giàu” (enrich) bằng cách thêm những hợp chất “mồi nhử” (decoy) với mục đích tăng độ tin cậy cho khả năng dự đoán, đồng thời giảm tỉ lệ dự đoán dương tính giả của mô hình Hợp chất “mồi nhử” là những chất có đặc điểm lý hoá tương đồng nhưng có cấu trúc không gian khác với các hợp chất trong CSDL, từ đó được coi là những chất không có hoạt tính với đích phân tử Một số phần mềm có thể tạo ra hợp chất “mồi nhử” dựa trên cấu trúc CSDL cho trước có thể kể đến như: DecoyFinder, DeepCoy, LUDe, DUD-E [72]

1.3.2 Mô hình pharmacophore dựa trên phối tử

Mô hình pharmacophore dựa trên phối tử được sử dụng khi thiếu thông tin về cấu trúc đích phân tử nhưng có đầy đủ thông tin về cấu trúc của các phối tử liên quan Quá trình huấn luyện mô hình pharmacophore bao gồm 2 bước chính [95]:

Bước 1: Tạo thư viện các cấu dạng quay cho từng phối tử từ cấu dạng có mức năng

lượng tự do thấp nhất sau khi đã cực tiểu hoá năng lượng Hiện nay các phần mềm sử dụng để xây dựng mô hình pharmacophore như MOE, HipHop, HypoGen, PHASE, sử dụng các thuật toán khác nhau để tạo thư viện cấu dạng cho phối tử Một số thuật toán được sử dụng như: mạng lưới xoắn hệ thống (systematic torsional grids), thuật toán di truyền (genetic algorithms), thuật toán Monte Carlo Một thuật toán tạo cấu dạng được cho là tốt khi thỏa mãn những điều kiện sau: (1) có khả năng tạo ra tất cả cấu dạng gắn kết giả định giữa phối tử và protein; (2) tạo ra thư viện cấu dạng với số lượng ít nhất có thể nhưng đảm bảo mức năng lượng tự do thấp nhất; (3) có khả năng tính toán cấu dạng trong thời gian ngắn nhất

Bước 2: Gióng hàng lần lượt các cấu dạng của từng phối tử với nhau, sau đó tìm

kiếm các nhóm đặc trưng chung để hình thành các giả thuyết về mô hình pharmacophore Phương pháp gióng hàng được chia thành hai nhóm: gióng hàng dựa theo điểm (point-based) và gióng hàng dựa theo đặc tính (property-based) Phương pháp gióng hàng theo điểm dựa trên cơ sở bình phương tối thiểu khoảng cách khi xếp chồng các nguyên tử, mảnh cấu trúc hoặc các nhóm đặc trưng với nhau Nhược điểm lớn nhất của phương pháp trên là việc gán nguyên tử, mảnh cấu trúc nào là các nhóm đặc trưng tương ứng, đặc biệt khi các phối tử trong tập huấn luyện có cấu trúc hoàn toàn khác nhau Phương pháp gióng hàng theo đặc tính dựa theo sự tương đồng về các tham số mô tả phân tử về trường lực, thông thường được tạo ra từ hàm Gaussian, sao cho khi gióng hàng các phần cấu trúc có sự tương đồng về trường lực sẽ chồng lấp với nhau

1.3.3 Mô hình pharmacophore dựa trên cấu trúc

Mô hình pharmacophore dựa trên cấu trúc 3D của mục tiêu phân tử hoặc hình ảnh chụp đồng kết tinh phức hợp phối tử-protein Quy trình xây dựng mô hình bao gồm phân

Trang 25

tích các nhóm đặc trưng bổ trợ cho nhau ở trung tâm hoạt động protein, xem xét không gian liên kết, và hình thành giả thuyết mô hình pharmacophore Đối với cách tiệp cận dựa trên hình ảnh chụp đồng kết tinh phức hợp phối tử-protein, các liên kết quan trọng giữa phối tử và protein có thể dễ dàng được phát hiện Tuy nhiên, nhược điểm lớn nhất có thể nhận thấy là cần phải có hình ảnh chụp đồng kết tinh phức hợp, điều mà không dễ dàng có thể có được Do đó, cách tiếp cận dựa trên cấu trúc 3D của mục tiêu phân tử đã khắc phục hạn chế trên Khi dựa trên cấu trúc 3D của protein, các phần mềm sẽ tạo ra một mạng lưới gồm nhiều nhóm đặc trưng để mô tả những tương tác có thể hình thành ở trung tâm hoạt động Bên cạnh đó, việc tiếp cận trên có thể kết hợp với cách tiếp cận dựa trên kiến thức, tiếp cận dựa trên “điểm nóng” pharmacophore (hot-spots-guided receptor-based pharmacophores) giúp giảm số lượng nhóm đặc trưng của mô hình, từ đó giảm mức độ phức tạp cũng như tăng khả năng ứng dụng của mô hình [95]

1.4 Tổng quan phương pháp mô phỏng tương tác phân tử (Molecular docking)

Phương pháp mô phỏng tương tác phân tử (Molecular docking) đã trở thành một trong những công cụ phổ biến và quan trọng được ứng dụng trong khám phá và thiết kế thuốc mới dựa trên cấu trúc, cho phép dự đoán cấu dạng, trạng thái liên kết và năng lượng liên kết giữa phối tử và protein với độ chính xác khá cao Nhờ sự ra đời của các phương pháp khẳng định cấu trúc protein như tinh thể học tia X (X-ray crystallography), phổ cộng hưởng từ hạt nhân (Nuclear Magnetic Resonance Spectroscopy), kính hiển vi điện tử đông lạnh (Cryo-Electron Microscopy) hay gần đây là một số phần mềm sử dụng trí tuệ nhân tạo để dự đoán cấu trúc protein dựa trên trình tự acid amin như AlphaFold, RoseTTAFold, phương pháp Docking được sử dụng rộng rãi và cung cấp nhiều thông tin về sự tương tác giữa hợp chất hoá học với đích tác dụng ở mức độ phân tử [1, 71]

Bản chất của phương pháp Docking bao gồm hai quá trình riêng biệt: sử dụng thuật toán tìm kiếm (searching algorithm) tạo ra nhiều cấu dạng khác nhau của phối tử cho đến khi năng lượng tự do của toàn hệ hội tụ tới cực tiểu và sử dụng hàm tính điểm (scoring function) để ước tính năng lượng tự do ∆G của toàn hệ ứng với mỗi cấu dạng Lý tưởng nhất là thuật toán tìm kiếm có thể tái lập lại cấu dạng thực nghiệm của phối tử khi liên kết với protein và hàm tính điểm xếp hạng cấu dạng trên ở vị trí có mức năng lượng tự do thấp nhất trong số các cấu dạng được tạo ra Thuật toán tìm kiếm có thể chia ra làm bốn nhóm, đó là (1) thuật toán tìm kiếm hệ thống như tìm kiếm toàn diện (exhaustive search), tìm kiếm theo phân mảnh (fragmentation), tìm kiếm quần thể cấu trúc (conformational ensemble); (2) thuật toán tìm kiếm ngẫu nhiên như thuật toán di truyền, thuật toán Monte-Carlo; (3) thuật toán đối chứng hình dạng (shape matching); (4) thuật toán mô phỏng (simulation method) Hàm tính điểm có thể dựa trên các hàm về trường lực, hàm dựa trên thực nghiệm hoặc đồng thuận giữa nhiều phương pháp tính điểm khác nhau [1]

Trang 26

Quy trình docking được thực hiện theo các bước sau:

Bước 1: Chuẩn bị protein

Protein được tải về từ CSDL là Ngân hàng dữ liệu protein (Protein Data PDB) [99] với cấu trúc 3D được định dạng PDB Trước khi được sử dụng để tiến hành docking, protein sẽ trải qua quá trình tiền xử lý bằng cách loại nước, loại ion, loại các phối tử khác (nếu có), thêm hydro, sửa điện tích các acid amin, gán trường lực và xác định vùng liên kết Sau đó protein sẽ được lưu lại dưới định dạng pdbqt để chuẩn bị cho quá trình docking

Bank-Bước 2: Chuẩn bị phối tử

Phối tử thường có sẵn và được tải cấu trúc về từ các nguồn CSDL như PubChem, ZINC, ChEMBL Nếu không có sẵn thì cấu trúc phối tử được vẽ bằng các phần mềm như ChemDraw, ChemSketch, Chem3D Sau đó được tối ưu hoá năng lượng, gán trường lực, sửa các liên kết có thể quay được và lưu lại dưới định dạng pdbqt để chuẩn bị cho quá trình docking

Bước 3: Mô phỏng tương tác

Protein và phối tử được thêm vào phần mềm mô phỏng tương tác, lựa chọn và điều chỉnh thuật toán tìm kiếm và hàm tính điểm, lựa chọn các thông số phù hợp ở vùng tương tác và số cấu dạng thích hợp

Bước 4: Đánh giá kết quả

Đánh giá kết quả quá trình docking dựa vào năng lượng liên kết tự do trả về của từng cấu dạng và các tương tác của phối tử với protein khi trực quan hoá bằng các phần mềm như Pymol, MOE, Discovery Studio Kết quả về năng lượng liên kết tự do có thể được so sánh với một chất đối chiếu đã biết hoạt tính thông qua nghiên cứu thực nghiệm, từ đó sơ bộ dự đoán được hoạt tính của phối tử trong nghiên cứu

Trang 27

CHƯƠNG 2 NGUYÊN LIỆU, THIẾT BỊ, NỘI DUNG

VÀ PHƯƠNG PHÁP NGHIÊN CỨU 2.1 Nguyên liệu, thiết bị

2.1.1 Nguyên liệu

Dữ liệu các chất ức chế QC sử dụng để xây dựng mô hình QSAR và mô hình pharmacophore được công bố trong các nghiên cứu và bằng sáng chế trước đây Danh sách các nghiên cứu: [24, 25, 36, 58, 59, 69, 80, 83, 84, 87, 88] Danh sách các bằng sáng chế: [41-51, 82]

Dữ liệu các chất mồi nhử được tạo ra từ trang web: [98] Cấu trúc tinh thể protein được tải về từ PDB: [100]Đặc tính giống thuốc và khả năng thấm qua hàng rào máu não (BBB) của các chất thiết kế được dự đoán từ phần mềm trực tuyến: [99]

2.1.2 Thiết bị

Sử dụng các phần mềm và CSDL trực tuyến trên máy tính cá nhân ASUS X407UF, hệ điều hành Windows 11

Danh sách phần mềm sử dụng: Google Colaboratory Python 3.10 ChimeraX 1.7 Visual Studio Code Python 3.11.5 OpenBabel 2.4.1

2.2 Nội dung nghiên cứu

Đề tài được thực hiện với các nội dung sau: - Xây dựng mô hình QSAR bằng phương pháp học máy giúp dự đoán hoạt tính ức

chế QC trên CSDL là các chất đã được công bố trong các bài báo và bằng sáng chế trước đây

- Xây dựng mô hình pharmacophore giúp phân loại các chất ức chế QC tiềm năng trên CSDL là các chất đã được công bố trong các bài báo và bằng sáng chế trước đây và các chất mồi nhử

- Thiết kế một số cấu trúc mới hướng ức chế QC bằng phương pháp thay đổi khung cấu trúc kết hợp mô hình QSAR, sau đó đánh giá đặc tính giống thuốc và khả năng thấm qua BBB của các cấu trúc thiết kế

- Tiến hành sàng lọc các cấu trúc mới bằng mô hình QSAR và mô hình pharmacophore dựng được

- Docking các cấu trúc tiềm năng trên đích phân tử QC để đánh giá khả năng liên kết và các tương tác có thể hình thành

Trang 28

2.3 Phương pháp nghiên cứu

2.3.1 Phương pháp xây dựng mô hình QSAR

Bước 1: Xây dựng CSDL

CSDL dùng để xây dựng mô hình QSAR gồm 1681 chất ức chế QC được công bố

trong các nghiên cứu và bằng sáng chế, được đề cập tại Phần 2.1.1 Trong số 23 tài liệu

được lựa chọn có 13 công bố của nhóm nghiên cứu của công ty Probiodrug AG (Đức), 8 công bố của nhóm nghiên cứu GS JeeWoo Lee (Đại học Quốc gia Seoul, Hàn Quốc) và 2 công bố còn lại của các nhóm nghiên cứu đến từ Hungary và Trung Quốc Hoạt tính ức chế QC của các chất lựa chọn để xây dựng mô hình QSAR đều được xác định thông qua giá trị IC50 với phương pháp đánh giá hoạt tính in vitro được thực hiện theo

quy trình của Schilling và cộng sự công bố năm 2002 [73] Để chuẩn hoá và giảm sai số của dữ liệu, giá trị IC50 được chuyển về giá trị pIC50 với pIC50 = –log(IC50) Cấu trúc của các chất được vẽ dưới dạng 2D và được chuyển về dạng SMILES bằng phần mềm ChemDraw 20.0, sau đó được lưu trữ trong Microsoft Excel 365 Sau đó, CSDL tiếp tục được làm sạch bằng cách loại bỏ các cấu trúc lặp lại bằng thư viện pandas được chạy bằng ngôn ngữ lập trình Python

Bước 2: Tính toán tham số mô tả phần tử/ dấu vân tay phân tử

1681 chất được biểu diễn dưới dạng dấu vân tay phân tử Morgan thông qua thư viện RDKit, một thư viện mở chạy bằng ngôn ngữ lập trình Python giúp giải quyết các bài toán trong lĩnh vực hoá tin Sử dụng hàm PandasTools.AddMoleculeColumnToFrame và AllChem.GetMorganFingerprintAsBitVect để lần lượt chuyển SMILES sang cấu trúc 2D và mã hoá cấu trúc 2D dưới dạng chuỗi nhị phân bằng dấu vân tay phân tử Morgan Lựa chọn bán kính xuyên tâm bằng 4 và số bit của chuỗi nhị phân bằng 256

Bước 3: Chia CSDL thành tập huấn luyện và tập kiểm tra

CSDL được chia ngẫu nhiên thành tập huấn luyện và tập kiểm tra, trong đó tập huấn

luyện gồm 1352 chất, tập kiểm tra gồm 329 chất CSDL được trình bày chi tiết ở Phụ

lục 1 Tuy nhiên, việc chia ngẫu nhiên CSDL thành tập huấn luyện và tập kiểm tra sẽ có

khả năng gặp phải sai số dự đoán trong quá trình xây dựng mô hình khi có sự chênh lệch đáng kể về cấu trúc hoá học và hoạt tính sinh học giữa hai tập trên Do đó:

- Sử dụng thuật toán nhúng lân cận ngẫu nhiên bằng phân phối Student Distributed Stochastic Neighbor Embedding hay t-SNE) để trực quan hoá không gian hoá học của CSDL, từ đó sơ bộ đánh giá sự tương đồng về cấu trúc giữa hai tập Phương pháp trực quan hoá trên được thực hiện bằng ngôn ngữ lập trình Python với môi trường lập trình là Google Colaboratory

(t Sử dụng phương pháp thống kê để kiểm chứng giả thuyết về sự sai khác có ý nghĩa thống kê giữa giá trị pIC50 giữa hai tập trên Phương pháp thống kê được thực hiện bằng ngôn ngữ lập trình R và phần mềm RStudio

Trang 29

Bước 4: Huấn luyện mô hình và đánh giá nội mô hình dựa trên tập huấn luyện

Lựa chọn phương pháp hồi quy để xây dựng mô hình QSAR với thuật toán sử dụng là máy hỗ trợ vector hồi quy (Support Vector Regression-SVR) Mô hình được xây dựng bằng ngôn ngữ lập trình Python với môi trường lập trình là Google Colaboratory Đánh giá nội mô hình, bao gồm đánh giá mức độ phù hợp và độ ổn định, thông qua các chỉ số: hệ số xác định của tập huấn luyện (R2train), hệ số thẩm định chéo 10 lần (10-fold cross-validation) (Q210cv), hệ số kiểm tra Y ngẫu nhiên (R2rand và Q2rand) Công thức và

yêu cầu về ngưỡng giá trị của từng hệ số được trình bày ở Bảng 2.1

Bước 5: Đánh giá khả năng dự đoán của mô hình dựa trên tập kiểm tra

Sau khi xây dựng mô hình đạt yêu cầu về đánh giá nội, mô hình được sử dụng để dự đoán trên tập kiểm tra Đánh giá khả năng dự đoán của mô hình thông qua các chỉ số: hệ số xác định của tập kiểm tra (R2test), sai số toàn phương trung bình (RMSE), sai số tuyệt đối trung bình (MAE), hệ số góc của đường tương quan giữa giá trị pIC50 thực tế với dự đoán và ngược lại (K, K’) Công thức và yêu cầu về ngưỡng giá trị của từng

hệ số được trình bày ở Bảng 2.1

Bảng 2.1 Một số chỉ số dùng để đánh giá mô hình QSAR

𝑅𝑡𝑟𝑎𝑖𝑛2 R2train = 1 −∑(yi(train)−ŷ (train))i 2

∑(yi(train)−yi(train))2 ≥ 0,90 𝑄10𝐶𝑉2 Q10CV2 = 1 −∑(yi(10cv)−ŷ (10cv))i 2

∑(yi(10cv)−yi(10cv))2 ≥ 0,80 𝑅𝑟𝑎𝑛𝑑2 R2rand =1

n ∑(1 −∑(yi(rand)−ŷ (rand))i 2

∑(yi(rand)−yi(rand))2 ) < R2train 𝑄𝑟𝑎𝑛𝑑2 Q2rand =1

n ∑(1 −∑(yi(randCV)−ŷ (randCV))i 2

∑(yi(randCV)−yi(randCV))2 ) < Q10𝐶𝑉2 𝑅𝑡𝑒𝑠𝑡2 R2test = 1 − ∑(yi(test)−ŷ (test))i 2

∑(yi(test)−yi(train))2 ≥ 0,80 RMSE RMSE = √∑(yi − ŷ)i 2

K K = argminKL(K) = ∑(yi − XiTK)2 (0,85; 1,15) K’ K’ = argminK′L(K′) = ∑(xi− YiTK′)2 (0,85; 1,15)

Chú thích: 𝑦𝑖, 𝑦̂ lần lượt là giá trị thực tế và giá trị dự đoán từ mô hình; 𝑦𝑖 𝑖 là giá trị trung bình; train, test, 10cv, rand, randCV lần lượt là tập huấn luyện, tập kiểm tra, thẩm định chéo 10 lần, kiểm tra Y ngẫu nhiên và thẩm định chéo Y ngẫu nhiên; L(K) là hàm mất mát của phương trình hồi quy tuyến tính, n là số quan sát

Trang 30

Bước 6: Xây dựng miền cấu trúc ứng dụng và đánh giá độ tin cậy của các dự đoán

Sử dụng giản đồ William để xây dựng miền cấu trúc ứng dụng Giản đồ William mô tả phần dư chuẩn hoá của các dự đoán từ mô hình và giá trị leverage của mỗi chất đối với tập huấn luyện Giá trị leverage (ℎ𝑖) của một chất với một mô hình phản ánh khoảng cách Euclid từ chất đó tới trung tâm của tập huấn luyện của mô hình, được tính bởi công thức:

ℎ𝑖 = 𝑥⃗⃗⃗ (𝑋𝑖 𝑇𝑋)−1𝑥⃗⃗⃗⃗ 𝑖𝑇trong đó: ℎ𝑖 là giá trị leverage của chất i; 𝑥⃗⃗⃗ là vector tham số mô tả phân tử của chất i; 𝑖X là ma trận mô tả tập huấn luyện với mỗi hàng tương ứng là mỗi chất trong tập huấn luyện và mỗi cột là các tham số mô tả phân tử được sử dụng để xây dựng mô hình Ngưỡng cảnh báo cho giá trị leverage là ℎ∗ =3(𝐾+1)

𝑁 , trong đó K là số tham số mô tả phân tử sử dụng, N là số lượng phần tử trong tập huấn luyện [85] Khi giá trị leverage vượt quá ngưỡng cảnh báo thì chất đó có khoảng cách Euclid xa hay có độ tương đồng thấp so với tập huấn luyện, do đó sẽ được coi là nằm ngoài không gian hoá học mà ở đó mô hình có khả năng đưa ra được dự đoán đáng tin cậy Ngoài ra, khi giá trị tuyệt đối phần dư chuẩn hoá của một chất lớn hơn 3 cho thấy khả năng dự đoán của mô hình trên chất đó không cao Các chất không nằm trong miền cấu trúc ứng dụng được coi là các ngoại lai (outlier) Trong nghiên cứu này, các ngoại lai sẽ được loại bỏ và chỉ giữ lại những chất thuộc miền cấu trúc ứng dụng

2.3.2 Phương pháp xây dựng mô hình pharmacophore

Trong nghiên cứu này, chúng tôi lựa chọn phương pháp xây dựng mô hình pharmacophore dựa trên phối tử, với phần mềm sử dụng là Psearch [35] được chạy trong môi trường lập trình Visual Studio Code Mô hình pharmacophore có bản chất là mô hình phân loại và được xây dựng với quy trình gồm các bước sau:

Bước 1: Lựa chọn tập huấn luyện

Tập huấn luyện cho mô hình pharmacophore được lựa chọn từ CSDL dùng để xây dựng mô hình QSAR, cụ thể gồm những chất có giá trị pIC50 ≥ 7 được gán nhãn là “active” và những chất có giá trị pIC50 ≤ 5 được gán nhãn là “inactive” Các chất trong CSDL trên được mã hoá bằng dấu vân tay phân tử 2D pharmacophore bằng thư viện RDKit và được nhóm thành cụm bằng thuật toán phân cụm Butina (Butina Clustering) Việc phân cụm giúp chọn lựa được những cấu trúc đặc trưng nhất cho từng nhãn “active” và “inactive” dùng để xây dựng mô hình, đồng thời giảm số lượng chất dùng để huấn luyện, từ đó giảm thời gian huấn luyện cho mô hình

Bước 2: Tiền xử lý tập huấn luyện

Tập huấn luyện được xử lý qua hai bước chính trước khi sử dụng để huấn luyện mô hình Đầu tiên, nếu chất trong cấu trúc chứa trung tâm bất đối hoặc liên kết đôi nhưng chưa được định dạng đồng phân sẽ được khởi tạo toàn bộ các đồng phân đối quang và

Trang 31

đồng phân hình học Sau đó, với mỗi chất (nếu không khởi tạo đồng phân ở bước trước) hoặc với mỗi đồng phân sẽ được khởi tạo 100 cấu hình khác nhau sao cho độ chênh năng lượng so với cấu hình sau khi được cực tiểu hoá bằng trường lực MMFF94 (sử dụng thư viện RDKit) không vượt quá 50 kcal.mol-1. Kết quả thu được là mỗi chất sẽ được biểu diễn bằng một tập hợp gồm các đồng phân cùng với các cấu dạng khác nhau và được sử dụng để huấn luyện mô hình

Bước 3: Xây dựng mô hình pharmacophore

Quy trình xây dựng mô hình pharmacophore là quy trình lặp lại, xuất phát từ giả thuyết mô hình pharmacophore 4 điểm, sau đó tăng dần mức độ phức tạp của mô hình lên cho đến khi không có mô hình nào thỏa mãn đánh giá nội với tiêu chí đã được cài đặt trước Khi đó, chương trình chạy sẽ kết thúc và thu được danh sách gồm các giả thuyết mô hình pharmacophore Quy trình xây dựng mô hình pharmacophore được mô

tả ở Hình 2.1

Hình 2.1 Quy trình xây dựng mô hình pharmacophore

Ban đầu, để xây dựng mô hình pharmacophore 4 điểm, mỗi cấu dạng trong tập huấn luyện sẽ được biểu diễn dưới dạng đồ thị với nút là các nhóm đặc trưng và cạnh là

khoảng cách giữa các nhóm đặc trưng (Hình 2.2) với độ dài các cạnh được tính theo Å (bán kính nhóm đặc trưng được cài đặt mặc định là 1Å) và sau đó chuyển về dạng “hàm băm” (3D pharmacophore hash) [35] Khi biểu diễn dưới dạng “hàm băm” như trên, thông tin về các nhóm đặc trưng và khoảng cách giữa chúng sẽ được mã hoá nhằm thuận tiện cho quá trình huấn luyện mô hình

Một chất được dự đoán là “active” thông qua mô hình pharmacophore nếu đồ thị biểu diễn mô hình pharmacophore là “đồ thị con” (subgraph) của đồ thị biểu diễn chất đó dựa trên thuật toán đẳng cấu đồ thị con VF2 (VF2 subgraph isomorphism algorithm)

Trang 32

Sau đó, các mô hình pharmacophore sẽ được thống kê lại và xử lý theo nguyên tắc: mô hình nào xuất hiện chủ yếu ở các chất có nhãn “active” và ít xuất hiện ở các chất có nhãn “inactive” sẽ được coi là một giả thuyết mô hình pharmacophore

Giả thuyết mô hình pharmacophore được đánh giá nội bằng cách dự đoán trên tập huấn luyện Chỉ số dùng để đánh giá nội là 𝐹0,5 score, được mô tả ở Bảng 2.2 Giả thuyết

mô hình pharmacophore có giá trị 𝐹0,5 score ≥ 0,8 sẽ được coi là mô hình pharmacophore và được lưu lại Nếu không thỏa mãn các điều kiện trên thì giả thuyết sẽ được loại bỏ Sau đó lặp lại quy trình trên với mô hình pharmacophore 5 điểm, 6 điểm, cho đến khi không còn mô hình nào thỏa mãn điều kiện trên Khi đó quá trình huấn luyện mô hình pharmacophore sẽ kết thúc Các nhóm đặc trưng pharmacophore sẽ được phần mềm viết tắt là: a (vòng thơm), A (nhóm HBA), D (nhóm HBD), H (cấu trúc thân dầu), P (nhóm mang điện tích dương), N (nhóm mang điện tích âm)

Hình 2.2 Dạng đồ thị pharmacophore của một chất Bước 4: Lựa chọn tập kiểm tra

Trước hết, lựa chọn những chất không dùng để huấn luyện mô hình làm tập kiểm tra Bên cạnh đó, để đánh giá sâu hơn về khả năng phân biệt giữa chất có hoạt tính và không có hoạt tính của mô hình, tập kiểm tra sẽ được làm giàu bằng cách cho thêm các chất mồi nhử Những chất mồi nhử này được tạo ra dựa trên cấu trúc các chất “active” trong CSDL ban đầu thông qua trang web [98] và được coi là những chất “inactive” Khả năng dự đoán của mô hình được đánh giá thông qua “ma trận nhầm lẫn” (confusion

matrix) (Hình 2.3) như độ chuẩn xác (accuracy), độ chính xác (precision), độ nhắc lại

(recall), độ đặc hiệu (specificity), hệ số 𝐹0,5 score, hệ số tương quan Matthew (Matthew’s Correlation Coefficient – MCC), hệ số làm giàu (enrichment factor – EF)

và điểm Güner–Henry (GH) (Bảng 2.2)

Hình 2.3 Ma trận nhầm lẫn

Trang 33

Bảng 2.2 Một số chỉ số dùng để đánh giá mô hình pharmacophore

Chỉ số Công thức Yêu cầu Chỉ số Công thức Yêu cầu Độ chuẩn xác a + d

D ≥ 0,90 F0,5

score

1,25

1precision + 0,25

recall

Độ chính xác a

Ht ≥ 0,70 MCC √𝐴.𝐻𝑡.(𝑐+𝑑)(𝑏+𝑑)𝑎𝑑 – 𝑏𝑐 ≥ 0,70 Độ nhắc lại a

2.3.3 Phương pháp thiết kế một số cấu trúc mới hướng ức chế QC

Trong nghiên cứu này, chúng tôi sử dụng phương pháp thiết kế cấu trúc mới hướng ức chế QC dựa trên khung cấu trúc và mảnh cấu trúc quan trọng Quy trình thiết kế một số cấu trúc mới được thực hiện với các bước sau:

Bước 1: Xác định khung cấu trúc chung từ CSDL các chất ức chế QC

Các chất có pIC50 ≥ 7 (được dán nhãn active) sẽ được lựa chọn để tìm kiếm khung cấu trúc chung Các chất trên sẽ được phân cụm bằng thuật toán phân cụm k-means (k-means clustering) dựa trên dấu vân tay phân tử Morgan với bán kính xuyên tâm bằng 4 và số bit của chuỗi nhị phân bằng 2048 Số lượng phân cụm tối ưu được xác định thông qua phương pháp elbow Cụ thể, khi vẽ đồ thị thể hiện mối quan hệ giữa số phân cụm và tổng sai số toàn phương (Sum of squared error – SSE), số phân cụm tối ưu là điểm sao cho tốc độ suy giảm của SSE là lớn nhất Kiểm tra lại xem việc lựa chọn số phân cụm là tối ưu hay không bằng thuật toán t-SNE để trực quan hoá kết hợp với bản đồ nhiệt thể hiện tương đồng về cấu trúc thông qua chỉ số Tanimoto Chỉ số Tanimoto (Tc) được tính theo công thức:

𝑇𝑐 =𝐴 ∩ 𝐵𝐴 ∪ 𝐵Trong đó A ∩ B là số lượng mảnh cấu trúc tương đồng và A ∪ B là tổng số mảnh cấu trúc giữa hai chất A và B

Sau đó, sử dụng thư viện ScaffoldGraph [75] để tìm kiếm các khung cấu trúc chung ở mỗi phân cụm Thư viện ScaffoldGraph được chạy bằng ngôn ngữ lập trình python với môi trường lập trình Visual Studio Code Sử dụng phần mềm OpenBabel GUI để chuyển từ dạng SMILES sang định dạng sdf để tương thích với thư viện trên Thuật toán sử dụng trong thư viện là lần lượt bỏ các nhóm thế để thu được các mảnh cấu trúc khác nhau Tuy nhiên, nhược điểm lớn nhất của thuật toán trên đó là việc phá vỡ các khung cấu trúc vòng, đặc biệt là dị vòng bởi khi đó thuật toán sẽ nhận một trong hai vòng là

Trang 34

nhóm thế và loại bỏ chúng Do đó, nghiên cứu này sử dụng chức năng tạo các khung cấu trúc HierS (hierarchical scaffold) [79] trong thư viện ScaffoldGraph nhằm bảo tồn các vòng trong cấu trúc, từ đó giữ được các khung tiềm năng Các khung cấu trúc được xuất ra dưới dạng SMILES Với mỗi phân cụm, thống kê và lựa chọn khung cấu trúc với tần suất xuất hiện nhiều nhất

Bên cạnh đó, để nghiên cứu sâu hơn về ảnh hưởng của các mảnh cấu trúc tới hoạt tính sinh học, nghiên cứu này lựa chọn phương pháp đột biến điểm đặc trưng (permutation feature importance) với mô hình nền là mô hình QSAR mà nghiên cứu đã dựng Phương pháp này sẽ lần lượt “xáo trộn” (shuffle) giá trị các bit trong chuỗi nhị phân 256 bit morgan mà mô hình QSAR sử dụng, sau đó tính sai số của mô hình mới so với mô hình nền, từ đó tìm ra bit nào là quan trọng đối với mô hình, tức mảnh cấu trúc nào sẽ được cho là có ảnh hưởng nhiều tới hoạt tính sinh học

Bước 2: Thay thế khung cấu trúc chung bằng các đẳng cấu sinh học (bioisostere)

Theo IUPAC, đẳng cấu sinh học là hợp chất khi thay thế một nguyên tử hoặc nhóm nguyên tử của hợp chất gốc thành một nguyên tử hoặc nhóm nguyên tử khác với mục đích tạo ra hợp chất có hoạt tính sinh học tương tự [93] Dựa vào các đặc điểm về khung cấu trúc chung được phát hiện ở mỗi phân cụm, lần lượt thay các khung cấu trúc chung bằng đẳng cấu sinh học của chúng nhưng vẫn bảo tồn các mảnh cấu trúc quan trọng Sau đó, thêm các nhóm thế ở các vị trí phù hợp nhằm tăng tính đa dạng cho các cấu trúc thiết kế Các chất thiết kế được xuất dưới dạng SMILES và dùng để sàng lọc ảo

Bước 3: Kiểm tra đặc tính giống thuốc và khả năng thấm qua BBB

Đặc tính giống thuốc được dự đoán bằng phần mềm trực tuyến SwissADME với bộ lọc Lipinski [38] Những chất thiết kế mới được dự đoán là có đặc tính giống thuốc nếu không vi phạm quá 1 tiêu chí của Lipinski Bên cạnh đó, do bệnh Alzheimer là bệnh lý của thần kinh trung ương nên sử dụng phần mềm trực tuyến trên để dự đoán tính thấm qua BBB của các cấu trúc thiết kế [16]

2.3.4 Phương pháp Docking phân tử

Nhằm đánh giá năng lượng tự do liên kết giữa các cấu trúc mới thiết kế với QC, đồng thời phát hiện những tương tác quan trọng có thể hình thành giữa phối tử và protein, nghiên cứu này sử dụng phương pháp Docking phân tử với quy trình như sau:

Bước 1: Chuẩn bị protein

Trong nghiên cứu này, chúng tôi lựa chọn protein sQC có nguồn gốc từ người để tiến hành Docking Mặc dù hai isoform sQC và gQC có sự tương đồng trong cấu trúc lên tới hơn 45%, tuy nhiên nhiều nghiên cứu chỉ ra rằng sQC biểu hiện cao ở các tế bào thần kinh, đồng thời thể hiện hoạt tính mạnh hơn từ 2-15 lần gQC với cùng cơ chất [14]

Hình ảnh chụp đồng kết tinh sQC với phối tử PBD150 (PDB ID: 3PBB) được tạo ra

bằng phương pháp nhiễu xạ tia X với độ phân giải là 1.95Å và biểu đồ Ramachandran

Trang 35

với 0,3% ngoại lệ, được tải từ PDB, sau đó đưa vào phần mềm ChimeraX 1.7 để loại các phân tử nước có khoảng cách với phối tử lớn hơn 3.5Å (giữ lại các phân tử nước có hình thành liên kết hydro với phối tử [63]), loại bỏ các chuỗi protein lặp lại, loại bỏ phối tử, gán trường lực AM1-BCC vào ion Zn2+ và lưu lại dưới định dạng pdb Sau đó đưa vào phần mềm AutoDockTools 1.5.7 để thêm hydro, gán trường lực Kollman và lưu lại dưới định dạng pdbqt

Bước 2: Chuẩn bị phối tử

Cấu trúc 2D của phối tử khảo sát docking được vẽ bằng phần mềm Chemdraw 20.0 và xuất mã SMILES để tạo cấu trúc 3D và được cực tiểu hoá năng lượng bằng trường lực MMFF94 bằng phần mềm Chem3D 20.0, lưu lại dưới định dạng pdb Sau đó đưa vào phần mềm AutoDockTools 1.5.7 để gán trường lực Gasteiger, sửa liên kết quay và lưu lại dưới dạng pdbqt

Bước 3: Mô phỏng tương tác phân tử

Sử dụng phần mềm AutoDock vina 1.2.5 để tiến hành docking phân tử Các thông số được cài đặt: gridbox center là [x: -0.992, y: 74.325, z: 4.986], kích cỡ gridbox là [x:30, y:20, z:30], energy_range: 4, exhaustiveness: 24

Bước 4: Đánh giá kết quả

Năng lượng liên kết của các chất với protein được tính dựa trên hàm tính điểm của phần mềm AutodockVina Thuật toán tìm kiếm cấu dạng được sử dụng là thuật toán tìm kiếm ngẫu nhiên của Broyden-Fletcher-Goldfarb-Shanno (BFGS) Hàm tính điểm trong phần mềm dựa trên tương tác lập thể Gaussian, lực đẩy tĩnh điện, liên kết hydro, liên kết kị nước và giá trị xoắn của các liên kết quay [86] Kết quả thu được về năng lượng và các cấu dạng tương ứng được xuất ra dưới định dạng pdbqt Sau đó được phân tích các tương tác cụ thể nhờ phần mềm Discovery Studio 2024 Client

Để đánh giá độ tin cậy của quy trình docking trên, tiến hành docking lại (redock)

với phối tử là PBD150 với quy trình từ bước 2 đến 3 Sau đó, độ lệch căn quân phương

(root mean square deviation - RMSD) giữa cấu dạng docking lại có mức năng lượng tự do liên kết thấp nhất với cấu dạng phối tử trong hình ảnh chụp kết tinh ban đầu sẽ được tính thông qua phần mềm OpenBabel Yêu cầu: RMSD < 2Å

Để đánh giá khả năng liên kết của phối tử với protein, lựa chọn chất đối chiếu là

chất PQ912 (Hình 1.5) Chất PQ912 là chất ức chế QC đang được thử nghiệm lâm sàng

tới pha IIb, đồng thời các nghiên cứu tiền lâm sàng in vitro và in vivo cho khả năng ức

chế QC mạnh trên người và chuột với giá trị Ki dao động từ 20 tới 65nM [10] Do đó,

chất PQ912 hoàn toàn phù hợp để trở thành chất đối chiếu trong nghiên cứu này Quy

trình docking chất đối chứng được thực hiện tương tự trên protein 3PBB Các chất ức chế QC tiềm năng được đánh giá là có năng lượng liên kết tự do thấp hơn năng lượng

liên kết giữa PQ912 và protein

Trang 36

CHƯƠNG 3 KẾT QUẢ NGHIÊN CỨU 3.1 Mô hình QSAR

3.1.1 Kết quả phân chia tập huấn luyện và tập kiểm tra

CSDL gồm 1681 chất được chia ngẫu nhiên vào tập huấn luyện (1352 chất) và tập

kiểm tra (329 chất) (Phụ lục 1) Các chất đều được mã hoá bằng dấu vân tay morgan

với bán kính xuyên tâm (radius) bằng 4 và số bit (nBits) bằng 256 Sau đó, kiểm tra tính hợp lý của việc chia CSDL dựa trên tương đồng về cấu trúc và hoạt tính sinh học

3.1.1.1 Kết quả đánh giá tương đồng về cấu trúc

Sự tương đồng (similarity) cấu trúc được đánh giá dựa trên khoảng cách (distance) theo công thức:

similarity = 1

1 + distanceNếu hai chất có khoảng cách Euclid trong không gian càng gần nhau (tiến tới 0) thì sự tương đồng của chúng càng cao (tiến tới 1) Do đó, để giảm chiều không gian của CSDL từ 256 chiều nhằm trực quan hoá nhưng vẫn bảo tồn được khoảng cách tương đối giữa các chất, đề tài lựa chọn thuật toán t-SNE với các siêu tham số được lựa chọn: n_components = 2 hoặc 3, perplexity = 30,0, early_exaggeration = 12,0, learning_rate = 200, n_iter = 1000, n_iter_without_progress = 300, min_grad_norm = 1e-07, metric

= ‘euclidean’ Kết quả được mô tả ở Hình 3.1 và Hình 3.2 Đánh giá sơ bộ cho thấy khi

trực quan hoá bằng không gian 2 chiều và 3 chiều, các chất thuộc tập kiểm tra có khoảng cách khá gần so với các chất thuộc tập huấn luyện, đồng thời ở cả hai tập hình thành các phân cụm khá tương đồng về vị trí so với nhau Điều này thể hiện sơ bộ rằng tập kiểm tra đang nằm lân cận trong vùng không gian hoá học của tập huấn luyện Tuy nhiên, để có những đánh giá cụ thể hơn về sự tồn tại của ngoại lai thì sẽ phải dựa vào miền cấu

trúc ứng dụng (trình bày ở Phần 3.1.2.2)

Hình 3.1 Trực quan hoá bằng t-SNE 2 chiều

Trang 37

Hình 3.2 Trực quan hoá bằng t-SNE 3 chiều

3.1.1.2 Kết quả đánh giá tương đồng về hoạt tính sinh học

Hoạt tính sinh học của các chất trong CSDL được chuyển dưới dạng pIC50 Sử dụng kiểm định Kolmogorov-Smirnov để kiểm tra xem dữ liệu ở hai tập có tuân theo phân bố chuẩn không và sử dụng kiểm định xếp hạng tổng Wilcoxon (hay Mann-Whitney) để so

sánh trung vị của hai nhóm Kết quả mô tả ở Bảng 3.1 và Hình 3.3

Bảng 3.1 Kết quả thống kê hoạt tính sinh học của hai tập

Tập huấn luyện Tập kiểm tra Kiểm định Kolmogorov-Smirnov p-value <2,2.10-16 p-value < 2,2.10-16Kiểm định xếp hạng tổng Wilcoxon p-value = 0,6978

Hình 3.3 Phân bố hoạt tính sinh học của hai tập

Kết quả trên cho thấy hoạt tính sinh học của cả hai tập đều không tuân theo phân bố chuẩn (p-value Kolmogorov-Smirnov < 2,2.10-16 < 0,01) và sự khác biệt về hoạt tính sinh học giữa hai tập không có ý nghĩa thống kê (p-value Wilcoxon = 0,6978 > 0,01) Từ đó kết luận rằng, quá trình chia CSDL thành hai tập tương đương nhau về hoạt tính sinh học

Trang 38

3.1.2 Kết quả huấn luyện mô hình QSAR

Dữ liệu đầu vào để huấn luyện mô hình là tập huấn luyện được biểu diễn dưới dạng ma trận 1352 x 256 Thuật toán lựa chọn để xây dựng mô hình hồi quy là SVR với các siêu tham số cần phải tối ưu hoá là C, ε, và hàm Kernel Ngoài ra, mô hình cần được đánh giá nội để kiểm tra độ phù hợp và độ ổn định trước khi dự đoán trên tập kiểm tra Do có thể tồn tại một số ngoại lai trong tập huấn luyện nên ngưỡng giá trị trước khi loại ngoại lai của R2train và Q10CV2 lần lượt đặt là ≥ 0,85 và ≥ 0,70 Sau đó, kiểm tra các ngoại lai bằng miền cấu trúc ứng dụng, loại bỏ chúng và kiểm tra lại độ phù hợp và độ ổn định với ngưỡng giá trị mới của R2train và Q10CV2 lần lượt là ≥ 0,90 và ≥ 0,80

3.1.2.1 Kết quả tối ưu hoá siêu tham số

Siêu tham số được tối ưu hoá thông qua phương pháp lưới tìm kiếm (gridsearch) và tìm kiếm ngẫu nhiên (randomized search) Về mặt toán học, mục đích của quá trình tối ưu hoá siêu tham số là tìm cực tiểu hàm mất mát (loss function) Do hàm mất mát xây dựng bằng thuật toán SVR là hàm lồi chặt [89], do đó để tìm cực tiểu của hàm mất mát, chúng tôi sẽ tìm kiếm từ lân cận tới cục bộ của cực tiểu Cụ thể, tìm kiếm lân cận bằng cách dựng lưới tìm kiếm với các siêu tham số với khoảng giá trị đủ lớn, sau đó tính giá trị Q10CV2 và vẽ bản đồ nhiệt với các bộ siêu tham số vừa dựng Tiếp đến, tìm kiếm cục bộ cực tiểu bằng tìm kiếm ngẫu nhiên với khoảng tìm kiếm hẹp hơn, sau đó thẩm định chéo 10 lần và lựa chọn bộ siêu tham số với Q10CV2 lớn nhất

Kết quả tìm kiếm lân cận bằng lưới tìm kiếm được mô tả ở Hình 3.4 Khoảng tìm

kiếm lân cận của các siêu tham số ban đầu là C = [0,01; 10], ε = [0,01; 1] và hàm Kernel lựa chọn là ‘linear’, ‘poly’ và ‘rbf’ Sử dụng thư viện matplotlib và seaborn bằng ngôn ngữ lập trình python để vẽ bản đồ nhiệt Từ bản đồ nhiệt, ta có thể thấy hàm Kernel là ‘linear’ làm giảm hiệu năng của mô hình, trong đó với hàm Kernel là ‘poly’ và ‘rbf’ thì khoảng giá trị thu hẹp là C = [2; 4] và ε = [0,01; 0,1] cho kết quả Q2

10CV > 0,70 Do đó, tiếp tục tìm kiếm cục bộ trong khoảng giá trị thu hẹp trên với thuật toán tìm kiếm ngẫu nhiên, trong đó giá trị C và ε được cài đặt là các biến liên tục thuộc phân phối đồng nhất (uniform distribution) trong khoảng giá trị thu hẹp Mục đích lựa chọn phân phối đồng nhất là để xác suất chọn ngẫu nhiên giá trị C và ε là như nhau Chạy 100 bộ siêu tham số ngẫu nhiên khác nhau, với mỗi bộ sẽ thẩm định chéo 3 lần Kết quả tối ưu hoá siêu tham số thu được và đánh giá nội của mô hình như sau:

C = 3,0335571517; ε = 0,0247876099; Hàm Kernel: ‘rbf’ Ntrain = 1352; R2train = 0,96; Q10CV2 = 0,71

Kết quả thể hiện rằng mô hình có độ khớp cao (R2train = 0,96) với tập huấn luyện, tuy nhiên khi thẩm định chéo 10 lần cho kết quả trung bình (Q10CV2 = 0,71) Điều này có thể giải thích bởi sự tồn tại của một số ngoại lai trong tập huấn luyện chưa được phát hiện mà có thể ảnh hưởng tới độ ổn định của mô hình

Trang 39

Hình 3.4 Bản đồ nhiệt thể hiện kết quả tối ưu hoá siêu tham số bằng lưới tìm kiếm

3.1.2.2 Kết quả xây dựng miền cấu trúc

Miền cấu trúc được xây dựng bằng giản đồ William Ngưỡng cảnh báo giá trị leverage là: 0 < hi < h* = 3(256+1)

1352 = 0,5703 Khoảng phần dư chuẩn hoá đặt từ -3 tới 3 Kết quả cho thấy giản đồ William phát hiện 3 ngoại lai nằm ngoài ngưỡng cảnh báo giá trị leverage và 40 ngoại lai nằm ngoài khoảng phần dư chuẩn hoá với khoảng tương đối rộng (từ -8,26 tới -3 và từ 3 tới 10,44) Tất cả các ngoại lai trên đều bị loại ra khỏi mô hình, sau đó đánh giá nội lại mô hình Kết quả đánh giá lại như sau:

Ntrain = 1309; R2train = 0,99; Q10CV2 = 0,80 So với kết quả trước, độ khớp của mô hình đã được cải thiện khi Q10CV2 đã đạt yêu cầu về ngưỡng giá trị (0,80) Tuy nhiên, mô hình có độ khớp với tập huấn luyện mới rất cao với R2train = 0,99 Điều này thể hiện nguy cơ xảy ra hiện tượng quá khớp (overfitting) khi mô hình có khả năng “học tốt” trên tập huấn luyện mà dẫn tới dự đoán kém trên tập

Trang 40

kiểm tra Giản đồ William của tập huấn luyện sau khi đã loại bỏ các ngoại lai được mô

tả ở Hình 3.5

3.1.2.3 Kết quả kiểm tra Y ngẫu nhiên

Để đánh giá xem kết quả huấn luyện của mô hình có phải do ngẫu nhiên hay không, nghiên cứu sử dụng kiểm tra Y ngẫu nhiên với số lần ngẫu nhiên là 100 Với 100 bộ dữ liệu ngẫu nhiên, mô hình sẽ được huấn luyện và thẩm định chéo 10 lần, từ đó tính ra các chỉ số Rrand2 và Q2rand cho mỗi lần Giá trị trung bình của 100 lần huấn luyện sẽ được tính và so sánh với R2train và Q10CV2 Kết quả kiểm tra Y ngẫu nhiên như sau:

Rrand2 = -0,49 < R2train = 0,99 Q2rand = -0,24 < Q10CV2 = 0,80 Từ kết quả trên cho thấy việc ngẫu nhiên hoá bộ dữ liệu ban đầu làm giảm đáng kể hiệu năng của mô hình Hơn thế nữa, quá trình ngẫu nhiên hoá làm cho dự đoán có hệ số xác định âm, chứng tỏ mô hình không hề khớp với bộ dữ liệu ngẫu nhiên Từ đó cho thấy kết quả huấn luyện của mô hình không phải do ngẫu nhiên mà do quá trình “học” của mô hình trên tập huấn luyện

3.1.3 Kết quả dự đoán của mô hình trên tập kiểm tra

Trước khi đánh giá khả năng dự đoán của mô hình, các chất trong tập kiểm tra cần phải thỏa mãn miền cấu trúc ứng dụng, tức là 0 < hj < h** = 3 (256+1)

1352 − 43 = 0,5890 Kết quả cho thấy toàn bộ 329 chất thỏa mãn điều kiện trên Do đó, lựa chọn 329 chất để tiến hành đánh giá khả năng dự đoán của mô hình Kết quả dự đoán như sau:

Ntest = 329; R2test = 0,83; RMSE = 0,48; MAE = 0,37 Số chất nằm ngoài khoảng phần dư chuẩn hoá: 0/329

Hình 3.5 Miền cấu trúc ứng dụng của mô hình

Ngày đăng: 22/08/2024, 17:05

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN