trương cao minh nghiên cứu thiết kế một số cấu trúc mới hướng ức chế glutaminyl cyclase bằng phương pháp học máy kết hợp mô hình pharmacophore

Biến độc lập X là các tham số mô tả phân tử molecular descriptor, đặc trưng cho cấu trúc và tính chất lý hoá của hợp chất và được xác định bằng các mô hình dự đoán trên máy tính logP, đ

TỔNG QUAN

Tổng quan về QC

QC thuộc họ enzym acyltransferase phụ thuộc kim loại, xúc tác cho quá trình sửa đổi sau dịch mã ở một số protein hoặc peptid bằng cách chuyển phần dư glutamin (Gln) hoặc glutamat (Glu) ở đầu tận nitơ thành cấu trúc pyroglutamat-peptid (pE-peptid), đồng thời giải phóng một phân tử amoniac hoặc một phân tử nước tương ứng (Hình 1.1) [12]

QC lần đầu được phân lập vào năm 1963 bởi Michael và cộng sự sau khi quan sát thấy sự giải phóng khí amoniac khi hòa tan nhựa mủ của cây đu đủ Carica papaya trong dung dịch chứa L-glutamin và L-glutaminyl peptid [40] Sau đó đến năm 1987, nhóm nghiên cứu của Walker báo cáo về enzym có khả năng chuyển glutaminyl-peptid thành pE- peptid ở tuyến yên, tuyến tủy thượng thận và ở một số tế bào lympho ở người [8] Cho đến nay, hai nhóm QC đã được tìm thấy và đặt tên lần lượt là QC nhóm I (chủ yếu ở thực vật và vi khuẩn) và QC nhóm II (ở một số vi khuẩn, động vật và con người) Vai trò của QC nhóm I chưa được nghiên cứu đầy đủ, tuy nhiên nhiều nghiên cứu chỉ ra rằng một số pE-peptid là sản phẩm chuyển hoá của QC nhóm I tham gia vào quá trình đáp ứng miễn dịch, chống lại kí sinh trùng ở một số loài thực vật, hay tạo điều kiện cho kí sinh trùng sốt rét trốn thoát khỏi hệ miễn dịch ở một số chủng Plasmodium [12] Ngược lại, nhiều nghiên cứu đã chỉ ra rằng khả năng pyroglutamat hoá của QC nhóm II được phát hiện ở đa dạng các cơ chất như hormon giải phóng gonadotropin (GnRH), hormon giải phóng thyrotropin (TRH), neurotensin, fibronectin, hoặc một số cytokin khởi động phản ứng viêm như CCL2, CX3CL1 [23, 30, 74] Việc sửa đổi sau phiên mã tạo ra sản phẩm pE-peptid của QC nhóm II đã làm tăng tính bền vững của các cơ chất, ngăn chặn sự thủy phân từ các aminopeptidase, đồng thời làm tăng khả năng gắn kết của peptid với các receptor [12, 15]

Hình 1.1 Sự hình thành pE-peptid bởi QC

1.1.2 Mối liên quan giữa QC và bệnh Alzheimer

Hiện nay, giả thuyết amyloid được coi là giả thuyết trung tâm trong cơ chế bệnh sinh bệnh Alzheimer [29] Giả thuyết này bắt nguồn từ việc tích tụ mảnh Aβ là mảnh peptid có nguồn gốc từ protein amyloid tiền thân (APP), một glycoprotein xuyên màng biểu hiện ở nhiều mô khác nhau và đóng vai trò quan trọng trong sự hình thành, phát triển, tái tạo và tính khả biến của tế bào thần kinh [9, 11, 29] APP được chuyển hoá theo hai con đường khác nhau: Con đường sinh amyloid (amyloidogenic pathway) và con đường không sinh amyloid (non-amyloidogenic pathway) Trong con đường không sinh amyloid, enzym α-secretase cắt bỏ APP để tạo ra mảnh sAPPα đầu tận nitơ và mảnh 𝛼CTF 83 đầu tận carbon Mảnh αCTF 83 tiếp tục được phân cắt bởi phức hợp enzym γ- secretase, giải phóng ra đoạn peptid p3 và miền nội bào APP (AICD) Ngược lại, trong con đường sinh amyloid, enzym β-secretase (BACE) chịu trách nhiệm chính trong việc chuyển hoá APP để tạo thành mảnh sAPPβ Phần peptid gồm 99 acid amin còn lại của APP sẽ tiếp tục được phân cắt bởi phức hợp enzym γ-secretase và giải phóng ra mảnh

Aβ không tan có chiều dài từ 37 đến 42 acid amin, trong đó đáng chú ý là mảnh Aβ 40 và

Aβ 42 [9] Tỉ lệ Aβ 42: Aβ 40 tăng làm thúc đẩy quá trình tích tụ mảnh Aβ 42, các mảnh đó sẽ kết tập, kéo dài và dần hình thành nên mảng bám amyloid [22] Đây chính là trung tâm của rất nhiều con đường bệnh sinh khác nhau của bệnh Alzheimer, bao gồm tăng cường phosphoryl hoá protein tau hình thành đám rối thần kinh tau, kích hoạt quá trình stress oxy hoá gây tổn thương viêm lan rộng, hoạt hoá receptor N-methyl-D-aspartat

(NMDA) gây độc tế bào thần kinh… từ đó dẫn tới sự chết theo chu trình của tế bào thần kinh, tổn thương khớp thần kinh hay thiếu hụt chất dẫn truyền thần kinh [55, 77] Năm 1985, khi thực hiện nghiên cứu mảnh A𝛽 được phân lập từ mảng bám amyloid ở những bệnh nhân Alzheimer, Masters và cộng sự nhận thấy sự bất thường trong cấu trúc ở đầu tận nitơ khi tới 64% mảnh A𝛽 bắt đầu từ phenylalanin (Phe) ở vị trí số 4 [39] Ngay sau đó, vào năm 1986, nhóm nghiên cứu của Selkoe báo cáo về việc không thu được mảnh peptid có chứa đầu tận nitơ nào sau khi tinh chế mảng bám amyloid, gợi ý rằng có thể đầu tận nitơ đã bị khóa bởi một cấu trúc hoá học nào đó [76] Giả thuyết trên đã được kiểm chứng vào năm 1992 bởi Mori và cộng sự khi đã phát hiện sự tồn tại của cấu trúc pyroglutamat ở đầu tận nitơ của khoảng 15-20% mảnh A𝛽, hay được biết đến là mảnh pE3-A𝛽, từ đó mở ra nhiều nghiên cứu sâu hơn về vai trò của mảnh trên trong cơ chế bệnh sinh bệnh Alzheimer [54]

Mảnh pE3-A𝛽 có nguồn gốc từ các mảnh A𝛽 có chiều dài 40 hoặc 42 acid amin (A𝛽1-40/42) tạo ra nhờ quá trình phân cắt APP nhờ enzym BACE và phức hợp enzym γ- secretase Sau khi được giải phóng vào khe synap từ các tế bào thần kinh, mảnh A𝛽 sẽ được xử lý bằng cách được loại bỏ lần lượt hai acid amin ở đầu tận nitơ lần lượt là aspartat (Asp) và alanin (Ala) bởi một số enzym như aminopeptidase A (APA), merpin-

𝛽 hoặc dipeptidyl peptidase 4 (DPP4), tạo ra sản phẩm là mảnh A𝛽3-40/42 có chứa Glu ở đầu tận nitơ Sau đó, QC sẽ thực hiện phản ứng đóng vòng và loại nước để chuyển Glu thành pyroglutamat ở đầu tận nitơ, tạo ra sản phẩm pE3-A𝛽 (Hình 1.2)

Do đã bị mất đi hai điện tích âm và một điện tích dương, đồng thời đầu tận nitơ hình thành cấu trúc vòng lactam nên mảnh pE3-A𝛽 sẽ có xu hướng kết tập với nhau dễ dàng hơn, nhanh hơn và ổn định hơn, đặc biệt là trước tác động của một số peptidase [3] Khi nghiên cứu về cấu trúc bậc 2 các mảnh A𝛽, nhiều nghiên cứu đã chỉ ra rằng mảnh pE3-A𝛽 có khả năng hình thành cấu trúc nếp gấp beta dễ dàng hơn các đoạn peptid có độ dài hoàn chỉnh, từ đó cho thấy mảnh pE3-A𝛽 hoạt động như một “chất mồi” (seed species), có thể tự kết tập hoặc kết tập với các mảnh A𝛽 có độ dài khác nhau, thúc đẩy quá trình oligomer hoá để tạo nên mảng bám amyloid Tuy nhiên, do tốc độ oligomer hoá nhanh dẫn tới việc hình thành nên các đoạn peptid được cuộn gập bất thường (misfolded peptide), từ đó ức chế điện thế hoá dài hạn (long-term potentiation) ở các tế bào thần kinh vùng hồi hải mã Bên cạnh đó, pE3-A𝛽 hoạt động như một chất ức chế sự hình thành sợi cơ (fibrillogenesis) ở các mảnh A𝛽1-40/42, từ đó có thể duy trì ở dạng oligomer hoặc dạng tiền sợi cơ (prefibrillar) có khả năng gây độc các tế bào thần kinh

Một số ảnh hưởng khác của pE3-A𝛽 tới cơ chế bệnh sinh bệnh Alzheimer có thể kể đến như khả năng kích hoạt thúc đẩy quá trình chết của tế bào theo chương trình (apoptosis) và quá trình hoại tử ở các tế bào thần kinh đệm hình sao thông qua việc hoạt hoá caspase, thay đổi tính thấm của màng tế bào hay tạo ra các cytokin gây viêm [66]

Hình 1.2 Cơ chế hình thành pE3-A𝛽 [27]

1.1.3 Đặc điểm cấu trúc của QC ở người

QC ở người (hQC) thuộc QC nhóm II, biểu hiện cao ở hệ thần kinh như trong tế bào urocortin-1, nhân Edinger-Westphal của hệ cholinergic, nhân xanh (locus coerulus) và hạt nhân cơ bản Meynert (nucleus basalis Meynert) [52] Sự phân bố khác nhau của hQC trong tế bào dẫn tới việc hình thành nên hai dạng isoform, cụ thể là hQC phân bố trong túi bài tiết (sQC, mã hoá bởi gen QPCT) và hQC phân bố trong thể golgi (gQC hoặc isoQC, mã hoá bởi gen QPCTL) Hai dạng isoform trên có trình tự các acid amin giống nhau tới hơn 45% với kích cỡ của trung tâm hoạt động gần tương tự nhau (gồm khoảng 330 acid amin) Tuy nhiên, do sự phân bố ở các tế bào và các mô là khác nhau nên hai isoform trên hoạt động với các cơ chất khác nhau, do đó chúng đóng vai trò sinh lý và bệnh lý khác nhau trong cơ thể [4, 13, 90]

Hai dạng isoform của hQC đều có cấu trúc hình cầu với trung tâm là một nếp gấp beta gồm 6 sợi, trong đó có 2 sợi phản song song, nằm giữa cấu trúc gồm hai và sáu xoắn alpha ở hai phía đối diện nhau (Hình 1.3A) Phần còn lại của protein chứa các cấu trúc xoắn 310 và các vòng lặp phi cấu trúc (unstructured loops) (Hình 1.3B) Trung tâm hoạt động của cả hai dạng isoform đều chứa ion Zn 2+ , hình thành phức tứ diện với ba acid amin là aspartat (Asp), glutamat (Glu), histidin (His) (Asp159, Glu202 và His330 ở sQC; Asp186, Glu226 và His351 ở gQC) và một nguyên tử nước (Hình 1.3C) Đối với sQC, trung tâm hoạt động được giới hạn bởi hai phần dư tryptophan (Trp) là Trp207 và Trp329, hơn nữa sự định hướng của Trp207 trong không gian sẽ quyết định cấu dạng của trung tâm hoạt động Cụ thể, khi khung indol của Trp207 quay về hướng cơ chất thì trung tâm hoạt động tồn tại ở dạng cấu hình A (cấu hình mở), ngược lại đối với cấu hình

B (cấu hình đóng) thì khung indol sẽ định hướng về phía ion Zn 2+ Một số nghiên cứu chỉ ra rằng khi tồn tại ở cấu hình A, thể tích của trung tâm hoạt động sẽ tăng lên, tạo thuận lợi cho việc hình thành sản phẩm đã được đóng vòng Đối với gQC, vai trò của 5 vòng lặp quanh trung tâm hoạt động, đặc biệt là vòng lặp 2 chứa lysin (Lys) từ Lys229 đến Lys234 đã làm tăng đáng kể thể tích trung tâm hoạt động của gQC so với của sQC Bên cạnh đó, ba acid amin (Glu201, Asp248 và Asp305 ở sQC; Glu225, Asp269 và Asp326 ở gQC) hình thành mạng lưới liên kết hydro với nhau, có khả năng làm ổn định trạng thái chuyển tiếp của cơ chất và tạo điều kiện thuận lợi cho quá trình xúc tác của enzym Mạng lưới liên kết hydro trên dễ dàng bị phá vỡ khi liên kết cis peptid giữa Asp thuộc phức tứ diện của ion Zn 2+ và phần dư serin (Ser) kế cạnh không được hình thành (Asp159 và Ser160 ở sQC; Asp186 và Ser187 ở gQC), từ đó cho thấy vai trò của các phần dư Ser trên đối với hoạt tính [90]

Hình 1.3 Cấu trúc hai dạng isoform của hQC [26, 90]

Chú thích: (A) Cấu trúc xếp chồng của sQC (vàng) và gQC (xanh); (B) Cấu trúc xoắn

3 10 và các vòng lặp phi cấu trúc của sQC (hồng) và gQC (xanh); (C) Phức tứ diện với trung tâm là ion Zn 2+ và bốn đỉnh là ba acid amin (Asp, Glu, His) và một phân tử nước

Cơ chất của QC là A𝛽3-40/42 chứa Glu ở đầu tận nitơ có nhóm 𝛼-amino nằm ở vị trí kế cận trong không gian với nhóm 𝛾-carbonyl, tạo điều kiện thuận lợi cho phản ứng đóng vòng nội phân tử Tại trung tâm hoạt động, nhóm 𝛾-carbonyl của cơ chất hình thành liên kết phối trí với ion Zn 2+ thay thế cho phân tử nước, từ đó hình thành cấu trúc oxyanion nhờ phản ứng cộng ái nhân giữa nhóm 𝛼-amino và 𝛾-carbonyl Sau đó,

Glu201/225 và Asp248/269 chuyển proton từ nhóm 𝛼-amino tới nhóm hydroxyl rời đi, từ đó tạo thành một phân tử nước và giải phóng sản phẩm đã được đóng vòng [90] Cơ chế xúc tác của QC được mô tả ở Hình 1.4

Hình 1.4 Cơ chế xúc tác của QC [90]

1.1.4 Một số chất ức chế QC đã được nghiên cứu

Tổng quan về QSAR

Mô hình QSAR mô tả và định lượng hoá mối quan hệ giữa các đặc điểm hoá lý với hoạt tính sinh học dựa trên giả thuyết là giữa các hợp chất có sự tương đồng về cấu trúc sẽ có tính chất sinh học giống nhau [64] Một trong những nghiên cứu đầu tiên về QSAR là của A F A Cros tại đại học Strasbourg vào năm 1863 khi ông đã quan sát thấy mối liên hệ giữa độ tan trong nước và độc tính của một số alcol bậc nhất mạch thẳng Đến năm 1868, Brown và Fraser nghiên cứu về ảnh hưởng của việc methyl hoá nhóm amin trong một số alkaloid đến hoạt tính sinh học của chúng, từ đó họ kết luận rằng hoạt tính sinh học (ϕ) có thể được mô tả bằng một hàm số của cấu trúc hoá học (C) Đến năm 1964, C Hansch đề xuất mô hình QSAR tuyến tính đầu tiên mô tả mối tương quan giữa tác dụng sinh học với rất nhiều các đặc điểm lý hoá của hợp chất, đặt nền móng cho các mô hình QSAR phức tạp hơn sau này [20, 31] Mô hình của Hansch được biểu diễn theo phương trình sau: log (1/C) = k1π– k2 π 2 + k3σ+ k4Es + k5 trong đó: C là nồng độ mà tại đó hợp chất thể hiện tác dụng sinh học; π là hệ số phân bố dầu - nước; σ là hằng số thế Hammett; Es là tham số không gian Taft; k1, k2, k3, k4, k5 là hệ số của phương trình hồi quy

Về mặt toán học, mô hình QSAR biểu diễn mối quan hệ định lượng giữa cấu trúc phân tử và hoạt tính sinh học thông qua phương trình Y = f(X) Trong đó, Y là biến phụ thuộc, phản ánh hoạt tính sinh học của hợp chất và được xác định thông qua các nghiên cứu thực nghiệm in vitro (phần trăm ức chế, IC50, Ki) hay in vivo (sinh khả dụng, khả năng thấm qua hàng rào máu não, độc tính) Biến độc lập X là các tham số mô tả phân tử (molecular descriptor), đặc trưng cho cấu trúc và tính chất lý hoá của hợp chất và được xác định bằng các mô hình dự đoán trên máy tính (logP, độ tan trong nước, độ dịch chuyển hoá học trong phổ cộng hưởng từ hạt nhân) hoặc được tính dựa trên cấu trúc của hợp chất bằng các thuật toán khác nhau (các tham số mô tả phân tử 1D, 2D, 3D, ) Ngoài ra, biến X cũng có thể là các dấu vân tay phân tử (molecular fingerprint), mã hoá các thông tin về cấu trúc hoá học dưới dạng chuỗi nhị phân Cuối cùng, mối tương quan giữa biến độc lập X và biến phụ thuộc Y được định lượng hoá thông qua hàm số f dựa trên nền tảng là lý thuyết thống kê cổ điển Tuy nhiên, với sự phát triển của khoa học máy tính và trí tuệ nhân tạo, các thuật toán học máy (machine learning) và học sâu (deep learning) đang được ứng dụng rất nhiều trong việc xây dựng các mô hình QSAR phức tạp mà lý thuyết thống kê cổ điển không giải quyết được [78, 81]

1.2.2 Tham số mô tả phân tử và dấu vân tay phân tử

1.2.2.1 Tham số mô tả phân tử

Theo định nghĩa của Todeschini và Consonni, tham số mô tả phân tử là kết quả của quá trình toán học và logic, có vai trò chuyển đổi những thông tin đã được mã hoá trong cấu trúc hoá học thành các số đặc trưng cho cấu trúc đó hoặc thành kết quả của các thí nghiệm đã được chuẩn hoá Do đó, tham số mô tả phân tử phải thỏa mãn một số tiêu chí nhất định, như có mối tương quan chặt chẽ với ít nhất một đặc tính của phân tử, có khả năng phân biệt giữa các đồng phân khác nhau, và có khả năng tổng quát hoá cho các tham số bậc cao hơn Bậc của tham số mô tả phân tử là số chiều không gian của cấu trúc hoá học mà thuật toán sử dụng để tính ra các tham số, cụ thể là các tham số 0D, 1D, 2D, 3D và bậc cao hơn [81]

• Tham số mô tả 0D/1D: là các tham số mà không chứa đựng thông tin về cấu trúc hoá học và sự kết nối giữa các nguyên tử hoặc chỉ chứa đựng thông tin về các mảnh cấu trúc hoá học Thông thường, các tham số mô tả 0D bao gồm số lượng các nguyên tử và các liên kết hoá học, khối lượng phân tử, các đặc tính nguyên tử, còn tham số mô tả 1D mang thông tin về sự có mặt của các nhóm chức hoặc mảnh cấu trúc khi lấy một nguyên tử làm trung tâm [81]

• Tham số mô tả 2D: là các tham số được xây dựng dựa vào cấu trúc phẳng của phân tử (topological structure) trên cơ sở của lý thuyết ma trận hoặc lý thuyết đồ thị với đỉnh là các nguyên tử và cạnh là các liên kết giữa các nguyên tử tương ứng Các tham số mô tả 2D phản ánh về khoảng cách, sự kế cận giữa các nguyên tử với nhau, góc giữa các liên kết, trạng thái lai hoá và cấu hình electron của các nguyên tử Một số nhóm tham số mô tả 2D có thể kể đến như: BCUT, Burden, E-state, Kappa, Moreau-Broto, [81]

• Tham số mô tả 3D: là các tham số chứa đựng thông tin về các đặc điểm hình học của cấu trúc hoá học khi đặt trong hệ tọa độ Descartes x-y-z Phương pháp xây dựng nên tham số mô tả 3D khác nhau giữa các nhóm tham số, ví dụ như tham số WHIM cung cấp đặc tính của các nguyên tử khi được gióng hàng trên các trục tọa độ, tham số GETAWAY phản ánh đặc điểm cấu trúc hoá học dựa trên ma trận ảnh hưởng phân tử, tham số 3D-MoRSE mô tả thông tin về tương tác giữa các nguyên tử khi sử dụng phương pháp nhiễu xạ điện tử và tán xạ [81]

• Tham số mô tả 4D trở lên: là các tham số mô tả các đặc điểm về cấu trúc hoá học 3D và năng lượng phân tử tương tác với các đầu dò (probe) khi được đặt trong một mạng lưới nguyên tử giả định Ngoài ra, các tham số mô tả bậc cao sẽ phản ánh sự tương tác giữa protein-phối tử với nhiều cấu dạng khác nhau và mức độ ảnh hưởng khi xem xét sự tương tác trên trong một môi trường cụ thể cùng với nhiều trường lực kết hợp bao quanh [17]

1.2.2.2 Dấu vân tay phân tử

Dấu vân tay phân tử dùng để mã hoá thông tin cấu trúc hoá học dưới dạng một chuỗi bit hay một vector nhị phân Dấu vân tay phân tử phải có một số đặc điểm nhất định, như mang tính đại diện cho cấu trúc hoá học cục bộ (đặc trưng cho từng nguyên tử và các nguyên tử kế cận), có khả năng giải mã từ đoạn mã hoá thành cấu trúc hoá học tương ứng một cách chính xác, và các đặc điểm trong cùng một dấu vân tay phải độc lập với nhau Các loại dấu vân tay phân tử khác nhau có cách thức mã hoá khác nhau, có thể kể đến như:

• Dấu vân tay xuyên tâm (circular fingerprint): được xây dựng dựa trên thuật toán của Morgan năm 1965 [53] Mỗi nguyên tử khác hydro trong cấu trúc hoá học sẽ được lấy làm tâm, tạo nên các đường tròn đồng tâm với bán kính được xác định từ đó sẽ thu được thông tin về các mảnh cấu trúc kế cận với tâm nguyên tử Một số dấu vân tay xuyên tâm có thể kể đến như ECFP, FCFP, Molprint2D

• Dấu vân tay cấu trúc (structural key fingerprint): chứa được thông tin về sự có mặt hoặc thiếu các nhóm chức, mảnh hoặc khung cấu trúc đã được định trước Mỗi hợp chất sẽ được được mã hoá thành một chuỗi N-bit bằng hàm băm (hash function), từ đó sẽ so sánh từng cặp bit đã mã hoá với ngân hàng cấu trúc có sẵn để thu được số lượng lớn thông tin về cấu trúc hoá học Một số dấu vân tay cấu trúc có thể kể đến như MACCS, BCI, PubChem [94]

1.2.3 Các bước xây dựng mô hình QSAR

Theo Tổ chức Hợp tác và Phát triển Kinh tế (OECD), một mô hình QSAR được đánh giá theo 5 nguyên tắc sau [62]:

(2) Các thuật toán được sử dụng để xây dựng mô hình rõ ràng (mô hình có thể được tái xây dựng lại những hợp chất mới)

(3) Có miền cấu trúc ứng dụng (applicability domain) xác định

(4) Có phương pháp đánh giá rõ ràng độ phù hợp (goodness-of-fit), độ ổn định (robustness) và khả năng dự đoán (predictivity)

(5) Giải thích được cơ chế (nếu có thể)

Trên cơ sở 5 nguyên tắc trên, việc xây dựng mô hình QSAR được thực hiện theo các bước sau (Hình 1.7) [70]:

Bước 1: Xây dựng cơ sở dữ liệu (CSDL)

CSDL là tập hợp các hợp chất có hoạt tính hoặc độc tính với một đích cụ thể Để tránh sự sai khác giữa kết quả hoạt tính hoặc độc tính giữa các hợp chất, thông thường CSDL được lấy từ cùng một nghiên cứu hoặc các nghiên cứu có phương pháp thử hoạt tính sinh học tương tự nhau

Bước 2: Tính toán tham số mô tả phần tử/ dấu vân tay phân tử

Sử dụng các phần mềm, thuật toán để tính toán các tham số mô tả phần tử hoặc mã hoá đặc điểm cấu trúc dưới dạng dấu vân tay phân tử cho bộ CSDL

Bước 3: Chia CSDL thành tập huấn luyện và tập kiểm tra

Sử dụng một số thuật toán như phân cụm K-Means (K-Means Clustering), thuật toán Kennard Stone, phân tích thành phần chính (PCA), tiếp cận dựa trên hoạt tính (activity-based approach), để có thể chia CSDL thành tập huấn luyện và tập kiểm tra

Bước 4: Huấn luyện mô hình và đánh giá nội mô hình dựa trên tập huấn luyện

Dựa vào đặc điểm mô hình cần phải xây dựng là hồi quy hoặc phân loại, lựa chọn thuật toán phù hợp để huấn luyện mô hình dựa trên tập huấn luyện Thuật toán sử dụng có thể là các thuật toán thống kê cổ điển (hồi quy tuyến tính, hồi quy logistic, phân tích Bayesian, ) hoặc thuật toán học máy, học sâu (máy vector hỗ trợ, rừng ngẫu nhiên, cây quyết định, mạng lưới neural nhân tạo, ) Mô hình cần được đánh giá nội thông qua thẩm định chéo (cross-validation), kiểm tra Y ngẫu nhiên (Y-randomization test) nhằm đánh giá mức độ phù hợp và mức độ ổn định của mô hình

Bước 5: Đánh giá khả năng dự đoán của mô hình dựa trên tập kiểm tra

Sử dụng mô hình đã xây dựng ở trên để đánh giá khả năng dự đoán trên tập kiểm tra Nếu mô hình lựa chọn không dự đoán tốt trên tập kiểm tra, lặp lại từ bước 3

Bước 6: Xây dựng miền cấu trúc ứng dụng (applicability domain) và đánh giá độ tin cậy của các dự đoán

Tổng quan về mô hình pharmacophore

1.3.1 Khái niệm về mô hình pharmacophore

Khái niệm về pharmacophore lần đầu tiên được giới thiệu bởi Ehrlich vào năm

1909 khi ông cho rằng pharmacophore là khung cấu trúc mà mang (phoros) những đặc điểm cần thiết cho hoạt tính sinh học của thuốc (pharmacon) [19] Theo định nghĩa gần đây nhất của IUPAC, mô hình pharmacophore là tập hợp các đặc điểm về lập thể và điện tử cần thiết để đảm bảo cho các tương tác của một phân tử với một đích phân tử cụ thể nhằm kích hoạt hay ngăn chặn đáp ứng sinh học của nó [93] Như vậy, khái niệm pharmacophore của IUPAC đã mở rộng hơn so với Ehrlich khi cho rằng mô hình pharmacophore không đơn thuần là một nhóm chức hay một khung cấu trúc, mà là tập hợp nhiều đặc điểm khác nhau và khoảng cách trong không gian giữa chúng phải được xác định Các nhóm đặc trưng của mô hình pharmacophore bao gồm: nhóm HBA, nhóm HBD, nhóm mang điện tích dương, nhóm mang điện tích âm, nhóm cấu trúc thân dầu, nhóm mang vòng thơm, nhóm liên kết với kim loại và nhóm halogen Ngoài ra, khái niệm về thể tích loại trừ (excluded volumes) được sử dụng như một nhóm đặc trưng của mô hình pharmacophore nhằm giới hạn vùng không gian phù hợp của vị trí gắn giữa phối tử và protein [72]

Các nhóm đặc trưng trên được tích hợp trong các phần mềm hỗ trợ xây dựng mô hình pharmacophore như MOE, LigandScout, Catalyst, PHASE, Các nhóm đặc trưng được biểu diễn trong các phần mềm dưới dạng điểm ảo hoặc hình cầu, có bán kính ảo và khoảng cách giữa các tâm cầu được xác định Bên cạnh đó, một số phần mềm còn cho phép tinh chỉnh (fine-tune) một số tham số như dung sai sai lệch (deviation tolerance) và hệ số riêng của từng nhóm đặc trưng nhằm điều chỉnh bán kính ảo cũng như mức độ ưu tiên của các nhóm đặc trưng trong cùng một mô hình pharmacophore [72] Mô hình pharmacophore được ứng dụng trong việc thiết kế de novo, thiết kế thuốc đa đối tượng, tối ưu hoá chất dẫn đường (lead optimization), và sàng lọc ảo Quá trình sàng lọc ảo bằng mô hình pharmacophore dựa trên nguyên tắc: mô hình pharmacophore là tập hợp các hình cầu đại diện cho các nhóm đặc trưng, một hợp chất được coi là thỏa mãn mô hình trên khi hợp chất đó cũng có những nhóm đặc trưng nằm trọn trong hình cầu của mô hình khi tồn tại ở cấu dạng có mức năng lượng thấp nhất Phương pháp sàng lọc trên còn được gọi là phương pháp gióng hàng nhóm đặc trưng (pharmacophore features alignment) [92, 95] Ví dụ về sàng lọc ảo bằng mô hình pharmacophore được mô tả ở Hình 1.8

Hình 1.8 Phương pháp sàng lọc ảo bằng mô hình pharmacophore [68]

Chú thích: (A) Mô hình pharmacophore 9 điểm gồm 1 vòng thơm (xanh dương), 4 nhóm kị nước (vàng), 3 nhóm HBA (đỏ) và 1 nhóm HBD (xanh lục) Các nhóm đặc trưng được biểu diễn dưới dạng hình cầu, khoảng cách giữa các tâm được tính theo đơn vị Angstrom (B) Dẫn chất TQ5 thỏa mãn mô hình pharmacophore trên bằng phương pháp gióng hàng nhóm đặc trưng

Tương tự mô hình QSAR, CSDL để xây dựng mô hình pharmacophore cũng được chia thành tập huấn luyện và tập kiểm tra Mô hình pharmacophore được xây dựng trên tập huấn luyện bằng các phương pháp khác nhau, tùy thuộc vào loại mô hình là dựa trên phối tử hay dựa trên cấu trúc Tập kiểm tra dùng để thẩm định khả năng dự đoán của mô hình đã được dựng Một trong những khó khăn khi tạo tập huấn luyện và tập kiểm tra là kiểm soát số lượng, sự đa dạng về cấu trúc và sự đa dạng về hoạt tính sinh học của phối tử ở mỗi tập Nếu tập huấn luyện sử dụng quá nhiều phối tử với các cấu trúc đa dạng, máy tính sẽ phải cần tiêu tốn một lượng lớn bộ nhớ để có thể lưu trữ thư viện cấu dạng các chất và thời gian CPU chạy sẽ lâu hơn, đồng thời mô hình tạo ra sẽ có nhiều “nhiễu” khi số lượng nhóm đặc trưng tạo ra quá lớn, bao gồm những nhóm đặc trưng không thật sự đóng vai trò quan trọng trong việc quyết định hoạt tính của chất [95] Bên cạnh đó, nếu tập kiểm tra gồm ít hợp chất với độ đa dạng về cấu trúc không cao sẽ giảm hiệu quả đánh giá mô hình Do đó, tập kiểm tra thường sẽ được “làm giàu” (enrich) bằng cách thêm những hợp chất “mồi nhử” (decoy) với mục đích tăng độ tin cậy cho khả năng dự đoán, đồng thời giảm tỉ lệ dự đoán dương tính giả của mô hình Hợp chất “mồi nhử” là những chất có đặc điểm lý hoá tương đồng nhưng có cấu trúc không gian khác với các hợp chất trong CSDL, từ đó được coi là những chất không có hoạt tính với đích phân tử Một số phần mềm có thể tạo ra hợp chất “mồi nhử” dựa trên cấu trúc CSDL cho trước có thể kể đến như: DecoyFinder, DeepCoy, LUDe, DUD-E [72]

1.3.2 Mô hình pharmacophore dựa trên phối tử

Mô hình pharmacophore dựa trên phối tử được sử dụng khi thiếu thông tin về cấu trúc đích phân tử nhưng có đầy đủ thông tin về cấu trúc của các phối tử liên quan Quá trình huấn luyện mô hình pharmacophore bao gồm 2 bước chính [95]:

Bước 1: Tạo thư viện các cấu dạng quay cho từng phối tử từ cấu dạng có mức năng lượng tự do thấp nhất sau khi đã cực tiểu hoá năng lượng

Hiện nay các phần mềm sử dụng để xây dựng mô hình pharmacophore như MOE, HipHop, HypoGen, PHASE, sử dụng các thuật toán khác nhau để tạo thư viện cấu dạng cho phối tử Một số thuật toán được sử dụng như: mạng lưới xoắn hệ thống (systematic torsional grids), thuật toán di truyền (genetic algorithms), thuật toán Monte Carlo Một thuật toán tạo cấu dạng được cho là tốt khi thỏa mãn những điều kiện sau: (1) có khả năng tạo ra tất cả cấu dạng gắn kết giả định giữa phối tử và protein; (2) tạo ra thư viện cấu dạng với số lượng ít nhất có thể nhưng đảm bảo mức năng lượng tự do thấp nhất; (3) có khả năng tính toán cấu dạng trong thời gian ngắn nhất

Bước 2: Gióng hàng lần lượt các cấu dạng của từng phối tử với nhau, sau đó tìm kiếm các nhóm đặc trưng chung để hình thành các giả thuyết về mô hình pharmacophore Phương pháp gióng hàng được chia thành hai nhóm: gióng hàng dựa theo điểm (point-based) và gióng hàng dựa theo đặc tính (property-based) Phương pháp gióng hàng theo điểm dựa trên cơ sở bình phương tối thiểu khoảng cách khi xếp chồng các nguyên tử, mảnh cấu trúc hoặc các nhóm đặc trưng với nhau Nhược điểm lớn nhất của phương pháp trên là việc gán nguyên tử, mảnh cấu trúc nào là các nhóm đặc trưng tương ứng, đặc biệt khi các phối tử trong tập huấn luyện có cấu trúc hoàn toàn khác nhau Phương pháp gióng hàng theo đặc tính dựa theo sự tương đồng về các tham số mô tả phân tử về trường lực, thông thường được tạo ra từ hàm Gaussian, sao cho khi gióng hàng các phần cấu trúc có sự tương đồng về trường lực sẽ chồng lấp với nhau

1.3.3 Mô hình pharmacophore dựa trên cấu trúc

Mô hình pharmacophore dựa trên cấu trúc 3D của mục tiêu phân tử hoặc hình ảnh chụp đồng kết tinh phức hợp phối tử-protein Quy trình xây dựng mô hình bao gồm phân tích các nhóm đặc trưng bổ trợ cho nhau ở trung tâm hoạt động protein, xem xét không gian liên kết, và hình thành giả thuyết mô hình pharmacophore Đối với cách tiệp cận dựa trên hình ảnh chụp đồng kết tinh phức hợp phối tử-protein, các liên kết quan trọng giữa phối tử và protein có thể dễ dàng được phát hiện Tuy nhiên, nhược điểm lớn nhất có thể nhận thấy là cần phải có hình ảnh chụp đồng kết tinh phức hợp, điều mà không dễ dàng có thể có được Do đó, cách tiếp cận dựa trên cấu trúc 3D của mục tiêu phân tử đã khắc phục hạn chế trên Khi dựa trên cấu trúc 3D của protein, các phần mềm sẽ tạo ra một mạng lưới gồm nhiều nhóm đặc trưng để mô tả những tương tác có thể hình thành ở trung tâm hoạt động Bên cạnh đó, việc tiếp cận trên có thể kết hợp với cách tiếp cận dựa trên kiến thức, tiếp cận dựa trên “điểm nóng” pharmacophore (hot-spots-guided receptor-based pharmacophores) giúp giảm số lượng nhóm đặc trưng của mô hình, từ đó giảm mức độ phức tạp cũng như tăng khả năng ứng dụng của mô hình [95].

Tổng quan phương pháp mô phỏng tương tác phân tử (Molecular docking)

Phương pháp mô phỏng tương tác phân tử (Molecular docking) đã trở thành một trong những công cụ phổ biến và quan trọng được ứng dụng trong khám phá và thiết kế thuốc mới dựa trên cấu trúc, cho phép dự đoán cấu dạng, trạng thái liên kết và năng lượng liên kết giữa phối tử và protein với độ chính xác khá cao Nhờ sự ra đời của các phương pháp khẳng định cấu trúc protein như tinh thể học tia X (X-ray crystallography), phổ cộng hưởng từ hạt nhân (Nuclear Magnetic Resonance Spectroscopy), kính hiển vi điện tử đông lạnh (Cryo-Electron Microscopy) hay gần đây là một số phần mềm sử dụng trí tuệ nhân tạo để dự đoán cấu trúc protein dựa trên trình tự acid amin như AlphaFold, RoseTTAFold, phương pháp Docking được sử dụng rộng rãi và cung cấp nhiều thông tin về sự tương tác giữa hợp chất hoá học với đích tác dụng ở mức độ phân tử [1, 71] Bản chất của phương pháp Docking bao gồm hai quá trình riêng biệt: sử dụng thuật toán tìm kiếm (searching algorithm) tạo ra nhiều cấu dạng khác nhau của phối tử cho đến khi năng lượng tự do của toàn hệ hội tụ tới cực tiểu và sử dụng hàm tính điểm (scoring function) để ước tính năng lượng tự do ∆G của toàn hệ ứng với mỗi cấu dạng

Lý tưởng nhất là thuật toán tìm kiếm có thể tái lập lại cấu dạng thực nghiệm của phối tử khi liên kết với protein và hàm tính điểm xếp hạng cấu dạng trên ở vị trí có mức năng lượng tự do thấp nhất trong số các cấu dạng được tạo ra Thuật toán tìm kiếm có thể chia ra làm bốn nhóm, đó là (1) thuật toán tìm kiếm hệ thống như tìm kiếm toàn diện (exhaustive search), tìm kiếm theo phân mảnh (fragmentation), tìm kiếm quần thể cấu trúc (conformational ensemble); (2) thuật toán tìm kiếm ngẫu nhiên như thuật toán di truyền, thuật toán Monte-Carlo; (3) thuật toán đối chứng hình dạng (shape matching); (4) thuật toán mô phỏng (simulation method) Hàm tính điểm có thể dựa trên các hàm về trường lực, hàm dựa trên thực nghiệm hoặc đồng thuận giữa nhiều phương pháp tính điểm khác nhau [1]

Quy trình docking được thực hiện theo các bước sau:

Protein được tải về từ CSDL là Ngân hàng dữ liệu protein (Protein Data Bank- PDB) [99] với cấu trúc 3D được định dạng PDB Trước khi được sử dụng để tiến hành docking, protein sẽ trải qua quá trình tiền xử lý bằng cách loại nước, loại ion, loại các phối tử khác (nếu có), thêm hydro, sửa điện tích các acid amin, gán trường lực và xác định vùng liên kết Sau đó protein sẽ được lưu lại dưới định dạng pdbqt để chuẩn bị cho quá trình docking

Bước 2: Chuẩn bị phối tử

Phối tử thường có sẵn và được tải cấu trúc về từ các nguồn CSDL như PubChem, ZINC, ChEMBL Nếu không có sẵn thì cấu trúc phối tử được vẽ bằng các phần mềm như ChemDraw, ChemSketch, Chem3D Sau đó được tối ưu hoá năng lượng, gán trường lực, sửa các liên kết có thể quay được và lưu lại dưới định dạng pdbqt để chuẩn bị cho quá trình docking

Bước 3: Mô phỏng tương tác

Protein và phối tử được thêm vào phần mềm mô phỏng tương tác, lựa chọn và điều chỉnh thuật toán tìm kiếm và hàm tính điểm, lựa chọn các thông số phù hợp ở vùng tương tác và số cấu dạng thích hợp

Bước 4: Đánh giá kết quả Đánh giá kết quả quá trình docking dựa vào năng lượng liên kết tự do trả về của từng cấu dạng và các tương tác của phối tử với protein khi trực quan hoá bằng các phần mềm như Pymol, MOE, Discovery Studio Kết quả về năng lượng liên kết tự do có thể được so sánh với một chất đối chiếu đã biết hoạt tính thông qua nghiên cứu thực nghiệm, từ đó sơ bộ dự đoán được hoạt tính của phối tử trong nghiên cứu.

NGUYÊN LIỆU, THIẾT BỊ, NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU

Nguyên liệu, thiết bị

Dữ liệu các chất ức chế QC sử dụng để xây dựng mô hình QSAR và mô hình pharmacophore được công bố trong các nghiên cứu và bằng sáng chế trước đây Danh sách các nghiên cứu: [24, 25, 36, 58, 59, 69, 80, 83, 84, 87, 88] Danh sách các bằng sáng chế: [41-51, 82]

Dữ liệu các chất mồi nhử được tạo ra từ trang web: [98]

Cấu trúc tinh thể protein được tải về từ PDB: [100] Đặc tính giống thuốc và khả năng thấm qua hàng rào máu não (BBB) của các chất thiết kế được dự đoán từ phần mềm trực tuyến: [99]

Sử dụng các phần mềm và CSDL trực tuyến trên máy tính cá nhân ASUS X407UF, hệ điều hành Windows 11

Danh sách phần mềm sử dụng:

Visual Studio Code Python 3.11.5 OpenBabel 2.4.1

Nội dung nghiên cứu

Đề tài được thực hiện với các nội dung sau:

- Xây dựng mô hình QSAR bằng phương pháp học máy giúp dự đoán hoạt tính ức chế QC trên CSDL là các chất đã được công bố trong các bài báo và bằng sáng chế trước đây

- Xây dựng mô hình pharmacophore giúp phân loại các chất ức chế QC tiềm năng trên CSDL là các chất đã được công bố trong các bài báo và bằng sáng chế trước đây và các chất mồi nhử

- Thiết kế một số cấu trúc mới hướng ức chế QC bằng phương pháp thay đổi khung cấu trúc kết hợp mô hình QSAR, sau đó đánh giá đặc tính giống thuốc và khả năng thấm qua BBB của các cấu trúc thiết kế

- Tiến hành sàng lọc các cấu trúc mới bằng mô hình QSAR và mô hình pharmacophore dựng được

- Docking các cấu trúc tiềm năng trên đích phân tử QC để đánh giá khả năng liên kết và các tương tác có thể hình thành.

Phương pháp nghiên cứu

2.3.1 Phương pháp xây dựng mô hình QSAR

CSDL dùng để xây dựng mô hình QSAR gồm 1681 chất ức chế QC được công bố trong các nghiên cứu và bằng sáng chế, được đề cập tại Phần 2.1.1 Trong số 23 tài liệu được lựa chọn có 13 công bố của nhóm nghiên cứu của công ty Probiodrug AG (Đức),

8 công bố của nhóm nghiên cứu GS JeeWoo Lee (Đại học Quốc gia Seoul, Hàn Quốc) và 2 công bố còn lại của các nhóm nghiên cứu đến từ Hungary và Trung Quốc Hoạt tính ức chế QC của các chất lựa chọn để xây dựng mô hình QSAR đều được xác định thông qua giá trị IC50 với phương pháp đánh giá hoạt tính in vitro được thực hiện theo quy trình của Schilling và cộng sự công bố năm 2002 [73] Để chuẩn hoá và giảm sai số của dữ liệu, giá trị IC50 được chuyển về giá trị pIC50 với pIC50 = –log(IC50) Cấu trúc của các chất được vẽ dưới dạng 2D và được chuyển về dạng SMILES bằng phần mềm ChemDraw 20.0, sau đó được lưu trữ trong Microsoft Excel 365 Sau đó, CSDL tiếp tục được làm sạch bằng cách loại bỏ các cấu trúc lặp lại bằng thư viện pandas được chạy bằng ngôn ngữ lập trình Python

Bước 2: Tính toán tham số mô tả phần tử/ dấu vân tay phân tử

1681 chất được biểu diễn dưới dạng dấu vân tay phân tử Morgan thông qua thư viện RDKit, một thư viện mở chạy bằng ngôn ngữ lập trình Python giúp giải quyết các bài toán trong lĩnh vực hoá tin Sử dụng hàm PandasTools.AddMoleculeColumnToFrame và AllChem.GetMorganFingerprintAsBitVect để lần lượt chuyển SMILES sang cấu trúc 2D và mã hoá cấu trúc 2D dưới dạng chuỗi nhị phân bằng dấu vân tay phân tử Morgan Lựa chọn bán kính xuyên tâm bằng 4 và số bit của chuỗi nhị phân bằng 256

Bước 3: Chia CSDL thành tập huấn luyện và tập kiểm tra

CSDL được chia ngẫu nhiên thành tập huấn luyện và tập kiểm tra, trong đó tập huấn luyện gồm 1352 chất, tập kiểm tra gồm 329 chất CSDL được trình bày chi tiết ở Phụ lục 1 Tuy nhiên, việc chia ngẫu nhiên CSDL thành tập huấn luyện và tập kiểm tra sẽ có khả năng gặp phải sai số dự đoán trong quá trình xây dựng mô hình khi có sự chênh lệch đáng kể về cấu trúc hoá học và hoạt tính sinh học giữa hai tập trên Do đó:

- Sử dụng thuật toán nhúng lân cận ngẫu nhiên bằng phân phối Student (t- Distributed Stochastic Neighbor Embedding hay t-SNE) để trực quan hoá không gian hoá học của CSDL, từ đó sơ bộ đánh giá sự tương đồng về cấu trúc giữa hai tập Phương pháp trực quan hoá trên được thực hiện bằng ngôn ngữ lập trình Python với môi trường lập trình là Google Colaboratory

- Sử dụng phương pháp thống kê để kiểm chứng giả thuyết về sự sai khác có ý nghĩa thống kê giữa giá trị pIC50 giữa hai tập trên Phương pháp thống kê được thực hiện bằng ngôn ngữ lập trình R và phần mềm RStudio

Bước 4: Huấn luyện mô hình và đánh giá nội mô hình dựa trên tập huấn luyện

Lựa chọn phương pháp hồi quy để xây dựng mô hình QSAR với thuật toán sử dụng là máy hỗ trợ vector hồi quy (Support Vector Regression-SVR) Mô hình được xây dựng bằng ngôn ngữ lập trình Python với môi trường lập trình là Google Colaboratory Đánh giá nội mô hình, bao gồm đánh giá mức độ phù hợp và độ ổn định, thông qua các chỉ số: hệ số xác định của tập huấn luyện (R 2 train ), hệ số thẩm định chéo 10 lần (10-fold cross-validation) (Q 2 10cv ), hệ số kiểm tra Y ngẫu nhiên (R 2 rand và Q 2 rand ) Công thức và yêu cầu về ngưỡng giá trị của từng hệ số được trình bày ở Bảng 2.1

Bước 5: Đánh giá khả năng dự đoán của mô hình dựa trên tập kiểm tra

Sau khi xây dựng mô hình đạt yêu cầu về đánh giá nội, mô hình được sử dụng để dự đoán trên tập kiểm tra Đánh giá khả năng dự đoán của mô hình thông qua các chỉ số: hệ số xác định của tập kiểm tra (R 2 test ), sai số toàn phương trung bình (RMSE), sai số tuyệt đối trung bình (MAE), hệ số góc của đường tương quan giữa giá trị pIC50 thực tế với dự đoán và ngược lại (K, K’) Công thức và yêu cầu về ngưỡng giá trị của từng hệ số được trình bày ở Bảng 2.1

Bảng 2.1 Một số chỉ số dùng để đánh giá mô hình QSAR

Chỉ số Công thức Yêu cầu

Chú thích: 𝑦 𝑖 , 𝑦̂ lần lượt là giá trị thực tế và giá trị dự đoán từ mô hình; 𝑦 𝑖 𝑖 là giá trị trung bình; train, test, 10cv, rand, randCV lần lượt là tập huấn luyện, tập kiểm tra, thẩm định chéo 10 lần, kiểm tra Y ngẫu nhiên và thẩm định chéo Y ngẫu nhiên; L(K) là hàm mất mát của phương trình hồi quy tuyến tính, n là số quan sát

Bước 6: Xây dựng miền cấu trúc ứng dụng và đánh giá độ tin cậy của các dự đoán

Sử dụng giản đồ William để xây dựng miền cấu trúc ứng dụng Giản đồ William mô tả phần dư chuẩn hoá của các dự đoán từ mô hình và giá trị leverage của mỗi chất đối với tập huấn luyện Giá trị leverage (ℎ 𝑖 ) của một chất với một mô hình phản ánh khoảng cách Euclid từ chất đó tới trung tâm của tập huấn luyện của mô hình, được tính bởi công thức:

ℎ 𝑖 = 𝑥⃗⃗⃗ (𝑋 𝑖 𝑇 𝑋) −1 𝑥⃗⃗⃗⃗ 𝑖 𝑇 trong đó: ℎ 𝑖 là giá trị leverage của chất i; 𝑥⃗⃗⃗ là vector tham số mô tả phân tử của chất i; 𝑖

X là ma trận mô tả tập huấn luyện với mỗi hàng tương ứng là mỗi chất trong tập huấn luyện và mỗi cột là các tham số mô tả phân tử được sử dụng để xây dựng mô hình

Ngưỡng cảnh báo cho giá trị leverage là ℎ ∗ = 3(𝐾+1)

𝑁 , trong đó K là số tham số mô tả phân tử sử dụng, N là số lượng phần tử trong tập huấn luyện [85] Khi giá trị leverage vượt quá ngưỡng cảnh báo thì chất đó có khoảng cách Euclid xa hay có độ tương đồng thấp so với tập huấn luyện, do đó sẽ được coi là nằm ngoài không gian hoá học mà ở đó mô hình có khả năng đưa ra được dự đoán đáng tin cậy Ngoài ra, khi giá trị tuyệt đối phần dư chuẩn hoá của một chất lớn hơn 3 cho thấy khả năng dự đoán của mô hình trên chất đó không cao Các chất không nằm trong miền cấu trúc ứng dụng được coi là các ngoại lai (outlier) Trong nghiên cứu này, các ngoại lai sẽ được loại bỏ và chỉ giữ lại những chất thuộc miền cấu trúc ứng dụng

2.3.2 Phương pháp xây dựng mô hình pharmacophore

Trong nghiên cứu này, chúng tôi lựa chọn phương pháp xây dựng mô hình pharmacophore dựa trên phối tử, với phần mềm sử dụng là Psearch [35] được chạy trong môi trường lập trình Visual Studio Code Mô hình pharmacophore có bản chất là mô hình phân loại và được xây dựng với quy trình gồm các bước sau:

Bước 1: Lựa chọn tập huấn luyện

Tập huấn luyện cho mô hình pharmacophore được lựa chọn từ CSDL dùng để xây dựng mô hình QSAR, cụ thể gồm những chất có giá trị pIC50 ≥ 7 được gán nhãn là

“active” và những chất có giá trị pIC50 ≤ 5 được gán nhãn là “inactive” Các chất trong CSDL trên được mã hoá bằng dấu vân tay phân tử 2D pharmacophore bằng thư viện RDKit và được nhóm thành cụm bằng thuật toán phân cụm Butina (Butina Clustering) Việc phân cụm giúp chọn lựa được những cấu trúc đặc trưng nhất cho từng nhãn “active” và “inactive” dùng để xây dựng mô hình, đồng thời giảm số lượng chất dùng để huấn luyện, từ đó giảm thời gian huấn luyện cho mô hình

Bước 2: Tiền xử lý tập huấn luyện

KẾT QUẢ NGHIÊN CỨU

Mô hình QSAR

3.1.1 Kết quả phân chia tập huấn luyện và tập kiểm tra

CSDL gồm 1681 chất được chia ngẫu nhiên vào tập huấn luyện (1352 chất) và tập kiểm tra (329 chất) (Phụ lục 1) Các chất đều được mã hoá bằng dấu vân tay morgan với bán kính xuyên tâm (radius) bằng 4 và số bit (nBits) bằng 256 Sau đó, kiểm tra tính hợp lý của việc chia CSDL dựa trên tương đồng về cấu trúc và hoạt tính sinh học

3.1.1.1 Kết quả đánh giá tương đồng về cấu trúc

Sự tương đồng (similarity) cấu trúc được đánh giá dựa trên khoảng cách (distance) theo công thức: similarity = 1

Nếu hai chất có khoảng cách Euclid trong không gian càng gần nhau (tiến tới 0) thì sự tương đồng của chúng càng cao (tiến tới 1) Do đó, để giảm chiều không gian của CSDL từ 256 chiều nhằm trực quan hoá nhưng vẫn bảo tồn được khoảng cách tương đối giữa các chất, đề tài lựa chọn thuật toán t-SNE với các siêu tham số được lựa chọn: n_components = 2 hoặc 3, perplexity = 30,0, early_exaggeration = 12,0, learning_rate

= 200, n_iter = 1000, n_iter_without_progress = 300, min_grad_norm = 1e-07, metric

= ‘euclidean’ Kết quả được mô tả ở Hình 3.1 và Hình 3.2 Đánh giá sơ bộ cho thấy khi trực quan hoá bằng không gian 2 chiều và 3 chiều, các chất thuộc tập kiểm tra có khoảng cách khá gần so với các chất thuộc tập huấn luyện, đồng thời ở cả hai tập hình thành các phân cụm khá tương đồng về vị trí so với nhau Điều này thể hiện sơ bộ rằng tập kiểm tra đang nằm lân cận trong vùng không gian hoá học của tập huấn luyện Tuy nhiên, để có những đánh giá cụ thể hơn về sự tồn tại của ngoại lai thì sẽ phải dựa vào miền cấu trúc ứng dụng (trình bày ở Phần 3.1.2.2)

Hình 3.1 Trực quan hoá bằng t-SNE 2 chiều

Hình 3.2 Trực quan hoá bằng t-SNE 3 chiều

3.1.1.2 Kết quả đánh giá tương đồng về hoạt tính sinh học

Hoạt tính sinh học của các chất trong CSDL được chuyển dưới dạng pIC50 Sử dụng kiểm định Kolmogorov-Smirnov để kiểm tra xem dữ liệu ở hai tập có tuân theo phân bố chuẩn không và sử dụng kiểm định xếp hạng tổng Wilcoxon (hay Mann-Whitney) để so sánh trung vị của hai nhóm Kết quả mô tả ở Bảng 3.1 và Hình 3.3

Bảng 3.1 Kết quả thống kê hoạt tính sinh học của hai tập

Tập huấn luyện Tập kiểm tra Kiểm định Kolmogorov-Smirnov p-value 0,01) Từ đó kết luận rằng, quá trình chia CSDL thành hai tập tương đương nhau về hoạt tính sinh học

3.1.2 Kết quả huấn luyện mô hình QSAR

Dữ liệu đầu vào để huấn luyện mô hình là tập huấn luyện được biểu diễn dưới dạng ma trận 1352 x 256 Thuật toán lựa chọn để xây dựng mô hình hồi quy là SVR với các siêu tham số cần phải tối ưu hoá là C, ε, và hàm Kernel Ngoài ra, mô hình cần được đánh giá nội để kiểm tra độ phù hợp và độ ổn định trước khi dự đoán trên tập kiểm tra

Do có thể tồn tại một số ngoại lai trong tập huấn luyện nên ngưỡng giá trị trước khi loại ngoại lai của R 2 train và Q 10CV 2 lần lượt đặt là ≥ 0,85 và ≥ 0,70 Sau đó, kiểm tra các ngoại lai bằng miền cấu trúc ứng dụng, loại bỏ chúng và kiểm tra lại độ phù hợp và độ ổn định với ngưỡng giá trị mới của R 2 train và Q 10CV 2 lần lượt là ≥ 0,90 và ≥ 0,80

3.1.2.1 Kết quả tối ưu hoá siêu tham số

Siêu tham số được tối ưu hoá thông qua phương pháp lưới tìm kiếm (gridsearch) và tìm kiếm ngẫu nhiên (randomized search) Về mặt toán học, mục đích của quá trình tối ưu hoá siêu tham số là tìm cực tiểu hàm mất mát (loss function) Do hàm mất mát xây dựng bằng thuật toán SVR là hàm lồi chặt [89], do đó để tìm cực tiểu của hàm mất mát, chúng tôi sẽ tìm kiếm từ lân cận tới cục bộ của cực tiểu Cụ thể, tìm kiếm lân cận bằng cách dựng lưới tìm kiếm với các siêu tham số với khoảng giá trị đủ lớn, sau đó tính giá trị Q 10CV 2 và vẽ bản đồ nhiệt với các bộ siêu tham số vừa dựng Tiếp đến, tìm kiếm cục bộ cực tiểu bằng tìm kiếm ngẫu nhiên với khoảng tìm kiếm hẹp hơn, sau đó thẩm định chéo 10 lần và lựa chọn bộ siêu tham số với Q 10CV 2 lớn nhất

Kết quả tìm kiếm lân cận bằng lưới tìm kiếm được mô tả ở Hình 3.4 Khoảng tìm kiếm lân cận của các siêu tham số ban đầu là C = [0,01; 10], ε = [0,01; 1] và hàm Kernel lựa chọn là ‘linear’, ‘poly’ và ‘rbf’ Sử dụng thư viện matplotlib và seaborn bằng ngôn ngữ lập trình python để vẽ bản đồ nhiệt Từ bản đồ nhiệt, ta có thể thấy hàm Kernel là

‘linear’ làm giảm hiệu năng của mô hình, trong đó với hàm Kernel là ‘poly’ và ‘rbf’ thì khoảng giá trị thu hẹp là C = [2; 4] và ε = [0,01; 0,1] cho kết quả Q 2 10CV > 0,70 Do đó, tiếp tục tìm kiếm cục bộ trong khoảng giá trị thu hẹp trên với thuật toán tìm kiếm ngẫu nhiên, trong đó giá trị C và ε được cài đặt là các biến liên tục thuộc phân phối đồng nhất (uniform distribution) trong khoảng giá trị thu hẹp Mục đích lựa chọn phân phối đồng nhất là để xác suất chọn ngẫu nhiên giá trị C và ε là như nhau Chạy 100 bộ siêu tham số ngẫu nhiên khác nhau, với mỗi bộ sẽ thẩm định chéo 3 lần Kết quả tối ưu hoá siêu tham số thu được và đánh giá nội của mô hình như sau:

Kết quả thể hiện rằng mô hình có độ khớp cao (R 2 train = 0,96) với tập huấn luyện, tuy nhiên khi thẩm định chéo 10 lần cho kết quả trung bình (Q 10CV 2 = 0,71) Điều này có thể giải thích bởi sự tồn tại của một số ngoại lai trong tập huấn luyện chưa được phát hiện mà có thể ảnh hưởng tới độ ổn định của mô hình

Hình 3.4 Bản đồ nhiệt thể hiện kết quả tối ưu hoá siêu tham số bằng lưới tìm kiếm

3.1.2.2 Kết quả xây dựng miền cấu trúc

Miền cấu trúc được xây dựng bằng giản đồ William Ngưỡng cảnh báo giá trị leverage là: 0 < hi < h * = 3(256+1)

1352 = 0,5703 Khoảng phần dư chuẩn hoá đặt từ -3 tới 3 Kết quả cho thấy giản đồ William phát hiện 3 ngoại lai nằm ngoài ngưỡng cảnh báo giá trị leverage và 40 ngoại lai nằm ngoài khoảng phần dư chuẩn hoá với khoảng tương đối rộng (từ -8,26 tới -3 và từ 3 tới 10,44) Tất cả các ngoại lai trên đều bị loại ra khỏi mô hình, sau đó đánh giá nội lại mô hình Kết quả đánh giá lại như sau:

So với kết quả trước, độ khớp của mô hình đã được cải thiện khi Q 10CV 2 đã đạt yêu cầu về ngưỡng giá trị (0,80) Tuy nhiên, mô hình có độ khớp với tập huấn luyện mới rất cao với R 2 train = 0,99 Điều này thể hiện nguy cơ xảy ra hiện tượng quá khớp (overfitting) khi mô hình có khả năng “học tốt” trên tập huấn luyện mà dẫn tới dự đoán kém trên tập kiểm tra Giản đồ William của tập huấn luyện sau khi đã loại bỏ các ngoại lai được mô tả ở Hình 3.5

3.1.2.3 Kết quả kiểm tra Y ngẫu nhiên Để đánh giá xem kết quả huấn luyện của mô hình có phải do ngẫu nhiên hay không, nghiên cứu sử dụng kiểm tra Y ngẫu nhiên với số lần ngẫu nhiên là 100 Với 100 bộ dữ liệu ngẫu nhiên, mô hình sẽ được huấn luyện và thẩm định chéo 10 lần, từ đó tính ra các chỉ số R rand 2 và Q 2 rand cho mỗi lần Giá trị trung bình của 100 lần huấn luyện sẽ được tính và so sánh với R 2 train và Q 10CV 2 Kết quả kiểm tra Y ngẫu nhiên như sau:

Từ kết quả trên cho thấy việc ngẫu nhiên hoá bộ dữ liệu ban đầu làm giảm đáng kể hiệu năng của mô hình Hơn thế nữa, quá trình ngẫu nhiên hoá làm cho dự đoán có hệ số xác định âm, chứng tỏ mô hình không hề khớp với bộ dữ liệu ngẫu nhiên Từ đó cho thấy kết quả huấn luyện của mô hình không phải do ngẫu nhiên mà do quá trình “học” của mô hình trên tập huấn luyện

3.1.3 Kết quả dự đoán của mô hình trên tập kiểm tra

Trước khi đánh giá khả năng dự đoán của mô hình, các chất trong tập kiểm tra cần phải thỏa mãn miền cấu trúc ứng dụng, tức là 0 < hj < h ** = 3 (256+1)

Mô hình pharmacophore

3.2.1 Kết quả huấn luyện mô hình pharmacophore

Từ CSDL gồm 1681 chất dùng để xây dựng mô hình QSAR, gán nhãn những chất có pIC50 ≥ 7 “active” và pIC50 ≤ 5 là “inactive” Từ đó lựa chọn được 428 active và 145 inactive Tổng 573 chất trên sẽ được phân cụm theo ButinaClustering với ngưỡng khoảng cách là 0,2, được tính từ chỉ số Tanimoto khi mã hoá các chất theo dấu vân tay phân tử 2D pharmacophore Thực hiện phân cụm theo từng nhãn và lựa chọn trung tâm của từng cụm làm đại diện dùng để huấn luyện mô hình Kết quả lựa chọn tập huấn luyện gồm 29 chất, trong đó có 23 active và 6 inactive Danh sách 29 chất được mô tả ở

Phụ lục 2 Kết quả quá trình huấn luyện thu được là 8 mô hình pharmacophore, tất cả đều là mô hình 4 điểm Các mô hình trên sẽ được sẽ được đánh giá khả năng dự đoán bằng tập kiểm tra

3.2.2 Kết quả đánh giá mô hình pharmacophore

3.2.2.1 Kết quả xây dựng tập kiểm tra

Trước hết, 405 chất active và 139 chất inactive còn lại của CSDL không được dùng để huấn luyện sẽ được chọn làm tập kiểm tra Tiếp đến, sử dụng mã SMILES của 428 chất active trong CSDL ban đầu để khởi tạo cấu trúc các chất mồi nhử bằng trang web [98] Kết quả thu được gồm 16014 chất mồi nhử được biểu diễn dưới dạng SMILES Sau khi loại bỏ các chuỗi SMILES trùng nhau, thu được 15348 chất mồi nhử Như vậy, tập kiểm tra dùng để đánh giá khả năng phân loại của mô hình sẽ gồm 15892 chất, bao gồm 405 chất active và 15487 chất inactive Tất cả các chất được xuất dưới dạng SMILES và trình bày ở Phụ lục 3

3.2.2.2 Kết quả đánh giá mô hình pharmacophore

Kết quả đánh giá mô hình trên tập kiểm tra được mô tả chi tiết ở Bảng 3.2 và tóm tắt ở Hình 3.7 Dựa vào kết quả trình bày ở trên, có thể thấy mô hình 3 có các giá trị độ chuẩn xác, 𝐹 0,5 score, MCC, GH vượt qua ngưỡng giá trị đặt ra Bên cạnh đó, số lượng dương tính giả và âm tính giả của mô hình là thấp nhất trong 8 mô hình Do đó, lựa chọn mô hình 3 để tiến hành sàng lọc các cấu trúc tiềm năng sau này Mô hình 3 gồm 2 vòng thơm (a), 1 nhóm nhận liên kết hydro (A) và 3 cấu trúc thân dầu (H), trong đó 2 vòng thơm sẽ trùng với 2 cấu trúc thân dầu, tức là vùng không gian đó được chiếm chỗ bởi vòng thơm hoặc cấu trúc thân dầu Bán kính các nhóm đặc trưng là 1Å Đồ thị pharmacophore mô hình 3 được mô tả ở Hình 3.8

Hình 3.7 Tóm tắt kết quả đánh giá các mô hình pharmacophore

Bảng 3.2 Kết quả đánh giá các mô hình pharmacophore

STT Chỉ số Mô hình

1 Tổng số chất trong tập kiểm tra (D)

2 Tổng số chất active trong tập kiểm tra (A)

3 Tổng số hit dự đoán (Ht) 518 505 402 453 726 450 569 341

4 Số chất hit là chất active (a) 295 223 304 255 251 147 187 210

Hình 3.8 Đồ thị pharmacophore mô hình 3

Thiết kế một số cấu trúc mới hướng ức chế QC

Trước hết, dựa trên kết quả của phương pháp elbow, số phân cụm tối ưu được lựa chọn là 4 (Hình 3.9) Đồng thời kiểm tra tính hợp lý của việc lựa chọn số phân cụm là

4 bằng thuật toán t-SNE kết hợp bản đồ nhiệt Lựa chọn các siêu tham số cho thuật toán t-SNE tương tự Phần 3.1.1.1 nhưng độ đo (metric) được đặt là ‘jaccard’ Kết quả được thể hiện ở Hình 3.10 và Hình 3.11 Từ biểu đồ có thể thấy 428 chất được nhóm lại thành

4 phân cụm riêng biệt, tuy nhiên phân cụm 1 và 3 khá gần nhau Khi vẽ bản đồ nhiệt thể hiện mối tương đồng về cấu trúc dựa trên chỉ số Tanimoto, có thể thấy phân cụm 1 và 3 có sự tương đồng nhất định Tuy nhiên, sự tương đồng trên là không có ý nghĩa thống kê (p-valuewilcoxon < 0,01) Vậy 4 phân cụm trên sẽ được sử dụng để tìm kiếm những khung cấu trúc chung bằng thư viện ScaffoldGraph và các đặc điểm cấu trúc có ảnh hưởng nhất tới hoạt tính bởi phương pháp đột biến điểm đặc trưng.

Hình 3.9 Lựa chọn số cụm tối ưu theo phương pháp elbow

Hình 3.10 Kết quả phân cụm của 428 chất

Hình 3.11 Sự tương đồng về cấu trúc giữa các phân cụm

Kết quả tìm kiếm khung cấu trúc chung bằng thư viện ScaffoldGraph và tìm kiếm các đặc điểm cấu trúc ảnh hưởng tới hoạt tính bằng phương pháp đột biến điểm đặc trưng dựa trên mô hình QSAR được tổng hợp ở Hình 3.12 và Hình 3.13 Các đặc điểm cấu trúc được tìm thấy từ mô hình QSAR được tô màu đỏ Từ các thông tin thu được, ý tưởng thiết kế các dãy cấu trúc mới được thể hiện ở Hình 3.12 và Hình 3.13 tương ứng với mỗi phân cụm Ở phân cụm 3, khung cấu trúc chung được tìm thấy đều dựa trên bộ khung pharmacophore của các chất ức chế QC cổ điển, được đề cập tới ở Phần 1.1.5 Các đặc điểm cấu trúc được tìm thấy ảnh hưởng tới hoạt tính như dị tố nitơ ở vị trí số 3 trên vòng imidazol (nhóm gắn kẽm); nhóm thiourea hoặc urea (tương tác với Gln304); hay vòng benzen cùng nhóm thế alkyloxy ở vị trí số 4 (tương tác với Phe325, Pro324) ở khung cấu trúc chung phân cụm 3 đều giống với các công bố về liên quan cấu trúc-tác dụng đã được công bố trước đây [24, 59] Ở phân cụm 1, khung cấu trúc chung được tìm thấy cũng dựa trên bộ khung pharmacophore cổ điển, trong đó đáng chú ý là phần B mang hệ đa dị vòng có cấu trúc tương tự nhóm thiourea của phân cụm 3 Trên cơ sở đó, trong nghiên cứu này chúng tôi tiến hành thiết kế hợp chất mới bằng cách thay thế khung cấu trúc chung ban đầu bởi các đẳng cấu sinh học nhằm tìm kiếm các cấu trúc mới, đồng thời bảo tồn các đặc điểm cấu trúc quan trọng được đề cập ở trên, cụ thể là (Hình 3.12):

Hình 3.12 Khung cấu trúc chung của phân cụm 1, 3 và ý tưởng thiết kế

- Thay thế nhóm gắn kẽm ở phần A bằng các cấu trúc đơn vòng như 1,2,3-triazol, 1,2,4-triazol, tetrazol Bên cạnh đó, dựa vào hình ảnh kết tinh của PBD150 với

QC và các tài liệu về cấu trúc được công bố trước đây, vai trò của Trp207 kế cận trung tâm hoạt động cũng đáng được chú ý Do đó, trong nghiên cứu này sẽ thiết kế nhóm gắn kẽm bằng các hợp chất đa vòng nhằm tạo liên kết π-π với Trp207 và các nhóm thế liên kết kị bổ sung với Glu201, Asp208 Cụ thể là các hợp chất đa vòng như quinazolin, quinolin, isoquinolin và benzodiazin

- Thay thế cấu trúc phần B bằng nhóm amid và urea Ngoài ra, tương tự cấu trúc chung của phân cụm 1 chứa các hợp chất đa vòng, nghiên cứu sẽ thiết kế phần B dựa trên cấu trúc dựa trên một số thuốc có tác động trên thần kinh trung ương, như imipramin và diazepam, nhằm tăng sự đa dạng trong cấu trúc

- Phần C sẽ giữ nguyên trong nghiên cứu này, bên cạnh đó phần D giữ nguyên hoặc thiết kế với cấu trúc oxyalkylbenzen cùng các nhóm thế khác nhau (Danh sách nhóm thế được trình bày ở Hình 3.13)

Hình 3.13 Khung cấu trúc chung của phân cụm 2, 4 và ý tưởng thiết kế Ở phân cụm 2 và 4, khung cấu trúc chung thu được có trung tâm là một dị vòng 5 cạnh cùng với các nhóm thế khác nhau Bên cạnh đó, đáng chú ý là nhóm thế ở vị trí số

1 trên khung dị vòng 5 cạnh trung tâm mang vòng imidazol và benzimidazol khá tương đồng so với phần A của bộ khung pharmacophore cổ điển Bên cạnh đó, vòng lactam (phân cụm 2) và vòng imidazolidon (phân cụm 4) mang cấu trúc tương đồng với phần

B Tuy nhiên, các chất ở phân cụm 2 và 4 đều thiếu những nghiên cứu in silico, do đó những thông tin sâu hơn về tương tác giữa phối tử và protein không được biết đến Chính vì thế, trong nghiên cứu này toàn bộ những phần cấu trúc quan trọng (màu đỏ) sẽ được giữ lại, còn các vị trí thế còn lại trên dị vòng trung tâm (vị trí thế số 5) sẽ được khai thác (Hình 3.13) Trong đó, dãy 5 và 6 được thiết kế dựa trên khung 5, 6-dimethoxyindanon của thuốc Donepezil, một thuốc được FDA cấp phép điều trị bệnh Alzheimer nhưng với cơ chế khác (ức chế enzym acetylcholinesterase) [96]

Kết quả thiết kế gồm 41592 chất, cụ thể dãy 1 (4064 chất), dãy 2 (2070 chất), dãy 3 (9996 chất), dãy 4 (2880 chất), dãy 5 (2380 chất), dãy 6 (5082 chất) và dãy 7 (15120 chất) Các chất được đánh mã dạng a_b với a là số thứ tự của dãy, b là số thứ tự của chất trong dãy (Ví dụ: chất 5_1701 là chất thứ 1701 trong dãy 5) Tất cả các chất trên được xuất dưới dạng SMILES (Phụ lục 4) và dùng để sàng lọc ảo.

Kết quả sàng lọc ảo

Kết quả quy trình sàng lọc ảo được tóm tắt ở Hình 3.14 Các chất được dự đoán có tiềm năng ức chế QC phải thoả mãn toàn bộ 5 yêu cầu sau:

- Nằm trong miền cấu trúc ứng của mô hình QSAR

- Có pIC50 dự đoán ≥ 7,00 thông qua mô hình QSAR

- Thỏa mãn mô hình pharmacophore 3

- Không vi phạm hơn 1 tiêu chí Lipinski và dự đoán có khả năng thấm qua BBB

- Có giá trị ∆G docking âm hơn giá trị của chất đối chứng

Hình 3.14 Tóm tắt quá trình sàng lọc ảo trong nghiên cứu Đầu tiên, 7 dãy dẫn chất được sàng lọc qua mô hình QSAR, trong đó chỉ dự đoán pIC50 của những chất nằm trong miền cấu trúc ứng dụng (h 𝑖 ≤ 0,5890) Những chất dự đoán có pIC50 ≥ 7,00 sẽ được coi là có hoạt tính Kết quả dự đoán của mô hình QSAR được trình bày ở Bảng 3.3 Như vậy có tất cả 349 chất nằm trong miền ứng dụng mà được mô hình QSAR dự đoán có pIC50 ≥ 7,00

Bảng 3.3 Kết quả dự đoán hoạt tính thông qua mô hình QSAR

Dãy Số chất nằm trong miền cấu trúc ứng dụng pIC50 dự đoán

Tiếp đến, 349 chất trên sẽ được sàng lọc qua mô hình pharmacophore Kết quả cho thấy có 339 chất thỏa mãn mô hình pharmacophore và điều đáng chú ý là đó là toàn bộ

339 chất có pIC50 ≥ 7,00 từ dãy 5 Sau đó, toàn bộ 339 chất được kiểm tra đặc tính giống thuốc thông qua tiêu chí của Lipinski và dự đoán tính thấm qua BBB, kết quả cho thấy có 155 chất thỏa mãn yêu cầu 155 chất này sẽ được tiến hành docking phân tử với chất đối chứng là PQ912, kết quả thu được có 78 chất cho giá trị năng lượng liên kết thấp hơn so với chất đối chứng Kết quả của quá trình docking được trình bày ở Phần 3.5.

Mô phỏng docking phân tử

Một trong những vấn đề cần lưu ý khi thực hiện mô phỏng docking phân tử là tính ổn định của quy trình Do đó, với quy trình được trình bày ở Phần 2.3.4, tiến hành thẩm định và tối ưu hóa quy trình docking bằng cách docking lại phối tử đồng kết tinh vào các tinh thể tương ứng Các tinh thể của QC được sử dụng trong nghiên cứu này bao gồm: 2AFW, 2ZEG, 3PB7, 3PB9, 3PBB, 3SI0, 4YWY và 6GBX Kết quả giá trị RMSD của quá trình docking lại phối tử đồng kết tinh vào các tinh thể tương ứng được trình bày ở Bảng 3.4 Kết quả tương quan giữa giá trị ∆G thực nghiệm và ∆G dự đoán được trình bày ở Bảng 3.5 và Hình 3.15 Có thể thấy giá trị RMSD đều nhỏ hơn 2Å, đồng thời hệ số tương quan giữa giá trị ∆G thực nghiệm và dự đoán bằng 0,78, từ đó cho thấy quy trình docking mà nghiên cứu sử dụng là ổn định và có khả năng ứng dụng để sàng lọc các cấu trúc mới

Bảng 3.4 Kết quả giá trị RMSD của quá trình docking lại các phối tử đồng kết tinh

Mã protein RMSD Mã protein RMSD

Bảng 3.5 Kết quả ∆G thực nghiệm và dự đoán giữa phối tử đồng kết tinh và tinh thể

2AFW 3PB7 3PB9 3PBB 4YWY 6GBX

Chú thích: *∆G thực nghiệm = R*T*ln(K i ), với R là hằng số khí (1,985 kcal.mol -1 K -1 );

T là nhiệt độ tuyệt đối (298,15 K); K i là hằng số ức chế (M)

Hình 3.15 Tương quan giữa ∆G thực nghiệm và ∆G dự đoán

Từ kết quả trên, nghiên cứu lựa chọn protein QC với mã 3PBB để tiến hành sàng lọc các cấu trúc mới do giá trị RMSD giữa của phối tử PBD150 đồng kết tinh và docking lại là thấp nhất với RMSD = 0,7036Å (Hình 3.16) Ngoài ra, quá trình docking lại cũng tái hiện lại các tương tác quan trọng giữa PBD150 và enzym QC như liên kết với ion kẽm ở trung tâm hoạt động, liên kết kị nước với Glu201, Leu249, Ile303, Ser323, Phe325 (Hình 3.17) Sau đó, tiến hành docking 155 chất đã sàng lọc được trình bày ở

Phần 3.4 với chất đối chứng là PQ912 Kết quả cho thấy, có 78 chất cho kết quả năng lượng liên kết thấp hơn so với PQ912, với toàn bộ kết quả về giá trị ∆G dự đoán (nằm trong khoảng từ -7,31 đến -8,68 kcal.mol -1 ) và các tương tác hình thành được trình bày chi tiết tại Bảng 3.6, Phụ lục 5 và Phụ lục 6

Hình 3.16 Xếp chồng cấu dạng của PBD150 docking lại có mức năng lượng thấp nhất và phối tử đồng kết tinh vào tinh thể của QC

Chú thích: PBD150 đồng kết tinh (mạch carbon màu vàng xám), PBD150 docking lại (mạch carbon màu xanh lam), ion kẽm (khối cầu màu đỏ)

Hình 3.17 Mô phỏng tương tác của phối tử docking lại (A) và đồng kết tinh (B)

Bảng 3.6 Kết quả docking của 10 chất có năng lượng liên kết thấp nhất và PQ912

Cấu trúc Năng lượng liên kết (kcal.mol -1 )

5-522 2 3-phenylphenyl -8,31 Gln304, Trp329 Leu249 Glu201 Có

BÀN LUẬN

Bàn luận về xây dựng mô hình QSAR

Về dữ liệu đầu vào, nghiên cứu hiện tại lựa chọn dấu vân tay phân tử Morgan để mã hoá cho các chất trong CSDL ban đầu Một trong những nhược điểm khi sử dụng loại biến độc lập trên để mô tả cấu trúc chất là việc lựa chọn bán kính xuyên tâm và số bit của dãy nhị phân sao cho phù hợp Nếu số bit quá dài thì kéo dài thời gian huấn luyện mô hình, đồng thời sẽ tăng thêm nhiễu cho mô hình Bên cạnh đó, việc sử dụng nhiều bit sẽ gây ra hiện tượng đa cộng tuyến (multicollinearity) giữa các bit, do đó không thể đánh giá được bit nào sẽ có mức độ ảnh hưởng quan trọng tới mô hình Ngược lại, nếu số bit quá ngắn thì lượng thông tin thu được về cấu trúc mỗi chất là ít, đồng thời làm cho mô hình trở nên “rải rác” (sparse data), dẫn tới giảm hiệu năng của mô hình Còn đối với bán kính xuyên tâm, nếu độ dài bán kính lựa chọn quá ngắn thì chỉ thu được những mảnh cấu trúc cục bộ, thường không mang nhiều ý nghĩa cho việc diễn giải mô hình Tuy nhiên, nếu độ dài bán kính xuyên tâm quá lớn thì sự thay đổi nhỏ trong cấu trúc cũng sẽ ảnh hưởng tới kết quả đầu ra Do đó, trong nghiên cứu này đã thử các tham số trên với các lựa chọn khác nhau và bộ tham số tối ưu cho mô hình là độ dài bán kính xuyên tâm bằng 4 và số bit của dãy nhị phân bằng 256

Về thuật toán, nghiên cứu hiện tại lựa chọn thuật toán SVR để xây dựng mô hình Ưu điểm của thuật toán trên là có khả năng giải quyết trên bộ dữ liệu “rải rác”, đồng thời siêu tham số điều chuẩn C (regularization hyperparameter) có khả năng kiểm soát tình trạng quá khớp của mô hình tương đối hiệu quả Ngoài ra, việc lựa chọn hàm Kernel phù hợp cũng là một ưu điểm đáng chú ý Khi mới xây dựng mô hình, chúng tôi gặp khó khăn khi xây dựng các mô hình tuyến tính do tính “rải rác” của dữ liệu đầu vào Do đó, việc lựa chọn hàm Kernel là rbf để đưa một bộ dữ liệu phi tuyến tính trở về tuyến tính đã giải quyết vấn đề trên Tuy nhiên, nhược điểm lớn nhất của thuật toán SVR đó là khả năng diễn giải (interpretation) của mô hình do thuật toán có độ phức tạp cao Trong nghiên cứu này, chúng tôi chỉ tập trung diễn giải mô hình dựa trên kết quả của phương pháp đột biến điểm đặc trưng, nhằm tìm ra biến độc lập nào có tác động lớn tới kết quả mô hình, hay mảnh cấu trúc nào có ảnh hưởng lên hoạt tính sinh học

Về kết quả, mô hình QSAR xây dựng trong nghiên cứu hiện tại có độ khớp cao với tập huấn luyện (R train 2 = 0,99) và độ ổn định cao được xác định thông qua phương pháp thẩm định chéo 10 lần với Q 2 10CV = 0,80 và kiểm tra Y ngẫu nhiên với R rand 2 = -0,49 và

Q 2 rand = -0,24 Bên cạnh đó, mô hình cũng thể hiện khả năng dự đoán tốt trên tập kiểm tra gồm 329 chất với R 2 test = 0,83 và không có chất nào nằm vượt khỏi miền cấu trúc ứng dụng Việc không có chất nào vượt khỏi miền cấu trúc ứng dụng cũng góp phần khẳng định được tính hợp lý trong việc chia ngẫu nhiên tập huấn luyện và tập kiểm tra từ CSDL ban đầu Khi xem xét kĩ hơn về giản đồ William kết hợp với biểu đồ ước tính mật độ hạt nhân (Kernel Density Estimation - KDE) (Hình 4.1), phần dư chuẩn hoá của tập kiểm tra có xu hướng tập trung vào trung tâm, điều này phản ánh giá trị pIC50 dự đoán trên tập kiểm tra gần sát với giá trị pIC50 thực tế

Hình 4.1 Giản đồ William và biểu đồ KDE

Ngoài ra, so sánh kết quả của mô hình QSAR của nghiên cứu hiện tại với các nghiên cứu khác trên thế giới (Bảng 4.1) có thể rút ra những ưu, nhược điểm của từng nghiên cứu Hầu hết các nghiên cứu đều sử dụng mô hình hồi quy bình phương tối thiểu (PLS) để xây dựng mô hình QSAR, khác nhau giữa các nghiên cứu là cách lựa chọn các tham số mô tả phân tử Các cách lựa chọn có thể kể đến như sử dụng các lưới lọc khác nhau của quy trình tổ hợp áp dụng đa hồi quy tuyến tính (CP-MLR), sử dụng thuật toán Monte-Carlo để lựa chọn tham số mô tả phân tử tối ưu, sử dụng bộ tham số mô tả phân tử 2D hoặc 3D-CoMFA Hầu hết các nghiên cứu đều cho kết quả dự đoán trên tập kiểm tra khá tốt, đặc biệt nghiên cứu của Kumar và cộng sự năm 2013 [33] và năm 2023 [34] cho kết quả dự đoán tốt hơn so với nghiên cứu hiện tại Tuy nhiên, ngoại trừ nghiên cứu của Kumar và cộng sự năm 2023, các nghiên cứu còn lại chưa xây dựng miền cấu trúc ứng dụng, điều đó góp phần làm giảm độ tin cậy của các dự đoán trong nghiên cứu Hơn nữa trong các nghiên cứu trên, tập dữ liệu dùng để huấn luyện mô hình có cấu trúc tương đồng với nhau (tương ứng với khung cấu trúc chung 1 và 3 ở Hình 3.12), do đó có thể xảy ra hiện tượng quá khớp trên khung cấu trúc chung đó và làm giới hạn khả năng dự đoán của mô hình trên các chất có cấu trúc khác Một điều đáng chú ý khác và cũng là điểm nổi bật của nghiên cứu hiện tại là đánh giá khả năng dự đoán của mô hình trên tập kiểm tra có số lượng dữ liệu lớn gấp hơn 10 lần so với các nghiên cứu khác, trong đó toàn bộ tập kiểm tra đều nằm trong miền cấu trúc ứng dụng Như vậy, dựa trên kết quả so sánh này có thể thấy chất lượng của mô hình được xây dựng trong nghiên cứu hiện tại so với các nghiên cứu đã công bố là đủ cao và phù hợp để đưa ra các dự đoán hoạt tính sinh học có độ tin cậy cao của các dẫn chất mới

Bảng 4.1 So sánh giữa mô hình QSAR của nghiên cứu hiện tại và của các nghiên cứu khác

Tập huấn luyện Tập kiểm tra

Số chất 𝑅 𝑡𝑟𝑎𝑖𝑛 2 𝑄 2 Số chất 𝑅 𝑡𝑒𝑠𝑡 2 [33] CP-MLR/PLS 33 0,81-0,90 0,45-0,74 12 0,36-0,90

Nghiên cứu hiện tại Morgan-SVR 1309 0,99 0,80 329 0,83

Chú thích: CP-MLR: Đa hồi quy tuyến tính sử dụng quy trình tổ hợp (Combinatorial Protocol in Multiple Linear Regressions); PLS: Hồi quy bình phương tối thiểu (Partial Least Squares)

Bàn luận về xây dựng mô hình pharmacophore

Về dữ liệu đầu vào, với mục đích giảm nhiễu cho mô hình và tiết kiệm thời gian huấn luyện nhưng vẫn đảm bảo tính đa dạng và đặc trưng của tập huấn luyện, nghiên cứu hiện tại đã sử dụng phương pháp phân cụm Butina dựa trên dấu vân tay phân tử 2D pharmacophore Bên cạnh đó, ở Phụ lục 2 chúng ta cũng có thể thấy sự đa dạng trong cấu trúc của 23 chất có hoạt tính và 6 chất không có hoạt tính, từ đó chứng tỏ rằng kết quả huấn luyện mô hình không thể quá khớp trên một khung cấu trúc chung mà có tính khái quát cho nhiều khung cấu trúc khác nhau Sự đa dạng trong cấu trúc cũng được thể hiện bản đồ nhiệt ở Hình 4.2 mô tả chỉ số Tanimoto của các chất trong tập huấn luyện với nhau Thông thường ngưỡng của chỉ số Tanimoto để chỉ ra 2 hợp chất có sự tương đồng cao trong cấu trúc là 0,85 [65]

Về quá trình huấn luyện mô hình, ưu điểm của phương pháp sử dụng trong phần mềm Psearch là tính đơn giản về mặt thuật toán, đồng thời từ cấu dạng 3D đã cực tiểu hoá năng lượng có thể tạo ra các cấu dạng với các mức năng lượng khác nhau, được lưu dưới dạng file sdf Bên cạnh đó, phần mềm có thể nhận diện và phân biệt được các đồng phân với nhau từ dữ liệu định dạng SMILES đầu vào, từ đó tăng độ chính xác hơn cho mô hình pharmacophore Ngoài ra, phần mềm tự động cài đặt thuật toán đánh giá nội, giúp loại bỏ những giả thuyết mô hình không phù hợp, từ đó tiết kiệm hơn về mặt thời gian xử lí cũng như bộ nhớ của máy Tuy nhiên, nhược điểm lớn nhất của phương pháp trên là các nhóm đặc trưng không được phát hiện bằng việc gióng hàng mà bằng việc so sánh tương đồng giữa các lưới đồ thị pharmacophore Khi so sánh tương đồng giữa các lưới đồ thị pharmacophore, hay so sánh dưới dạng cấu trúc 2D, từ đó có thể dẫn tới sai số về khoảng cách trong không gian (do khoảng cách được làm tròn) Trong khi đó, khi sử dụng phương pháp gióng hàng điểm đặc trưng, ta hoàn toàn có thể tính được RMSD giữa các chất, từ đó đánh giá được mức độ xếp chồng giữa các nhóm đặc trưng và đưa ra kết quả chính xác hơn Bên cạnh đó, do đơn thuần là phương pháp xây dựng mô hình pharmacophore dựa trên phối tử nên phần mềm Psearch không đề cập tới nhóm đặc trưng là thể tích loại trừ, từ đó không giới hạn được vùng trung tâm hoạt động giả tưởng mà phối tử có thể gắn với protein

Hình 4.2 Bản đồ nhiệt của chỉ số Tanimoto tập huấn luyện mô hình pharmacophore

Về kết quả, nghiên cứu sử dụng tập kiểm tra đã được làm giàu bằng cách cho thêm các chất mồi nhử đã đánh giá khả năng phân biệt giữa chất có hoạt tính và không có hoạt tính Một điều cần lưu ý khi phiên giải kết quả đánh giá mô hình pharmacophore trên tập kiểm tra được làm giàu là mức độ mất cân bằng giữa những chất có hoạt tính và không có hoạt tính (trong nghiên cứu sử dụng 405 chất có hoạt tính, 15487 chất không có hoạt tính) Nếu sử dụng giá trị độ chính xác và độ nhắc lại để đánh giá thì khi mô hình phân loại sai (có thể là tăng nhẹ số lượng dương tính giả hoặc âm tính giả) sẽ làm giảm đáng kể hai chỉ số trên, mặc dù trên thực tế độ chuẩn xác thay đổi không đáng kể do tổng số lượng chất trong tập kiểm tra là rất lớn Bên cạnh đó, mục tiêu của mô hình pharmacophore dựng trong nghiên cứu hiện tại là giảm số lượng dương tính giả nhiều nhất có thể, do các dương tính giả có thể gây tốn kém về kinh phí và thời gian để tổng hợp và đánh giá hoạt tính in vitro, in vivo sau này Do đó, nghiên cứu hiện tại lựa chọn hai chỉ số quan trọng để đánh giá mô hình, đó là chỉ số MCC do có tính ổn định hơn trước mức độ phân loại sai và chỉ số 𝐹 0,5 score để với mục tiêu tối thiểu dương tính giả thay vì âm tính giả Bên cạnh đó, các chỉ số EF và GH là các chỉ số cần thiết khi đánh giá kết quả của một mô hình pharmacophore Kết quả của mô hình được trình bày ở

Phần 3.2.2.2 cho thấy khả năng phân loại chính xác của mô hình là cao, đồng thời khả năng phân biệt được giữa dương tính thật và dương tính giả là khá tốt

Kết quả của mô hình pharmacophore của nghiên cứu hiện tại với các nghiên cứu khác trên thế giới được tóm tắt tại Bảng 4.2 Các nghiên cứu khác tiếp cận việc xây dựng mô hình pharmacophore dựa trên phối tử [37] và dựa trên cấu trúc [97] nhưng đều sử dụng phần mềm Discovery Studio Điểm đặc biệt của công bố của Lin và cộng sự năm 2019 [37] là tạo ra mô hình pharmacophore 4 điểm, trong đó có 1 điểm là nhóm gắn kẽm, một kết quả thường ít được thấy trong các công bố về mô hình pharmacophore Đồng thời kết quả của nghiên cứu trên cho thấy chỉ số EF vượt trội so với nghiên cứu hiện tại Tuy nhiên, một điều đáng chú ý của nghiên cứu hiện tại đó là sử dụng tập kiểm tra có số lượng lớn hơn hẳn so với các nghiên cứu khác (gấp 3 và 30 lần), đồng thời kết quả đánh giá khá tốt, từ đó cho thấy khả năng dự đoán chính xác và khả năng phân biệt giữa chất có hoạt tính và không có hoạt tính của mô hình trong nghiên cứu hiện tại là lớn Như vậy, dựa trên kết quả so sánh này có thể thấy chất lượng của mô hình được xây dựng trong nghiên cứu hiện tại so với các nghiên cứu đã công bố là đủ cao và phù hợp để đưa ra các dự đoán các chất có hoạt tính với độ tin cậy cao

Bảng 4.2 So sánh giữa mô hình pharmacophore của nghiên cứu hiện tại và các nghiên cứu khác

Tập mồi nhử EF GH

Nghiên cứu hiện tại 29 405 15487 4 điểm 30,43 0,75

Chú thích: N/A: Không có thông tin

Bàn luận về thiết kế và kết quả sàng lọc

Về phương pháp thiết kế các dẫn chất mới, nghiên cứu đã thiết kế dựa trên khung cấu trúc chung và các đặc điểm cấu trúc quan trọng của các chất có hoạt tính ức chế QC

Do CSDL dùng trong nghiên cứu có số lượng lớn các chất có hoạt tính nên việc phân cụm CSDL dựa trên chỉ số Jaccard (Tanimoto) là cần thiết để tìm ra khung cấu trúc chung ở mỗi phân cụm Ngoài ra, việc sử dụng thư viện ScaffoldGraph có ưu điểm là có thể dễ dàng tìm thấy khung cấu trúc xuất hiện nhiều nhất ở từng phân cụm nhưng không phá vỡ hệ cấu trúc vòng thơm hoặc hệ đa vòng Tuy nhiên, thư viện trên chỉ đơn thuần đưa ra kết quả về khung cấu trúc xuất hiện với tần suất lớn nhất chứ không định lượng được mức độ ảnh hưởng của các đặc điểm cấu trúc cục bộ tới hoạt tính sinh học

Ví dụ cho thấy trong quá trình tìm kiếm khung cấu trúc chung bằng thư viện ScaffoldGraph, mảnh imidazol xuất hiện với tần số cao nhưng chưa thể hiện được mối liên quan giữa cấu trúc-tác dụng như vai trò của dị tố nitơ số 3 trên vòng có khả năng gắn với ion kẽm, hay nhóm thế methyl ở vị trí số 5 cho hoạt tính sinh học tốt hơn vị trí thế khác Do đó, nghiên cứu đã sử dụng chính mô hình QSAR xây dựng với biến đầu vào là dấu vân tay phân tử Morgan để tìm ra các đặc điểm cấu trúc quan trọng ảnh hưởng nhất tới hoạt tính dựa trên phương pháp đột biến điểm đặc trưng Ưu điểm của phương pháp là dễ dàng phiên giải kết quả, không cần huấn luyện lại mô hình Tuy nhiên, nhược điểm của phương pháp trên là việc đột biến một bit trong dãy nhị phân của biến độc lập không chỉ ảnh hưởng trực tiếp tới kết quả đầu ra của mô hình mà còn gián tiếp ảnh hưởng tới tương quan của bit đó với các bit khác Điều này tác động đáng kể tới việc phiên giải kết quả khi việc tương quan giữa các bit có ảnh hưởng tới kết quả của mô hình mà không phải độc lập từng bit

Mục tiêu của nghiên cứu là thiết kế những dẫn chất có các khung cấu trúc đa dạng hơn nhưng vẫn giữ được những đặc điểm quan trọng, do hiện tại ngân hàng dữ liệu các hợp chất ức chế QC không quá nhiều, đồng thời các hợp chất không quá đa dạng về mặt cấu trúc Tuy nhiên, về kết quả sàng lọc qua mô hình QSAR, có thể thấy dãy 1 và 4 có hiệu suất lọc là thấp nhất Điều này có thể phản ánh rằng mô hình QSAR mà nghiên cứu hiện tại xây dựng không phù hợp để sàng lọc những hợp chất chứa hệ đa vòng lớn bởi thiếu đi những hợp chất chứa khung cấu trúc cồng kềnh trong CSDL dùng để huấn luyện mô hình Ngược lại, do giữ lại những đặc điểm cấu trúc quan trọng, dãy 5 và 6 cho hiệu suất lọc cao nhất Đặc biệt, toàn bộ 339 hợp chất từ dãy 5 được sàng lọc qua mô hình QSAR đều thỏa mãn mô hình pharmacophore, trong đó 78 chất có kết quả năng lượng liên kết với QC tốt hơn chất đối chứng PQ912, điều này cho thấy cấu trúc gồm khung 5,6-dimethoxy-1-isoindolinon lai hoá với 5-methylimidazol là một cấu trúc tiềm năng để phát triển các chất ức chế QC.

Bàn luận về kết quả mô phỏng docking phân tử

Từ kết quả mô phỏng docking phân tử ở Phần 3.5, 78 chất tiềm năng mới đều mang khung 5,6-dimethoxy-1-isoindolinon lai hoá 5-methylimidazol của dãy 5 Có thể thấy phần lớn các chất thiết kế hình thành tương tác kị nước quan trọng với trung tâm hoạt động của QC mà đã được công bố từ các nghiên cứu in silico trước đây [24, 83], như liên kết π-π giữa khung isoindolinon hoặc khung imidazol với Trp207, Phe325 và Trp329; hay liên kết π-alkyl giữa nhóm thế methoxy ở vị trí số 6 trên khung isoindolin với Leu249 và Ile303 Bên cạnh đó, liên kết π-anion giữa khung imidazol và Glu201 hay liên kết hydro giữa nhóm carbonyl trên khung isoindolinon với Gln304 được quan sát thấy ở hầu hết 78 chất cũng như ở hình ảnh đồng kết tinh giữa PBD150 và protein Điều này cho thấy rằng các chất thiết kế mới có vị trị gắn tại trung tâm hoạt động tương tự so với phối tử đồng kết tinh PBD150 Một điều nổi bật trong kết quả docking là toàn bộ 78 chất trên đều có liên kết với ion kẽm tại trung tâm hoạt động thông qua nguyên tử nitơ tại vị trí số 3 trên khung imidazol hoặc thông qua nhóm thế R như nhóm hydroxyl, fluoro trên vòng benzen hay dị tố nitơ trên dị vòng pyridin Hơn nữa, các nhóm alkyl (methyl, ethyl, propyl, isopropyl, butyl hoặc isobutyl) thế tại vị trí số 3 trên khung 1- isoindolinon chưa thể hiện rõ các tương tác quan trọng tại trung tâm hoạt động Điều đó có thể định hướng thiết kế và sàng lọc các cấu trúc chứa nhóm thế khác tại vị trí số 3 trên khung 1-isoindolinon để tìm kiếm các hợp chất tiềm năng mới Hình ảnh tương tác 2D giữa 5 chất có kết quả docking tốt nhất và PQ912 với trung tâm hoạt động của QC được thể hiện ở Hình 4.3

Hình 4.3 Tương tác giữa 5 chất với kết quả docking tốt nhất và PQ912 với trung tâm hoạt động của QC

KẾT LUẬN VÀ KIẾN NGHỊ

Kết luận

Từ kết quả nghiên cứu trên có thể đưa ra một số kết luận như sau:

- Đã xây dựng mô hình QSAR dự đoán hoạt tính sinh học pIC50 của các chất ức chế QC với 𝑅 𝑡𝑟𝑎𝑖𝑛 2 = 0,99; 𝑄 2 = 0,80 và 𝑅 𝑡𝑒𝑠𝑡 2 = 0,83

- Đã xây dựng mô hình pharmacophore phân loại các chất có hoạt tính ức chế QC với độ chuẩn xác = 0,99; 𝐹 0,5 score = 0,76; MCC = 0,75; EF = 30,43 và GH = 0,75

- Đã thiết kế 7 dãy cấu trúc với 41592 chất mới dựa trên khung cấu trúc và đặc điểm cấu trúc quan trọng của các chất có hoạt tính ức chế QC

- Đã tiến hành sàng lọc 7 dãy cấu trúc qua các lưới lọc như mô hình QSAR, mô hình pharmacophore, đặc điểm giống thuốc, dự đoán tính thấm BBB và mô phỏng docking phân tử Trong đó thu được 78 dẫn chất mới tiềm năng ức chế QC

- Đã tiến hành xây dựng quy trình thiết kế và sàng lọc ảo mới bao gồm mô hình QSAR, mô hình pharmacophore và docking phân tử trong nghiên cứu và phát triển các hợp chất tiềm năng ức chế QC và có thể ứng dụng quy trình trên trong các nghiên cứu in silico tương tự với các mục tiêu phân tử khác.

Kiến nghị

Để phát triển tiếp hướng đi của đề tài, chúng tôi xin phép đưa ra một số kiến nghị như sau:

- Tiến hành tổng hợp hoá học 78 dẫn chất mới sàng lọc, sau đó tiến hành khẳng định cấu trúc của các dẫn chất tổng hợp được bằng các phương pháp phổ

- Tiến hành thử nghiệm in vitro và in vivo nhằm đánh giá hoạt tính sinh học của các dẫn chất tổng hợp được.

Tiêu đề	Nghiên cứu thiết kế một số cấu trúc mới hướng ức chế glutaminyl cyclase bằng phương pháp học máy kết hợp mô hình pharmacophore
Tác giả	Trương Cao Minh
Người hướng dẫn	TS. Đỗ Thị Mai Dung
Trường học	Trường Đại học Dược Hà Nội
Chuyên ngành	Dược Sĩ
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2024
Thành phố	Hà Nội

Định dạng
Số trang	83
Dung lượng	4,25 MB