1. Trang chủ
  2. » Luận Văn - Báo Cáo

nguyễn đăng duy ứng dụng phương pháp học máy và xử lý ngôn ngữ tự nhiên trong sàng lọc các hợp chất ức chế beta secreatase

109 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

2 xử lí dữ liệu, góp phần không nhỏ trong việc hỗ trợ thiết kế phân tử thuốc mới, giải thích bản chất phân tử của các tương tác thuốc - đích và cho phép dự đoán hoạt tính sinh học của hợ

Trang 1

BỘ Y TẾ

TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI

NGUYỄN ĐĂNG DUY

ỨNG DỤNG PHƯƠNG PHÁP HỌC MÁY VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN TRONG SÀNG LỌC CÁC HỢP CHẤT

ỨC CHẾ BETA-SECREATASE

KHÓA LUẬN TỐT NGHIỆP CỬ NHÂN HÓA DƯỢC

HÀ NỘI - 2024

Trang 2

BỘ Y TẾ

TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI

NGUYỄN ĐĂNG DUY

Mã sinh viên: 2091019

ỨNG DỤNG PHƯƠNG PHÁP HỌC MÁY VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN TRONG SÀNG LỌC CÁC HỢP CHẤT

ỨC CHẾ BETA-SECREATASE

KHÓA LUẬN TỐT NGHIỆP CỬ NHÂN HÓA DƯỢC

Người hướng dẫn:

1 PGS TS Nguyễn Thu Hằng 2 Th.S Nguyễn Văn Phương

Nơi thực hiện:

Bộ môn Dược liệu Khoa Dược liệu - DHCT

HÀ NỘI - 2024

Trang 3

LỜI CẢM ƠN

Lời đầu tiên, em xin được gửi lời cảm ơn chân thành và sâu sắc nhất tới Ban

Giám hiệu - Trường Đại học Dược Hà Nội, cùng toàn thể các thầy cô thuộc các bộ

môn, các phòng ban của trường đã dạy bảo em nhiều kiến thức ngành nghề quan trọng, đồng thời tạo điều kiện và giúp đỡ em trong xuyên suốt quá trình 4 năm học tập và rèn luyện, tạo tiền đề và cơ sở kiến thức để em có thể thực hiện khóa luận tốt nghiệp này

Với lòng biết ơn, em xin gửi lời cảm ơn đến PGS.TS Nguyễn Thu Hằng -

Trưởng Bộ môn Dược liệu, Trường Đại học Dược Hà Nội - người đã trực tiếp định

hướng, hướng dẫn, dìu dắt em từ những ngày đầu chập chững bước chân vào con đường nghiên cứu khoa học; đã tận tình chỉ bảo, truyền đạt kiến thức và kinh nghiệm cả trong khoa học lẫn đời sống, đó là một phần công sức rất lớn để giúp em hoàn thành khóa luận này

Em xin gửi lời cảm ơn tới ThS Nguyễn Văn Phương - Giảng viên Bộ môn

Dược liệu, người thầy định hướng cho em biết thế nào là nghiên cứu khoa học, luôn

sẵn sàng giúp đỡ, chỉ bảo tận tình từng chi tiết nhỏ nhất, là người đồng hành với em trong phần lớn thời gian làm nghiên cứu khoa học tại Bộ môn Dược Liệu

Tiếp theo, em xin gửi lời cảm ơn sâu sắc và chân thành tới GS Jae Wook Lee,

GS Sang Hoon Jung và TS Lê Thị Tâm - Viện Khoa học và Công nghệ Hàn Quốc (KIST); người đã góp ý, bổ sung những thiếu sót trong nghiên cứu, tạo điều kiện cho

em trong quá trình thực tập và nghiên cứu tại KIST Nếu không có sự giúp đỡ ấy, chắc chắn nghiên cứu của em sẽ không thể hoàn thành Em cũng xin được gửi lời

cảm ơn tới PGS.TS Nguyễn Thị Thuận - Giảng viên cao cấp Bộ môn Hóa Dược,

và cũng là cố vấn học tập của lớp em Cô đã tạo điều kiện, định hướng và động viên em tham gia chương trình thực tập và nghiên cứu tại nước ngoài Đồng thời, em xin chân thành cảm ơn tập thể thầy cô Phòng Khoa học công nghệ - Hợp tác phát triển, những người đã tận tình giúp đỡ và tạo điều kiện cho em có cơ hội thực tập và nghiên cứu tại nước ngoài, tích lũy kinh nghiệm quý báu cho bản thân, làm nền tảng để em hoàn thành khóa luận này

Em xin cảm ơn đến các anh chị đi trước cùng với các bạn làm nghiên cứu tại bộ môn Dược liệu đã luôn nhiệt tình giúp đỡ và tạo điều kiện thuận lợi cho em trong suốt quá trình làm nghiên cứu tại bộ môn Các bạn cùng làm khóa luận gồm bạn

Nguyễn Thị Nguyệt Ánh và bạn Phan Thị Vân Anh trong nhóm nghiên cứu Bộ môn

Dược liệu

Trang 4

Cuối cùng, em xin bày tỏ lòng biết ơn chân thành và sâu sắc tới gia đình, người thân và bạn bè đã luôn bên cạnh khích lệ, giúp đỡ và động viên em trong suốt thời gian qua Do kiến thức và kinh nghiệm của bản thân còn hạn chế, khóa luận tốt nghiệp này không thể tránh khỏi những thiếu sót Em rất mong sẽ nhận được những góp ý và bổ sung quý báu từ các hội đồng, quý thầy cô và bạn bè để hoàn thiện hơn

Em xin chân thành cảm ơn!

Hà Nội, tháng 6 năm 2024

Sinh viên

Nguyễn Đăng Duy

Trang 5

1.2 TỔNG QUAN VỀ GIẢ THUYẾT AMYLOID 4

1.3 MỘT SỐ CHẤT ỨC CHẾ BACE1 ĐÃ ĐƯỢC NGHIÊN CỨU 5

1.4 TỔNG QUAN VỀ MỐI QUAN HỆ ĐỊNH LƯỢNG CẤU TRÚC - TÁC DỤNG CỦA CÁC HỢP CHẤT (QUANTITATIVE STRUCTURE - ACTIVITY RELATIONSHIP - QSAR) 7

1.4.1 Khái niệm và nguyên lý chung của mô hình QSAR 7

1.4.2 Tổng quan về xử lý ngôn ngữ tự nhiên và phương pháp Mol2vec 7

1.4.3 Xây dựng mô hình QSAR và đánh giá mô hình 8

1.5 TỔNG QUAN VỀ KỸ THUẬT DOCKING PHÂN TỬ 11

1.6 TỔNG QUAN VỀ SWISSADME - CÔNG CỤ ĐÁNH GIÁ DƯỢC ĐỘNG HỌC 12

CHƯƠNG 2: NGUYÊN LIỆU, THIẾT BỊ, PHƯƠNG PHÁP NGHIÊN CỨU 14

2.1 NGUYÊN LIỆU, THIẾT BỊ, PHẦN MỀM NGHIÊN CỨU 14

2.1.1 Cơ sở dữ liệu 14

2.1.2 Thiết bị, phần mềm nghiên cứu 14

2.2 NỘI DUNG NGHIÊN CỨU 14

2.3 PHƯƠNG PHÁP NGHIÊN CỨU 14

2.3.1 Phương pháp xây dựng mô hình QSAR 15

2.3.3 Phương pháp xác định miền cấu trúc ứng dụng của mô hình 16

2.3.4 Kỹ thuật docking phân tử 17

2.3.5 Phương pháp khảo sát đặc điểm dược động học 18

Trang 6

CHƯƠNG 3: THỰC NGHIỆM, KẾT QUẢ VÀ BÀN LUẬN 20

3.1 KẾT QUẢ TÍNH TOÁN TSPT VÀ XỬ LÝ SỐ LIỆU 20

3.2 KẾT QUẢ XÂY DỰNG MÔ HÌNH QSAR 20

3.2.1 Mô hình M1 - Phương pháp hồi quy rừng ngẫu nhiên (Random Forest Regression - RF) 20

3.2.2 Mô hình M2 - Phương pháp hồi quy vectơ hỗ trợ (Support Vector Regression - SVR) 21

3.2.3 Mô hình M3 - Phương pháp hồi quy tuyến tính (Linear Regression - LR) 22

3.2.4 Mô hình M4 - Phương pháp hồi quy Lasso (Lasso Regression) 23

3.2.5 Mô hình M5 - Phương pháp hồi quy Ridge (Ridge Regression) 24

3.2.6 Mô hình M6 - Phương pháp hồi quy XGBoost (XGBoost Regression) 25

3.2.7 Mô hình M7 - Phương pháp mạng nơ-ron nhân tạo (Artificial Neural Network - ANN) 26

3.2.8 Lựa chọn mô hình 27

3.3 KẾT QUẢ ỨNG DỤNG MÔ HÌNH QSAR VÀO SÀNG LỌC CÁC HỢP CHẤT TIỀM NĂNG ỨC CHẾ BACE1 28

3.4 KẾT QUẢ DOCKING PHÂN TỬ 29

3.5 KẾT QUẢ KHẢO SÁT ĐẶC ĐIỂM DƯỢC ĐỘNG HỌC 31

3.6 BÀN LUẬN 35

3.6.1 Về vai trò của trí tuệ nhân tạo - học máy trong nghiên cứu phát triển thuốc mới và tính mới của nghiên cứu 35

3.6.2 Về xây dựng mô hình QSAR và ứng dụng trong sàng lọc ảo 36

3.6.3 Về kỹ thuật docking phân tử 38

3.6.4 Về kết quả sàng lọc ảo 38

KẾT LUẬN VÀ ĐỀ XUẤT 41 TÀI LIỆU THAM KHẢO

PHỤ LỤC

Trang 7

DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT

APP Amyloid Precursor Protein

ANN Artificial Neural Network (Mạng nơ-ron nhân tạo)

BACE β-site amyloid precursor protein cleaving enzyme BBB Blood–brain barrier (Hàng rào máu não)

CSDL Cơ sở dữ liệu HRMN Hàng rào máu não k-NN k - Nearest Neighbor (k lân cận gần nhất)

LR Hồi quy tuyến tính (Linear regression)

MAE Mean Absolute Error (Sai số tuyệt đối trung bình)

NLP Natural Language Processing (Xử lý ngôn ngữ tự nhiên)

NMDA N-methyl-D-aspartat

PAINS Pan-Assay Interference Compounds (Các hợp chất gây nhiễu)

PCA Principal Component Analysis (Phân tích thành phần chính)

PDB Protein Data Bank (Ngân hàng dữ liệu protein)

QSAR Quantitative Structure-Activity Relationship (Tương quan định lượng cấu trúc-tác dụng)

RMSE Root Mean Squared Error (Độ lệch bình phương trung bình)

STT Số thứ tự SVR Support Vector Regression (Vectơ hỗ trợ hồi quy)

SVM Support Vector Machine (Vectơ hỗ trợ máy)

TSPT Tham số phân tử

Trang 8

4 Bảng 3.4 Cấu trúc hóa học và giá trị logIC50 dự 31

đoán của 7 hợp chất có kết quả docking tốt nhất 5 Bảng 3.5 Kết quả khảo sát khả năng hấp thu của 33

7 hợp chất ứng viên 6 Bảng 3.6 Tóm tắt kết quả khảo sát đặc tính 34

giống thuốc của 3 hợp chất ứng viên cuối cùng bằng công cụ SWISSADME

Trang 9

DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ, ĐỒ THỊ

1 Hình 1.1 Phân loại các thử nghiệm lâm sàng theo 3

giả thuyết của bệnh Alzheimer (2019) 2 Hình 1.2 Cấu trúc hóa học của Verubecestat 5

(MK-8931) 3 Hình 1.3 Hình ảnh mô phỏng Verubecestat gắn ở 6

trung tâm hoạt động của BACE1 bằng kỹ thuật docking phân tử

4 Hình 1.4 Cấu trúc hóa học của Lanabecestat 6

(AZD3293)

5 Hình 1.5 Hình ảnh mô tả docking phối tử và 12

protein thụ thể 6 Hình 1.6 Mô hình Boiled Egg dự đoán khả năng 13

hấp thu của thuốc vào cơ thể trên công cụ SwissADME

7 Hình 2.1 Thiết kế nghiên cứu sàng lọc ảo các hợp 15

chất có tiềm năng ức chế BACE1 8 Hình 3.1 Biểu đồ thống kê kết quả dự đoán của 21

mô hình M1 9 Hình 3.2 Biểu đồ thống kê kết quả dự đoán của 22

mô hình M2 10 Hình 3.3 Biểu đồ thống kê kết quả dự đoán của 23

mô hình M3 11 Hình 3.4 Biểu đồ thống kê kết quả dự đoán của 24

mô hình M4 12 Hình 3.5 Biểu đồ thống kê kết quả dự đoán của 25

mô hình M5 13 Hình 3.6 Biểu đồ thống kê kết quả dự đoán của 26

mô hình M6 14 Hình 3.7 Biểu đồ thống kê kết quả dự đoán của 27

mô hình M7

Trang 10

15 Hình 3.8 Cấu trúc hóa học của phối tử đối chiếu 30 16 Hình 3.9 Kết quả dự đoán khả năng hấp thu qua 32

HRMN của các hợp chất 17 Hình 3.10 Tóm tắt quy trình và kết quả của 40

quá trình sàng lọc ảo các hợp chất có tiềm năng ức chế BACE1

Trang 11

1

ĐẶT VẤN ĐỀ

Alzheimer là bệnh phổ biến, gây ra bởi chứng sa sút trí tuệ và sự thoái hóa thần kinh, khiến người bệnh suy giảm trí nhớ và khả năng tập trung, từ đó để lại nhiều khó khăn và gánh nặng cho gia đình và xã hội [4]

Theo thống kê năm 2020 của Báo cáo Alzheimer Thế giới (The World Alzheimer's Report) [43], tốc độ gia tăng số ca mắc sa sút trí tuệ trên thế giới là 3 ca/giây, và hiện nay có hơn 55 triệu người mắc chứng bệnh này, trong đó khoảng 60% là bệnh nhân Alzheimer Tỷ lệ mắc bệnh Alzheimer tăng theo độ tuổi, từ khoảng 5% đối với những người dưới 75 tuổi lên 40-50% đối với lứa tuổi sau 85 [43]

Hiện nay, nhiều quốc gia trên thế giới đang trong giai đoạn dân số già, đặc biệt là ở những quốc gia phát triển như Hàn Quốc, Nhật Bản Tỷ lệ người cao tuổi lớn đồng nghĩa với việc tỷ lệ số người mắc những bệnh về lão hóa, sa sút trí tuệ ngày càng cao [43] Dân số Việt Nam hiện cũng đang có xu hướng già hóa, tuổi thọ trung bình của người Việt Nam năm 2019 là 73,6 tuổi và số người mắc bệnh Alzheimer cũng ngày càng gia tăng [43]

Theo hiệp hội chăm sóc sức khỏe Stanford, Trường Đại học Stanford - Hoa Kỳ (Stanford Medicine Health Care), hiện nay trên thế giới mới chỉ có năm thuốc được FDA phê duyệt điều trị triệu chứng rối loạn nhận thức của bệnh Alzheimer, trong đó chưa có thuốc nào điều trị nguyên nhân của bệnh [45] Vì vậy, việc nghiên cứu phát triển thuốc mới điều trị bệnh Alzheimer là vô cùng cần thiết, đặc biệt là trong bối cảnh nhiều quốc gia trên thế giới đang già hóa dân số, trong đó có Việt Nam

Cho tới nay, cơ chế bệnh sinh của Alzheimer vẫn còn chưa rõ ràng, chủ yếu được giải thích dựa trên các giả thuyết như giả thuyết Amyloid, giả thuyết chất dẫn truyền thần kinh, giả thuyết lan truyền Tau, giả thuyết dòng ty thể và các giả thuyết liên quan, giả thuyết mạch máu thần kinh,…[24] Trong đó, giả thuyết Amyloid chiếm phần lớn trong các thử nghiệm lâm sàng đã được tiến hành [24] với BACE1 (β-site amyloid precursor protein cleaving enzyme 1) là enzym đóng vai trò quan trọng trong việc hình thành các mảng β - amyloid trong não, đồng thời cũng là một mục tiêu phân tử được quan tâm nghiên cứu

Sàng lọc ảo (Virtual screening) là phương pháp đã trở nên quen thuộc và là một

phần quan trọng trong quá trình nghiên cứu và phát triển thuốc mới hiện nay [1] Các phương pháp sàng lọc ảo với sự trợ giúp của máy tính như QSAR (liên quan định lượng cấu trúc - tác dụng), docking phân tử, mô phỏng động lực phân tử, dự đoán ADME,…ngày càng được ứng dụng rộng rãi giúp tiết kiệm đáng kể thời gian và chi phí của quá trình nghiên cứu phát triển thuốc mới So với các phương pháp thực nghiệm truyền thống, sàng lọc ảo có những ưu thế vượt trội trong việc sàng lọc và

Trang 12

2 xử lí dữ liệu, góp phần không nhỏ trong việc hỗ trợ thiết kế phân tử thuốc mới, giải thích bản chất phân tử của các tương tác thuốc - đích và cho phép dự đoán hoạt tính sinh học của hợp chất thông qua việc sử dụng các mô hình toán học Với những ưu điểm kể trên, sàng lọc ảo đặc biệt được ứng dụng trong nghiên cứu phát triển thuốc điều trị các loại bệnh lý phức tạp với đích phân tử khó tiếp cận như bệnh Alzheimer, bệnh ung thư, …

Trong bối cảnh Cách mạng Công nghiệp lần thứ tư (Cách mạng 4.0), sự phát

triển của trí tuệ nhân tạo (Artificial Intelligence - AI) và học máy (Machine Learning)

đã mang lại những đột phá vượt bậc cho mọi ngành nghề và lĩnh vực trong đời sống xã hội, bao gồm cả ngành dược phẩm Đây là xu hướng mới của thế giới khi trí tuệ nhân tạo, cụ thể là học máy, với nhiều ưu điểm vượt trội, đang trở thành một công cụ mạnh mẽ và phổ biến, đặc biệt là trong khả năng phân tích và xử lý dữ liệu Học máy đã trở thành công cụ tối ưu, tăng cường hiệu quả sàng lọc các hợp chất dẫn đường trong quá trình nghiên cứu và phát triển thuốc mới, với tỷ lệ chính xác và thành công cao Do đó, trí tuệ nhân tạo và học máy đã mở ra kỷ nguyên mới với những tiềm năng to lớn trong lĩnh vực nghiên cứu phát triển thuốc

Vì những lý do trên, đề tài: “Ứng dụng phương pháp học máy và xử lý ngôn

ngữ tự nhiên trong sàng lọc các hợp chất ức chế β-secreatase” được thực hiện với

hai mục tiêu sau: 1 Xây dựng và đánh giá mô hình QSAR biểu thị mối quan hệ định lượng giữa cấu

trúc hóa học và tác dụng ức chế BACE1 của các hợp chất bằng phương pháp học máy và xử lý ngôn ngữ tự nhiên

2 Ứng dụng mô hình QSAR xây dựng được và các kỹ thuật docking phân tử, dự đoán đặc điểm dược động học, dự đoán đặc tính giống thuốc để sàng lọc các hợp chất tiềm năng có tác dụng ức chế BACE1

Trang 13

3

CHƯƠNG 1: TỔNG QUAN 1.1 TỔNG QUAN VỀ BỆNH ALZHEIMER

Alzheimer là bệnh phổ biến gây ra bởi chứng sa sút trí tuệ và sự thoái hóa thần kinh Những người mắc bệnh Alzheimer sẽ suy giảm trí nhớ và khả năng tập trung Sự định hướng trong không gian và thời gian trở nên ngày càng khó khăn, khiến cho người bệnh trở nên khó có thể điều khiển và kiểm soát được bản thân họ trong cuộc sống hàng ngày [4] Lão hóa là nguyên nhân chính gây ra bệnh, tỷ lệ mắc bệnh tăng gấp đôi sau mỗi 5 năm sau độ tuổi 65 Khoảng 40 triệu người trên 60 tuổi trên toàn thế giới bị mắc Alzheimer và số lượng bệnh nhân đang không ngừng gia tăng, dự báo sẽ tăng gấp đôi sau mỗi 20 năm [24]

Nguyên nhân gây ra Alzheimer hiện nay vẫn chưa rõ ràng Có rất nhiều các giả thuyết khác nhau về cơ chế bệnh sinh của Alzheimer, có thể kể tới như giả thuyết Amyloid, giả thuyết chất dẫn truyền thần kinh, giả thuyết lan truyền Tau, giả thuyết dòng ty thể và các giả thuyết liên quan, giả thuyết mạch máu thần kinh,…[24] Phần lớn giả thuyết cho rằng sự thiếu hụt chất dẫn truyền thần kinh acetylcholin và sự hình thành các mảng Amyloid ngoại bào và các đám rối sợi thần kinh nội bào là nguyên nhân chính gây ra Alzheimer, kèm theo các tình trạng viêm thần kinh xảy ra trong não bộ [24] Cho tới 2019, trên tổng số 2173 thử nghiệm lâm sàng, giả thuyết Amyloid được nghiên cứu nhiều nhất (22,3% thử nghiệm), giả thuyết về chất dẫn truyền thần kinh nhiều thứ hai với 19,0% số thử nghiệm, tỷ lệ thử nghiệm giả thuyết lan truyền Tau là 12,7%, 17,0% thử nghiệm liên quan tới giả thuyết dòng ty thể và các giả thuyết liên quan, 7,9% thử nghiệm nghiên cứu về giả thuyết mạch máu thần kinh, và một số giả thuyết khác (hình 1.1) [24]

Hình 1.1 Phân loại các thử nghiệm lâm sàng theo giả thuyết của bệnh Alzheimer

(2019) [24]

22.3%

19.0%

12.2%17.0%

7.9%21.6%

Giả thuyết AmyloidGiả thuyết chất dẫn truyền thần kinh

Giả thuyết lan truyền TauGiả thuyết dòng ty thể và các giả thuyết liên quan khác

Giả thuyết mạch máu thần kinhCác giả thuyết khác

Trang 14

4 Hiện nay, cơ chế bệnh sinh của bệnh Alzheimer vẫn chưa được làm sáng tỏ, song đã có một số nghiên cứu về các nhóm thuốc điều trị và hỗ trợ điều trị bệnh Alzheimer Tính tới 2019, trên thế giới hiện chỉ có năm thuốc hiện đang được FDA Hoa Kỳ chấp thuận để điều trị Alzheimer [45] Tuy nhiên, nhược điểm chung của các thuốc trên là chỉ hạn chế hoặc làm chậm tiến trình bệnh mà chưa giải quyết được nguyên nhân gây bệnh Ngoại trừ Memantine với mục tiêu phân tử là receptor N-methyl-D-aspartat (NMDA), đích tác dụng của các thuốc trên chủ yếu mục tiêu hướng đến là chất dẫn truyền thần kinh acetylcholin Hoạt chất của các thuốc chủ yếu là các chất ức chế enzym acetylcholinesterase, nhằm ngăn chặn sự suy giảm nồng độ acetylcholin [16]

Trước tình hình đó, việc nghiên cứu tìm kiếm các chất dẫn đường tác dụng trên những mục tiêu phân tử khác là vô cùng cần thiết trong nỗ lực nghiên cứu phát triển thuốc mới trong điều trị bệnh Alzheimer, đặc biệt là vào thời điểm nhiều quốc gia trên thế giới đang trong giai đoạn già hóa dân số, dẫn tới số lượng bệnh nhân Alzheimer ngày càng gia tăng

1.2 TỔNG QUAN VỀ GIẢ THUYẾT AMYLOID

Giả thuyết Amyloid lần đầu tiên được đề xuất vào năm 1991 bởi John Hardy và David Allsop [33] Hai nhà khoa học đã tìm thấy một đột biến gây bệnh ở gen tiền protein Aβ (APP) trên nhiễm sắc thể 21, điều này cho thấy rằng sự chuyển hóa sai lệch trong chuyển hóa Amyloid Precursor Protein (APP) và sự lắng đọng β-Amyloid (Aβ) có thể là nguyên nhân chính gây ra bệnh Alzheimer [24]

Theo giả thuyết Amyloid, các phân tử APP nằm trong màng tế bào thần kinh đóng vai trò quan trọng trong việc phát triển và phục hồi các tế bào APP được phân cắt theo 2 cách, trong đó phương pháp đầu tiên là thông qua con đường α APP bị thủy phân bởi α-secretase và sau đó là γ-secretase; quá trình này không tạo ra Aβ không hòa tan Phương pháp thứ hai là thông qua con đường β, trong đó APP bị thủy phân bởi β-secretase - BACE1 (một số tài liệu gọi là β-secreatase) và sau đó bởi γ-secretase để tạo ra Aβ không hòa tan Trong điều kiện bình thường, protein Aβ không được tạo ra do quá trình thủy phân APP chủ yếu dựa trên con đường α Một lượng nhỏ APP được thủy phân bằng phương pháp thứ hai và Aβ tạo ra sẽ bị hệ thống miễn dịch loại bỏ [24] Tuy nhiên, khi có một số đột biến như đột biến Lys670Asn, Met671Leu và Ala673Val ở gần vị trí phân cắt BACE1, APP dễ bị thủy phân theo con đường β, dẫn đến sự tích tụ quá mức Aβ không hòa tan [24], [28] Các đơn vị này có xu hướng kết dính vào nhau (chemically sticky) và hình thành nên các mảng bám (Aβ plaques) Những mảng bám này có thể tích tụ và xen kẽ vào giữa các tế bào

Trang 15

5 thần kinh, làm cản trở quá trình truyền tin và là nguyên nhân chính gây ra những rối loạn chức năng ghi nhớ một cách nghiêm trọng

Ngoài ra, các mảng bám Aβ còn gây ra những hậu quả như khởi động phản ứng miễn dịch trong cơ thể, gây ra tình trạng viêm não, dẫn đến tổn thương các tế bào thần kinh xung quanh, hay các mảng bám này sẽ bám vào thành mạch máu, gây nên bệnh lý mạch thần kinh amyloid: “amyloid angiopathy”, làm suy yếu các mạch máu, dẫn tới tăng nguy cơ xuất huyết, thậm chí gây đứt vỡ mạch máu

Các chiến lược điều trị Alzheimer hiện nay dựa trên giả thuyết Aβ chủ yếu được chia thành các loại sau: chất ức chế β- secretase và γ-secretase, được sử dụng để ức chế sản xuất Aβ, hay thuốc chống kết tập được sử dụng để ức chế sự kết tập Aβ; thuốc điều hòa hoạt động protease được sử dụng để loại bỏ Aβ; và một số liệu pháp miễn dịch khác [14]

1.3 MỘT SỐ CHẤT ỨC CHẾ BACE1 ĐÃ ĐƯỢC NGHIÊN CỨU

Nắm bắt được nguyên lý trên, một xu hướng nghiên cứu khác đã xuất hiện với đích tác dụng là ức chế BACE1 trong nỗ lực điều trị bệnh Alzheimer Verubecestat (MK-8931) và Lanabecestat (AZD3293) là hai trong số các chất ức chế BACE1 đã được nghiên cứu và thể hiện tác dụng làm giảm số lượng mảng bám amyloid trên động vật và trên thử nghiệm lâm sàng [8]

Verubecestat (MK-8931) là thuốc ức chế BACE1 phân tử nhỏ đầu tiên được sử dụng qua đường uống, có khả năng thâm nhập qua hàng rào máu não nhờ tính thẩm thấu cao và khả năng tan trong nước tốt ở độ pH trung tính Thử nghiệm trên động vật cho thấy, Verubecestat đã làm giảm đáng kể nồng độ Aβ40, Aβ42 và protein tiền chất amyloid tan được (sAPPβ) trong dịch não tủy và não [32], [22] Cấu trúc hóa học của Verubecestat và hình ảnh mô phỏng Verubecestat gắn vào trung tâm hoạt

động của BACE1 được trình bày ở hình 1.2 và hình 1.3

Hình 1.2 Cấu trúc hóa học của Verubecestat (MK-8931) [22]

Trang 16

6

Hình 1.3 Hình ảnh mô phỏng Verubecestat gắn ở trung tâm hoạt động của BACE1

bằng kỹ thuật docking phân tử [22] Lanabecestat (AZD3293) là một chất ức chế BACE1 phân tử nhỏ (hình 1.4), dùng qua đường uống do AstraZeneca phát triển, lần đầu tiên được thử nghiệm rộng rãi trên các tế bào thần kinh vỏ não nguyên phát, chuột, chuột lang và chó trước khi tiến hành thử nghiệm lâm sàng [8] Các thử nghiệm trên lâm sàng được thực hiện từ năm 2014 đã thể hiện được khả năng ức chế BACE1 trên người, đồng thời chứng minh tính an toàn, khả năng dung nạp và chuyển hóa của Lanabecestat ở những người tình nguyện lớn tuổi khỏe mạnh và ở những bệnh nhân Alzheimer đang bị suy giảm nhận thức nhẹ [3]

Hình 1.4 Cấu trúc hóa học của Lanabecestat (AZD3293) [34]

Trang 17

7

1.4 TỔNG QUAN VỀ MỐI QUAN HỆ ĐỊNH LƯỢNG CẤU TRÚC - TÁC DỤNG CỦA CÁC HỢP CHẤT (QUANTITATIVE STRUCTURE - ACTIVITY RELATIONSHIP - QSAR)

1.4.1 Khái niệm và nguyên lý chung của mô hình QSAR

QSAR (Quantitative Structure-Activity Relationship) là mô hình toán học biểu

thị mối quan hệ định lượng giữa cấu trúc hóa học và hoạt tính của các hợp chất, được xây dựng thông qua việc sử dụng các phương pháp toán học và thống kê Mô hình QSAR cho phép dự đoán tác dụng của một hợp chất thông qua các đặc điểm về cấu trúc (được biểu diễn dưới dạng các tham số phân tử) và hoạt tính sinh học của các hợp chất đã được kiểm chứng bằng thực nghiệm [13]

Mô hình toán học QSAR có dạng:

Yi = Fi (X1, X2, , Xn) Trong đó, Yi là Y là biến đáp ứng sinh học hoặc hóa học thường thu được từ thực nghiệm và thể hiện bằng các giá trị như nồng độ ức chế 50% đối tượng đích (IC50), nồng độ 50% tác dụng (EC50) Fi là các thuật toán thể hiện trọng số của các tham số phân tử (molecular descriptors), được tính toán bằng phần mềm phân tích thống kê chuyên dụng [13] X1, X2, , Xn là các tham số phân tử (TSPT), được định nghĩa là các biểu diễn toán học dựa trên các đặc điểm hóa học đặc trưng của phân tử, được tạo ra bởi các thuật toán Các giá trị TSPT được sử dụng để mô tả định lượng thông tin vật lý và hóa học của các phân tử dựa trên thực nghiệm hoặc tính toán [2] Mỗi hợp chất có thể được biểu diễn bằng một điểm trong không gian đa chiều, trong đó X1, X2, ,Xn là các tọa độ độc lập của hợp chất [13]

Tất cả các phương pháp QSAR thực hiện trực tiếp hay gián tiếp, đều dựa trên một nguyên tắc chung: các hợp chất có cấu trúc tương tự dự kiến sẽ cho các hoạt tính sinh học tương tự nhau Cho đến nay, số lượng nghiên cứu về xây dựng mô hình QSAR được công bố đã tăng đột biến và các phương pháp xây dựng mô hình, ứng dụng của mô hình ngày càng đa dạng QSAR là một lĩnh vực rất có tiềm năng để mô hình hóa và thiết kế các hợp chất mới với các đặc tính mạnh mẽ bằng cách dự báo các tính chất hóa lý dựa trên các đặc điểm cấu trúc hóa học [29]

1.4.2 Tổng quan về xử lý ngôn ngữ tự nhiên và phương pháp Mol2vec

Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) là một lĩnh vực của trí tuệ nhân tạo (Artificial Intelligence - AI) trong ngành khoa học máy tính, giúp

máy tính có thể hiểu, tạo ra và tương tác với ngôn ngữ của con người NLP có khả năng phân tích dữ liệu dưới dạng văn bản hoặc giọng nói tự nhiên của con người Phương pháp NLP phổ biến hiện nay là Word2vec, một phương pháp học các biểu diễn nhúng đa chiều của từ ngữ, trong đó các vectơ của các từ có ý nghĩa tương tự

Trang 18

8 sẽ nằm gần nhau trong không gian vectơ [31] Năm 2018, S Jaeger và cộng sự đã giới thiệu Mol2vec, 1 phương pháp tiếp cận mới lấy cảm hứng từ NLP và Word2vec Mol2vec xem các đặc điểm của cấu trúc hợp chất như là các “từ” và các hợp chất như là “câu” Qua đó, các biểu diễn nhúng đa chiều của các tiểu cấu trúc được tạo ra, trong đó các vectơ của các tiểu cấu trúc tương đồng về mặt hóa học sẽ chiếm cùng một phần của không gian vectơ Các hợp chất mới sẽ được biểu diễn và mô tả bằng các vectơ cấu trúc con được lấy từ mô hình Mol2vec được huấn luyện từ trước Các vectơ hợp chất có thể dễ dàng được mô tả bởi các vectơ tiểu cấu trúc bằng cách cộng chúng lại, qua đó có thể được sử dụng để tính toán sự tương đồng hợp chất hoặc làm các mô tả đặc trưng trong các tác vụ học máy có giám sát [31]

Hiện nay, Mol2vec đã và đang được áp dụng trong nhiều nghiên cứu khác nhau hiện nay liên quan đến các đặc điểm cấu trúc hóa học của hợp chất, bao gồm xây dựng các mô hình QSAR/QSPR và sàng lọc ảo Một số nghiên cứu đã chứng minh rằng các mô hình được xây dựng bằng phương này mang lại kết quả tương đương hoặc thậm chí vượt trội hơn so với các mô hình xây dựng truyền thống [18]

1.4.3 Xây dựng mô hình QSAR và đánh giá mô hình

Bước 1: Chuẩn bị cơ sở dữ liệu

Chuẩn bị cơ sở dữ liệu (CSDL) là bước đầu tiên và quan trọng trong việc xây dựng và phát triển mô hình QSAR Dữ liệu được thu thập từ các thư viện hợp chất được sưu tầm từ quá trình thực nghiệm thông qua các công bố khoa học trên toàn thế giới Một số thư viện hợp chất có thể kể đến như PubChem, ChEMBL, ZINC, DRUGBANK, STITCH,… Sau đó, tập dữ liệu cần trải qua các bước xử lí, sàng lọc để tăng độ tin cậy và chính xác cho mô hình QSAR, trước khi được chia thành tập huấn luyện (training set) và tập kiểm tra (test set) với một tỷ lệ nhất định

Bước 2: Tính toán tham số phân tử

Tham số phân tử (TSPT) là các biểu diễn toán học về các tính chất của phân tử được tạo ra bởi các thuật toán Các giá trị TSPT được sử dụng để mô tả định lượng thông tin vật lý và hóa học của các phân tử dựa trên thực nghiệm hoặc tính toán [2] TSPT là kết quả của quá trình tính toán và chuyển đổi thông tin từ đặc điểm cấu trúc hóa học của hợp chất thành các giá trị tham số đặc trưng cho đặc điểm đó Thông thường, các cấu trúc phân tử sẽ được biểu diễn và mô tả một cách truyền thống bằng việc thông qua các phần mềm chuyên dụng như Chemdraw, Chem 3D Sau đó, các phần mềm chuyên dụng như PaDEL, Dragon,… sẽ được sử dụng để tính toán TSPT dựa trên các mô tả cho từng cấu trúc phân tử Tuy nhiên, trong nhiều nghiên cứu những năm gần đây, quá trình tính toán TSPT được đổi mới bằng việc ứng dụng NLP

Trang 19

9 qua thuật toán Mol2vec, mang lại nhiều ưu điểm vượt trội hơn so với phương pháp thông thường

Bước 3: Xử lý dữ liệu

Để đảm bảo một mô hình QSAR được xây dựng một cách hiệu quả và có tính tin cậy, dữ liệu ban đầu cần được tiền xử lí (preprocessing) sơ bộ trước khi tiến hành sử dụng dữ liệu đó vào xây dựng và đánh giá mô hình Tiền xử lý dữ liệu có thể được coi là một trong những bước quan trọng nhất của xây dựng mô hình QSAR vì nó giúp đảm bảo tính đúng của tập dữ liệu trước khi tiếp tục phân tích dữ liệu, điều này được thể hiện qua quy tắc "garbage in - garbage out" Do đó, để xây dựng và phát triển được mô hình QSAR có độ tin cậy cao, điều quan trọng là phải xử lý dữ liệu thật tốt [29] Quá trình tiền xử lý dữ liệu gồm các bước như loại bỏ các dữ liệu trùng lặp, phân tích biến thiên dữ liệu sinh học, loại bỏ các dữ liệu không đáng tin cậy,… Những công việc này giúp loại bỏ các TSPT gây nhiễu khi xây dựng mô hình [15]

Bước 4: Xây dựng mô hình QSAR

Cho đến nay, đã có rất nhiều phương pháp xây dựng mô hình QSAR được phát triển và ứng dụng Tuy nhiên, sự tương quan và phụ thuộc lẫn nhau giữa TSPT và biến đáp ứng là hoàn toàn khác nhau trong từng CSDL và mối quan hệ cấu trúc-tác dụng Do đó, một phương pháp có thể phù hợp để xây dựng mô hình QSAR này nhưng có thể sẽ không hiệu quả khi xây dựng các mô hình QSAR khác [30], [42]

Nhìn chung, có hai dạng mô hình QSAR chính: Dạng thứ nhất của mô hình QSAR là mô hình định lượng, trong đó biến đầu ra là biến liên tục Các phương pháp xây dựng mô hình thường được áp dụng có thể kể

tới như hồi quy tuyến tính đa biến - Multiple Linear Regression (MLR), là một trong

những phương pháp đầu tiên được sử dụng để xây dựng mô hình QSAR và vẫn được sử dụng phổ biến nhất cho đến hiện nay Ưu điểm của phương pháp MLR là tính đơn giản của nó và sử dụng các biểu thức toán học dễ hiểu [25] Một phương pháp khác

là bình phương tối thiểu từng phần- Partial Least Squares (PLS) cũng được sử dụng

phổ biến và rộng rãi trong nhiều lĩnh vực khác nhau Gần đây, PLS đã phát triển bằng cách kết hợp với các phương pháp toán học khác để mang lại hiệu quả tốt hơn trong phân tích QSAR [30] Ngoài ra, vẫn còn một số phương pháp khác được sử dụng trong dạng thứ nhất, điển hình như phương pháp phân tích thành phần chính

(Principal Component Analysis - PCA) [13]

Dạng thứ hai là mô hình QSAR phân loại với biến đầu ra là giá trị nhị phân có hoặc không, âm tính hoặc dương tính Một trong những phương pháp thường dùng

để xây dựng mô hình QSAR là mạng nơ-ron nhân tạo (Artificial Neural Networks - ANN) - một mô hình xử lý thông tin dựa trên cách các hệ thống thần kinh sinh học,

Trang 20

10 như não bộ, xử lý thông tin Yếu tố chính của mô hình này là cấu trúc thông tin xử lý độc đáo của nó Mạng nơ-ron có khả năng xử lý thông tin đáng kinh ngạc, từ đó rút ra ý nghĩa từ các cơ sở dữ liệu phức tạp, có thể được sử dụng để phát hiện các xu hướng trong cơ sở dữ liệu mà con người hoặc các kỹ thuật máy tính khác không thể nhận biết Một mạng nơ-ron được huấn luyện có thể được coi như một "chuyên gia" trong lĩnh vực thông tin mà nó đã được cung cấp để phân tích [41] Ngoài ra còn nhiều phương pháp khác được áp dụng, có thể kể tới như phương pháp phân tích

cụm (Cluster Analysis), thuật toán k láng giềng gần nhất (k-nearest neighbors algorithm - kNN) [42]

Bước 5: Đánh giá mô hình

Chất lượng của cơ sở dữ liệu ban đầu và quá trình xử lý dữ liệu để lựa chọn biến hoặc mô tả tham số phân tử có ý nghĩa là một phần quan trọng của quá trình mô hình QSAR [39] Tuy nhiên, để có thể ứng dụng các mô hình QSAR vào thực tế thì còn phụ thuộc vào ý nghĩa thống kê và khả năng dự đoán của các mô hình này Do đó, việc đánh giá mô hình QSAR là công việc quan trọng để quyết định tính ứng dụng của mô hình trong quá trình nghiên cứu phát triển thuốc mới [37] Tập huấn luyện được sử dụng để xây dựng một mô hình dự đoán có khả năng dự đoán được đánh giá trên tập kiểm tra Khả năng dự đoán nội suy (đánh giá nội) thường được đánh giá từ khả năng dự đoán của tập huấn luyện trong khi khả năng dự đoán ngoại suy (đánh giá ngoại) có thể được đánh giá từ khả năng dự đoán của tập kiểm tra độc lập mà mô hình được huấn luyện chưa biết [29] Chất lượng mô hình QSAR thường được đánh giá dựa vào 2 tiêu chí: các thông số thống kê và độ chính xác dự đoán [15]

Các thông số thống kê sử dụng trong việc đánh giá mô hình QSAR bao gồm:

hệ số xác định R2 (tập huấn luyện), R2test (tập kiểm tra); sai số tuyệt đối trung bình

(Mean Absolute Error - MAE) và sai số dự đoán (Root Mean Squared Error -

RMSE)

Hệ số R2 là giá trị phổ biến nhất để đánh giá mô hình, trong đó hệ số xác định

R2 đặc trưng cho sự phù hợp giữa mô hình và bộ dữ liệu thực nghiệm Phương pháp này tương tự như hồi quy tuyến tính (hệ số tương quan bình phương), cho sự so sánh

giữa các giá trị được dự đoán và thực nghiệm [37] Giá trị của R2 càng gần 1, mô

hình mô tả càng chính xác các số liệu thực nghiệm R2 thể hiện tính chính xác của

mô hình Thông thường, yêu cầu R2 > 0,6 thì mô hình mới có ý nghĩa [36]

Độ chính xác dự đoán được đánh giá thông qua khả năng dự đoán nội P và khả năng dự đoán ngoại Ptest Hai thông số này lần lượt là độ chính xác giữa giá trị dự

đoán của mô hình so với số liệu thực nghiệm trên tập tập kiểm tra Giá trị Ptest chính

Trang 21

11

là mục tiêu cao nhất của mô hình Ptest càng lớn, khả năng dự đoán của mô hình càng tốt, mô hình có khả năng ứng dụng cao [36]

1.5 TỔNG QUAN VỀ KỸ THUẬT DOCKING PHÂN TỬ

Docking phân tử hay còn gọi là mô phỏng tương tác phân tử (molecular docking) là một trong những kỹ thuật được sử dụng phổ biến nhất hiện nay trong

nghiên cứu phát triển thuốc vì khả năng dự đoán tương tác thụ thể (protein, enzym) - phối tử với độ chính xác cao [27] Sau sự ra đời của các thuật toán đầu tiên vào những năm 1980, docking phân tử đã trở thành một công cụ thiết yếu trong nghiên cứu phát triển thuốc [26] Các nghiên cứu liên quan đến các đặc điểm phân tử, bao gồm các liên kết phối tử và các tương tác liên phân tử tạo thành phức hợp thụ thể - phối tử có thể được thực hiện trực quan và dễ dàng hơn [19] Mục đích của docking phân tử là xác định một cấu dạng tối ưu nhất cho phức hợp thụ thể - phối tử và dự đoán chính xác hoạt động của phối tử để năng lượng tự do của phức hợp đích thụ thể - phối tử là nhỏ nhất [10]

Nguyên tắc chính của phương pháp này là đưa cấu trúc của hợp chất nghiên cứu vào trung tâm tương tác của protein hoặc enzym đích (đã có cấu trúc xác định), sau đó dự đoán các cấu dạng tương tác có thể xảy ra cũng như tính toán các giá trị tương tác Dữ liệu đầu vào của kỹ thuật docking phân tử bao gồm: cấu trúc của đích protein nghiên cứu đã được làm rõ đi kèm với tệp cơ sở dữ liệu các hợp chất nghiên cứu Cấu trúc của protein đó có thể được thu thập qua các cơ sở dữ liệu Protein trên

toàn thế giới như thư viện Protein Data Bank (PDB), UniProt, Pfam,… Việc xác

định các trung tâm liên kết có độ chính xác và độ tin cậy cao nhất đòi hỏi hai bước: (i) khám phá một không gian cấu trúc lớn đại diện cho các liên kết tiềm năng khác nhau; (ii) dự đoán chính xác năng lượng tương tác liên quan đến từng trung tâm liên kết dự đoán [21] Các thuật toán docking phân tử có thể thực hiện được các dự đoán định lượng về năng lượng liên kết, từ đó so sánh khả năng tương tác của các phối tử dựa trên ái lực liên kết trong các phức hợp thụ thể - phối tử [19] Đây thường là một quy trình nhiều bước trong đó hợp chất được xếp hạng và lựa chọn dựa trên điểm tương tác và một số tiêu chí khác [17]

Các phần mềm docking phân tử sử dụng các thuật toán để ước tính năng lượng liên kết của phức hợp thụ thể - phối tử được dự đoán Sự thay đổi năng lượng, do sự hình thành cấu trúc phức hợp thụ thể - phối tử, được thể hiện qua hằng số liên kết (Kd) và năng lượng tự do Gibbs (ΔGL) [11] Các hợp chất cần nghiên cứu sẽ được mô phỏng tương tác của chúng trên các vùng hoạt động (Active Sites) của đích sinh học (protein/enzym) bằng việc sử dụng những thuật toán tính toán khác nhau (POSING) Việc dự đoán năng lượng liên kết được thực hiện bằng cách đánh giá các

Trang 22

12 tương tác vật lý-hóa học đóng vai trò quan trọng đến liên kết thụ thể - phối tử [20] Một vài tương tác vật lý - hóa học của phức hợp thụ thể - phối tử có thể kể đến như lực tương tác Van der Waals, tương tác tĩnh điện, tương tác hóa học với các acid amin trong cấu trúc protein thụ thể,… Do đó, số lượng thông số vật lý-hóa học được đánh giá càng lớn thì độ chính xác của phép dự đoán năng lượng liên kết càng cao [9] Tiếp theo, một thuật toán khác sẽ tính điểm để xếp hạng sự gắn kết giữa hợp chất với

đích sinh học (scoring function) [23] Thông thường, chỉ một số ít các hợp chất có

điểm cao nhất mới được tiếp tục nghiên cứu bằng thực nghiệm [17] Hiện nay, với sự phát triển của khoa học và công nghệ, trên thế giới có rất nhiều các phần mềm có thể thực hiện được nghiên cứu docking, có thể kể đến AutoDock, GOLD, MOE, SwissDock,… Hình 1.5 dưới đây mô tả quá trình docking của phối tử vào mục tiêu phân tử đích (protein thụ thể)

Hình 1.5 Hình ảnh mô tả docking phối tử và protein thụ thể [35] 1.6 TỔNG QUAN VỀ SWISSADME - CÔNG CỤ ĐÁNH GIÁ DƯỢC ĐỘNG

HỌC

Để có hiệu quả điều trị như một thuốc, hợp chất làm thuốc ngoài việc có hoạt tính thì cần phải tiếp cận được tới mục tiêu của chúng trong cơ thể với nồng độ đủ cao và ở lại đó dưới dạng có hoạt tính sinh học đủ lâu để các quá trình sinh học của hợp chất làm thuốc đối với cơ thể có thể xảy ra [5]

SwissADME - một công cụ đánh giá dược động học, quy tắc tính giống thuốc và khả năng tổng hợp hóa dược của các hợp chất phân tử nhỏ, được giới thiệu vào năm 2017 bởi A Daina và cộng sự [5] Công cụ web SwissADME cho phép thực hiện các phép tính toán các thông số chính về hóa lý, dược động học, tính chất giống thuốc và các thông số liên quan cho một hoặc nhiều phân tử hợp chất ứng viên Công cụ được tích hợp những phễu lọc các hợp chất giống thuốc - gồm nhiều yêu cầu khác nhau về đặc điểm lý hóa của hợp chất ứng viên, có thể kể tới như quy tắc Lipinski, Ghose, Veber, PAINS,…

Trang 23

13 Quay trở lại, nghiên cứu này tập trung vào đích tác dụng là BACE1 - enzym đóng vai trò quan trọng trong việc hình thành các mảng β - amyloid trong não Với đích tác dụng đó, các ứng viên làm thuốc cần phải được hấp thu và phân bố vào cơ quan đích - cụ thể ở đây là vượt qua được hàng rào máu não (HRMN) Hàng rào máu não là một hệ thống vi mạch có chức năng chọn lọc và điều tiết phân bố của các loại thuốc đến não [12] Để đảm bảo yêu cầu đó, ứng viên làm thuốc cần phải có đặc điểm lý hóa phù hợp với tính chất của hàng rào máu não, cụ thể ở đây là đặc điểm về tính thân dầu - thân nước Công cụ SwissADME có thể căn cứ vào các đặc điểm lý hóa của thuốc, từ đó tính toán và dự đoán khả năng hấp thu qua hàng rào máu não, được thể hiện qua tham số BBB (Blood Brain Barrier) Ngoài ra, công cụ còn giới thiệu mô hình “quả trứng luộc” - Boiled Egg, (hình 1.6) cho phép dự đoán hợp chất có khả năng được hấp thu qua hàng rào máu não hay không Mô hình Boiled Egg bao gồm vùng lòng đỏ (không gian hóa lý cho khả năng hấp thu qua HRMN cao), vùng lòng trắng (không gian hóa lý cho khả năng hấp thu qua ruột cao) và vùng xám (không gian hóa lý các phân tử có khả năng hấp thu kém qua cả hàng rào máu não và ruột) [5] Nói một cách dễ hiểu, hợp chất nằm càng gần vùng lòng đỏ thì sẽ có khả năng hấp thu qua hàng rào máu não tốt hơn hợp chất nằm xa vùng lòng đỏ

Hình 1.6 Mô hình Boiled Egg dự đoán khả năng hấp thu của thuốc vào cơ

thể trên công cụ SwissADME

Trang 24

14

CHƯƠNG 2: NGUYÊN LIỆU, THIẾT BỊ, PHƯƠNG PHÁP

NGHIÊN CỨU 2.1 NGUYÊN LIỆU, THIẾT BỊ, PHẦN MỀM NGHIÊN CỨU

- Cơ sở dữ liệu để sàng lọc (CSDL2) gồm 224206 hợp chất được thu thập từ nguồn dữ liệu ZINC - nền tảng dữ liệu các hợp chất được cung cấp và phát triển bởi University of California, San Francisco (UCSF) [44]

2.1.2 Thiết bị, phần mềm nghiên cứu

Thiết bị: Máy tính Acer Aspire 5, 256GB/8GB RAM Phần mềm nghiên cứu:

- Phần mềm vẽ cấu trúc hóa học: Chemdraw Professional 16.0 - Phần mềm docking: AutoDock Vina, VMD

- Nền tảng khảo sát đặc điểm dược động học: SwissADME - Nền tảng xây dựng mô hình QSAR: Python 3.9 trên nền tảng Google Colab

2.2 NỘI DUNG NGHIÊN CỨU

- Nội dung 1: Xây dựng và đánh giá các mô hình QSAR dự đoán tác dụng

ức chế BACE1 của các hợp chất từ CSDL1, từ đó lựa chọn 1 mô hình có chất lượng tốt nhất để sàng lọc

- Nội dung 2: Ứng dụng mô hình QSAR xây dựng được dự đoán hoạt tính

ức chế BACE1 của các hợp chất từ CSDL2, từ đó lựa chọn được các hợp chất ứng viên (có hoạt tính mạnh nhất)

- Nội dung 3: Khảo sát tương tác của các hợp chất ứng viên với thụ thể bằng

kỹ thuật docking phân tử - Nội dung 4: Khảo sát đặc điểm dược động học và đặc tính giống thuốc của

các hợp chất ứng viên

2.3 PHƯƠNG PHÁP NGHIÊN CỨU

Nghiên cứu được thực hiện với quy trình sàng lọc in silico các hợp chất nhằm

thu được các hợp chất có tiềm năng ức chế BACE1, được cụ thể hóa bằng sơ đồ ở hình 2.1

Trang 25

15

Hình 2.1 Thiết kế nghiên cứu sàng lọc ảo các hợp chất có tiềm năng ức chế

BACE1

2.3.1 Phương pháp xây dựng mô hình QSAR

2.3.1.1 Chuẩn bị cơ sở dữ liệu

Cơ sở dữ liệu xây dựng mô hình (CSDL1) gồm cấu trúc và hoạt tính ức chế enzym BACE1 được thể hiện bằng giá trị logarit cơ số 10 của nồng độ ức chế 50% hoạt tính enzym (log IC50) của 1138 hợp chất được trình bày ở Phụ lục 1

Cơ sở dữ liệu sàng lọc (CSDL2) bao gồm 224205 hợp chất được thu thập từ ZINC - nền tảng dữ liệu các hợp chất được cung cấp và phát triển bởi University of California, San Francisco (UCSF)

2.3.1.2 Tính toán tham số phân tử và xử lý số liệu

Cấu trúc của 1138 hợp chất trong CSDL1 được biểu diễn trên phầm mềm vẽ cấu trúc Chemdraw Professional phiên bản 16.0 Cấu trúc sẽ được mã hóa dưới dạng chuỗi SMILES tương ứng Tiếp theo, quá trình tính toán TSPT được thực hiện bằng

việc ứng dụng xử lý ngôn ngữ tự nhiên (NLP) qua thuật toán Mol2vec 1138 cấu trúc

được mã hóa dưới dạng chuỗi SMILES lần lượt được biểu diễn dưới dạng vectơ có chiều dài 100, thể hiện bởi 100 giá trị tham số đặc trưng cho từng cấu trúc riêng biệt, được tiến hành bằng việc sử dụng mô hình Mol2vec được huấn luyện trước đó dựa trên mô tả của S Jaeger và cộng sự [31]

Để tránh gây ra sai số trong dữ liệu đầu vào dẫn tới làm giảm tính chính xác và độ tin cậy của mô hình QSAR, dữ liệu đầu vào được xử lý trước khi tiến hành xây dựng mô hình, các quy trình bao gồm:

- Loại bỏ các giá trị trùng lặp và không đáng tin cậy - Tiến hành trích chọn thuộc tính (Feature Selection) bằng cách loại bỏ

các tham số phân tử có độ tương quan chéo r2 > 0.9 - Giá trị IC50 được chuyển đổi thành dạng logarit cơ số 10 (log IC50)

Trang 26

16

2.3.1.3 Thiết kế tập huấn luyện (training set) và tập kiểm tra (test set)

Từ 1138 hợp chất từ CSDL1 sau khi được xử lí số liệu, tiến hành thiết lập tập huấn luyện (training set) gồm 796 hợp chất (69,9%) để xây dựng mô hình và tập kiểm tra (test set) 342 hợp chất còn lại (30,1%) được sử dụng để đánh giá mô hình

2.3.1.4 Xây dựng mô hình

Các mô hình được xây dựng bằng các phương pháp: rừng ngẫu nhiên hồi quy

(Random Forest Regression - RF); Vectơ hỗ trợ hồi quy (Support Vector Regression - SVR); hồi quy tuyến tính (Linear Regression); hồi quy Lasso (Lasso Regression); hồi quy Ridge (Ridge Regression), XGBoost (XGBoost Regression); mạng nơ-ron nhân tạo (Artificial Neural Network - ANN)

2.3.2 Phương pháp đánh giá mô hình QSAR

Các mô hình được đánh giá dựa trên các các thông số thống kê: hệ số tương

quan R2, sai số tuyệt đối trung bình (Mean Absolute Error - MAE) và sai số dự đoán - độ lệch chuẩn phần dư (Root Mean Square Error - RMSE), khả năng dự đoán nội

%P, khả năng dự đoán ngoại %Ptest

Hệ số tương quan R2 đo lường mức độ mà mô hình có thể giải thích biến động

của dữ liệu, trong khi giá trị MAE đo lường sai số trung bình giữa giá trị dự đoán và giá trị thực tế Giá trị RMSE cho biết về mức độ sai lệch trung bình giữa dự đoán và

thực tế, thông qua bình phương của sai số và căn bậc hai của giá trị trung bình đó

Ngoài ra, khả năng dự đoán nội và ngoại của mô hình (%P và %Ptest) cũng được sử

dụng để đánh giá khả năng dự đoán của mô hình trên dữ liệu đã biết và dữ liệu mới Các chỉ số này cung cấp cái nhìn tổng quan về độ chính xác và khả năng tổng quát hóa của mô hình, từ đó giúp đánh giá mức độ tin cậy và khả năng dự đoán của mô hình trong quá trình dự báo và phân tích dữ liệu

2.3.3 Phương pháp xác định miền cấu trúc ứng dụng của mô hình

Để tiến hành dự đoán hoạt tính của các hợp chất trong cơ sở dữ liệu đầu vào bằng mô hình QSAR đã xây dựng, việc xác định hợp chất đó có nằm trong miền ứng

dụng của mô hình (Applicability domain) hay không là một việc hết sức quan trọng,

quyết định trực tiếp tới độ chính xác và độ tin cậy của phép dự đoán đó Miền cấu trúc ứng dụng là một khu vực lý thuyết trong không gian hóa học, được xác định bởi

các tham số phân tử mô tả hóa học (Molecular descriptors), tính phản hồi của mô

hình, và được quyết định bởi đặc điểm và tính chất của các phân tử trong tập huấn luyện để xây dựng mô hình [37] Việc xác định miền cấu trúc ứng dụng của mô hình đóng vai trò rất quan trọng trong nghiên cứu QSAR, cho phép xác định những hợp chất được dự đoán bởi mô hình Nếu không có miền ứng dụng, các hợp chất đầu vào

Trang 27

17 cho mô hình QSAR có thể có cấu trúc khác xa với hợp chất dùng xây dựng mô hình (hợp chất thuộc tập huấn luyện), dẫn tới dự đoán ngoại suy có sai số cao [41]

Nghiên cứu này sử dụng phương pháp 10 lân cận gần nhất [36] để xác định miền cấu trúc ứng dụng của mô hình Những hợp chất được coi là nằm trong miền cấu trúc xác định của mô hình nếu thỏa mãn [36]:

Di ≤ Dc= Zσ+y Trong đó: y là trung bình khoảng cách Euclid trong không gian các TSPT của mô hình giữa mỗi hợp chất trong tập huấn luyện đến mười hợp chất gần nó nhất; σ là độ lệch chuẩn của y; Z hệ số thực nghiệm với giá trị mặc định bằng 0.5; Di là trung bình khoảng cách Euclid giữa hợp chất cần dự đoán i đến mười hợp chất gần nhất trong tập huấn luyện [36], [41]

Khoảng cách Euclid giữa hai hợp chất là khoảng cách giữa hai điểm biểu diễn của hai hợp chất đó trong không gian với các hệ trục tọa độ tương ứng với các TSPT

xuất hiện trong mô hình

2.3.4 Kỹ thuật docking phân tử

Docking phân tử (Molecular Docking) hay còn gọi là mô phỏng tương tác phân

tử là một trong những kỹ thuật được sử dụng phổ biến nhất hiện nay trong lĩnh vực dược phẩm, đặc biệt là trong nghiên cứu phát triển thuốc mới vì khả năng dự đoán tương tác thụ thể (protein, enzym) - phối tử với độ chính xác cao [27] Mục đích của docking phân tử là xác định một cấu dạng tối ưu nhất cho phức hợp thụ thể - phối tử và dự đoán chính xác hoạt động của phối tử để năng lượng tự do của phức hợp đích thụ thể - phối tử là nhỏ nhất [10]

Nguyên tắc chính của phương pháp này là đưa cấu trúc của hợp chất nghiên cứu vào trung tâm tương tác của protein hoặc enzym đích (đã có cấu trúc xác định), sau đó dự đoán các cấu dạng tương tác có thể xảy ra cũng như tính toán các giá trị tương tác Các thuật toán docking phân tử có thể thực hiện được các dự đoán định lượng về năng lượng liên kết, từ đó so sánh khả năng tương tác của các phối tử dựa trên ái lực liên kết trong các phức hợp thụ thể - phối tử [26], [27] Các hợp chất cần nghiên cứu sẽ được khảo sát tương tác của chúng trên các vùng hoạt động của đích sinh học bằng các thuật toán mô phỏng, sau đó, một thuật toán khác sẽ tính điểm để xếp hạng sự gắn kết giữa hợp chất với đích sinh học [23] Thông thường, chỉ một số ít các hợp chất có điểm cao nhất mới được tiếp tục nghiên cứu bằng thực nghiệm [17]

Quy trình docking phân tử trong nghiên cứu này sử dụng phần mềm Autodock Vina của chuỗi phần mềm AutoDock, sản phẩm của The Scripps Research Institute

[7] Đây là phần mềm mã nguồn mở được sử dụng với mục đích khảo sát docking

Trang 28

18

đối với các hợp chất cần phân tích [9], [7] AutoDock Vina được dùng kèm với AutodockTools 1.5.7 để hỗ trợ giao diện đồ họa

Quy trình docking gồm các bước:

Bước 1: Chuẩn bị cấu trúc protein và hợp chất dưới dạng file.pdbqt

Cấu trúc 3D của protein BACE1 (ID: 2FDP) được thu thập từ dữ liệu ngân hàng

protein RSCB Protein Data Bank (PDB) [46] và tải xuống thiết bị dưới dạng file.pdb Sau đó, sử dụng phần mềm AutodockTools 1.5.7 loại bỏ phối tử, phân tử nước; thêm

liên kết hydrogen phân cực, tính toán điện tích và được lưu lại dưới dạng file.pdbqt Cấu trúc của các hợp chất (trong CSDL sau khi áp dụng mô hình QSAR được dự đoán có khả năng ức chế protein BACE1 mạnh) được chuyển từ dạng 2D sang

3D sử dụng phần mềm Chem3D 18.1, lưu lại dưới định dạng file.pdbqt nhờ công cụ AutodockTools 1.5.7

Bước 2: Docking sử dụng phần mềm Autodock Vina

Sau khi chuẩn bị cấu trúc của protein và cơ chất, protein và cơ chất được dock

với nhau tự động qua phần mềm AutodockVina Các thông số và hàm tính điểm sử

dụng mặc định của phần mềm

Bước 3: Xử lý kết quả Kết quả mô phỏng tương tác docking phân tử được đánh giá dựa trên giá trị năng lượng liên kết giữa phối tử và protein thụ thể Năng lượng liên kết (G) càng nhỏ thì ái lực liên kết giữa hợp chất nghiên cứu và thụ thể càng lớn

Kết quả sau khi thực hiện docking sẽ được xử lý bằng phần mềm Microsoft Office Excel 2024

2.3.5 Phương pháp khảo sát đặc điểm dược động học

Sau khi tiến hành quá trình docking phân tử, các hợp chất có năng lượng liên kết giữa phối tử và protein thụ thể tốt nhất sẽ được tiến hành khảo sát đặc điểm dược động học - bao gồm đánh giá sự hấp thu, phân bố, chuyển hóa và thải trừ (ADME) ở bước tiếp theo

Ở đây, nhóm nghiên cứu tiến hành sử dụng quy trình khảo sát dựa trên nền tảng SwissADME - một công cụ đánh giá dược động học, quy tắc tính giống thuốc và khả năng tổng hợp hóa dược của các hợp chất phân tử nhỏ, được giới thiệu vào năm 2017 bởi A Daina và cộng sự [5] Công cụ web SwissADME cho phép thực hiện các phép tính toán các thông số chính về hóa lý, dược động học, tính chất giống thuốc và các thông số liên quan cho một hoặc nhiều phân tử hợp chất ứng viên Công cụ được tích hợp những phễu lọc các hợp chất giống thuốc - gồm nhiều yêu cầu khác nhau về đặc điểm lý hóa của hợp chất ứng viên, có thể kể tới như quy tắc Lipinski, Ghose, Veber, PAINS,…

Trang 29

19 Quy trình khảo sát đặc điểm dược động học của hợp chất bao gồm các bước sau:

Bước 1: Nhập dữ liệu đầu vào Tiến hành nhập dữ liệu đầu vào của các hợp chất cần khảo sát nhằm đưa ra những đặc điểm hóa học của cấu trúc hợp chất cho thuật toán, từ đó giúp thuật toán có thể tính toán những thông số mô tả đặc tính lý hóa của hợp chất, đồng thời đưa ra những dự đoán về đặc điểm dược động học của hợp chất cần khảo sát Dữ liệu đầu

vào có thể được nhập dưới dạng biểu diễn dòng (Line notation), cụ thể là dạng biểu

diễn SMILES Ngoài ra, công cụ cho phép việc vẽ công thức hóa học, đồng thời đưa ra thuật toán nhằm chuyển dạng biểu diễn hóa học đó về dạng biểu diễn SMILES tương ứng

Bước 2: Tiến hành tính toán, dự đoán và xử lý kết quả Sau khi nhập dữ liệu đầu vào cho thuật toán, công cụ SwissADME có thể tính toán những thông số mô tả đặc tính lý hóa của hợp chất, đồng thời đưa ra những dự đoán về đặc điểm dược động học của hợp chất cần khảo sát Công cụ bao gồm các thông số hóa lý của hợp chất, từ phân tử lượng, số lượng liên kết Hydro cho - nhận cho tới các giá trị thể hiện đặc tính thân dầu - thân nước của hợp chất Từ các thông số hóa lý kể trên, công cụ tiếp tục đưa ra các giá trị dự đoán thể hiện đặc tính các thông số dược động học bao gồm đánh giá sự hấp thu, phân bố, chuyển hóa và thải trừ (ADME) Cuối cùng, công cụ tính toán và đưa ra các điều kiện về quy luật giống

thuốc (Drug-likeness Filters), tạo thành các phễu lọc trong việc sàng lọc các hợp

chất

Trang 30

TSPT của các hợp chất trong tập CSDL1 được tính toán bằng việc ứng dụng NLP qua thuật toán Mol2vec Cấu trúc của 1138 hợp chất sau khi được mã hóa dưới dạng chuỗi SMILES sẽ được tiến hành biểu diễn dưới dạng vectơ có chiều dài 100, thể hiện bởi 100 giá trị tham số đặc trưng cho từng cấu trúc riêng biệt, được tiến hành bằng việc sử dụng mô hình Mol2vec đã được huấn luyện từ trước đó dựa trên mô tả của S Jaeger và cộng sự [31] Sau khi xử lý và loại bỏ các TSPT có giá trị giống nhau và các TSPT có mối tương quan chéo với nhau, cuối cùng thu được 34 TSPT 2D ứng với mỗi hợp chất

Tiếp tục tiến hành chia ngẫu nhiên 1138 hợp chất từ CSDL1 thành tập huấn luyện và tập kiểm tra với tỷ lệ 70% - 30% Kết quả thu được tập huấn luyện gồm 796 hợp chất và tập kiểm tra gồm 342 hợp chất Sau đó, dựa trên ngôn ngữ lập trình Python, tiến hành xây dựng các mô hình QSAR bằng các thuật toán khác nhau từ

những phương pháp khác nhau như: Rừng ngẫu nhiên hồi quy (Random Forest Regression - RF); Vectơ hỗ trợ hồi quy (Support Vector Regression - SVR); hồi quy tuyến tính (Linear Regression); hồi quy Lasso (Lasso Regression); hồi quy Ridge (Ridge Regression), XGBoost (XGBoost Regression); mạng nơ-ron nhân tạo (Artificial Neural Network - ANN)

3.2 KẾT QUẢ XÂY DỰNG MÔ HÌNH QSAR

3.2.1 Mô hình M1 - Phương pháp hồi quy rừng ngẫu nhiên (Random Forest Regression - RF)

Ở phương pháp này, các thông số được thiết lập như sau: - n_estimators: [10, 50, 100];

- max_depth: [5, 15, 25];

- min_samples_split: [2, 5, 10];

- min_samples_leaf: [1, 2, 5] Thông số tối ưu thu được: n_estimators: 100; max_depth: 15; min_samples_leaf: 1; min_samples_split: 5

Tiến hành xây dựng mô hình QSAR (mô hình M1) biểu thị mối quan hệ giữa cấu trúc và hoạt tính sinh học của hợp chất được thể hiện qua thông số logIC50 bằng phương pháp rừng ngẫu nhiên hồi quy (RF) Thống kê kết quả dự đoán của mô hình

Trang 31

21 M1 đối với các hợp chất của tập huấn luyện và tập kiểm tra được trình bày ở biểu đồ hình 3.1

Kết quả từ tập kiểm tra Kết quả từ tập huấn luyện

Hình 3.1 Biểu đồ thống kê kết quả dự đoán của mô hình M1

Nhận xét:

Kết quả dự đoán logIC50 của mô hình M1 đối với các hợp chất của tập huấn luyện rất sát với giá trị logIC50 thực tế Tuy nhiên, độ chính xác của các dự đoán đối với các hợp chất của tập kiểm tra lại khác nhiều so với giá trị logIC50 thực tế Hệ số xác định của mô hình M1 đối với dữ liệu từ tập huấn luyện và tập kiểm tra lần lượt là R2 = 0.925 và R2

test = 0.642 (đều > 0.6) Đối với sai số trung bình tuyệt đối (MAE) và sai số bình phương trung bình gốc (RMSE), các sai số dự đoán từ tập huấn luyện lần lượt là MAE = 0.239; RMSE = 0.322 Trong khi đó, giá trị sai số MAE và RMSE của kết quả dự đoán trên tập kiểm tra lần lượt là 0.526 và 0.707

3.2.2 Mô hình M2 - Phương pháp hồi quy vectơ hỗ trợ (Support Vector Regression - SVR)

Ở phương pháp này, các thông số được thiết lập như sau: - hệ số γ: [10-6, 10-5, 10-4, 10-3, 10-2, 10-1];

- hằng số C: [1, 10, 20, 30, 40, 50, 75, 100];

- sai số  : [10-6, 10-5, 10-4, 10-3, 10-2, 10-1] Thông số tối ưu thu được của mô hình có chất lượng nhất (mô hình M2) là: hằng số C = 20; sai số  = 10-1; hệ số γ = 10-3

. Thống kê kết quả dự đoán của mô hình M2 đối với các hợp chất của tập huấn luyện và tập kiểm tra được trình bày ở biểu đồ hình 3.2

Trang 32

22

Kết quả từ tập kiểm tra Kết quả từ tập huấn luyện

Hình 3.2 Biểu đồ thống kê kết quả dự đoán của mô hình M2

Nhận xét:

Kết quả dự đoán logIC50 của mô hình M2 đối với các hợp chất của tập huấn luyện khá gần với giá trị logIC50 thực tế Hệ số xác định (R2) của mô hình M2 trên tập huấn luyện là 0.790, trên tập kiểm tra là 0.705 Các giá trị này đều lớn hơn 0.6, điều đó cho thấy mô hình có khả năng khá tốt trong việc giải thích biến động của dữ liệu Sai số trung bình tuyệt đối (MAE) và sai số bình phương trung bình gốc (RMSE) trên tập huấn luyện lần lượt là MAE = 0.362 và RMSE = 0.540 Trên tập kiểm tra, giá trị MAE và RMSE lần lượt là 0.495 và 0.641 Cả hai chỉ số này thể hiện mức độ chênh lệch giữa giá trị dự đoán và giá trị thực tế Mặc dù các giá trị sai số trên tập kiểm tra cao hơn so với tập huấn luyện, chúng vẫn nằm trong phạm vi chấp nhận được, cho thấy mô hình M2 không bị quá khớp và có khả năng tổng quát hóa tốt trên dữ liệu mới

3.2.3 Mô hình M3 - Phương pháp hồi quy tuyến tính (Linear Regression - LR)

Tiến hành xây dựng mô hình QSAR biểu thị mối quan hệ giữa cấu trúc hóa học của các hợp chất trong CSDL1 và giá trị logIC50 dự đoán bằng phương pháp hồi quy

tuyến tính (LR)

Phương trình thu được sau khi xây dựng mô hình M3 là:

Y = -0.12 * X1 + -0.12 * X2 + -0.01 * X3 + 0.16 * X4 + -0.13 * X5 + 0.09 * X6 + -0.08 * X7 + 0.00 * X8 + -0.22 * X9 + -0.19 * X10 + -0.02 * X11 + -0.02 * X12 + -0.01 * X13 + -0.13 * X14 + 0.08 * X15 + 0.14 * X16 + 0.07 * X17 + 0.16 * X18 + 0.10 * X19 + 0.02 * X20 + 0.08 * X21 + -0.31 * X22 + -0.11 * X23 + -0.35

* X24 + -0.08 * X25 + -0.15 * X26 + -0.10 * X27 + -0.08 * X28 + -0.12 * X29 + 0.10 * X30 + -0.16 * X31 + 0.02 * X32 + 0.03 * X33 + 0.02 * X34 + -0.10 * X35 + -0.06 * X36 + -0.14 * X37 + 0.14 * X38 + 0.04 * X39 + -0.05 * X40 + -0.07 * X41

Trang 33

23

+ -0.16 * X42 + -0.05 * X43 + 0.12 * X44 + 0.04 * X45 + -0.05 * X46 + 0.18 * X47 + 0.05 * X48 + 0.09 * X49 + 4.12

Thống kê kết quả dự đoán của mô hình M3 với 49 biến là các TSPT được trình bày ở hình 3.3

Kết quả từ tập kiểm tra Kết quả từ tập huấn luyện

Hình 3.3 Biểu đồ thống kê kết quả dự đoán của mô hình M3

Nhận xét:

Kết quả phân tích từ hình 3.3 cho thấy hệ số xác định của hàm hồi quy đối với dữ liệu từ tập huấn luyện và tập kiểm tra lần lượt là R2 = 0.504 và R2

test = 0.553 Cả hai giá trị R2 đều nhỏ hơn ngưỡng chấp nhận được là 0.6 Như vậy, mô hình M3 có khả năng dự đoán không cao Ngoài ra, sai số dự đoán của tập huấn luyện lần lượt là MAE = 0.651 và RMSE = 0.829, trong khi đó ở tập kiểm tra là MAE = 0.617 và RMSE = 0.790 Cả hai chỉ số MAE và RMSE đều thấp hơn so với kết quả trên tập huấn luyện, nhưng vẫn khá cao, chứng tỏ rằng mô hình M3 không thể dự đoán chính xác khi đối chiếu với dữ liệu từ tập kiểm tra

3.2.4 Mô hình M4 - Phương pháp hồi quy Lasso (Lasso Regression)

Tiến hành xây dựng mô hình QSAR biểu thị mối quan hệ giữa cấu trúc hóa học của các hợp chất trong CSDL1 và giá trị logIC50 dự đoán bằng phương pháp hồi quy Lasso

Phương trình thu được sau khi xây dựng mô hình M4 là:

Y = -0.01 * X1 + -0.05 * X2 + 0.00 * X3 + 0.04 * X4 + -0.06 * X5 + 0.00 * X6 + 0.00 * X7 + 0.03 * X8 + 0.00 * X9 + -0.11 * X10 + 0.01 * X11 + 0.00 * X12

+ 0.00 * X13 + -0.01 * X14 + 0.01 * X15 + 0.04 * X16 + 0.00 * X17 + 0.00 * X18 + 0.08 * X19 + 0.00 * X20 + 0.00 * X21 + -0.06 * X22 + -0.01 * X23 + -0.15 * X24 + 0.00 * X25 + -0.09 * X26 + 0.00 * X27 + 0.00 * X28 + -0.06 * X29 + 0.00 * X30 + 0.00 * X31 + 0.00 * X32 + 0.00 * X33 + 0.02 * X34 + -0.03 * X35 + 0.00 * X36

Trang 34

24

+ 0.06 * X37 + 0.00 * X38 + -0.04 * X39 + 0.00 * X40 + 0.00 * X41 + -0.01 * X42 + 0.00 * X43 + 0.00 * X44 + 0.06 * X45 + 0.00 * X46 + 0.00 * X47 + 0.00 * X48 + 0.02 * X49 + 4.07

Thống kê kết quả dự đoán của mô hình M4 với 49 biến là các TSPT được trình bày ở hình 3.4

Kết quả từ tập kiểm tra Kết quả từ tập huấn luyện

Hình 3.4 Biểu đồ thống kê kết quả dự đoán của mô hình M4

Nhận xét:

Kết quả phân tích từ biểu đồ hình 3.4 cho thấy hệ số R2 của hàm hồi quy đối với dữ liệu từ tập huấn luyện và tập kiểm tra lần lượt là R2 = 0.498 và R2

test = 0.551 Cả hai giá trị R2 đều thấp hơn ngưỡng chấp nhận được là 0.6, chứng tỏ rằng mô hình M4 không có khả năng dự đoán chính xác Bên cạnh đó, sai số dự đoán của tập huấn luyện lần lượt là MAE = 0.658 và RMSE = 0.834, trong khi đó ở tập kiểm tra là MAE = 0.623 và RMSE = 0.791 Mặc dù cả hai chỉ số MAE và RMSE đều thấp hơn so với kết quả trên tập huấn luyện, nhưng vẫn cao Nên nhìn chung, mô hình M4 không thể dự đoán chính xác khi áp dụng vào dữ liệu mới từ tập kiểm tra

3.2.5 Mô hình M5 - Phương pháp hồi quy Ridge (Ridge Regression)

Tiến hành xây dựng mô hình QSAR biểu thị mối quan hệ giữa cấu trúc hóa học của các hợp chất trong CSDL1 và giá trị logIC50 dự đoán

Phương trình thu được sau khi xây dựng mô hình M5 là:

Y = -0.11 * X1 + -0.11 * X2 + -0.03 * X3 + 0.13 * X4 + -0.11 * X5 + 0.04 * X6 + -0.05 * X7 + 0.03 * X8 + -0.12 * X9 + -0.14 * X10 + -0.01 * X11 + -0.03 * X12 + 0.03 * X13 + -0.07 * X14 + 0.08 * X15 + 0.09 * X16 + 0.04 * X17 + 0.12 * X18 + 0.12 * X19 + -0.03 * X20 + 0.07 * X21 + -0.21 * X22 + -0.12 * X23 + -0.26

* X24 + -0.07 * X25 + -0.12 * X26 + -0.03 * X27 + -0.04 * X28 + -0.12 * X29 + 0.03 * X30 + -0.11 * X31 + -0.00 * X32 + 0.03 * X33 + 0.03 * X34 + -0.08 * X35

Trang 35

25

+ -0.05 * X36 + -0.08 * X37 + 0.06 * X38 + 0.02 * X39 + -0.02 * X40 + -0.04 *

X41 + -0.13 * X42 + 0.01 * X43 + 0.10 * X44 + 0.06 * X45 + -0.01 * X46 + 0.13 * X47 + 0.02 * X48 + 0.07 * X49 + 4.15

Thống kê kết quả dự đoán của mô hình M5 với 49 biến là các TSPT được trình bày ở hình 3.5

Kết quả từ tập kiểm tra Kết quả từ tập huấn luyện

Hình 3.5 Biểu đồ thống kê kết quả dự đoán của mô hình M5

3.2.6 Mô hình M6 - Phương pháp hồi quy XGBoost (XGBoost Regression)

Tiến hành xây dựng mô hình QSAR thể hiện mối quan hệ giữa cấu trúc hóa học của các hợp chất trong CSDL1 với giá trị logIC50 dự đoán Các thông số để xây dựng mô hình M6 được khảo sát như sau:

Trang 36

26

Kết quả từ tập kiểm tra Kết quả từ tập huấn luyện

Hình 3.6 Biểu đồ thống kê kết quả dự đoán của mô hình M6

Nhận xét:

Kết quả phân tích từ biểu đồ hình 3.6 cho thấy hệ số R2 của hàm hồi quy đối với dữ liệu từ tập huấn luyện và tập kiểm tra lần lượt là R2 = 0.953 và R2

test = 0.631 Cả hai giá trị R2 đều vượt qua ngưỡng chấp nhận được là 0.6, đặc biệt với giá trị R2

ở tập huấn luyện cao, điều đó cho thấy mô hình M6 có chất lượng khá tốt Ngoài ra, sai số dự đoán của tập huấn luyện lần lượt là MAE = 0.178 và RMSE = 0.256, trong khi đó ở tập kiểm tra là MAE = 0.538 và RMSE = 0.718 Các giá trị sai số trên ở tập kiểm tra đều cao, trong khi giá trị sai số ở tập huấn luyện thì khá thấp Điều đó cho thấy sự chênh lệch giữa khả năng dự đoán ở tập huấn luyện và tập kiểm tra Tóm lại, mặc dù hệ số R2 vượt qua ngưỡng chấp nhận được, nhưng sự chênh lệch lớn giữa hai tập dữ liệu và các sai số dự đoán cao cho thấy mô hình M6 không đạt được khả năng dự đoán chính xác khi áp dụng vào dữ liệu kiểm tra, và có thể gặp vấn đề quá khớp (overfitting) với dữ liệu huấn luyện

3.2.7 Mô hình M7 - Phương pháp mạng nơ-ron nhân tạo (Artificial Neural Network - ANN)

Ở phương pháp này, các thông số được khảo sát với các giá trị sau: - hidden_layer_sizes: [(32,), (64, ), (128,), (32, 32), (64, 64), (128, 128)];

- alpha: [10-8, 10-7, 10-6, 10-5, 10-4, 10-3]; - learning_rate: ['constant','adaptive'] Thông số tối ưu thu được của mô hình chất lượng nhất (mô hình M7) là: alpha:

10-8, hidden_layer_sizes: (64, 64), learning_rate: ‘adaptive’

Thống kê kết quả dự đoán của mô hình M7 được trình bày ở hình 3.7

Trang 37

27

Kết quả từ tập kiểm tra Kết quả từ tập huấn luyện

Hình 3.7 Biểu đồ thống kê kết quả dự đoán của mô hình M7

3.2.8 Lựa chọn mô hình

Qua quá trình xây dựng và khảo sát các mô hình xây dựng được (mô hình M7) từ tập CSDL1, các giá trị thống kê thể hiện chất lượng dự đoán của mô hình được tổng hợp để phục vụ cho quá trình lựa chọn mô hình có chất lượng tốt nhất Kết quả được trình bày ở bảng 3.1

M1-Bảng 3.1 Tổng hợp các thông số thể hiện chất lượng của các mô hình

đã xây dựng được

Mô hình

Phương pháp xây dựng

Thông số mô hình

M1 Random Forest 0.925 0.239 0.322 0.642 0.526 0.707 M2 SVR 0.790 0.362 0.540 0.705 0.495 0.641 M3 Linear Regression 0.504 0.651 0.829 0.553 0.617 0.790

Trang 38

28 M4 Lasso Regression 0.498 0.658 0.834 0.551 0.623 0.791 M5 Ridge Regression 0.504 0.651 0.829 0.554 0.616 0.789 M6 XGBoost 0.953 0.178 0.256 0.631 0.538 0.718 M7 ANN 0.720 0.469 0.623 0.591 0.571 0.755

Xét mô hình M2, hệ số R2 và R2

test của mô hình không quá cao nhưng vẫn ở mức chấp nhận được do đều > 0.6, ngoài ra giá trị R2 của 2 tập không quá chênh lệch nhau Ngoài ra, các thông số sai số của mô hình cũng ở mức thấp Trên tập huấn luyện, mô hình M2 có chỉ số MAE = 0.362 và RMSE = 0.540, đạt mức khá thấp Trên tập kiểm tra, ta có thể thấy 2 thông số MAE và RMSE đều đạt giá trị thấp nhất khi đối chiếu với 6 mô hình còn lại, với lần lượt là 0.495 và 0.641 Điều đó chứng tỏ khả năng dự đoán ngoại suy của mô hình đạt mức tốt nhất khi so sánh với các mô hình còn lại

Từ phân tích trên cho thấy trong số các mô hình đã được xây dựng, mô hình có độ chính xác và độ tin cậy cao nhất là mô hình M2 - được xây dựng bởi phương pháp Vectơ hỗ trợ hồi quy (SVR) Mô hình M2 được chọn để ứng dụng sàng lọc các hợp chất tiềm năng có tác dụng ức chế BACE1 ở các bước tiếp theo

3.3 KẾT QUẢ ỨNG DỤNG MÔ HÌNH QSAR VÀO SÀNG LỌC CÁC HỢP CHẤT TIỀM NĂNG ỨC CHẾ BACE1

Từ kết quả đánh giá các mô hình và lựa chọn mô hình ở mục 3.2.8, mô hình M2 được ứng dụng để sàng lọc các hợp chất tiềm năng có tác dụng ức chế BACE1

Tiến hành xác định miền cấu trúc ứng dụng của mô hình M2 theo phương pháp 10 lân cận gần nhất, với ngưỡng threshold được xác định threshold = Dk + 1.0 * Sk, thu được kết quả như sau:

(M2): Di ≤ Dk + 1.0 * Sk = 7.0511 + 1.0 * 4.2334 = 11.2845 Tiếp theo, tiến hành tính toán giá trị Di của 224205 hợp chất trong CSDL2 để xác định các hợp chất thuộc miền ứng dụng của mô hình M2 Hợp chất nằm trong

Trang 39

29 miền ứng dụng của mô hình cần thỏa mãn giá trị Di ≤ 11.2845 Kết quả được trình bày ở bảng 3.2

Bảng 3.2 Kết quả xác định các hợp chất trong CSDL2 thuộc miền ứng dụng của

Bảng 3.3 Kết quả ứng dụng mô hình M2 để sàng lọc hoạt tính ức chế BACE1 của

nhỏ hơn 2, chiếm tỷ lệ 4.1% Do đó, nhóm nghiên cứu lựa chọn 968 hợp chất này để tiến hành kỹ thuật docking phân tử, từ đó lựa chọn hợp chất có hoạt tính ức chế BACE1 tốt nhất

3.4 KẾT QUẢ DOCKING PHÂN TỬ

Tiến hành docking 968/23511 hợp chất đã được sàng lọc bằng mô hình QSAR ở mục 3.3 với cấu trúc tinh thể protein thụ thể BACE1 theo phương pháp được mô tả ở mục 2.3.4 Kết quả được trình bày chi tiết ở Phụ lục 2 Phối tử đối chiếu được lựa chọn để đánh giá khả năng liên kết của các hợp chất sàng lọc là N1-((2S,3S,5R)-3-amino-6-(4-fluorophenylamino)-5-methyl-6-oxo-1-phenylhexan-2-yl)-N3,N3-dipropylisophthalamide (hình 3.8) [40] Lần lượt từng hợp chất được mô phỏng

Trang 40

30 tương tác với protein thụ thể đích, sau đó cấu dạng docking có năng lượng liên kết nhỏ nhất của mỗi hợp chất sẽ được lựa chọn để so sánh với phối tử đối chiếu

Hình 3.8 Cấu trúc hóa học của phối tử đối chiếu

Năng lượng liên kết tự do ∆G (Kcal/mol) là giá trị đại diện cho số lượng và mức độ tương tác giữa protein và hợp chất Phân tích kết quả docking cho thấy, tất cả 968 hợp chất đều có khả năng gắn vào túi của trung tâm hoạt động của protein (tất cả đều có năng lượng liên kết âm với đích, từ -10.8 đến -6.6) Năng lượng liên kết của phối tử đối chiếu và trung tâm hoạt động của protein là -9.9 Như vậy, có 58/968 hợp chất có năng lượng liên kết với protein nhỏ hơn -9.9, chứng tỏ khả năng liên kết với protein của các hợp chất đó tốt hơn so với phối tử đối chiếu Năng lượng liên kết, cấu trúc và giá trị logIC50 của 58 hợp chất trên được trình bày ở Phụ lục 3 của khóa luận

Trong số 58 hợp chất có năng lượng liên kết với protein nhỏ hơn phối tử đối chiếu, có 7 hợp chất cho kết quả G nhỏ nhất, với hợp chất ZINC000008790287 cho kết quả là -10.8 Kcal/mol và 6 hợp chất còn lại với năng lượng liên kết là -10.7 Kcal/mol Cấu trúc hóa học và giá trị logIC50 dự đoán của 7 hợp chất được trình bày ở bảng 3.4

Ngày đăng: 23/08/2024, 00:40

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN