1. Trang chủ
  2. » Luận Văn - Báo Cáo

phan thị vân anh sàng lọc các hợp chất tiềm năng có tác dụng ức chế lyn kinase sử dụng mô hình qsar docking phân tử và dự đoán admet

63 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

BỘ Y TẾ

TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI

PHAN THỊ VÂN ANH

SÀNG LỌC CÁC HỢP CHẤT TIỀM NĂNG CÓ TÁC DỤNG ỨC CHẾ LYN KINASE SỬ DỤNG MÔ HÌNH QSAR, DOCKING PHÂN TỬ VÀ DỰ ĐOÁN

ADMET

KHÓA LUẬN TỐT NGHIỆP CỬ NHÂN HOÁ DƯỢC

HÀ NỘI - 2024

Trang 2

BỘ Y TẾ

TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI

PHAN THỊ VÂN ANH

Mã sinh viên: 2091008

SÀNG LỌC CÁC HỢP CHẤT TIỀM NĂNG CÓ TÁC DỤNG ỨC CHẾ LYN KINASE SỬ DỤNG MÔ HÌNH QSAR, DOCKING PHÂN TỬ VÀ DỰ ĐOÁN

Trang 3

LỜI CẢM ƠN

Lời đầu tiên, tôi muốn gửi lòng biết ơn sâu sắc đến Ban Giám hiệu Trường Đại học Dược Hà Nội, cũng như đến tất cả các phòng ban và quý thầy cô giáo, người đã tạo điều kiện thuận lợi nhất cho tôi trong suốt quá trình học tập và nghiên cứu khoa học ở trường

Tôi muốn gửi lời cảm ơn chân thành đến PGS.TS Nguyễn Thu Hằng - Trưởng bộ môn Dược liệu, Trường Đại học Dược Hà Nội Cô là người đã truyền động lực và niềm đam mê nghiên cứu dược liệu cho tôi, luôn sẵn sàng dành thời gian và công sức để chỉ dạy những kiến thức quý giá, cũng như luôn động viên, khích lệ và tạo điều kiện tốt nhất để tôi có thể hoàn thành khóa luận tốt nghiệp Tôi không chỉ học được kiến thức từ cô, mà còn học được lòng nhiệt huyết, tinh thần trách nhiệm và thái độ nghiêm túc cần thiết khi làm nghiên cứu khoa học

Tôi muốn bày tỏ lòng tri ân sâu sắc đến Ths Nguyễn Văn Phương - Giảng viên Bộ môn Dược liệu, Trường Đại học Dược Hà Nội, người thầy đã cho tôi cơ hội được nghiên cứu, đã luôn bên cạnh, quan tâm, giúp đỡ và động viên tôi suốt quá trình nghiên cứu tại bộ môn Thầy đã dành nhiều thời gian và tâm huyết để tận tình hướng dẫn, chia sẻ kiến thức, kỹ năng và kinh nghiệm quý giá Nhờ đó, tôi đã trưởng thành hơn rất nhiều sau quãng thời gian thực hiện khóa luận này

Tôi xin chân thành cảm ơn các thầy cô và các anh chị đang công tác tại Bộ môn Dược liệu, người đã tạo điều kiện thuận lợi cho tôi trong quá trình thực hiện khóa luận Cuối cùng, tôi muốn bày tỏ lòng biết ơn đặc biệt đến gia đình, bạn bè và những người thân yêu, luôn là nguồn động viên tinh thần lớn, hỗ trợ tôi trong học tập và cuộc sống

Trong quá trình thực hiện khóa luận, không tránh khỏi những khó khăn và thiếu sót Tôi mong nhận được những nhận xét và góp ý chân thành từ thầy cô và bạn bè để khóa luận của tôi trở nên hoàn thiện hơn

Tôi xin chân thành cảm ơn!

Hà Nội, ngày 03 tháng 06 năm 2024

Sinh viên

Phan Thị Vân Anh

Trang 4

1.1 Tổng quan về enzym Lyn kinase và các chất ức chế Lyn kinase 3

1.1.1 Tổng quan về enzym Lyn kinase 3

1.1.2 Chất ức chế Lyn kinase 4

1.2 Tổng quan về mối quan hệ đi ̣nh lượng cấu trúc - tác dụng (QSAR) của các hợp chất 5

1.2.1 Lịch sử ra đời của QSAR 5

1.2.2 Các bước xây dựng mô hình QSAR 6

1.3 Tổng quan về kỹ thuật Docking phân tử 10

1.3.1 Lựa chọn và chuẩn bị cấu trúc mục tiêu 10

1.3.2 Chuẩn bị cấu trúc phân tử hợp chất (ligand) 11

1.3.3 Docking 11

1.3.4 Đánh giá kết quả sau Docking 11

1.4 Tổng quan về dự đoán ADMET và các đặc tính giống thuốc của hợp chất 12

CHƯƠNG 2: NGUYÊN VẬT LIỆU, ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 13

2.1 Nguyên vật liệu, thiết bi ̣ 13

2.1.1 Cơ sở dữ liệu và phần mềm 13

2.2 Nội dung nghiên cứu 13

2.3 Phương pháp nghiên cứu 14

2.3.1 Phương pháp xây dựng và đánh giá mô hình QSAR 14

2.3.2 Kỹ thuật Docking phân tử 16

2.3.3 Dự đoán ADMET và các đặc tính giống thuốc 17

CHƯƠ NG 3 THỰC NGHIỆM, KẾT QUẢ VÀ BÀN LUẬN 18

3.1 Kết quả xây dựng và đánh giá mô hình QSAR 18

3.1.1 Chuẩn bị cơ sở dữ liệu 18

3.1.2 Kết quả xây dựng và đánh giá mô hình QSAR 18

Trang 5

3.1.3 Kết quả ứng dụng mô hình QSAR để sàng lọc 22

3.2 Kết quả Docking phân tử 23

3.3 Dự đoán ADMET 30

3.4 Bàn luận 32

3.4.1 Về ứng dụng của mô hình QSAR, kỹ thuật Docking phân tử và ADMET trong sàng lọc ảo 32

3.4.2 Về kết quả sàng lọc ảo 34

3.4.3 Về kết quả Docking phân tử, dự đoán ADMET và các đặc tính giống thuốc 35

KẾT LUẬN VÀ ĐỀ XUẤT 37TÀI LIỆU THAM KHẢO

PHỤ LỤC

Trang 6

DANH MỤC CÁC KÝ HIỆU CÁC CHỮ VIẾT TẮT

STT Ký hiệu viết tắt Ý nghĩa

1 ADMET Hấp thu, phân bố, chuyển hóa, thải trừ và độc tính

(Absorption, Distribution, Metabolism, Excretion và

Toxicity)

4 QSAR Mối quan hệ cấu trúc-tác dụng

(Quantitative structure-activity relationship)

6 TSPT Tham số phân tử 7 MAPK/ERK Mitogen-Activated Protein Kinase/Extracellular

Signal-Regulated Kinase (con đường tín hiệu)

8 PI3K/Akt Phosphoinositide 3-Kinase/Protein Kinase B (con

đường tín hiệu) 9 EGFR Epidermal growth factor receptor (Yếu tố tăng

trưởng biểu bì) 10 HER2 Human Epidermal growth factor Receptor 2 (một thụ

thể thuộc họ thụ thể yếu tố tăng trưởng biểu bì (EGFR))

Trang 8

DANH MỤC CÁC HÌNH VẼ

1 Hình 1.1 Cấu trúc hóa ho ̣c của dasatinib và bosutinib 5

4 Hình 3.1 Kết quả của mô hình M2 trên tập huấn luyện (phải) và tập kiểm tra (trái)

7 Hình 3.4 Ái lực liên kết với Lyn kinase của phối tử đối chiếu

7 Hình 3.5 Ái lực liên kết với Lyn kinase của các hợp chất tiềm năng 26

8 Hình 3.6 Tương tác giữa Lyn kinase và các hợp chất 648 và Stauosporin

29

9 Hình 3.7 Cấu trúc hoá học của hợp chất 1381 ( ZINC000020503551) 32

Trang 9

ĐẶT VẤN ĐỀ

Tyrosin-protein kinase Lyn (Lyn kinase, LynK) từ lâu đã được biết đến như một trong những mục tiêu phân tử quan trọng trong việc nghiên cứu phát triển thuốc điều trị ung thư [14], [15] Một số nghiên cứu gần đây đã chỉ ra rằng Lyn kinase có thể kích hoạt nhiều con đường tín hiệu nội bào quan trọng như con đường PI3K/Akt và MAPK/ERK, thúc đẩy sự phát triển và sống sót của tế bào ung thư Lyn kinase cũng có thể tương tác trực tiếp với EGFR và góp phần vào quá trình phosphoryl hóa của EGFR Điều này rất quan trọng cho sự phát triển và tồn tại của tế bào ung thư [15] Ngoài vai trò đối với quá trình hình thành và phát triển khối u, Lyn kinase còn đóng vai trò quan trọng trong cơ chế bệnh sinh của một số bệnh lý thần kinh, trong đó có bệnh Alzheimer (AD) Mặc dù cơ chế của bệnh Alzheimer vẫn còn chưa sáng tỏ, nhưng có rất nhiều bằng chứng cho thấy rằng ty thể bị tổn thương có thể đóng vai trò quan trọng trong cơ chế bệnh sinh của Alzheimer [26], [39]

Các nghiên cứu cũng cho thấy Lyn kinase đóng vai trò quan trọng trong việc điều hòa quá trình phosphoryl oxy hóa và các quá trình khác liên quan đến chức năng ty thể [38] Do đó, Lyn kinase có thể có liên quan mật thiết đến các rối loạn liên quan đến ty thể quan sát thấy ở bệnh nhân Alzheimer Vì vậy, Lyn kinase là một mục tiêu phân tử quan trọng trong nghiên cứu phát triển thuốc điều trị các bệnh lý phức tạp như ung thư và Alzheimer Do đó, việc tiếp tục tìm kiếm các hợp chất có khả năng ức chế Lyn kinase là hết sức cần thiết

Nghiên cứu in silico là phương pháp sử dụng máy tính để mô phỏng các quá

trình sinh học hoặc hóa học, từ đó ứng dụng để sàng lọc số lượng lớn các hợp chất nhằm tìm ra những hợp chất tiềm năng có khả năng ức chế một đích cụ thể trước khi tiến hành thực nghiệm Hướng tiếp cận này giúp các nhà khoa học rút ngắn quá trình nghiên cứu phát triển thuốc mới, từ đó tiết kiệm đáng kể thời gian, công sức và chi phí

so với các phương pháp sàng lọc truyền thống in vitro hoặc in vivo Phương pháp này

đã được sử dụng để phát triển thành công một số thuốc ức chế enzym kinase, tiêu biểu như erlotinib (Tarceva®), một thuốc điều trị ung thư phổi thông qua cơ chế ức chế yếu

tố tăng trưởng biểu bì EGFR [24] Tuy nhiên, các nghiên cứu sàng lọc in silico để phát

hiện các hợp chất ức chế Lyn kinase tiềm năng vẫn còn rất hạn chế

Trang 10

Do đó, đề tài khóa luận “Sàng lọc các hợp chất tiềm năng có tác dụng ức chế Lyn

kinase sử dụng mô hình QSAR, Docking phân tử và dự đoán ADMET” được thực hiện

với hai mục tiêu sau: 1 Xây dựng và đánh giá mô hình QSAR biểu thị mối quan hệ giữa cấu trúc hóa học và hoạt tính ức chế Lyn kinase của các hợp chất

2 Ứng dụng mô hình QSAR xây dựng được kết hợp với kỹ thuật Docking phân tử, dự đoán ADMET và các đặc tính giống thuốc để sàng lọc các hợp chất ức chế Lyn kinase tiềm năng

Trang 11

CHƯƠNG 1: TỔNG QUAN

1.1 Tổng quan về enzym Lyn kinase và các chất ức chế Lyn kinase

1.1.1 Tổng quan về enzym Lyn kinase

Kinase là một nhóm enzym có chức năng chuyển nhóm phosphat từ các phân tử cao năng lượng (ATP) tới một phân tử đích là protein đặc hiệu Quá trình này gọi là sự phosphoryl hóa protein Enzym kinase đặc hiệu cho việc chuyển nhóm phosphat của các phân tử cao năng lượng tới các amino acid tyrosin được gọi là tyrosin kinase Kinase ngoài việc phosphoryl hóa các protein có tyrosin, còn phosphoryl hóa các phân tử protein có các amino acid khác như serin và threonin Phosphoryl hóa protein bởi kinase là một cơ chế quan trọng trong việc truyền tín hiệu và điều chỉnh hoạt động của tế bào, chẳng hạn như phân chia và tăng trưởng [12]

Lyn kinase là một loại tyrosin kinase thuộc họ Src Lyn kinase được biểu hiện trong nhiều loại tế bào, bao gồm tế bào tạo máu [15], tế bào thần kinh và tế bào mỡ Nó đóng một vai trò quan trọng trong nhiều quá trình sinh học như sự phát triển và phân chia tế bào, sự miễn dịch, sự phát triển thần kinh và sự phát triển của khối u [29] Cụ thể, Lyn kinase có thể kích hoạt nhiều con đường tín hiệu nội bào quan trọng, như con đường PI3K/Akt và MAPK/ERK, thúc đẩy sự phát triển và sống sót của tế bào ung thư Lyn kinase cũng có thể tương tác trực tiếp với EGFR và góp phần vào quá trình phosphoryl hóa của EGFR Điều này rất quan trọng cho sự phát triển và tồn tại của tế bào ung thư [15] Sự hoạt động quá mức của Lyn kinase có thể dẫn đến việc kích hoạt liên tục các con đường này, khiến tế bào phân chia không kiểm soát và tránh được apoptosis (chết tế bào theo chương trình), góp phần vào sự phát triển khối u Các chất ức chế Lyn kinase có thể ngăn chặn quá trình phosphoryl hóa của các protein trong con đường MAPK/ERK, giảm khả năng sống sót và tăng trưởng của tế bào ung thư Ngoài ra, ức chế Lyn kinase còn làm giảm hoạt động của PI3K/Akt, ngăn chặn sự truyền tín hiệu đến các protein như Akt Điều này dẫn đến việc giảm phân chia tế bào và thúc đẩy quá trình apoptosis Bên cạnh EGFR, Lyn kinase còn có thể tương tác và kích hoạt hàng loạt các thụ thể tyrosine kinase khác như HER2, và BCR-ABL Các thụ thể này khi bị kích hoạt quá mức cũng đóng vai trò quan trọng trong quá trình hình thành và tiến triển của khối u [29]

Bên cạnh đó Lyn kinase cũng có vai trò quan trọng trong việc điều hòa hệ miễn dịch, liên quan đến hoạt động của tế bào B và tế bào mast [36] Sự hoạt động bất

Trang 12

thường của Lyn kinase có thể dẫn đến việc điều hòa sai lệch hệ miễn dịch, góp phần vào sự phát triển ung thư thông qua việc tránh né sự giám sát miễn dịch Ngoài ra, Lyn kinase có thể thúc đẩy quá trình bài tiết cytokin và chemokin, tạo điều kiện thuận lợi cho môi trường vi mô của khối u Điều này có thể thúc đẩy sự xâm lấn và di căn của tế

bào ung thư cụ thể, trong bệnh bạch cầu mãn tính dòng lympho (chronic lymphocytic

leukemia - CLL) Sự hoạt động quá mức của Lyn kinase đã được báo cáo trên một số

bệnh nhân leukemia với sự tăng sinh của các tế bào bạch cầu ác tính [15] Ngoài ra, Lyn kinase còn đóng vai trò quan trọng trong cơ chế bệnh sinh của một

số bệnh lý thần kinh, trong đó có bệnh Alzheimer (Alzheimer disease - AD) Đáng chú

ý, tỷ lệ mắc AD trên thế giới ngày càng tăng Ước tính đến năm 2050, cứ 85 người trên toàn thế giới sẽ có 1 người sống chung với căn bệnh này và 43% số người mắc bệnh cần được chăm sóc ở mức độ cao [4] Cho đến nay, một lượng lớn nghiên cứu đã chỉ ra những bất thường về ty thể trên diện rộng trong não của bệnh nhân Alzheimer [38] Phù hợp với quan sát cho thấy sự suy giảm chuyển hóa năng lượng luôn xuất hiện trước khi khởi phát bệnh Alzheimer trên lâm sàng, rối loạn chức năng ty thể đã được coi là một đặc điểm sớm và nổi bật của bệnh [38], qua đó cho thấy ty thể đóng vai trò quan trọng trong cơ chế bệnh sinh của Alzheimer Một số yếu tố tác động đến chức năng ty thể bao gồm amyloid-beta (Aβ) và protein Tau bằng cách gây suy giảm chức năng và gián đoạn vận chuyển nội bào Những tác động này góp phần vào thúc đẩy quá trình thoái hóa tế bào thần kinh và tiến triển của bệnh Alzheimer Tau là một protein liên kết vi ống chính (MAP) của tế bào thần kinh trưởng thành bình thường [16] Protein Tau khi bị phosphoryl hóa một cách bất thường sẽ tập hợp thành các bó sợi, tạo thành các đám rối thần kinh, góp phần vào sự thoái hóa thần kinh trong bệnh Alzheimer [31] Bên cạnh đó, amyloid beta (Aβ) có thể tích tụ trong ty thể, làm giảm khả năng sản xuất năng lượng của ty thể Điều này dẫn đến giảm mức ATP, ảnh hưởng đến năng lượng cần thiết cho các hoạt động tế bào Sự hoạt hóa quá mức của Lyn kinase có thể góp phần vào thúc đẩy sự tích tụ amyloid beta Do có khả năng tương tác với cả amyloid-beta (Aβ) và Tau, Lyn kinase hiện đang là mục tiêu điều trị tiềm năng

nhằm giải quyết hai “nguyên nhân” chính của Alzheimer

1.1.2 Chất ức chế Lyn kinase

Việc phát triển các chất ức chế Lyn kinase đang thu hút được sự quan tâm của nhiều nhà khoa học trên toàn thế giới Một số hợp chất ức chế Lyn kinase tiêu biểu đã

Trang 13

được công bố bao gồm: Dasatinib (BMS-354825) là một chất ức chế Lyn kinase mới, mạnh, đa mục tiêu và là một tác nhân điều trị ung thư đầy hứa hẹn Dasatinib (BMS-354825) ức chế trực

tiếp hoạt động của Lyn kinase theo cơ chế cạnh tranh Các thử nghiệm in vitro cho

thấy dasatinib có khả năng ức chế Lyn kinase với giá trị IC50 là 8,5 nmol/L [30] Tuy nhiên, những bệnh nhân ung thư ban đầu đáp ứng với dasatinib và sau đó tái phát đã được chứng minh là có đột biến, cho thấy khả năng kháng thuốc trên lâm sàng có thể đã xuất hiện [19], [23]

Bosutinib (SKI-606) là một chất ức chế Lyn kinase thuộc nhóm quinolinecarbonitril được chỉ định cho bệnh bạch cầu dòng tủy mãn tính (CML) Bosutinib đã được chứng minh có hoạt tính chống loại các đột biến mà dasatinib gặp phải Bosutinib ức chế Lyn kinase bằng cách liên kết với vị trí liên kết ATP của protein, tương tự như cơ chế của nhiều chất ức chế tyrosine kinase khác Sự liên kết này ngăn cản ATP tiếp cận protein, từ đó ức chế hoạt động Lyn kinase [19], [23]

7-alkoxy-3-Cấu trúc hóa học của dasatinib và bosutinib được trình bày ở hình 1.1

Hình 1.1 Cấu trúc hóa ho ̣c của dasatinib và bosutinib [19], [30]

1.2 Tổng quan về mối quan hệ định lượng cấu trúc - tác du ̣ng (QSAR) của các hợp chất

1.2.1 Lịch sử ra đời của QSAR

Phương pháp QSAR (Quantitative Structure-Activity Relationship) được ra đời

từ rất sớm Khoảng từ những năm 1960, các nhà khoa học đã nhận ra rằng có mối liên hệ giữa cấu trúc hóa học của một hợp chất và hoạt tính sinh học của nó Từ đó, họ bắt đầu phát triển các mô hình toán học để dự đoán hoạt tính sinh học của một hợp chất dựa trên cấu trúc hóa học Năm 1962, C Hansch và T Fujita công bố một bài báo với tiêu đề "π-σ-π Analysis: A Method for the Correlation of Biological Activity and Chemical Structure" [13] Trong nghiên cứu này, các tác giả đã giới thiệu một số khái

Trang 14

niệm quan trọng, bao gồm sự ảnh hưởng của các nhóm chức (π) và các hiệu ứng (σ) đối với hoạt tính sinh học của hợp chất

Trong những thập kỷ tiếp theo, QSAR phát triển mạnh mẽ và được áp dụng rộng rãi trong nhiều lĩnh vực, đặc biệt là trong thiết kế dược phẩm, hóa dược và hóa học môi trường

1.2.2 Các bước xây dựng mô hình QSAR

Mô hình QSAR biểu thị mối quan hệ định lượng giữa cấu trúc hóa học và hoạt

tính sinh học của hợp chất Mô hình QSAR cổ điển có da ̣ng: Y = a1(x1) + a2(x2) + + an(xn)

Trong đó, Y là biến đáp ứng (biểu thị hoạt tính sinh học); x1, x2 , xn là các tham số phân tử đặc trưng cho cấu trúc; a1, an là các hằng số thể hiện tro ̣ng số của từ ng tham số phân tử xi đối với tác du ̣ng sinh ho ̣c [1]

Các bước xây dựng mô hình QSAR được tóm tắt ở hình 1.2

Hình 1.2 Các bước xây dựng mô hình QSAR

Chuẩn bị cơ sở dữ liệu: Cơ sở dữ liệu để xây dựng mô hình QSAR có thể thu

thập từ các nghiên cứu đã công bố trước đó hoặc một số cơ sở dữ liệu khác như ZINC,

Chuẩn bị cơ sở dữ liệu

Tính toán tham số phân tử

Phân chia dữ liệu (Huấn luyện- Kiểm tra)

Xây dựng mô hình

Đánh giá mô hình

Xác định miền ứng dụng của mô hình

Trang 15

ChemDB Một số nguồn cơ sở dữ liệu để xây dựng mô hình QSAR được trình bày ở

PubChem 30 triệu https://pubchem.ncbi.nlm.nih.gov DrugBank 4.800 thuốc; 2.500

đích sinh học https://go.drugbank.com ChemBL 1 triệu https://www.ebi.ac.uk/chembl WOMBAT 263.000 http://www.wombatsoftware.com

Tính toán các tham số phân tử: Tham số phân tử là kết quả của quá trình chuyển

đổi thông tin được mã hóa trong cấu trúc hóa ho ̣c thành dữ liệu dưới dạng số Tham số phân tử có thể chia thành 4 nhóm dựa trên chiều thông tin (dimension) mô tả cấu trúc:

(i) Tham số 0D mô tả thành phần cấu tạo nên cấu trúc, còn được gọi là các tham số đếm nguyên tử, như số lượng C, N

(ii) Tham số 1D mô tả cấu trúc dưới dạng chuỗi, như vân tay cấu trúc (fingerprint), hay số lượng các mảnh cấu trúc, như số lượng nhân thơm, nhóm carboxylic

(iii) Tham số 2D (2D Descriptors) mô tả cấu trúc hóa học của các phân tử dưới dạng biểu đồ hai chiều (2D) bao gồm các chỉ số topological, LogP, trọng lượng phân tử, diện tích bề mặt phân cực, và nhiều tham số khác dựa trên cấu trúc phân tử

(iv) Tham số 3D (3D Descriptors) bao gồm các tham số về hình dạng và không gian của phân tử như kích thước, hình dạng, góc liên kết, và khoảng cách giữa các nguyên tử

Hiện nay, các nghiên cứu xây dựng mô hình QSAR dựa trên tham số 3D chủ yếu dựa trên cấu trúc hóa học được tối ưu hóa năng lượng trong môi trường chân không mà không quan tâm đến cấu dạng của phân tử khi nó nằm trong trung tâm hoạt động của đích, chịu tác động của các động lực của môi trường gắn kết Do đó, phần lớn các

Trang 16

mô hình QSAR vẫn chưa phản ánh được chính xác tuyệt đối mối quan hệ cấu trúc - tác dụng của hợp chất với đích phân tử của chúng

Phân chia tập dữ liệu: Cơ sở dữ liệu được chia thành hai phần: một phần để huấn

luyện mô hình (training set) chứa các hợp chất được dùng để xây dựng mô hình và một phần để kiểm tra mô hình (test set) chứa các chất còn lại trong cơ sở dữ liệu để đánh giá mô hình đã xây dựng phụ thuộc vào các phương pháp khác nhau Mô hình được xây dựng và tinh chỉnh trên training set và sau đó được đánh giá trên test set để kiểm tra khả năng dự đoán của mô hình trên dữ liệu chưa từng thấy, giúp đảm bảo rằng mô hình không chỉ hoạt động tốt trên dữ liệu huấn luyện mà còn có thể tổng quát hóa cho các dữ liệu mới Bằng cách đánh giá mô hình trên test set, chúng ta có thể xác định liệu mô hình có bị overfitting không (overfitting xảy ra khi mô hình quá phức tạp và phù hợp quá mức với dữ liệu huấn luyện, nhưng kém hiệu quả khi dự đoán dữ liệu mới) và thực hiện các biện pháp điều chỉnh như giảm độ phức tạp của mô hình hoặc tăng kích thước của tập dữ liệu huấn luyện Sử dụng một tập dữ liệu độc lập (test set) để đánh giá mô hình, giúp đảm bảo rằng các đánh giá về hiệu suất của mô hình là khách quan và phản ánh khả năng dự đoán thực sự

Xây dựng mô hình QSAR: Từ kết quả tính toán tham số phân tử, tiến hành xây

dựng một hàm số Y = f(X) biểu diễn sự phụ thuộc hoạt tính sinh học đối với cấu trúc Theo đầu ra mô hình tức là loại hoạt tính sinh học mà mô hình dự đoán, có thể chia thành 2 loại mô hình là mô hình phân loại và mô hình hồi quy tuyến tính

Mô hình phân loại nhằm dự đoán giá trị phân loại, thường là giá trị nhị phân hoặc đa lớp Biến đầu ra có thể là hoạt động/không hoạt động, chất độc/chất không độc, hoặc các lớp phân loại khác nhau dựa trên hoạt tính sinh học Mục đích chính của mô hình này là sàng lọc các hợp chất để xác định những hợp chất có khả năng hoạt động sinh học, phân loại hợp chất dựa trên tính độc hại, phân loại hợp chất dựa trên tác dụng dược lý Các phương pháp thường dùng để xây dựng mô hình QSAR là mạng nơ-ron

nhân tạo-(Artificial Neural Networks - ANN), phân tích cụm (Cluster Analysis), thuật toán k láng giềng gần nhất (k-nearest neighbors algorithm – kNN [19]

Mô hình hồi quy tuyến tính dự đoán giá trị liên tục của một đặc tính sinh học như IC50, EC50, logP, độ hòa tan, và các giá trị định lượng khác liên quan đến hoạt tính sinh học của hợp chất Các phương pháp xây dựng mô hình thường áp dụng là hồi quy

tuyến tính đa biến (Multiple Linear Regression - MLR), bình phương tối thiểu từng

Trang 17

phần (Partial Least Squares - PLS), phân tích thành phần chính (Principal Component

Analysis - PCA) [11]

Hiện nay, ngoài các phương pháp xây dựng mô hình truyền thống, các thuật toán học máy cũng được ứng dụng hiệu quả trong việc xây dựng các mô hình QSAR Một số thuật toán học máy thường dùng như Random Forest, Decision Tree, Support vector machine, Multi-layer Perceptron, Nearest Neighbors, Logistic Regression, Naive Bayes, XGBoost, Adaboost

Thuật toán Random Forest là sự kết hợp của các yếu tố dự đoán cây sao cho mỗi cây phụ thuộc vào giá trị của vectơ ngẫu nhiên được lấy mẫu độc lập và có cùng sự phân bổ cho tất cả các cây trong rừng Random Forest sử dụng nhiều cây quyết định (decision trees) để tạo ra một tập hợp các cây Mỗi cây được huấn luyện trên một mẫu con ngẫu nhiên của dữ liệu, và kết quả cuối cùng được lấy trung bình (đối với regression) hoặc lấy đa số phiếu (đối với classification) của tất cả các cây [14] Decision Tree tạo ra một mô hình cây để dự đoán giá trị mục tiêu bằng cách học các quyết định đơn giản được suy ra từ các đặc điểm của dữ liệu Mỗi nút trong cây biểu diễn một điều kiện kiểm tra trên một đặc điểm, và các nhánh biểu diễn kết quả của điều kiện kiểm tra [32] Support vector machine tìm kiếm một hyperplane trong không gian nhiều chiều để phân loại dữ liệu Nó tối ưu hóa khoảng cách biên giữa các điểm dữ liệu của các lớp khác nhau để đạt được sự phân loại tốt nhất [6] Nearest Neighbors phân loại các điểm dữ liệu dựa trên các điểm dữ liệu lân cận gần nhất trong không gian đặc trưng Điểm dữ liệu mới được gán vào lớp phổ biến nhất trong số k láng giềng gần nhất [7] Multi-layer Perceptron là một loại mạng nơ-ron nhân tạo với nhiều lớp (input layer, hidden layers, output layer) Nó học cách chuyển đổi dữ liệu đầu vào thành đầu ra thông qua quá trình truyền tiến và lan truyền ngược lỗi (backpropagation) [34] Naive Bayes là một nhóm các thuật toán phân loại dựa trên định lý Bayes, giả định rằng các đặc điểm đều độc lập với nhau Phương pháp này sử dụng xác suất có điều kiện để phân loại dữ liệu [25] XGBoost là một thuật toán tăng cường gradient (gradient boosting) hiệu quả, sử dụng các cây quyết định nhị phân để cải thiện hiệu suất phân loại và dự đoán thông qua việc tối ưu hóa theo gradient [5] AdaBoost kết hợp nhiều bộ phân loại yếu (weak classifiers) để tạo thành một bộ phân loại mạnh (strong classifier) Nó trọng số hóa các mẫu dữ liệu và tăng trọng số cho các mẫu bị phân loại sai trong các lần lặp tiếp theo [10]

Trang 18

Đánh giá mô hình: Mục tiêu của QSAR là xây dựng được mô hình có khả năng

dự đoán tốt, có nghĩa là giá trị dự đoán và giá trị thực tế khác nhau không ý nghĩa Để đánh giá được điều này cần dựa trên các giá trị thống kê thích hợp Đối với mô hình hồi quy, người ta thường sử dụng giá trị p-value, hệ số xác định R2, RMSE trên tập kiểm tra [2] Đối với mô hình phân loại, các thông số thường được sử dụng là: Accuracy (Độ chính xác), Precision (Độ chính xác của dương tính), Recall (Độ nhạy hoặc TPR - True Positive Rate), F1 Score

Xác định miền ứng dụng mô hình: Miền ứng dụng của một mô hình QSAR là phạm vi trong đó mô hình có thể dự đoán đáng tin cậy các đặc tính hóa lý hoặc hoạt tính sinh học của các hợp chất mới Miền cấu trúc ứng dụng là khoảng không gian cấu trúc được xác định bởi các hợp chất trong tập huấn luyện để xây dựng mô hình Việc xác định miền ứng dụng của mô hình đóng vai trò rất quan trọng trong nghiên cứu QSAR Miền ứng dụng của mô hình cho phép xác định những hoạt chất được dự đoán bởi mô hình Nếu không có miền ứng dụng, các hợp chất có cấu trúc khác xa với hợp chất dùng xây dựng mô hình (hợp chất thuộc tập huấn luyện) sẽ được dự đoán bởi mô hình đó, dẫn tới dự đoán ngoại suy có sai số cao [40] Một số phương pháp để xác định miền ứng dụng như: Phương pháp k lân cận gần nhất [15], phương pháp dựa trên mạng neural (Neural Network-based methods) [35]

1.3 Tổng quan về kỹ thuật Docking phân tử

Docking phân tử là một công cụ quan trọng trong nghiên cứu cấu trúc phân tử sinh học và thiết kế thuốc có sự hỗ trợ của máy tính [28] nhằm mục đích dự đoán các tương tác, năng lượng liên kết giữa các phân tử với protein Việc mô phỏng này có thể được sử dụng để thực hiện sàng lọc ảo trên các thư viện hợp chất lớn thông qua việc xếp hạng khả năng ức chế và tối ưu hoá cấu trúc dựa trên tương tác giữa phối tử và đích tác dụng Quá trình Docking phân tử nhìn chung gồm 4 bước chính:

1.3.1 Lựa chọn và chuẩn bị cấu trúc mục tiêu

Cấu trúc 3D của protein thường có sẵn trên ngân hàng dữ liệu protein (protein data bank) Tiêu chí lựa chọn dựa trên một sô tiêu chí sau: cấu trúc có độ phân giải cao, chứa đầy đủ thông tin về vùng hoạt động của protein, cấu trúc có ligand đã biết Sau đó tiến hành loại bỏ các phân tử nước và thêm hydro, gắn trường lực Lưu trữ cấu trúc protein dưới định dạng phù hợp, thường là PDB hoặc PDBQT

Trang 19

Lựa chọn và chuẩn bị cấu trúc mục tiêu trong Docking phân tử để đảm bảo rằng mô hình protein được sử dụng phản ánh chính xác cấu trúc và trạng thái sinh học của phân tử trong điều kiện thực nghiệm Vì vậy, giúp cải thiện độ chính xác của quá trình Docking và tăng khả năng dự đoán tương tác giữa các hợp chất tiềm năng và Lyn kinase

1.3.2 Chuẩn bị cấu trúc phân tử hợp chất (ligand)

Cấu trúc các cấu tử có thể được lấy từ hệ thống dữ liệu có sẵn như Pubchem, Zinc Lưu trữ cấu trúc ligand dưới dạng tệp phù hợp như SDF, MOL2 Trong trường hợp không có sẵn, chúng ta có thể xây dựng cấu trúc cấu tử bởi các phần mềm như ChemOffice

Tiến hành thêm các nguyên tử hydro vào cấu trúc ligand nếu chưa có, đặc biệt là hydro phân cực có ảnh hưởng đến tương tác ligand-protein Chuyển đổi cấu trúc ligand sang định dạng phù hợp với phần mềm Docking như PDBQT cho AutoDock

Chuẩn bị cấu trúc phân tử (ligand) để ligand gắn vào và tương tác với protein mục tiêu trong quá trình Docking được chính xác

1.3.3 Docking

Trước khi tiến hành Docking, cần khảo sát để xác định chính xác vị trí và kích thước của vùng tìm kiếm Từ đó phần mềm sẽ tự tìm ra cấu dạng có năng lượng phù hợp nhất Hiện nay, có rất nhiều phần mềm được sử dụng để Docking với độ chính xác cao như AutoDock, Autodock Vina, MOE (Molecular Operating Environment), GOLD, ICM-Docking, SwissDock

1.3.4 Đánh giá kết quả sau Docking

Khả năng ức chế protein của các hợp chất tiềm năng được thể hiện qua 2 khía cạnh: Năng lượng liên kết và tương tác giữa phân tử hợp chất tiềm năng với protein (liên kết hydro, tương tác Van der Waals, Pi- Sigma, Pi- Alkyl )

Hàm tính điểm (scoring function) là một thành phần quan trọng trong quá trình Docking Nó được sử dụng để đánh giá và xếp hạng các cấu dạng của ligand trong vị trí liên kết của receptor (protein) dựa trên năng lượng liên kết Các hàm tính điểm giúp xác định cấu dạng có năng lượng liên kết thấp nhất (ổn định nhất), từ đó dự đoán cấu trúc của phức hợp protein-ligand Tất cả quá trình Docking đều sử dụng chức năng tính hàm tính điểm Các hàm tính điểm thường được phân loại thành dựa trên trường lực (bao gồm năng lượng tĩnh điện, năng lượng van der Waals, năng lượng liên kết

Trang 20

hydro, và năng lượng liên kết nội tại.), dựa trên kinh nghiệm (các tham số cho các tương tác khác nhau như liên kết hydro, lực kỵ nước, lực tĩnh điện, và các yếu tố hình học) và dựa trên kiến thức (dựa trên phân phối thống kê của các khoảng cách giữa các nguyên tử và loại tương tác trong các cấu trúc phức hợp đã biết [22]

1.4 Tổng quan về dự đoán ADMET và các đặc tính giống thuốc của hợp chất

Thuốc điều trị hiệu quả và an toàn phải đáp ứng yêu cầu về dược lực học và dược động học, bao gồm hiệu lực, ái lực và tính chọn lọc cao đối với mục tiêu phân tử, cùng với sự hấp thu, phân bố, chuyển hóa, thải trừ và độc tính (Absorption, Distribution, Metabolism, Excretion, and Toxicity - ADMET). Bằng cách nhắm mục tiêu đồng thời nhiều tham số dược động học, các nền tảng dự đoán ADMET được tích hợp đầy đủ có thể dễ dàng loại trừ các hợp chất không phù hợp, giảm số lượng chu kỳ đánh giá tổng hợp và giảm số lượng lỗi ở giai đoạn cuối đắt tiền hơn của quá trình nghiên cứu phát triển thuốc mới [10] Hơn nữa, quá trình này cũng đặt ra yêu cầu giảm số lượng thí

nghiệm trên động vật Do đó, các phương pháp dự đoán ADMET in silico dựa trên cấu

trúc 3D của các protein có thể là một giải pháp thay thế hoặc có thể bổ sung cho các kỹ thuật mô hình hóa dữ liệu ADMET [27] Hiện nay có rất nhiều công cụ đa dạng để dự đoán ADMET như QikProp, DataWarrior, MetaTox, MetaSite và StarDrop

Dự đoán các đặc tính giống thuốc của các hợp chất bằng phương pháp in silico dựa trên một số đánh giá như quy tắc Lipinski hợp chất có nhiều khả năng trở thành thuốc nếu không vi phạm hơn một trong các quy tắc: Không quá 5 nhóm cho hydrogen (hydrogen bond donors), không quá 10 nhóm nhận hydrogen (hydrogen bond acceptors), trọng lượng phân tử dưới 500 Dalton, LogP không lớn hơn 5 (chỉ số biểu thị độ tan trong dầu so với nước) nhằm đảm bảo rằng các hợp chất có độ tan và thẩm thấu tốt [20], [21] Ngoài ra, còn đánh giá độ tan trong nước hợp chất cần phải tan đủ trong nước để đảm bảo khả năng hấp thụ vào cơ thể Để đi qua màng sinh học, thuốc phải hòa tan trong nước Nếu độ hòa tan và tốc độ hòa tan quá thấp, thuốc dùng qua đường tiêu hóa hầu như sẽ được đào thải mà không có khả năng đi từ đường tiêu hóa vào hệ thống tim mạch [18]

Trang 21

CHƯƠNG 2: NGUYÊN VẬT LIỆU, ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP

2.2 Nội dung nghiên cứu

Để hoàn thành mục tiêu nghiên cứu đề ra, khóa luận gồm các nội dung sau: - Nội dung 1: Xây dựng và đánh giá các mô hình QSAR biểu thi ̣ mối quan hệ định lượng cấu trúc - hoa ̣t tính ức chế Lyn kinase của các hợp chất (sử dụng cơ sở dữ liệu 1) Từ kết quả đánh giá các mô hình, lựa cho ̣n 1 mô hình QSAR có chất lượng tốt nhất để tiến hành sàng lo ̣c các hợp chất tiềm năng có tác du ̣ng ức chế Lyn kinase (sử dụng cơ sở dữ liệu 2)

- Nội dung 2: Ứng dụng mô hình QSAR xây dựng được kết hợp với kỹ thuật Docking phân tử, dự đoán ADMET và các đặc tính giống thuốc để sàng lọc nhằm tìm ra hợp chất tiềm năng nhất có tác dụng ức chế Lyn kinase

Sơ đồ thiết kế nghiên cứu được trình bày tóm tắt ở hình 2.1

Trang 22

Hình 2.1 Sơ đồ thiết kế nghiên cứu

2.3 Phương pháp nghiên cứu

2.3.1 Phương pháp xây dựng và đánh giá mô hình QSAR

Chuẩn bị cơ sở dữ liệu

Nghiên cứu này sẽ tiến hành với 2 cơ sở dữ liệu: Cơ sở dữ liệu 1 (CSDL1): Được thu thập từ cơ sở sở dữ liệu CHEMBL, gồm các hợp chất để xây dựng mô hình QSAR, bao gồm các cấu trúc phân tử (được biểu thị dưới dạng chuỗi SMILES) và hoạt tính ức chế Lyn kinase tương ứng (được biểu thị bằng nồng độ ức chế 50% hoạt tính enzym, IC50, tính theo nM)

Cơ sở dữ liệu 2 (CSDL2): Được thu thập từ cơ sở dữ liệu ZINC, gồm các hợp chất tự nhiên được dự đoán hoạt tính ức chế enzym Lynkinase sau khi đã lựa chọn được mô hình QSAR tốt nhất

Các hợp chất từ cơ sở dữ liệu: CSDL1: ChemBL để xây dựng mô hình QSAR

CSDL2: ZINC để sàng lọc

Xây dựng và đánh giá mô hình QSAR

Dự đoán ADMET và các đặc tính giống thuốc

Các hợp chất tiềm năng nhất có tác dụng ức chế Lyn kinase

Docking phân tử Ứng dụng mô hình QSAR để sàng lọc các hợp chất

(sử dụng CSDL 2)

Trang 23

Tính toán tham số phân tử (TSPT)

Trong nghiên cứu này, mỗi phân tử hợp chất được biểu diễn dưới dạng vectơ có chiều dài 100, sử dụng mô hình mol2vec được giới thiệu bởi Sabrina Jaeger và cộng sự [17] Mô hình này được sử dụng để chuyển đổi các cấu trúc phân tử dạng SMILES thành vectơ tương ứng

Xây dựng mô hình QSAR

Dựa trên mục đích sử dụng để xây dựng mô hình, mô hình QSAR chia thành hai loại mô hình là mô hình tuyến tính và mô hình phân loại Để tối ưu hoá và tăng hiệu quả cho nghiên cứu, tiến hành thực hiện cả 2 loại mô hình để tìm ra được mô hình phù hợp nhất Mỗi loại mô hình sẽ áp dụng các thuật toán riêng

Với mô hình tuyến tính: Tập dữ liệu được chia ngẫu nhiên thành tập huấn luyện và tập kiểm tra theo tỷ lệ 70-30 Sau đó, các mô hình QSAR được xây dựng bằng 7 thuật toán học máy: Random Forest Regressor (RF), Support vector regression (SVR), MLP Regressor, XGB Regressor, RidgeCV, Linear Regression (MLR), Lasso LarsCV Với mô hình phân loại: Tập dữ liệu được chia ngẫu nhiên thành tập huấn luyện và tập kiểm tra theo tỷ lệ 70-30 Sau đó, các mô hình QSAR được xây dựng bằng 9 thuật toán học máy khác nhau bao gồm: Random Forest, Decision Tree, Support vector machine, Multi-layer Perceptron, Nearest Neighbors, Logistic Regression, Naive Bayes, XGBoost, Adaboost

Hiệu suất của các thuật toán học máy chịu ảnh hưởng bởi một số yếu tố liên quan đến số lượng và chất lượng dữ liệu hoặc các tham số cấu hình của chính thuật toán Trong khóa luận này, GridSearch được sử dụng nhằm tìm ra các giá trị tham số tốt nhất ứng với mỗi mô hình Cụ thể, GridSearch sẽ thử nghiệm tất cả các tổ hợp tham số có thể, qua đó tự động tìm kiếm tổ hợp tối ưu nhất dựa trên các thông số đánh giá như: accuracy (độ chính xác), precision (độ chính xác của dương tính), recall (độ nhạy hoặc TPR - True Positive Rate), f1- score

Đánh giá mô hình QSAR

Các mô hình QSAR xây dựng được đánh giá trên tập kiểm tra thông qua các thông số: Accuracy (Độ chính xác), Precision (Độ chính xác của dương tính), Recall (Độ nhạy hoặc TPR - True Positive Rate), f1-score, support

Từ kết quả đánh giá các mô hình QSAR, mô hình có chất lượng tốt nhất được lựa

chọn để sàng lọc các hợp chất ức chế Lyn kinase tiềm năng trong CSDL2

Trang 24

Xác định miền ứng dụng của mô hình

Miền ứng dụng của mô hình QSAR là phạm vi trong đó mô hình có thể dự đoán đáng tin cậy các đặc tính hóa lý hoặc hoạt tính sinh học của các hợp chất mới Chỉ những dự đoán đối với các hợp chất có cấu trúc nằm trong miền này mới đáng tin cậy

Trong nghiên cứu này, miền cấu trúc được xác định theo phương pháp năm lân cận gần nhất Những hợp chất được coi là nằm trong miền xác định của mô hình nếu

Di < Dk + 0,5 × Sk Trong đó: Dk là trung bình khoảng cách Euclid trong không gian các TSPT của mô hình giữa mỗi hợp chất trong tập huấn luyện đến 5 hợp chất gần nó nhất; Sk là độ lệch chuẩn của Dk; Di là trung bình khoảng cách Euclid giữa hợp chất cần dự đoán i đến 5 hợp chất gần nhất trong tập huấn luyện Khoảng cách Euclid giữa 2 hợp chất là khoảng cách giữa 2 điểm biểu diễn 2 hợp chất đó trong không gian với các hệ trục tọa độ tương ứng với các TSPT xuất hiện trong mô hình

Ứng dụng mô hình QSAR để sàng lọc

Tiến hành xác định Di của từng hợp chất trong CSDL2, tìm ra những hợp chất thuộc miền ứng dụng của mô hình QSAR, từ đó tiến hành sàng lọc ảo để tìm ra các hợp chất có khả năng dự đoán tác dụng ức chế Lyn kinase bởi mô hình QSAR và xác định các hợp chất tiềm năng

2.3.2 Kỹ thuật Docking phân tử

Để tiếp tục sàng lọc các chất ức chế Lyn kinase, các hợp chất tiềm năng xác định bởi mô hình QSAR được tiến hành Docking với protein sử dụng phần mềm Autodock

Vina Đầu tiên, cấu trúc protein (ID PDB: 3A4O) được tải xuống từ ngân hàng dữ liệu

protein RCSB, sau đó là loại bỏ các phân tử nước, phối tử, đồng thời thêm hydro và điện tích Chuẩn bị phối tử đối chiếu là Stauosporin, một hợp chất ức chế Lyn kinase mạnh với giá trị IC50 là 1.3 nM Sau đó, các hợp chất tiềm năng được chuyển đổi sang cấu trúc 3D tương ứng và lưu dưới dạng tệp pdbqt bằng phần mềm Autodock Tool 1.5.6 Tiếp theo, các hợp chất tiềm năng được gắn vào vị trí hoạt động của protein trong một hình lập phương có kích thước 22.5 x 22.5 x 22.5 angstron Khả năng ức chế Lyn kinase của các hợp chất tiềm năng này được đánh giá dựa trên năng lượng liên kết của chúng với protein so với năng liượng liên kết của phối tử và protein Năng lượng liên kết càng thấp thì ái lực liên kết giữa phối tử và thụ thể càng lớn và ngược lại Ngoài ra, các hợp chất tiềm năng còn dược đánh gía dựa trên tương tác giữa phân

Trang 25

tử hợp chất tiềm năng với protein (liên kết hydro, tương tác Van der Waals, Pi- Sigma, Pi- Alkyl ) sử dụng phần mềm Discovery Studio Visualizer

2.3.3 Dự đoán ADMET và các đặc tính giống thuốc

Các chất ức chế Lyn kinase tiềm năng được xác định từ kết quả Docking sẽ được đánh giá tiềm năng làm thuốc thông qua đặc tính dược động học, một số các tiêu chí đánh giá: Quy tắc số 5 của Lipinski, chất ức chế CYP, đặc điểm sinh khả dụng được tiến hành bằng sử dụng phần mềm SwissADME

Độc tính của các hợp chất bao gồm khả năng gây đột biến trong ống nghiệm (thử nghiệm Ames), độ nhạy cảm của da, kích ứng mắt và sự ăn mòn của cũng được đánh

giá sử dụng phần mềm Toxtree 3.1[9]

Trang 26

CHƯƠ NG 3 THỰC NGHIỆM, KẾT QUẢ VÀ BÀN LUẬN

3.1 Kết quả xây dựng và đánh giá mô hình QSAR

3.1.1 Chuẩn bị cơ sở dữ liệu

Để tiến hành xây dựng mô hình QSAR biểu diễn sự phụ thuộc của khả năng ức chế Lyn kinase vào cấu trúc hoá học, thông tin về cấu trúc và tác dụng của 2511 hợp

chất có hoạt tính ức chế Lyn kinase (ChemBL ID: CHEMBL3905) được thu thập từ

cơ sở dữ liệu CHEMBL Trong đó, cấu trúc phân tử được biểu diễn dưới dạng chuỗi SMILES và tác dụng sinh học được biểu thị thông quá nồng độ ức chế 50% hoạt tính enzym, IC50 với giá trị dao động từ 0,15 nM đến trên 1000000 nM

Tiếp theo, sử dựng mô hình mol2vec để biểu diễn mỗi chuỗi SMILES dưới dạng một vectơ có độ dài là 100 Sau đó, tập dữ liệu được chia ngẫu nhiên thành hai tập: tập huấn luyện và tập kiểm tra theo tỷ lệ 70: 30% Tập huấn luyện được sử dụng để xây dựng mô hình QSAR bằng các thuật toán khác nhau và tập kiểm tra được sử dụng để

đánh giá khả năng dự đoán của các mô hình thu được

3.1.2 Kết quả xây dựng và đánh giá mô hình QSAR

Tiến hành xây dựng các mô hình QSAR sử dụng 7 thuật toán học máy: Random Forest Regressor (RF), Support vector regression (SVR), MLP Regressor, XGB Regressor, RidgeCV, Linear Regression (MLR), Lasso LarsCV thu được 7 mô hình ký hiệu tương ứng từ M1 đến M7

Kết quả đánh giá chất lượng 7 mô hình được trình bày ở bảng 3.1

Bảng 3.1 Hiệu suất của các mô hình QSAR trên tập huấn luyện và tập kiểm tra Mô hình PP xây dựng mô hình Tập huấn luyệnTập kiểm tra

Trang 27

Nhận xét: Từ kết quả đánh giá các mô hình từ M1 đến M7 ở bảng 3.1 cho thấy

giá trị hệ số tương quan trên tập huấn luyện và tập kiểm tra (R2 và R2

test) ở 2 mô hình là mô hình M2 và mô hình M4 là cao nhất và không có giá trị âm Giá trị RMSE càng nhỏ cho thấy mô hình có độ chính xác cao và sai số giữa giá trị dự đoán và giá trị thực nhỏ, tuy nhiên trong các mô hình trên gia trị RMSE đều lớn và giá trị nhỏ nhất thu được ở mô hình M2 và M4 MAE là giá trị trung bình của các sai số tuyệt đối giữa giá trị dự đoán và giá trị thực tế vậy nên giá trị này cũng sẽ càng nhỏ càng tốt.Từ kết quả bảng trên cho thấy mô hình M2 có giá trị nhỏ nhất.Từ đó lựa chọn được 2 mô hình có chất lượng tốt nhất là mô hình M2 và mô hình M4 Khả năng dự đoán của mô hình M2

và M4 được trình bày lần lượt ở các hình 3.1 và hình 3.2

Hình 3.1 Khả năng dự đoán của mô hình M2 trên tập huấn luyện (phải) và tập kiểm

tra (trái)

Hình 3.2 Khả năng dự đoán của mô hình M4 trên tập huấn luyện (phải) và tập kiểm

tra (trái)

Trang 28

Nhận xét: Kết quả ở hình 3.1 và hình 3.2 cho thấy đối với cả 2 mô hình M2 và

M4, giá trị LogIC50 dự đoán bởi mô hình trên tập huấn luyện không ổn định với kết quả khác xa tương đối nhiều so với LogIC50 thực tế Hệ số xác đi ̣nh trên tập huấn luyện và tập kiểm tra (R2 và R2

test) ở cả 2 mô hình đều thấp Kết quả này cũng phù hợp với giá trị sai số trung bình tuyệt đối (MAE) và sai số bình phương trung bình (MSE) lớn trên ở cả 7 mô hình Từ đó cho thấy chất lượng mô hình hồi quy tuyến tính tương đối kém Nguyên nhân có thể do cơ sở dữ liệu được tổng hợp từ nhiều nguồn khác nhau và quy trình đánh giá tác dụng ức chế Lyn kinase ở mỗi bài báo là khác nhau nên hiện tượng này có thể ảnh hưởng đáng kể đến chất lượng của các mô hình QSAR Ngoài ra, còn do quá trình chọn đặc trưng không tốt, mô hình có thể bao gồm các đặc trưng không quan trọng hoặc loại bỏ các đặc trưng quan trọng, mô hình không thể nắm bắt các mối quan hệ phi tuyến phức tạp trong dữ liệu Điều này có thể dẫn đến sự giảm thiểu hiệu suất của mô hình, mô hình tuyến tính có thể bị overfitting làm mô hình đọc sai những chi tiết không quan trọng của dữ liệu Khi áp dụng mô hình này vào dữ liệu kiểm tra, nó có thể không thể tổng quát hóa tốt và dự đoán kém Thay vào đó, mô hình phân loại có thể mô tả được cả quan hệ tuyến tính và phi tuyến tính, xử lý dữ liệu đa dạng và đạt độ chính xác cao Do vậy, nhóm nghiên cứu tiến hành xây dựng các mô hình QSAR phân loại thay thế cho các mô hình tuyến tính nhằm giảm thiểu ảnh hưởng do sai số giữa các nghiên cứu gây ra

Các mô hình QSAR phân loại được xây dựng bằng 9 thuật toán khác nhau bao gồm: Random Forest, Decision Tree, Support vector machine, Multi-layer Perceptron, Nearest Neighbors, Logistic Regression, Naive Bayes, XGBoost, Adaboost thu được 9 mô hình ký hiệu tương ứng từ M10 đến M18

Kết quả lựa chọn tham số tối ưu đối với từng mô hình được trình bày cụ thể ở

bảng 3.2

Trang 29

Bảng 3.2 Kết quả lựa chọn tham số tối ưu bằng grid search Mô hình

PP xây dựng mô hình Các thông số Giá trị khảo sát

Giá trị tối

ưu

Từ kết quả ở Bảng 3.2, tiến hành xây dựng các mô hình bằng các thuật toán khác

nhau với điều kiện tối ưu đã được khảo sát thu được 9 mô hình ký hiệu từ M10 đến M18

Kết quả đánh giá các mô hình trên tập kiểm tra được trình bày ở Bảng 3.3

Bảng 3.3 Kết quả đánh giá các mô hình QSAR trên tập kiểm tra Mô hình PP xây dựng mô hình Accuracy Precision Recall F1-Score

Trang 30

Nhận xét: Từ kết quả đánh giá các mô hình từ M10 đến M18 ở bảng 3.2 cho thấy

tỷ lệ dự đoán (Accuracy) ở các thuật toán nằm trong khoảng từ 0.56 đến 0.76, trong đó mô hình M18 có tỷ lệ dự đoán cao nhất (=0.76) Ngoài ra nhìn vào giá trị các thông số Precision cùng với Recall và F1-Score ở 9 mô hình thì mô hình M18 cũng đều có giá trị lớn nhất Từ đó lựa chọn được mô hình có chất lượng tốt nhất là mô hình M18 được xây dựng băng phương pháp AdaBoost

Khả năng dự đoán của mô hình M18 được trình bày ở hình 3.3

Hình 3.3 Khả năng dự đoán của mô hình M18 trên tập huấn luyện (trái) và tập kiểm

tra (phải)

Nhận xét: Từ kết quả ở bảng 3.3 và hình 3.3 cho thấy mô hình M18 được xây

dựng theo phương pháp AdaBoost có tỷ lệ dự đoán đúng (Accuracy) cao nhất (>75,6%) trên tập kiểm tra Kết quả tương tự cũng được chỉ ra từ giá trị của các thông số precision (77%), recall (76%), và F1-score (0.74%) Do vậy, mô hình M18 được xây dựng theo phương pháp AdaBoost được lựa chọn để sàng lọc các hợp chất có tác dụng ức chế Lyn kinase

3.1.3 Kết quả ứng dụng mô hình QSAR để sàng lọc

Từ kết quả xây dựng mô hình QSAR, mô hình M18 được xây dựng theo phương pháp AdaBoost được lựa chọn để phân loại các hợp chất trong CSDL2 có hoạt tính hay không có hoạt tính ức chế enzym Lyn kinase

Đầu tiên, tiến hành xác định miền cấu trúc ứng dụng của mô hình M18 theo phương pháp 5 lân cận gần nhất, thu được các giá trị: Dk = 8.74, Sk = 7.39 Từ đó xác

định được Dngưỡng ≤ Dk + 0,5 × Sk =12.44 Trong đó Dk và Sk là 2 thông số đánh giá khoảng cách trung bình và sự phân tán của khoảng cách trong tập huấn luyện, từ đó giúp xác định miền ứng dụng

Trang 31

Hợp chất có khoảng cách trung bình đến 5 hợp chất gần nhất nhỏ hơn ngưỡng

thấy có 165 mẫu trong tập huấn luyện có khoảng cách trung bình đến 5 hợp chất gần nhất (Di) nhỏ hơn 12.44 và có 24 mẫu trong tập huấn luyện có khoảng cách trung bình đến 5 lân cận gần nhất lớn hơn hoặc bằng 12.44 Điều này cho thấy phần lớn dữ liệu huấn luyện nằm trong phạm vi mà mô hình có thể dự đoán chính xác

Tiếp theo, tiến hành xác định Di của từng hợp chất trong CSDL2, từ đó xác định được 2021 hợp chất thuộc miền ứng dụng của mô hình M18 Tiếp tục, tiến hành sàng lọc bằng cách sử dụng mô hình M18 xây dựng được để xác định các hợp chất được dự đoán có tác dụng ức chế Lyn kinase

Kết quả sàng lọc được trình bày ở bảng 3.4

Bảng 3.4 Kết quả ứng dụng mô hình M18 để sàng lọc Hoạt tính Số lượng Phần trăm (%)

Kết quả thu đựơc 1438 chất được dự đoán có tác dụng ức chế Lyn kinase bởi mô hình M18 Để thu hẹp phạm vi sàng lọc, nghiên cứu tiếp tục tiến hành đánh giá hoạt tính của 1438 hợp chất trên bằng kỹ thuật Docking phân tử

3.2 Kết quả Docking phân tử

Tiến hành Docking giữa 1438 hợp chất được dự đoán có khả năng ức chế Lyn

kinase xác định bởi mô hình M18 với Lyn kinase (ID PDB: 3A4O) và so sánh phối tử

đối chiếu là Stauosporin, một hợp chất úc chế Lyn kinase mạnh với giá trị IC50 là 1.3

nM Dock lần lượt từng hợp chất với protein đích (ID PDB: 3A4O), sau đó cấu dạng

Docking có năng lượng liên kết nhỏ nhất của mỗi hợp chất sẽ được lựa chọn để so sánh với phối tử đối chiếu

Năng lượng liên kết tự do ∆G là giá trị đại diện cho số lượng và mức độ tương tác giữa protein và hoạt chất Phân tích kết quả Docking cho thấy, tất cả 1438 hợp chất đều có khả năng gắn vào túi của trung tâm hoa ̣t động của protein (tất cả đều có năng lượng liên kết âm với đích, từ -11 đến -7 kcal/mol), so sánh với năng lượng liên kết củ a phối tử đối chiếu (stauroporin) và Lyn kinase là -10.6 kcal/mol Như vậy, chỉ có

Ngày đăng: 23/08/2024, 00:40

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN