TỔNG QUAN
Tổng quan về enzym Lyn kinase và các chất ức chế Lyn kinase
1.1.1 Tổng quan về enzym Lyn kinase
Kinase là một nhóm enzym có chức năng chuyển nhóm phosphat từ các phân tử cao năng lượng (ATP) tới một phân tử đích là protein đặc hiệu Quá trình này gọi là sự phosphoryl hóa protein Enzym kinase đặc hiệu cho việc chuyển nhóm phosphat của các phân tử cao năng lượng tới các amino acid tyrosin được gọi là tyrosin kinase Kinase ngoài việc phosphoryl hóa các protein có tyrosin, còn phosphoryl hóa các phân tử protein có các amino acid khác như serin và threonin Phosphoryl hóa protein bởi kinase là một cơ chế quan trọng trong việc truyền tín hiệu và điều chỉnh hoạt động của tế bào, chẳng hạn như phân chia và tăng trưởng [12]
Lyn kinase là một loại tyrosin kinase thuộc họ Src Lyn kinase được biểu hiện trong nhiều loại tế bào, bao gồm tế bào tạo máu [15], tế bào thần kinh và tế bào mỡ
Nó đóng một vai trò quan trọng trong nhiều quá trình sinh học như sự phát triển và phân chia tế bào, sự miễn dịch, sự phát triển thần kinh và sự phát triển của khối u [29]
Cụ thể, Lyn kinase có thể kích hoạt nhiều con đường tín hiệu nội bào quan trọng, như con đường PI3K/Akt và MAPK/ERK, thúc đẩy sự phát triển và sống sót của tế bào ung thư Lyn kinase cũng có thể tương tác trực tiếp với EGFR và góp phần vào quá trình phosphoryl hóa của EGFR Điều này rất quan trọng cho sự phát triển và tồn tại của tế bào ung thư [15] Sự hoạt động quá mức của Lyn kinase có thể dẫn đến việc kích hoạt liên tục các con đường này, khiến tế bào phân chia không kiểm soát và tránh được apoptosis (chết tế bào theo chương trình), góp phần vào sự phát triển khối u Các chất ức chế Lyn kinase có thể ngăn chặn quá trình phosphoryl hóa của các protein trong con đường MAPK/ERK, giảm khả năng sống sót và tăng trưởng của tế bào ung thư Ngoài ra, ức chế Lyn kinase còn làm giảm hoạt động của PI3K/Akt, ngăn chặn sự truyền tín hiệu đến các protein như Akt Điều này dẫn đến việc giảm phân chia tế bào và thúc đẩy quá trình apoptosis Bên cạnh EGFR, Lyn kinase còn có thể tương tác và kích hoạt hàng loạt các thụ thể tyrosine kinase khác như HER2, và BCR-ABL Các thụ thể này khi bị kích hoạt quá mức cũng đóng vai trò quan trọng trong quá trình hình thành và tiến triển của khối u [29]
Bên cạnh đó Lyn kinase cũng có vai trò quan trọng trong việc điều hòa hệ miễn dịch, liên quan đến hoạt động của tế bào B và tế bào mast [36] Sự hoạt động bất
4 thường của Lyn kinase có thể dẫn đến việc điều hòa sai lệch hệ miễn dịch, góp phần vào sự phát triển ung thư thông qua việc tránh né sự giám sát miễn dịch Ngoài ra, Lyn kinase có thể thúc đẩy quá trình bài tiết cytokin và chemokin, tạo điều kiện thuận lợi cho môi trường vi mô của khối u Điều này có thể thúc đẩy sự xâm lấn và di căn của tế bào ung thư cụ thể, trong bệnh bạch cầu mãn tính dòng lympho (chronic lymphocytic leukemia - CLL) Sự hoạt động quá mức của Lyn kinase đã được báo cáo trên một số bệnh nhân leukemia với sự tăng sinh của các tế bào bạch cầu ác tính [15]
Ngoài ra, Lyn kinase còn đóng vai trò quan trọng trong cơ chế bệnh sinh của một số bệnh lý thần kinh, trong đó có bệnh Alzheimer (Alzheimer disease - AD) Đáng chú ý, tỷ lệ mắc AD trên thế giới ngày càng tăng Ước tính đến năm 2050, cứ 85 người trên toàn thế giới sẽ có 1 người sống chung với căn bệnh này và 43% số người mắc bệnh cần được chăm sóc ở mức độ cao [4] Cho đến nay, một lượng lớn nghiên cứu đã chỉ ra những bất thường về ty thể trên diện rộng trong não của bệnh nhân Alzheimer [38] Phù hợp với quan sát cho thấy sự suy giảm chuyển hóa năng lượng luôn xuất hiện trước khi khởi phát bệnh Alzheimer trên lâm sàng, rối loạn chức năng ty thể đã được coi là một đặc điểm sớm và nổi bật của bệnh [38], qua đó cho thấy ty thể đóng vai trò quan trọng trong cơ chế bệnh sinh của Alzheimer Một số yếu tố tác động đến chức năng ty thể bao gồm amyloid-beta (Aβ) và protein Tau bằng cách gây suy giảm chức năng và gián đoạn vận chuyển nội bào Những tác động này góp phần vào thúc đẩy quá trình thoái hóa tế bào thần kinh và tiến triển của bệnh Alzheimer Tau là một protein liên kết vi ống chính (MAP) của tế bào thần kinh trưởng thành bình thường [16] Protein Tau khi bị phosphoryl hóa một cách bất thường sẽ tập hợp thành các bó sợi, tạo thành các đám rối thần kinh, góp phần vào sự thoái hóa thần kinh trong bệnh Alzheimer [31] Bên cạnh đó, amyloid beta (Aβ) có thể tích tụ trong ty thể, làm giảm khả năng sản xuất năng lượng của ty thể Điều này dẫn đến giảm mức ATP, ảnh hưởng đến năng lượng cần thiết cho các hoạt động tế bào Sự hoạt hóa quá mức của Lyn kinase có thể góp phần vào thúc đẩy sự tích tụ amyloid beta Do có khả năng tương tác với cả amyloid-beta (Aβ) và Tau, Lyn kinase hiện đang là mục tiêu điều trị tiềm năng nhằm giải quyết hai “nguyên nhân” chính của Alzheimer
1.1.2 Chất ức chế Lyn kinase
Việc phát triển các chất ức chế Lyn kinase đang thu hút được sự quan tâm của nhiều nhà khoa học trên toàn thế giới Một số hợp chất ức chế Lyn kinase tiêu biểu đã
5 được công bố bao gồm:
Dasatinib (BMS-354825) là một chất ức chế Lyn kinase mới, mạnh, đa mục tiêu và là một tác nhân điều trị ung thư đầy hứa hẹn.Dasatinib (BMS-354825) ức chế trực tiếp hoạt động của Lyn kinase theo cơ chế cạnh tranh Các thử nghiệm in vitro cho thấy dasatinib có khả năng ức chế Lyn kinase với giá trị IC50 là 8,5 nmol/L [30] Tuy nhiên, những bệnh nhân ung thư ban đầu đáp ứng với dasatinib và sau đó tái phát đã được chứng minh là có đột biến, cho thấy khả năng kháng thuốc trên lâm sàng có thể đã xuất hiện [19], [23]
Bosutinib (SKI-606) là một chất ức chế Lyn kinase thuộc nhóm 7-alkoxy-3- quinolinecarbonitril được chỉ định cho bệnh bạch cầu dòng tủy mãn tính (CML) Bosutinib đã được chứng minh có hoạt tính chống loại các đột biến mà dasatinib gặp phải Bosutinib ức chế Lyn kinase bằng cách liên kết với vị trí liên kết ATP của protein, tương tự như cơ chế của nhiều chất ức chế tyrosine kinase khác Sự liên kết này ngăn cản ATP tiếp cận protein, từ đó ức chế hoạt động Lyn kinase [19], [23] Cấu trúc hóa học của dasatinib và bosutinib được trình bày ở hình 1.1
Hình 1.1 Cấu trúc hóa ho ̣c của dasatinib và bosutinib [19], [30].
Tổng quan vê ̀ mối quan hệ đi ̣nh lượng cấu trúc - tác dụng (QSAR) của các hợp châ ́t
1.2.1 Lịch sử ra đời của QSAR
Phương pháp QSAR (Quantitative Structure-Activity Relationship) được ra đời từ rất sớm Khoảng từ những năm 1960, các nhà khoa học đã nhận ra rằng có mối liên hệ giữa cấu trúc hóa học của một hợp chất và hoạt tính sinh học của nó Từ đó, họ bắt đầu phát triển các mô hình toán học để dự đoán hoạt tính sinh học của một hợp chất dựa trên cấu trúc hóa học Năm 1962, C Hansch và T Fujita công bố một bài báo với tiêu đề "π-σ-π Analysis: A Method for the Correlation of Biological Activity and Chemical Structure" [13] Trong nghiên cứu này, các tác giả đã giới thiệu một số khái
6 niệm quan trọng, bao gồm sự ảnh hưởng của các nhóm chức (π) và các hiệu ứng (σ) đối với hoạt tính sinh học của hợp chất
Trong những thập kỷ tiếp theo, QSAR phát triển mạnh mẽ và được áp dụng rộng rãi trong nhiều lĩnh vực, đặc biệt là trong thiết kế dược phẩm, hóa dược và hóa học môi trường
1.2.2 Các bước xây dựng mô hình QSAR
Mô hình QSAR biểu thị mối quan hệ định lượng giữa cấu trúc hóa học và hoạt tính sinh học của hợp chất Mô hình QSAR cổ điển có da ̣ng:
Trong đó, Y là biến đáp ứng (biểu thị hoạt tính sinh học); x1, x2 , xn là các tham số phân tử đặc trưng cho cấu trúc; a1, an là các hằng số thể hiện tro ̣ng số của từ ng tham số phân tử xi đối với tác du ̣ng sinh ho ̣c [1]
Các bước xây dựng mô hình QSAR được tóm tắt ở hình 1.2
Hình 1.2 Các bước xây dựng mô hình QSAR
Chuẩn bị cơ sở dữ liệu: Cơ sở dữ liệu để xây dựng mô hình QSAR có thể thu thập từ các nghiên cứu đã công bố trước đó hoặc một số cơ sở dữ liệu khác như ZINC,
Chuẩn bị cơ sở dữ liệu
Tính toán tham số phân tử
Phân chia dữ liệu (Huấn luyện- Kiểm tra)
Xây dựng mô hình Đánh giá mô hình
Xác định miền ứng dụng của mô hình
ChemDB Một số nguồn cơ sở dữ liệu để xây dựng mô hình QSAR được trình bày ở
Bảng 1.1 Một số nguồn cơ sở dữ liệu để xây dựng mô hình QSAR
Cơ sở dữ liệu Số hợp chất Website
ZINC 13 triệu http://zinc.docking.org eMolecules 7 triệu https://www.emolecules.com
ChemSpider 26 triệu http://www.chemspider.com
PubChem 30 triệu https://pubchem.ncbi.nlm.nih.gov
DrugBank 4.800 thuốc; 2.500 đích sinh học https://go.drugbank.com
ChemBL 1 triệu https://www.ebi.ac.uk/chembl
WOMBAT 263.000 http://www.wombatsoftware.com
Tính toán các tham số phân tử: Tham số phân tử là kết quả của quá trình chuyển đổi thông tin được mã hóa trong cấu trúc hóa ho ̣c thành dữ liệu dưới dạng số Tham số phân tử có thể chia thành 4 nhóm dựa trên chiều thông tin (dimension) mô tả cấu trúc: (i) Tham số 0D mô tả thành phần cấu tạo nên cấu trúc, còn được gọi là các tham số đếm nguyên tử, như số lượng C, N
(ii) Tham số 1D mô tả cấu trúc dưới dạng chuỗi, như vân tay cấu trúc (fingerprint), hay số lượng các mảnh cấu trúc, như số lượng nhân thơm, nhóm carboxylic
(iii) Tham số 2D (2D Descriptors) mô tả cấu trúc hóa học của các phân tử dưới dạng biểu đồ hai chiều (2D) bao gồm các chỉ số topological, LogP, trọng lượng phân tử, diện tích bề mặt phân cực, và nhiều tham số khác dựa trên cấu trúc phân tử
(iv) Tham số 3D (3D Descriptors) bao gồm các tham số về hình dạng và không gian của phân tử như kích thước, hình dạng, góc liên kết, và khoảng cách giữa các nguyên tử
Hiện nay, các nghiên cứu xây dựng mô hình QSAR dựa trên tham số 3D chủ yếu dựa trên cấu trúc hóa học được tối ưu hóa năng lượng trong môi trường chân không mà không quan tâm đến cấu dạng của phân tử khi nó nằm trong trung tâm hoạt động của đích, chịu tác động của các động lực của môi trường gắn kết Do đó, phần lớn các
8 mô hình QSAR vẫn chưa phản ánh được chính xác tuyệt đối mối quan hệ cấu trúc - tác dụng của hợp chất với đích phân tử của chúng
Phân chia tập dữ liệu: Cơ sở dữ liệu được chia thành hai phần: một phần để huấn luyện mô hình (training set) chứa các hợp chất được dùng để xây dựng mô hình và một phần để kiểm tra mô hình (test set) chứa các chất còn lại trong cơ sở dữ liệu để đánh giá mô hình đã xây dựng phụ thuộc vào các phương pháp khác nhau Mô hình được xây dựng và tinh chỉnh trên training set và sau đó được đánh giá trên test set để kiểm tra khả năng dự đoán của mô hình trên dữ liệu chưa từng thấy, giúp đảm bảo rằng mô hình không chỉ hoạt động tốt trên dữ liệu huấn luyện mà còn có thể tổng quát hóa cho các dữ liệu mới.Bằng cách đánh giá mô hình trên test set, chúng ta có thể xác định liệu mô hình có bị overfitting không (overfitting xảy ra khi mô hình quá phức tạp và phù hợp quá mức với dữ liệu huấn luyện, nhưng kém hiệu quả khi dự đoán dữ liệu mới) và thực hiện các biện pháp điều chỉnh như giảm độ phức tạp của mô hình hoặc tăng kích thước của tập dữ liệu huấn luyện Sử dụng một tập dữ liệu độc lập (test set) để đánh giá mô hình, giúp đảm bảo rằng các đánh giá về hiệu suất của mô hình là khách quan và phản ánh khả năng dự đoán thực sự
Xây dựng mô hình QSAR: Từ kết quả tính toán tham số phân tử, tiến hành xây dựng một hàm số Y = f(X) biểu diễn sự phụ thuộc hoạt tính sinh học đối với cấu trúc Theo đầu ra mô hình tức là loại hoạt tính sinh học mà mô hình dự đoán, có thể chia thành 2 loại mô hình là mô hình phân loại và mô hình hồi quy tuyến tính
Mô hình phân loại nhằm dự đoán giá trị phân loại, thường là giá trị nhị phân hoặc đa lớp Biến đầu ra có thể là hoạt động/không hoạt động, chất độc/chất không độc, hoặc các lớp phân loại khác nhau dựa trên hoạt tính sinh học Mục đích chính của mô hình này là sàng lọc các hợp chất để xác định những hợp chất có khả năng hoạt động sinh học, phân loại hợp chất dựa trên tính độc hại, phân loại hợp chất dựa trên tác dụng dược lý Các phương pháp thường dùng để xây dựng mô hình QSAR là mạng nơ-ron nhân tạo-(Artificial Neural Networks - ANN), phân tích cụm (Cluster Analysis), thuật toán k láng giềng gần nhất (k-nearest neighbors algorithm – kNN [19]
Mô hình hồi quy tuyến tính dự đoán giá trị liên tục của một đặc tính sinh học như
IC50, EC50, logP, độ hòa tan, và các giá trị định lượng khác liên quan đến hoạt tính sinh học của hợp chất Các phương pháp xây dựng mô hình thường áp dụng là hồi quy tuyến tính đa biến (Multiple Linear Regression - MLR), bình phương tối thiểu từng
9 phần (Partial Least Squares - PLS), phân tích thành phần chính (Principal Component
Hiện nay, ngoài các phương pháp xây dựng mô hình truyền thống, các thuật toán học máy cũng được ứng dụng hiệu quả trong việc xây dựng các mô hình QSAR Một số thuật toán học máy thường dùng như Random Forest, Decision Tree, Support vector machine, Multi-layer Perceptron, Nearest Neighbors, Logistic Regression, Naive Bayes, XGBoost, Adaboost
Tổng quan về kỹ thuật Docking phân tử
Docking phân tử là một công cụ quan trọng trong nghiên cứu cấu trúc phân tử sinh học và thiết kế thuốc có sự hỗ trợ của máy tính [28] nhằm mục đích dự đoán các tương tác, năng lượng liên kết giữa các phân tử với protein Việc mô phỏng này có thể được sử dụng để thực hiện sàng lọc ảo trên các thư viện hợp chất lớn thông qua việc xếp hạng khả năng ức chế và tối ưu hoá cấu trúc dựa trên tương tác giữa phối tử và đích tác dụng Quá trình Docking phân tử nhìn chung gồm 4 bước chính:
1.3.1 Lựa chọn và chuẩn bị cấu trúc mục tiêu
Cấu trúc 3D của protein thường có sẵn trên ngân hàng dữ liệu protein (protein data bank) Tiêu chí lựa chọn dựa trên một sô tiêu chí sau: cấu trúc có độ phân giải cao, chứa đầy đủ thông tin về vùng hoạt động của protein, cấu trúc có ligand đã biết Sau đó tiến hành loại bỏ các phân tử nước và thêm hydro, gắn trường lực.Lưu trữ cấu trúc protein dưới định dạng phù hợp, thường là PDB hoặc PDBQT
Lựa chọn và chuẩn bị cấu trúc mục tiêu trong Docking phân tử để đảm bảo rằng mô hình protein được sử dụng phản ánh chính xác cấu trúc và trạng thái sinh học của phân tử trong điều kiện thực nghiệm Vì vậy, giúp cải thiện độ chính xác của quá trình Docking và tăng khả năng dự đoán tương tác giữa các hợp chất tiềm năng và Lyn kinase
1.3.2 Chuẩn bị cấu trúc phân tử hợp chất (ligand)
Cấu trúc các cấu tử có thể được lấy từ hệ thống dữ liệu có sẵn như Pubchem, Zinc.Lưu trữ cấu trúc ligand dưới dạng tệp phù hợp như SDF, MOL2 Trong trường hợp không có sẵn, chúng ta có thể xây dựng cấu trúc cấu tử bởi các phần mềm như ChemOffice
Tiến hành thêm các nguyên tử hydro vào cấu trúc ligand nếu chưa có, đặc biệt là hydro phân cực có ảnh hưởng đến tương tác ligand-protein.Chuyển đổi cấu trúc ligand sang định dạng phù hợp với phần mềm Docking như PDBQT cho AutoDock
Chuẩn bị cấu trúc phân tử (ligand) để ligand gắn vào và tương tác với protein mục tiêu trong quá trình Docking được chính xác
Trước khi tiến hành Docking, cần khảo sát để xác định chính xác vị trí và kích thước của vùng tìm kiếm Từ đó phần mềm sẽ tự tìm ra cấu dạng có năng lượng phù hợp nhất Hiện nay, có rất nhiều phần mềm được sử dụng để Docking với độ chính xác cao như AutoDock, Autodock Vina, MOE (Molecular Operating Environment), GOLD, ICM-Docking, SwissDock
1.3.4 Đánh giá kết quả sau Docking
Khả năng ức chế protein của các hợp chất tiềm năng được thể hiện qua 2 khía cạnh: Năng lượng liên kết và tương tác giữa phân tử hợp chất tiềm năng với protein (liên kết hydro, tương tác Van der Waals, Pi- Sigma, Pi- Alkyl )
Hàm tính điểm (scoring function) là một thành phần quan trọng trong quá trình Docking Nó được sử dụng để đánh giá và xếp hạng các cấu dạng của ligand trong vị trí liên kết của receptor (protein) dựa trên năng lượng liên kết Các hàm tính điểm giúp xác định cấu dạng có năng lượng liên kết thấp nhất (ổn định nhất), từ đó dự đoán cấu trúc của phức hợp protein-ligand Tất cả quá trình Docking đều sử dụng chức năng tính hàm tính điểm Các hàm tính điểm thường được phân loại thành dựa trên trường lực (bao gồm năng lượng tĩnh điện, năng lượng van der Waals, năng lượng liên kết
12 hydro, và năng lượng liên kết nội tại.), dựa trên kinh nghiệm (các tham số cho các tương tác khác nhau như liên kết hydro, lực kỵ nước, lực tĩnh điện, và các yếu tố hình học) và dựa trên kiến thức (dựa trên phân phối thống kê của các khoảng cách giữa các nguyên tử và loại tương tác trong các cấu trúc phức hợp đã biết [22].
Tổng quan về dự đoán ADMET và các đặc tính giống thuốc của hợp chất
Thuốc điều trị hiệu quả và an toàn phải đáp ứng yêu cầu về dược lực học và dược động học, bao gồm hiệu lực, ái lực và tính chọn lọc cao đối với mục tiêu phân tử, cùng với sự hấp thu, phân bố, chuyển hóa, thải trừ và độc tính (Absorption, Distribution, Metabolism, Excretion, and Toxicity - ADMET) Bằng cách nhắm mục tiêu đồng thời nhiều tham số dược động học, các nền tảng dự đoán ADMET được tích hợp đầy đủ có thể dễ dàng loại trừ các hợp chất không phù hợp, giảm số lượng chu kỳ đánh giá tổng hợp và giảm số lượng lỗi ở giai đoạn cuối đắt tiền hơn của quá trình nghiên cứu phát triển thuốc mới [10] Hơn nữa, quá trình này cũng đặt ra yêu cầu giảm số lượng thí nghiệm trên động vật Do đó, các phương pháp dự đoán ADMET in silico dựa trên cấu trúc 3D của các protein có thể là một giải pháp thay thế hoặc có thể bổ sung cho các kỹ thuật mô hình hóa dữ liệu ADMET [27] Hiện nay có rất nhiều công cụ đa dạng để dự đoán ADMET như QikProp, DataWarrior, MetaTox, MetaSite và StarDrop
Dự đoán các đặc tính giống thuốc của các hợp chất bằng phương pháp in silico dựa trên một số đánh giá như quy tắc Lipinski hợp chất có nhiều khả năng trở thành thuốc nếu không vi phạm hơn một trong các quy tắc: Không quá 5 nhóm cho hydrogen (hydrogen bond donors), không quá 10 nhóm nhận hydrogen (hydrogen bond acceptors), trọng lượng phân tử dưới 500 Dalton, LogP không lớn hơn 5 (chỉ số biểu thị độ tan trong dầu so với nước) nhằm đảm bảo rằng các hợp chất có độ tan và thẩm thấu tốt [20], [21] Ngoài ra, còn đánh giá độ tan trong nước hợp chất cần phải tan đủ trong nước để đảm bảo khả năng hấp thụ vào cơ thể Để đi qua màng sinh học, thuốc phải hòa tan trong nước Nếu độ hòa tan và tốc độ hòa tan quá thấp, thuốc dùng qua đường tiêu hóa hầu như sẽ được đào thải mà không có khả năng đi từ đường tiêu hóa vào hệ thống tim mạch [18]
NGUYÊN VẬT LIỆU, ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU
Nguyên vật liệu, thiê ́t bi ̣
2.1.1 Cơ sở dữ liệu và phần mềm
Cơ sở dữ liệu 1: CHEMBL (https://www.ebi.ac.uk/chembl) để xây dựng mô hình QSAR
Cơ sở dữ liệu 2: Gồm các hợp chất thu thập từ cơ sở dữ liệu ZINC được sử dụng để sàng lọc ảo
Phần mềm: Ngôn ngữ Python 3.9 trên nền tảng gg colab, ChemDraw 18.1, Auto Dock Vina, Discovery Studio Visualizer, SwissADME, Toxtree
Nghiên cứu được thực hiện trên máy tính MacBook Air M1 với cấu hình Chip (CPU): Apple M1 chip với 8 nhân CPU (4 nhân hiệu suất và 4 nhân hiệu suất thấp) và
7 nhân GPU.Bộ nhớ (RAM): 16GB LPDDR4X RAM.Ổ cứng (Lưu trữ) 512GB.
Nội dung nghiên cứu
Để hoàn thành mục tiêu nghiên cứu đề ra, khóa luận gồm các nội dung sau:
- Nội dung 1: Xây dựng và đánh giá các mô hình QSAR biểu thi ̣ mối quan hệ định lượng cấu trúc - hoa ̣t tính ức chế Lyn kinase của các hợp chất (sử dụng cơ sở dữ liệu 1) Từ kết quả đánh giá các mô hình, lựa cho ̣n 1 mô hình QSAR có chất lượng tốt nhất để tiến hành sàng lo ̣c các hợp chất tiềm năng có tác du ̣ng ức chế Lyn kinase (sử dụng cơ sở dữ liệu 2)
- Nội dung 2: Ứng dụng mô hình QSAR xây dựng được kết hợp với kỹ thuật Docking phân tử, dự đoán ADMET và các đặc tính giống thuốc để sàng lọc nhằm tìm ra hợp chất tiềm năng nhất có tác dụng ức chế Lyn kinase
Sơ đồ thiết kế nghiên cứu được trình bày tóm tắt ở hình 2.1
Hình 2.1 Sơ đồ thiết kế nghiên cứu
Phương pháp nghiên cứu
2.3.1 Phương pháp xây dựng và đánh giá mô hình QSAR
Chuẩn bị cơ sở dữ liệu
Nghiên cứu này sẽ tiến hành với 2 cơ sở dữ liệu:
Cơ sở dữ liệu 1 (CSDL1): Được thu thập từ cơ sở sở dữ liệu CHEMBL, gồm các hợp chất để xây dựng mô hình QSAR, bao gồm các cấu trúc phân tử (được biểu thị dưới dạng chuỗi SMILES) và hoạt tính ức chế Lyn kinase tương ứng (được biểu thị bằng nồng độ ức chế 50% hoạt tính enzym, IC50, tính theo nM)
Cơ sở dữ liệu 2 (CSDL2): Được thu thập từ cơ sở dữ liệu ZINC, gồm các hợp chất tự nhiên được dự đoán hoạt tính ức chế enzym Lynkinase sau khi đã lựa chọn được mô hình QSAR tốt nhất
Các hợp chất từ cơ sở dữ liệu:
CSDL1: ChemBL để xây dựng mô hình QSAR
CSDL2: ZINC để sàng lọc
Xây dựng và đánh giá mô hình QSAR
Dự đoán ADMET và các đặc tính giống thuốc
Các hợp chất tiềm năng nhất có tác dụng ức chế Lyn kinase
Docking phân tử Ứng dụng mô hình QSAR để sàng lọc các hợp chất
Tính toán tham số phân tử (TSPT)
Trong nghiên cứu này, mỗi phân tử hợp chất được biểu diễn dưới dạng vectơ có chiều dài 100, sử dụng mô hình mol2vec được giới thiệu bởi Sabrina Jaeger và cộng sự [17] Mô hình này được sử dụng để chuyển đổi các cấu trúc phân tử dạng SMILES thành vectơ tương ứng
Xây dựng mô hình QSAR
Dựa trên mục đích sử dụng để xây dựng mô hình, mô hình QSAR chia thành hai loại mô hình là mô hình tuyến tính và mô hình phân loại Để tối ưu hoá và tăng hiệu quả cho nghiên cứu, tiến hành thực hiện cả 2 loại mô hình để tìm ra được mô hình phù hợp nhất Mỗi loại mô hình sẽ áp dụng các thuật toán riêng
Với mô hình tuyến tính: Tập dữ liệu được chia ngẫu nhiên thành tập huấn luyện và tập kiểm tra theo tỷ lệ 70-30 Sau đó, các mô hình QSAR được xây dựng bằng 7 thuật toán học máy: Random Forest Regressor (RF), Support vector regression (SVR), MLP Regressor, XGB Regressor, RidgeCV, Linear Regression (MLR), Lasso LarsCV Với mô hình phân loại: Tập dữ liệu được chia ngẫu nhiên thành tập huấn luyện và tập kiểm tra theo tỷ lệ 70-30 Sau đó, các mô hình QSAR được xây dựng bằng 9 thuật toán học máy khác nhau bao gồm: Random Forest, Decision Tree, Support vector machine, Multi-layer Perceptron, Nearest Neighbors, Logistic Regression, Naive Bayes, XGBoost, Adaboost
Hiệu suất của các thuật toán học máy chịu ảnh hưởng bởi một số yếu tố liên quan đến số lượng và chất lượng dữ liệu hoặc các tham số cấu hình của chính thuật toán Trong khóa luận này, GridSearch được sử dụng nhằm tìm ra các giá trị tham số tốt nhất ứng với mỗi mô hình.Cụ thể, GridSearch sẽ thử nghiệm tất cả các tổ hợp tham số có thể, qua đó tự động tìm kiếm tổ hợp tối ưu nhất dựa trên các thông số đánh giá như: accuracy (độ chính xác), precision (độ chính xác của dương tính), recall (độ nhạy hoặc TPR - True Positive Rate), f1- score Đánh giá mô hình QSAR
Các mô hình QSAR xây dựng được đánh giá trên tập kiểm tra thông qua các thông số: Accuracy (Độ chính xác), Precision (Độ chính xác của dương tính), Recall (Độ nhạy hoặc TPR - True Positive Rate), f1-score, support
Từ kết quả đánh giá các mô hình QSAR, mô hình có chất lượng tốt nhất được lựa chọn để sàng lọc các hợp chất ức chế Lyn kinase tiềm năng trong CSDL2
Xác định miền ứng dụng của mô hình
Miền ứng dụng của mô hình QSAR là phạm vi trong đó mô hình có thể dự đoán đáng tin cậy các đặc tính hóa lý hoặc hoạt tính sinh học của các hợp chất mới Chỉ những dự đoán đối với các hợp chất có cấu trúc nằm trong miền này mới đáng tin cậy Trong nghiên cứu này, miền cấu trúc được xác định theo phương pháp năm lân cận gần nhất Những hợp chất được coi là nằm trong miền xác định của mô hình nếu
Di < Dk + 0,5 × Sk Trong đó: Dk là trung bình khoảng cách Euclid trong không gian các TSPT của mô hình giữa mỗi hợp chất trong tập huấn luyện đến 5 hợp chất gần nó nhất; Sk là độ lệch chuẩn của Dk; Di là trung bình khoảng cách Euclid giữa hợp chất cần dự đoán i đến 5 hợp chất gần nhất trong tập huấn luyện Khoảng cách Euclid giữa
2 hợp chất là khoảng cách giữa 2 điểm biểu diễn 2 hợp chất đó trong không gian với các hệ trục tọa độ tương ứng với các TSPT xuất hiện trong mô hình Ứng dụng mô hình QSAR để sàng lọc
Tiến hành xác định D i của từng hợp chất trong CSDL2, tìm ra những hợp chất thuộc miền ứng dụng của mô hình QSAR, từ đó tiến hành sàng lọc ảo để tìm ra các hợp chất có khả năng dự đoán tác dụng ức chế Lyn kinase bởi mô hình QSAR và xác định các hợp chất tiềm năng
2.3.2 Kỹ thuật Docking phân tử Để tiếp tục sàng lọc các chất ức chế Lyn kinase, các hợp chất tiềm năng xác định bởi mô hình QSAR được tiến hành Docking với protein sử dụng phần mềm Autodock Vina Đầu tiên, cấu trúc protein (ID PDB: 3A4O) được tải xuống từ ngân hàng dữ liệu protein RCSB, sau đó là loại bỏ các phân tử nước, phối tử, đồng thời thêm hydro và điện tích Chuẩn bị phối tử đối chiếu là Stauosporin, một hợp chất ức chế Lyn kinase mạnh với giá trị IC50 là 1.3 nM Sau đó, các hợp chất tiềm năng được chuyển đổi sang cấu trúc 3D tương ứng và lưu dưới dạng tệp pdbqt bằng phần mềm Autodock Tool 1.5.6 Tiếp theo, các hợp chất tiềm năng được gắn vào vị trí hoạt động của protein trong một hình lập phương có kích thước 22.5 x 22.5 x 22.5 angstron Khả năng ức chế Lyn kinase của các hợp chất tiềm năng này được đánh giá dựa trên năng lượng liên kết của chúng với protein so với năng liượng liên kết của phối tử và protein Năng lượng liên kết càng thấp thì ái lực liên kết giữa phối tử và thụ thể càng lớn và ngược lại Ngoài ra, các hợp chất tiềm năng còn dược đánh gía dựa trên tương tác giữa phân
17 tử hợp chất tiềm năng với protein (liên kết hydro, tương tác Van der Waals, Pi- Sigma, Pi- Alkyl ) sử dụng phần mềm Discovery Studio Visualizer
2.3.3 Dự đoán ADMET và các đặc tính giống thuốc
Các chất ức chế Lyn kinase tiềm năng được xác định từ kết quả Docking sẽ được đánh giá tiềm năng làm thuốc thông qua đặc tính dược động học, một số các tiêu chí đánh giá: Quy tắc số 5 của Lipinski, chất ức chế CYP, đặc điểm sinh khả dụng được tiến hành bằng sử dụng phần mềm SwissADME Độc tính của các hợp chất bao gồm khả năng gây đột biến trong ống nghiệm (thử nghiệm Ames), độ nhạy cảm của da, kích ứng mắt và sự ăn mòn của cũng được đánh giá sử dụng phần mềm Toxtree 3.1[9]
CHƯƠ NG 3 THỰC NGHIỆM, KẾT QUẢ VÀ BÀN LUẬN
Kết quả xây dựng và đánh giá mô hình QSAR
3.1.1 Chuẩn bị cơ sở dữ liệu Để tiến hành xây dựng mô hình QSAR biểu diễn sự phụ thuộc của khả năng ức chế Lyn kinase vào cấu trúc hoá học, thông tin về cấu trúc và tác dụng của 2511 hợp chất có hoạt tính ức chế Lyn kinase (ChemBL ID: CHEMBL3905) được thu thập từ cơ sở dữ liệu CHEMBL Trong đó, cấu trúc phân tử được biểu diễn dưới dạng chuỗi SMILES và tác dụng sinh học được biểu thị thông quá nồng độ ức chế 50% hoạt tính enzym, IC50 với giá trị dao động từ 0,15 nM đến trên 1000000 nM
Tiếp theo, sử dựng mô hình mol2vec để biểu diễn mỗi chuỗi SMILES dưới dạng một vectơ có độ dài là 100 Sau đó, tập dữ liệu được chia ngẫu nhiên thành hai tập: tập huấn luyện và tập kiểm tra theo tỷ lệ 70: 30% Tập huấn luyện được sử dụng để xây dựng mô hình QSAR bằng các thuật toán khác nhau và tập kiểm tra được sử dụng để đánh giá khả năng dự đoán của các mô hình thu được
3.1.2 Kết quả xây dựng và đánh giá mô hình QSAR
Tiến hành xây dựng các mô hình QSAR sử dụng 7 thuật toán học máy: Random Forest Regressor (RF), Support vector regression (SVR), MLP Regressor, XGB Regressor, RidgeCV, Linear Regression (MLR), Lasso LarsCV thu được 7 mô hình ký hiệu tương ứng từ M1 đến M7
Kết quả đánh giá chất lượng 7 mô hình được trình bày ở bảng 3.1
Bảng 3.1 Hiệu suất của các mô hình QSAR trên tập huấn luyện và tập kiểm tra
Mô hình PP xây dựng mô hình Tập huấn luyện Tập kiểm tra
Nhận xét: Từ kết quả đánh giá các mô hình từ M1 đến M7 ở bảng 3.1 cho thấy giá trị hệ số tương quan trên tập huấn luyện và tập kiểm tra (R 2 và R 2 test ) ở 2 mô hình là mô hình M2 và mô hình M4 là cao nhất và không có giá trị âm Giá trị RMSE càng nhỏ cho thấy mô hình có độ chính xác cao và sai số giữa giá trị dự đoán và giá trị thực nhỏ, tuy nhiên trong các mô hình trên gia trị RMSE đều lớn và giá trị nhỏ nhất thu được ở mô hình M2 và M4 MAE là giá trị trung bình của các sai số tuyệt đối giữa giá trị dự đoán và giá trị thực tế vậy nên giá trị này cũng sẽ càng nhỏ càng tốt.Từ kết quả bảng trên cho thấy mô hình M2 có giá trị nhỏ nhất.Từ đó lựa chọn được 2 mô hình có chất lượng tốt nhất là mô hình M2 và mô hình M4 Khả năng dự đoán của mô hình M2 và M4 được trình bày lần lượt ở các hình 3.1 và hình 3.2
Hình 3.1 Khả năng dự đoán của mô hình M2 trên tập huấn luyện (phải) và tập kiểm tra (trái)
Hình 3.2 Khả năng dự đoán của mô hình M4 trên tập huấn luyện (phải) và tập kiểm tra (trái)
Nhận xét: Kết quả ở hình 3.1 và hình 3.2 cho thấy đối với cả 2 mô hình M2 và M4, giá trị LogIC50 dự đoán bởi mô hình trên tập huấn luyện không ổn định với kết quả khác xa tương đối nhiều so với LogIC 50 thực tế Hệ số xác đi ̣nh trên tập huấn luyện và tập kiểm tra (R 2 và R 2 test ) ở cả 2 mô hình đều thấp Kết quả này cũng phù hợp với giá trị sai số trung bình tuyệt đối (MAE) và sai số bình phương trung bình (MSE) lớn trên ở cả 7 mô hình Từ đó cho thấy chất lượng mô hình hồi quy tuyến tính tương đối kém Nguyên nhân có thể do cơ sở dữ liệu được tổng hợp từ nhiều nguồn khác nhau và quy trình đánh giá tác dụng ức chế Lyn kinase ở mỗi bài báo là khác nhau nên hiện tượng này có thể ảnh hưởng đáng kể đến chất lượng của các mô hình QSAR Ngoài ra, còn do quá trình chọn đặc trưng không tốt, mô hình có thể bao gồm các đặc trưng không quan trọng hoặc loại bỏ các đặc trưng quan trọng, mô hình không thể nắm bắt các mối quan hệ phi tuyến phức tạp trong dữ liệu Điều này có thể dẫn đến sự giảm thiểu hiệu suất của mô hình, mô hình tuyến tính có thể bị overfitting làm mô hình đọc sai những chi tiết không quan trọng của dữ liệu Khi áp dụng mô hình này vào dữ liệu kiểm tra, nó có thể không thể tổng quát hóa tốt và dự đoán kém.Thay vào đó, mô hình phân loại có thể mô tả được cả quan hệ tuyến tính và phi tuyến tính, xử lý dữ liệu đa dạng và đạt độ chính xác cao Do vậy, nhóm nghiên cứu tiến hành xây dựng các mô hình QSAR phân loại thay thế cho các mô hình tuyến tính nhằm giảm thiểu ảnh hưởng do sai số giữa các nghiên cứu gây ra
Các mô hình QSAR phân loại được xây dựng bằng 9 thuật toán khác nhau bao gồm: Random Forest, Decision Tree, Support vector machine, Multi-layer Perceptron, Nearest Neighbors, Logistic Regression, Naive Bayes, XGBoost, Adaboost thu được 9 mô hình ký hiệu tương ứng từ M10 đến M18
Kết quả lựa chọn tham số tối ưu đối với từng mô hình được trình bày cụ thể ở bảng 3.2
Bảng 3.2 Kết quả lựa chọn tham số tối ưu bằng grid search
PP xây dựng mô hình Các thông số Giá trị khảo sát
XGBoost n_estimators 100-900 200 max_depth 1-15 3 learning_rate 0.1-0.9 0.1
Từ kết quả ở Bảng 3.2, tiến hành xây dựng các mô hình bằng các thuật toán khác nhau với điều kiện tối ưu đã được khảo sát thu được 9 mô hình ký hiệu từ M10 đến M18
Kết quả đánh giá các mô hình trên tập kiểm tra được trình bày ở Bảng 3.3
Bảng 3.3 Kết quả đánh giá các mô hình QSAR trên tập kiểm tra
Mô hình PP xây dựng mô hình Accuracy Precision Recall F1-Score
M12 Support vector machine 0.72 0.72 0.62 0.61 M13 Multi-layer Perceptron 0.75 0.73 0.70 0.71
Nhận xét: Từ kết quả đánh giá các mô hình từ M10 đến M18 ở bảng 3.2 cho thấy tỷ lệ dự đoán (Accuracy) ở các thuật toán nằm trong khoảng từ 0.56 đến 0.76, trong đó mô hình M18 có tỷ lệ dự đoán cao nhất (=0.76) Ngoài ra nhìn vào giá trị các thông số Precision cùng với Recall và F1-Score ở 9 mô hình thì mô hình M18 cũng đều có giá trị lớn nhất Từ đó lựa chọn được mô hình có chất lượng tốt nhất là mô hình M18 được xây dựng băng phương pháp AdaBoost
Khả năng dự đoán của mô hình M18 được trình bày ở hình 3.3
Hình 3.3 Khả năng dự đoán của mô hình M18 trên tập huấn luyện (trái) và tập kiểm tra (phải)
Nhận xét: Từ kết quả ở bảng 3.3 và hình 3.3 cho thấy mô hình M18 được xây dựng theo phương pháp AdaBoost có tỷ lệ dự đoán đúng (Accuracy) cao nhất (>75,6%) trên tập kiểm tra Kết quả tương tự cũng được chỉ ra từ giá trị của các thông số precision (77%), recall (76%), và F1-score (0.74%) Do vậy, mô hình M18 được xây dựng theo phương pháp AdaBoost được lựa chọn để sàng lọc các hợp chất có tác dụng ức chế Lyn kinase
3.1.3 Kết quả ứng dụng mô hình QSAR để sàng lọc
Từ kết quả xây dựng mô hình QSAR, mô hình M18 được xây dựng theo phương pháp AdaBoost được lựa chọn để phân loại các hợp chất trong CSDL2 có hoạt tính hay không có hoạt tính ức chế enzym Lyn kinase Đầu tiên, tiến hành xác định miền cấu trúc ứng dụng của mô hình M18 theo phương pháp 5 lân cận gần nhất, thu được các giá trị: Dk = 8.74, Sk = 7.39 Từ đó xác định được Dngưỡng ≤ Dk + 0,5 × Sk 44 Trong đó Dk và Sk là 2 thông số đánh giá khoảng cách trung bình và sự phân tán của khoảng cách trong tập huấn luyện, từ đó giúp xác định miền ứng dụng
Hợp chất có khoảng cách trung bình đến 5 hợp chất gần nhất nhỏ hơn ngưỡng (Dngưỡng = 12.44) được coi là nằm trong miền ứng dụng của mô hình M18 Kết quả cho thấy có 165 mẫu trong tập huấn luyện có khoảng cách trung bình đến 5 hợp chất gần nhất (Di) nhỏ hơn 12.44 và có 24 mẫu trong tập huấn luyện có khoảng cách trung bình đến 5 lân cận gần nhất lớn hơn hoặc bằng 12.44 Điều này cho thấy phần lớn dữ liệu huấn luyện nằm trong phạm vi mà mô hình có thể dự đoán chính xác
Tiếp theo, tiến hành xác định D i của từng hợp chất trong CSDL2, từ đó xác định được 2021 hợp chất thuộc miền ứng dụng của mô hình M18 Tiếp tục, tiến hành sàng lọc bằng cách sử dụng mô hình M18 xây dựng được để xác định các hợp chất được dự đoán có tác dụng ức chế Lyn kinase
Kết quả sàng lọc được trình bày ở bảng 3.4
Bảng 3.4 Kết quả ứng dụng mô hình M18 để sàng lọc
Hoạt tính Số lượng Phần trăm (%)
Kết quả thu đựơc 1438 chất được dự đoán có tác dụng ức chế Lyn kinase bởi mô hình M18 Để thu hẹp phạm vi sàng lọc, nghiên cứu tiếp tục tiến hành đánh giá hoạt tính của 1438 hợp chất trên bằng kỹ thuật Docking phân tử.
Kết quả Docking phân tử
Tiến hành Docking giữa 1438 hợp chất được dự đoán có khả năng ức chế Lyn kinase xác định bởi mô hình M18 với Lyn kinase (ID PDB: 3A4O) và so sánh phối tử đối chiếu là Stauosporin, một hợp chất úc chế Lyn kinase mạnh với giá trị IC50 là 1.3 nM Dock lần lượt từng hợp chất với protein đích (ID PDB: 3A4O), sau đó cấu dạng Docking có năng lượng liên kết nhỏ nhất của mỗi hợp chất sẽ được lựa chọn để so sánh với phối tử đối chiếu
Năng lượng liên kết tự do ∆G là giá trị đại diện cho số lượng và mức độ tương tác giữa protein và hoạt chất Phân tích kết quả Docking cho thấy, tất cả 1438 hợp chất đều có khả năng gắn vào túi của trung tâm hoa ̣t động của protein (tất cả đều có năng lượng liên kết âm với đích, từ -11 đến -7 kcal/mol), so sánh với năng lượng liên kết củ a phối tử đối chiếu (stauroporin) và Lyn kinase là -10.6 kcal/mol Như vậy, chỉ có
12/1438 hợp chất có năng lượng liên kết với protein nhỏ hơn phối tử đối chiếu Cấu trúc của phối tử đối chiếu và 12 chất này được trình bày ở hình 3.4, hình 3.5
Hình 3.4 Ái lực liên kết với Lyn kinase của phối tử đối chiếu
Hình 3.5 Ái lực liên kết với Lyn kinase của các hợp chất tiềm năng
Năng lượng liên kết giữa 12 hợp chất và Lyn kinase được thể hiện ở bảng 3.5
Bảng 3.5 Năng lượng liên kết giữa enzym Lyn kinase và các hợp chất
Năng lượng liên kết (kcal/mol)
Ala140, Asn141, Ala153, Asp154, Lys44, Ala42, Leu143, Val30, Val72, Thr88, Glu89, Met91, Tyr90, Ala92, Gly94, Gy23,
Val72,Ala153,Asp154,ASN141, SER95,LEU97,GLY94,MET91 TYR90,GLU89,ASP98, TYR90, THR88, LYS44
Val30, Asp154, Ala42, Leu143, Leu22, TYR90, MET91, DLY94,
SER95, GLY23, LYS44, ILE86, THR88
Asp154, THR88, MET91, GLY94, GLU29, PHE56, PHE27, GLY28, ILE86, GLU59,TYR90,ALA24, GLY25
Ala42, Leu143, Leu22, Val30, Asp154, ALA24, PHE56, GLY28,
PHE27, GLY94, THR90, MET91, THR88, MET63
Asp154, Val30, Leu143, Ala42, Leu22, GLY28, PHE56, GLN26,
ILE86, GLU59, MET63, MET91, THR90
Asp154, Thr88, MET91, MET63, THR90, GLY94, PHE27, PHE56, GLU29, LYS44
Ala42, Leu143, Leu22, Val30, Asp154, GLU89, VAL72, GLU59,
MET63, VAL43, GLU29, GLY28, GLY25, ALA24
Asp154, GLY94, THR90, VAL72, MET91, ASN141, PHE174, PHE27
Asp154, Ala42, Leu143, Leu22, Val30, MET63, THR88, PHE27,
GLY25, ALA24, ILE86, MET63, GLU29
GLY94, GLY156, MET51, ILE86, THR88
Ala24, Val30, Leu22, Leu143, Asp154, MET91, GLY94, TYR90,
Val30, THR88, GLU59, GLU89, GLY94, MET91, PHE56, GLY25
Nhận xét: Trong 12 hợp chất có ái lực mạnh nhất với Lyn kinase thì hợp chất
648 (ZINC000020503333) có năng lượng liên kết nhỏ nhất với -11.2 kcal/mol Tương tác giữa enzym Lyn kinase với hợp chất 648 và staurosporin được trình bày ở hình 3.5
Hình 3.6 Tương tác giữa enzym Lyn kinase với các hợp chất 648 và Staurosporin
Nhận xét: Kết quả cho thấy mặc dù có cấu trúc khác nhau, các hợp chất tiềm năng và staurosporine đều tác động lên Lyn kinase thông quá việc tạo thành liên kết hydro với amino acid Met91và Ala153 Ngoài ra, một số chất còn tương tác với protein thông qua lực Van der Waals, tương tác -alkyl và - Các amino acid quan trọng liên quan đến khả năng ức chế Lyn kinase được đề xuất, bao gồm Val30, Leu143, Leu22, Ala42 và Asp154.
Dự đoán ADMET
Trong nghiên cứu này, các thông số dược động học của 12 hợp chất tiềm năng cùng đặc tính giống thuốc thông qua “quy tắc 5 của Lipinski” được dự đoán sử dụng phần mềm SwissADME Độc tính của các hợp chất này được xác định từ phần mềm Toxtree
Kết quả dự đoán ADMET của các hợp chất tiềm năng được trình bày ở bảng 3.6
Bảng 3.6 Kết quả dự đoán ADMET của các hợp chất tiềm năng
BBB khả năng Ức chế CYP
Vi phạm Quy tắc Lipinski
Gây đột biến in vitro
CYP1A2 CYP2C19 CYP2C9 CYP2D6 CYP3A4
CYP1A2 CYP2C19 CYP2C9 CYP2D6 CYP3A4
CYP1A2 CYP2C19 CYP2C9 CYP2D6 CYP3A4
CYP1A2 CYP2C19 CYP2C9 CYP2D6 CYP3A4
CYP1A2 CYP2C19 CYP2C9 CYP2D6 CYP3A4
Nhận xét: Kết quả cho thấy cả 12 hợp chất đều có khả năng hấp thu tốt qua đường tiêu hóa với sinh khả dụng cao (0,55) và tất cả đều là cơ chất Pgp Đồng thời, không có chất nào trong số năm chất này vi phạm bất kỳ nguyên tắc nào trong Quy tắc năm của Lipinski Nói cách khác, các hợp chất này đều có đặc tính giống thuốc phù hợp
Về độc tính, tất cả các hợp chất đều không gây ăn mòn da Tuy nhiên, kết quả dự đoán cũng cho thấy, ngoại trừ hợp chất 1381(ZINC000020503551), các hợp chất còn lại đều là tác nhân gây đột biến trong mô hình in vitro Vì lý do này, trong số 12 hợp chất tiềm năng được xác định bằng mô hình QSAR kết hợp với Docking phân tử, chỉ có hợp chất 1381 (ZINC000020503551) được chọn làm đối tượng tiềm năng cho các nghiên cứu tiếp theo
Cấu trúc hóa học của hợp chất 1381 (ZINC000020503551) được trình bày ở hình 3.6
Hình 3.7 Cấu trúc hoá học của hợp chất 1381 (ZINC000020503551)
Bàn luận
3.4.1 Về ư ́ ng dụng của mô hình QSAR, kỹ thuật Docking phân tử và ADMET trong sàng lọc ảo
Các phương pháp nghiên cứu với sự hỗ trợ của máy tính ứng dụng trong nghiên cứu phát triển thuốc mới được gọi chung là các phương pháp nghiên cứu in silico
Trong số các phương pháp in silico, sàng lọc ảo (virtual screening) đóng một vai trò quan trọng trong nghiên cứu các hợp chất tiềm năng trở thành thuốc Hiện nay, sàng lọc ảo (virtual screening) đang là một kỹ thuật hàng đầu được nghĩ tới trong nghiên cứu và phát triển thuốc, cho phép các nhà khoa học tìm kiếm và tối ưu hóa các hợp chất tiềm năng một cách hiệu quả hơn so với các phương pháp truyền thống Sàng lọc ảo có một vai trò quan trọng trong việc lưu trữ, phân tích và khai thác lượng dữ liệu thử nghiệm khổng lồ và tốc độ phát triển ngày càng tăng theo cấp số nhân [31] Không chỉ vậy sàng lọc ảo còn có thể mang lại lợi ích đáng kể bằng cách tiết kiệm trung bình
130 triệu USD và 0,8 năm cho quá trình nghiên cứu phát triển mỗi loại thuốc [34] Hiện nay, sàng lo ̣c ảo ngày càng được sử dụng rộng rãi trong lĩnh vực dược phẩm để tìm kiếm và thiết kế thuốc, trong đó có các thuốc điều trị các bệnh phức tạp như ung thư hay Alzheimer Với những ưu điểm vượt trội so với các phương pháp nghiên cứ u thực nghiệm truyền thống, sàng lo ̣c ảo thông qua sự trợ giúp của máy tính là hướng tiếp cận ngày càng phổ biến trong nghiên cứu phát triển thuốc mới Số lượng các nghiên cứu được công bố về sàng lo ̣c ảo tăng lên hằng năm, chứng tỏ lĩnh vực này đang rất được quan tâm
Việc tìm kiếm hợp chất có tiềm năng dựa trên phương pháp sàng lo ̣c ảo là một hướng đi hiệu quả giúp tiết kiệm đáng kể thời gian, tiền bạc và đặc biệt hơn là hạn chế các thử nghiệm trên người và động vật Tuy nhiên, bên ca ̣nh những ưu điểm kể trên, sàng lọc ảo cũng gặp một số khó khăn như sự khác biệt giữa mô hình hóa và thực tế diễn ra trong cơ thể con người, sự chính xác trong việc xác đi ̣nh cấu trúc 3D của protein Do đó, để phát hiện các hợp chất tiềm năng có tác du ̣ng ức chế Lyn kinase chỉ từ thông tin cấu trúc phân tử một cách nhanh và chính xác, cần thiết lập một quy trình sàng lo ̣c ảo một cách có hệ thống với nhiều phễu lo ̣c
Việc kết hợp các phương pháp khác nhau trong sàng lọc giúp cho nghiên cứu trở nên chặt chẽ, rõ ràng, rút ngắn được thời gian, tiết kiệm đáng kể chi phí của quá trình nghiên cứu phát triển thuốc mới Vì vậy, trong nghiên cứu này, các hợp chất ức chế Lyn kinase được tiến hành sàng lọc ảo với sự kết hợp của mô hình QSAR, kỹ thuật Docking phân tử và dự đoán ADMET cùng các đặc tính giống thuốc
Từ những cơ sở dữ liệu hàng nghìn hợp chất, tiến hành xây dựng mô hình QSAR để sàng lọc tìm ra các hợp chất tiềm năng được sử dụng làm thuốc Mô hình QSAR kết hợp với kỹ thuật Docking phân tử cho phép dự đoán chính xác hơn về hoạt tính sinh học của các phân tử hoạt chất mới đã giúp rút ngắn lại số hợp chất cần tìm Ngoài ra với sự kết hợp với quá trình nghiên cứu ADMET giúp dự đoán khả năng hấp thu, phân bố, chuyển hóa, thải trừ và độc tính cũng như dự đoán các tác dụng không mong muốn có thể có ( gây kích ứng da, ) của hợp chất
Các mô hình QSAR được xây dựng thuộc loại mô hình phân loại, sử dụng các thuật toán học máy mang lại có tính chính xác cao, cho phép phát hiện các hợp chất ức chế Lyn kinase tiềm năng
Docking phân tử là một kỹ thuật phổ biến hiện nay để mô phỏng các tương tác giữa protein với protein hoặc giữa protein và phối tử, được ứng dụng để thiết kế thuốc dựa vào cấu trúc, nghiên cứu cơ chế tác dụng của các hoạt chất Khi một chất có khả năng dock vào trung tâm hoạt động của protein, phân tích hàm tính điểm (năng lượng liên kết) và phân tích các tương tác có thể giúp kết luận một cách định tính về hoạt tính ức chế protein của chất đó
Ngoài ra, với sự kết hợp các nghiên cứu về ADMET để xác định các đặc tính dược động học, bao gồm hấp thu, phân bố, chuyển hóa và thải trừ, cũng như các đặc tính giống thuốc của các hợp chất tiềm năng để tăng độ chính xác của các hợp chất ức
34 chế Lyn kinase Kết hợp mô hình QSAR, Docking phân tử và ADMET là một giải pháp hiệu quả giúp tiết kiệm đáng kể thời gian và chi phí trong việc sàng lọc các hợp chất có hoạt tính trên các đích phân tử cụ thể nói riêng cũng như trong giai đoạn sàng lọc các chất dẫn đường của quá trình nghiên cứu phát triển thuốc mới nói chung
Cho đến nay đã có một số nghiên cứu sàng lọc ảo các chất ức chế Lyn kinase, nhưng trong số các nghiên cứu đó chủ yếu liên quan đến phương pháp nghiên cứu mô phỏng động lực phân tử (MD)[14] hoặc sẽ chỉ tập trung vào phương pháp Docking phân tử nên sẽ không đem lại sự hiệu quả cho quá trình nghiên cứu Để khắc phục các vấn đề đó, đề tài nghiên cứu này với sự kết hợp các phương pháp nghiên cứu gồm mô hình QSAR, Docking phân tử và nghiên cứu ADMET giúp cho tăng độ chính xác và hiệu quả sàng lọc Mục tiêu tìm kiếm các chất có tác dụng ức chế Lyn kinase là một vấn đề không hoàn toàn mới tuy nhiên chủ yếu các nghiên cứu đều nhắm đến bệnh ung thư mà chưa có nghiên cứu nào đề cập đến bệnh Alzheimer, một trong những bệnh do enzym Lyn kinase gây ra Do đó, kết quả của đề tài khóa luận về sàng lọc các hợp chất tiềm năng ức chế Lyn kinase đã mở thêm ra những hướng nghiên cứu mới đầy triển vọng nhằm phát triển thuốc điều trị ung thư và Alzheimer theo cơ chế ức chế enzym này
3.4.2 Về kết qua ̉ sàng lọc ảo
Trong nghiên cứ u này, các mô hình QSAR được xây dựng gồm các mô hình hồi quy tuyến tính và mô hình phân loại Đối với mô hình hồi quy tuyến tính: Xây dựng mô hình QSAR với 7 phương pháp RandomForest Regressor, SVR, MLPRegressor, XGBRegressor, RidgeCV,
LinearRegressio, LassoLarsCV Kết quả cho thấy 2 mô hình M2 và M4 xây dựng lần lượt bằng các phương pháp SVR, XGBRegressor cho giá trị LogIC50 dự đoán bởi mô hình trên tập huấn luyện không ổn định với kết quả khác xa tương đối nhiều so với LogIC50 thực tế Hệ số xác đi ̣nh trên tập huấn luyện và tập kiểm tra (R2 và R2test) đều thấp Đối với sai số trung bình tuyệt đối (MAE) và sai số bình phương trung bình (MSE), các sai số dự đoán từ tập huấn luyện, MAE và MSE khác xa với kết quả dự đoán trên tập kiểm tra Đối với mô hình phân loại : Xây dựng mô hình QSAR với 9 phương pháp Random forest, Desicion tree, Support vector machine, Multi-layer Perceptron, k-Nearest Neighbors, Logistic Regression, Naive Bayes, XGBoost installing, AdaBoost
Từ kết quả đánh giá đã lựa chọn ra mô hình M18 xây dựng bằng phương pháp AdaBoost có tỷ lệ dự đoán đúng (Accuracy) là cao nhất (> 75,6%) Ngoài ra, các thống số (Precisionw%), (Recall= 0.76%), F1-Score: 0.74%),( Support: 82%) đều ở mức tốt
Từ mô hình M18 xây dựng bằng phương pháp AdaBoost ứng dụng để sàng lọc hợp chất từ CSDL2 sau khi xác định miền ứng dụng của mô hình cho các hợp chất này Kết quả thu được 2011 hợp chất thuộc miền ứng dụng của mô hình AdaBoost nhưng sau sàng lọc chỉ có 1438 hợp chất có tác dụng ức chế Lyn kinase
3.4.3 Về kết qua ̉ Docking phân tử, dự đoán ADMET và các đặc tính giống thuốc