Trong quá trình phát minh thuốc, việc dự đoán tác động giữa thuốc và mục tiêu DTIs là một bước quan trọng nhằm xác định các loại thuốc mới có tiềm năng hoặc mục tiêu mới cho các loại thu
GIỚI THIỆU ĐỀ TÀI
Giới thiệu
Phát minh thuốc là mục tiêu chính trong ngành dược học, kết hợp nhiều lĩnh vực khoa học như sinh học, hóa học và thống kê Dự đoán tác động giữa thuốc và mục tiêu (DTIs) đóng vai trò quan trọng trong việc xác định các loại thuốc mới và mục tiêu cho thuốc hiện tại, giúp giảm chi phí và hướng dẫn thực nghiệm Gần đây, nghiên cứu về dự đoán DTIs đã thu hút sự quan tâm lớn, với nhiều thuật toán được phát triển Tuy nhiên, các phương pháp hiện tại chủ yếu dựa vào một số ít tương tác đã được xác thực trong các cơ sở dữ liệu như ChEMBL và DrugBank Các nghiên cứu trước đây cho thấy rằng chỉ một phần nhỏ các tương tác mới có thể được dự đoán từ DTIs đã xác thực, và các phương pháp tính toán có thể cải thiện đáng kể hiệu suất trong quá trình phát minh thuốc.
Các phương pháp truyền thống dự đoán tương tác thuốc - mục tiêu (DTI) được chia thành hai nhóm chính: mô phỏng docking và phương pháp dựa trên ligand Mô phỏng docking dự đoán DTI tiềm năng dựa trên thông tin cấu trúc của protein mục tiêu, nhưng tốn thời gian và không phải lúc nào cũng có sẵn thông tin cấu trúc, đặc biệt là với các receptor G-protein kết hợp (GPCRs) Ngược lại, phương pháp dựa trên ligand dự đoán DTI bằng cách so sánh ligand với các ligand đã biết của protein mục tiêu, nhưng có thể gặp khó khăn trong hiệu suất khi số lượng ligand hạn chế.
Gần đây, sự phát triển nhanh chóng của kỹ thuật học máy đã mang lại các phương pháp hiệu quả để dự đoán các tương tác giữa thuốc và mục tiêu (DTIs) Một cách tiếp cận là dự đoán DTI dưới dạng nhị phân, trong đó các cặp thuốc - mục tiêu được coi là các trường hợp, và cấu trúc hóa học của thuốc cùng với chuỗi axit amin của mục tiêu được xem như các đặc trưng Các phương pháp phân loại truyền thống như SVM và RLS có thể được áp dụng, ví dụ, mô hình SVM được sử dụng để phân loại một cặp thuốc - mục tiêu cụ thể thành tương tác hoặc không tương tác, dựa trên chuỗi axit amin của protein, cấu trúc hóa học và dữ liệu phổ khối.
Bleakley và Yamanishi đã đề xuất một phương pháp giám sát cho dự đoán DTI sử dụng các mô hình địa phương hai phía (BLMs) với SVM để xây dựng mô hình Xia phát triển phương pháp dự đoán DTI bán giám sát mang tên Laplacian regularized least square (LapRLS) và tích hợp kernel từ mạng DTI đã biết Van Laarhoven định nghĩa kernel hồi quy Gaussian interaction profile (GIP) để thể hiện tương tác giữa thuốc và mục tiêu, áp dụng RLS với kernel GIP cho dự đoán DTI Cheng cũng đã phát triển ba phương pháp suy luận giám sát cho dự đoán DTI dựa trên lý thuyết mạng phức tạp.
Vấn đề dự đoán DTI là một nhiệm vụ đề xuất danh sách các DTIs tiềm năng.
Một hướng nghiên cứu tiềm năng cho dự đoán DTI là ứng dụng các công nghệ đề xuất, đặc biệt là các phương pháp dựa trên Collaborative Filtering (CF), được chia thành hai nhóm chính: CF dựa trên bộ nhớ và CF dựa trên mô hình Trong số các phương pháp CF dựa trên mô hình, ma trận factorization đã được chứng minh là hiệu quả cho dự đoán DTI trong các nghiên cứu gần đây Ví dụ, Gửnen đã phát triển phương pháp ma trận factorization Bayesian được nhân bản (KBMF), kết hợp giảm chiều dữ liệu dựa trên kernel và phân loại nhị phân Cobanoglu áp dụng ma trận factorization xác suất (PMF) để dự đoán các DTI chưa biết, với độ chính xác được cải thiện nhờ chiến lược học tích cực Ngoài ra, Zheng đã giới thiệu mô hình ma trận factorization hợp tác nhiều độ tương tự (MSCMF) nhằm khai thác nhiều loại thuốc tương tự và cải thiện độ chính xác của dự đoán DTI.
Phương pháp NRLMF tập trung vào việc dự đoán xác suất tương tác giữa thuốc và mục tiêu bằng cách sử dụng hai vector ẩn trong không gian Đối với mỗi cặp thuốc - mục tiêu, xác suất tương tác được mô hình hóa bằng hàm logistic của các vector ẩn tương ứng Khác với phương pháp KBMF, NRLMF xem các cặp tương tác quan sát được là ví dụ tích cực với trọng số cao hơn, trong khi các cặp không biết được coi là ví dụ tiêu cực duy nhất Điều này giúp NRLMF gán mức độ quan trọng cao hơn cho các quan sát tích cực, vốn đã được xác thực sinh học, trong khi các quan sát tiêu cực có thể chứa các DTI tiềm năng nhưng không đáng tin cậy Phương pháp này khác biệt so với các phương pháp dự đoán DTI dựa trên phân tích ma trận trước đó, khi mà chúng xem xét các cặp tương tác và không biết một cách bình đẳng.
Hiệu suất của NRLMF đã được kiểm nghiệm trên bốn bộ dữ liệu và so sánh với năm phương pháp DTI tiên tiến khác Kết quả cho thấy NRLMF thường vượt trội hơn các phương pháp khác trên tất cả các bộ dữ liệu, được đánh giá qua các chỉ số như diện tích dưới đường cong ROC (AUC) và diện tích dưới đường cong precision-recall (AUPR) Thêm vào đó, khả năng dự đoán thực tế của NRLMF được xác thực thông qua việc so sánh với các cơ sở dữ liệu sinh học trực tuyến mới nhất như ChEMBL, DrugBank, KEGG và Matador.
THUẬT TOÁN SỬ DỤNG
Các thành phần
Hiệu suất của các thuật toán dự đoán DTI đã được đánh giá trên bốn bộ dữ liệu kiểm tra, bao gồm:
Mỗi bộ dữ liệu chứa ba loại thông tin:
- Các DTI quan sát được
- Sự tương đồng giữa các loại thuốc
- Sự tương đồng giữa các mục tiêu
Các DTIs dữ liệu quan sát được thu thập từ các cơ sở dữ liệu công cộng như KEGG BRITE, BRENDA, SuperTarget và DrugBank Sự tương đồng giữa các loại thuốc được xác định dựa trên cấu trúc hóa học của các hợp chất từ phần DRUG và COMPOUND trong cơ sở dữ liệu KEGG LIGAND Đối với mỗi cặp hợp chất, sự tương đồng cấu trúc được đo bằng thuật toán SIM-COMP Đồng thời, sự tương đồng giữa các mục tiêu được tính toán dựa trên chuỗi axit amin của các protein, được lấy từ cơ sở dữ liệu KEGG GENES, với điểm chuẩn hóa Smith-Waterman được sử dụng để đo lường sự tương đồng giữa hai protein.
Các phương pháp
Kỹ thuật ma trận Factorization đã được áp dụng hiệu quả trong dự đoán DTI thông qua mô hình Logistic Factorization (LMF) Mô hình này cho phép cá nhân hóa các đề xuất bằng cách mô hình hóa khả năng tương tác giữa thuốc và mục tiêu Cả thuốc và mục tiêu được kết nối trong không gian ít chiều r (r = 1) ví dụ huấn luyện có lợi, trong khi các cặp chưa tương tác được coi là ví dụ huấn luyện không có lợi Biến c được sử dụng để kiểm soát độ quan trọng của các cặp đã quan sát.
Bằng việc giả định các ví dụ huấn luyện là độc lập, xác suất của các thực nghiệm được tính như sau:
Trong đó, khi y = 1, c(1 – y ) = 1 – y và khi y = 0, cy = y Theo đó, ta cóij ij ij ij ij ij thể viết thành công thức thứ 2 như sau:
Mô hình LMF kết nối thuốc và mục tiêu trong không gian để ước lượng hiệu quả cấu trúc tổng thể của dữ liệu DTI, nhưng bỏ qua các DTI lân cận giữa các loại thuốc và mục tiêu tương đồng Để cải thiện độ chính xác dự đoán DTI, chúng ta sẽ khai thác các lân cận của một loại thuốc và mục tiêu xa hơn Đối với một loại thuốc d, tập hợp các lân cận gần nhất N(d) được xác định từ K loại thuốc i tương đồng nhất với d, trong khi tập hợp N(t) thuộc T\t chứa các mục tiêu j liên quan.
K1 mục tiêu giống nhất với t Trong các thí nghiệm, ta đặt K = 5j 1
Thông tin lân cận của thuốc được biểu diễn bằng việc dùng ma trận kề A, trong đó phần tử (i, u) của a được định nghĩa như sau:iu
Ma trận kề B cũng để biểu diễn lân cận của mục tiêu, trong đó phần tử (j, v) của b được định nghĩa như sau:jv
Mục đích chính của việc khai thác thông tin từ các lân cận của các loại thuốc là để giảm khoảng cách giữa d và các lân cận gần nhất của nó, N(d) Điều này được thực hiện thông qua một hàm cụ thể.
Thuật toán NRLMF
Mô hình dự đoán DTI có thể được phát triển thông qua việc phân tích các tương tác giữa thuốc và mục tiêu cùng với các yếu tố lân cận Mô hình NRLMF được xây dựng với mục tiêu tối ưu hóa công thức, trong đó độ phức tạp được biểu thị thông qua các biến U và V.
Thuật toán NRLMF có thể được biểu diễn như sau: