Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 68 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
68
Dung lượng
1,32 MB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Dự đốn tương tác thuốc đích protein trình sản xuất thuốc TRẦN THỊ THƠM thomtt.hust@gmail.com Ngành Kỹ thuật điện tử Giảng viên hướng dẫn: TS Phùng Thị Kiều Hà Trường: Điện – Điện tử, Đại học Bách Khoa Hà Nội Chữ ký GVHD HÀ NỘI, 04/2023 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn: Trần Thị Thơm Đề tài luận văn: Dự đốn tương tác thuốc đích protein trình sản xuất thuốc Chuyên ngành: Kỹ thuật điện tử Mã số HV: 20202773M Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày / /2023 với nội dung sau: - Chỉnh sửa mẫu luận văn - Chỉnh sửa lỗi tả - Lý giải thêm điều kiện biên dải giá trị khảo sát - Bổ sung danh mục báo công bố Hà Nội, ngày tháng năm 2023 Giáo viên hướng dẫn Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG Kính gửi: Viện Điện tử viễn thơng PHIẾU ĐĂNG KÝ HƯỚNG DẪN ĐỀ TÀI Họ tên người hướng dẫn chính: TS Phùng Thị Kiều Hà Học vị: Tiến sĩ Cơ quan: Trường Điện - Điện tử, Đại học Bách Khoa Hà Nội Email: ha.phungthikieu@hust.edu.vn DĐ: (+84) 918343623 Họ tên người hướng dẫn phụ (nếu có): PGS.TS Lê Đức Hậu Học vị: Tiến sĩ Học hàm: Phó giáo sư Cơ quan: Viện nghiên cứu liệu lớn Vingroup Email: hauldhut@gmail.com DĐ: (+84) 912324564 Nội dung: Đề tài 1: Chuyên ngành: Kỹ thuật điện tử a Tên đề tài: Dự đoán tương tác thuốc đích protein q trình sản xuất thuốc b Mục tiêu đề tài: c Nội dung đề tài, vấn đề cần giải quyết: Hà Nội, ngày tháng năm 2023 Người hướng dẫn Lời cảm ơn Tôi xin chân thành cảm ơn giảng viên hướng dẫn cao học – Tiến sĩ Phùng Thị Kiều Hà, người tận tình, đưa góp ý quý giá động viên đầy nhiệt huyết cho tơi suốt q trình thực luận văn Tôi cảm thấy thật may mắn tự hào làm việc với cô suốt thời gian qua Tôi cảm ơn thầy PGS.TS Lê Đức Hậu, Trưởng phịng Tin sinh tính tốn, Viện nghiên cứu liệu lớn Vingroup, người định hướng ln hỗ trợ tơi cách tận tình Tơi xin gửi lời cảm ơn chân thành tới thầy cô trường Điện - Điện tử tạo điều kiện tốt để tơi hồn thành luận văn Thạc sĩ Tơi xin chúc thầy cơng tác tốt, có thật nhiều sức khỏe, có thật nhiều đề tài nghiên cứu khoa học để hướng dẫn cho sinh viên trường Điện - Điện tử Các nội dung, kết luận văn thực hướng dẫn TS Phùng Thị Kiều Hà, đồng hướng dẫn PGS.TS Lê Đức Hậu Vì vậy, TS Phùng Thị Kiều Hà có tồn quyền sử dụng chun đề Trong luận văn không tránh khỏi sai sót, tơi hy vọng tiếp tục nhận nhận xét quý báu, kiến thức kinh nghiệm bổ ích từ thầy để ngày hồn thiện thân Tóm tắt nội dung luận văn Mục tiêu luận văn nghiên cứu toán dự đoán tương tác (ái lực) thuốc đích protein nhằm giảm thí nghiệm sàng lọc, tiết kiệm chi phí thời gian sản xuất thuốc Luận văn trình bày thực trạng tốn, độ xác đạt được, ưu điểm nhược điểm số phương pháp có Từ nghiên cứu đó, luận văn đề xuất lựa chọn sử dụng mơ hình mạng nơ-ron đồ thị biểu diễn liệu đầu vào dạng khác nhau, mục tiêu học véc-tơ nhúng mang nhiều thơng tin đầu vào Luận văn làm phần xử lí liệu cho toán dự đoán tương tác protein-protein, coi đầu vào mơ hình mạng dự đoán lực Luận văn làm phần cài đặt thành cơng thuật tốn đề xuất, chạy thử nghiệm, so sánh đánh giá kết Định hướng phát triển mở rộng luận văn tiếp tục nghiên cứu mơ hình mạng nơron đồ thị, ứng dụng toán tin y sinh HỌC VIÊN Ký ghi rõ họ tên MỤC LỤC LỜI MỞ ĐẦU Tổng quan Mục tiêu đề tài Bố cục luận văn CHƯƠNG TIN SINH HỌC, QUÁ TRÌNH PHÁT TRIỂN THUỐC VÀ BÀI TỐN DỰ ĐỐN TƯƠNG TÁC THUỐC – ĐÍCH PROTEIN 1.1 Tin sinh học số khái niệm 1.2 Quá trình sản xuất thuốc vai trị sàng lọc ảo q trình sản xuất thuốc 1.3 Bài tốn dự đốn tương tác thuốc đích protein 13 1.3.1 Mơ tả tốn dự đốn tương tác thuốc đích protein (Drug Target Interaction - DTI) 13 1.3.2 Mô tả liệu đầu vào thuốc đích protein 13 1.4 Khảo sát phương pháp tồn 15 1.5 Kết luận chương 18 CHƯƠNG MẠNG NƠ-RON ĐỒ THỊ VÀ KHẢO SÁT CÁC NGHIÊN CỨU NỔI BẬT 19 2.1 Mạng đồ thị 19 2.2 Mạng nơ-ron đồ thị (Graph Neural Network – GNN) 20 2.2.1 Mạng đồ thị nơ-ron tích chập (Graph Convolution Network – GCN) 23 2.2.2 Mạng đồ thị ý (Graph Attention Network - GAT) 23 2.2.3 Mạng đồ thị đẳng cấu (Graph isomorphism network - GIN) 24 2.3 Khảo sát số nghiên cứu bật sử dụng mạng nơ-ron đồ thị cho toán DTA dựa dạng liệu khác đầu vào 24 2.4 Kết luận chương 25 CHƯƠNG CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ 26 3.1 Đồ thị mạng nơ-ron dự đoán tương tác protein – protein Error! Bookmark not defined 3.2 Dữ liệu đầu vào 26 3.2.1 Bộ liệu sở 26 3.2.2 3.3 Thông số đánh giá .30 3.3.1 Sai số bình phương trung bình (Mean Squared Error - MSE) 30 3.3.2 Chỉ số phù hợp (Concordance Index – CI) 30 3.3.3 Thông số 𝑟𝑟𝑚𝑚2 31 3.3.4 3.4 Cấu trúc liệu 28 AUPR 32 Mơ hình sở 32 3.4.1 Mơ hình sở DeepCPI 32 3.4.2 Mơ hình sở DeepGS 36 3.4.2.1 Dạng biểu diễn liệu 36 3.4.3 Mơ hình đề xuất 40 3.5 Quá trình huấn luyện .43 3.6 Kết 44 TÀI LIỆU THAM KHẢO 50 DANH MỤC HÌNH VẼ Hình 1.1 Mối quan hệ ngành toán thống kê, khoa học máy tính sinh học [1] Hình 1.2 Học thuyết trung tâm [3] Hình 1.3 Bệnh thiếu máu hồng cầu hình liềm Hình 1.4 Biểu nhiễm sắc thể người có hội chứng Down [5] Hình 1.5 Quy trình tìm phát triển thuốc [6] Hình 1.6 Thống kê số lượng hợp chất hóa học protein [7] Hình 1.7 Vai trị sàng lọc ảo (Virtual screening) trình phát triển thuốc [7] 11 Hình 1.8 Biểu diễn thuốc theo dạng dấu vân tay 14 Hình 2.1 Biểu diễn nút dạng véc-tơ nhúng 20 Hình 2.2 Học biểu diễn đồ thị toán phân loại nút [36] 20 Hình 2.3 Học biểu diễn đổ thị toán dự đoán liên kết [36] 20 Hình 2.4 Ảnh bên trái không gian Euclid, đồ thị bên phải không gian phi Euclid 21 Hình 2.5 Quy trình thiết kế mơ hình mạng nơ-ron đồ thị [37] 21 Hình 2.6 Minh họa chế ý mạng GAT 24 Hình 3.1 Sơ đồ tổng quan toán DTA 41 Hình 3.2 Trực quan hóa tập liệu Davis (cột bên trái) KIBA (cột bên phải) 27 Hình 3.3 Cấu trúc liệu Davis 28 Hình 3.4 Cấu trúc liệu KIBA 28 Hình 3.5 Biểu diễn cấu trúc phân tử dạng đồ thị từ dạng chuỗi SMILES thuốc TPCA-1 33 Hình 3.6 Minh họa biểu diễn nhúng sử dụng đồ thị bán kính r 35 Hình 3.7 Sơ đồ mơ hình DeepCPI 35 Hình 3.8 Mơ hình mạng DeepGS cho tốn dự đốn tương tác thuốc đích protein 38 Hình 3.9 Sơ đồ biểu diễn đích protein từ dạng chuỗi SMILES dạng véc-tơ 38 Hình 3.10 Sơ đồ biểu diễn thuốc với dạng đầu vào chuỗi SMILES dạng véctơ 39 Hình 3.11 Sơ đồ biểu diễn thuốc từ cấu trúc phân tử dạng véc-tơ 40 Hình 3.12 Kiến trúc tổng quan mơ hình mạng S-VGAE……………………41 Hình 3.13 Sơ đồ biểu diễn protein thông qua mạng đồ thị protein-protein 42 Hình 3.14 Mơ hình mạng đề xuất cho tốn dự đốn tương tác thuốc đích protein 43 Hình 3.15 Biểu đồ giá trị mát qua epoch mơ hình đề xuất huấn luyện với liệu Davis (trái) liệu KIBA (phải) 44 Hình 3.16 Biểu đồ giá trị thơng số đánh giá với liệu Davis từ trái - phải từ - tương ứng giá trị MSE, rm2, AUPR, CI 45 DANH MỤC BẢNG BIỂU Bảng 1.1 Chi tiết cài đặt tham số Bảng 2.1 Chi tiết cài đặt tham số 26 Bảng 3.1 Chi tiết cài đặt tham số mơ hình DeepCPI 38 Bảng 3.2 Chi tiết cài đặt tham số mơ hình DeepGS 40 Bảng 3.3 Kết so sánh phương pháp đề xuất với mô hình sở liệu Davis 44 Bảng 3.4 Kết so sánh phương pháp đề xuất với mơ hình sở liệu KIBA 46 biểu diễn ẩn (latent representation) thuốc, từ mơ hình hóa bối cảnh hóa học cục Hình 3.11 Sơ đồ biểu diễn thuốc từ cấu trúc phân tử dạng véc-tơ Để khai thác thêm bối cảnh hóa học cục bộ, DeepGS khai thác cấu trúc phân tử hợp chất thuốc nhằm phân tích kết nối nguyên tử thuốc Cấu trúc phân tử yếu tố quan trọng toán dự đoán tương tác thuốc Để đạt điều này, cấu trúc phân tử thuốc (ở chuỗi SMILES hợp chất thuốc) biến đổi sang dạng đồ thị phân tử với công cụ RDKit Từ đồ thị phân tử thu được, ta áp dụng mạng đồ thị ý (Graph Attention Network – GAT) nhằm mã hóa tất nguyên tử liên kết hóa học thành véc-tơ d chiều Từ ta tổng hợp thông tin từ đồ thị bán kính r cho nguyên tử đồ thị phân tử, với r số bước nhảy từ nguyên tử Thuật tốn mơ hình GAT đồ thị phân tử mô tả phần 3.4.2.1 Cuối cùng, đầu mơ hình véc-tơ ngun tử (các biểu diễn phân tử) chứa thông tin đồ thị bán kính r 3.4.3 Mơ hình đề xuất 3.4.3.1 Dạng biểu diễn liệu Mô hình mạng nơ-ron dự đốn tương tác protein – protein Protein thực nhiều chức quan trọng thể sinh vật 80% protein tương tác với protein khác thực chức chúng Những tương tác gọi tương tác protein-protein (PPI), tiếp xúc vật lí có tính đặc hiệu cao thiết lập hai nhiều phân tử protein Tương tác protein-protein coi trung tâm nhiều trình sinh học, bao gồm truyền tín hiệu, phản ứng miễn dịch, tăng sinh tế bào, phiên mã DNA chép (replication) Việc phân tích tương tác giúp cung cấp hiểu biết có giá trị chế phân tử Các thí nghiệm để xác định tương tác nhiều thời gian gây tốn Như trình bày dạng biểu diễn cấu trúc protein mục 2.2, protein biểu diễn hai dạng: dạng chuỗi dạng cấu trúc Nhiều phương pháp học máy, học sâu dựa trình tự chuỗi, nhiên lại bỏ qua thông tin cấu trúc mạng Thông tin cấu trúc mạng PPI bậc, vị trí, nút hàng xóm đồ thị chứng minh mang thơng tin dự đốn PPI Các nghiên cứu mạng PPI gặp thách thức lớn cách khởi tạo thông tin mạng (tức là, cách để biểu diễn cấu trúc đồ thị mạng PPI khơng gian véc-tơ với số chiều thấp) Vì vậy, nghiên cứu gần đưa ý tưởng học biểu diễn đồ thị, quy toán dự đoán liên kết (Link Prediction) Luận văn 40 khảo sát số nghiên cứu cho toán PPI sau: nghiên cứu SSAE (Stacked Sparse AutoEncoder) [44] trích xuất đặc trưng chuỗi protein từ ma trận điểm số đặc trưng vị trí (position specific scoring matrix) Những đặc trưng trích xuất được đưa qua tự động mã hóa xếp chồng (stacked autoencoder) Nghiên cứu đề xuất phân loại PCVM (Probabilistic classification véc-tơ machine) để dự đoán tương tác protein-protein Nghiên cứu Struct2Graph [45] sử dụng đồ thị GCN để xây dựng véc-tơ nhúng, nhiên, điểm yếu nghiên cứu cần biết cấu trúc 3D protein đầu vào Sau trình khảo sát phân tích ưu nhược điểm mơ hình, luận văn lựa chọn mơ hình SOTA mạng S-VGAE (Signed Variational Graph Auto-Encoder) [43] để triển khai lại sử dụng phần hai nghiên cứu với mục tiêu trích xuất thơng tin đặc trưng protein từ mạng Hình 3.12 mơ tả kiến trúc tổng quan mơ hình mạng với ba phần: Phần một, nghiên cứu sử dụng phương pháp CT [46] để mã hóa thơng tin chuỗi protein thơ Phần hai, mơ hình S-VGAE xây dựng dựa mơ hình VGAE (Variational Graph Auto-Encoder) [47] để trích xuất véc-tơ nhúng cho protein với cấu trúc đồ thị chuỗi thông tin Phần ba, véc-tơ nhúng đưa vào huấn luyện với mạng nơ-ron truyền thẳng phân lớp cuối Hình 3.22 Kiến trúc tổng quan mơ hình mạng S-VGAE [43] Dữ liệu nghiên cứu mạng S-VGAE [43] sử dụng năm tập liệu khác nhau: sở liệu tham chiếu protein người (Human protein reference database – HPRD), Cơ sở liệu tương tác protein (Database of Interacting Protein – DIP) người, Drosophila, Escherichia coli (E coli), Caenorhabditis elegans (C elegan) với thông số đánh giá khác Tuy nhiên, luận văn điều chỉnh phần liệu để phù hợp với mục tiêu đặt 41 Hình 3.13 biểu diễn liệu protein thành dạng đồ thị mạng protein-protein để trích xuất thơng tin đặc trưng đích protein Hình 3.13 Sơ đồ biểu diễn protein thông qua mạng đồ thị protein-protein[43] Đầu vào mơ hình mạng protein-protein chuỗi protein thơ mã hóa với độ dài cố định sử dụng phương pháp ba kết hợp (Conjoint Triad - CT) Tiếp theo để học véc-tơ nhúng protein, ta sử dụng mơ hình mạng tự động mã hóa đồ thị biến thể có ký hiệu (Signed Variational Graph Auto-Encoder – SVGAE) Mơ hình chế mã hóa - giải mã (encode-decode) Đầu tiên, mã hóa ánh xạ nút 𝑣𝑣𝑖𝑖 đồ thị thành véc-tơ nhúng chiều thấp, 𝑧𝑧𝑖𝑖 , dựa vị trí nút đồ thị, cấu trúc hàng xóm địa phương thuộc tính nút Tiếp theo, giải mã trích xuất nhãn phân loại 𝐴𝐴𝑖𝑖𝑖𝑖 liên quan đến 𝑣𝑣𝑖𝑖 𝑣𝑣𝑗𝑗 (tức nhãn tương tác protein 𝑖𝑖 𝑗𝑗) Bằng cách tối ưu đồng thời mã hóa giải mã, mơ hình học cách nén thơng tin cấu trúc đồ thị vào không gian nhúng chiều thấp Ý tưởng đằng sau chế mã hóa-giải mã học cách giải mã thơng tin đồ thị có chiều cao từ nhúng chiều thấp mã hóa ngun tắc, véc-tơ chiều thấp học nên chứa đầy đủ thông tin cần thiết cho tác vụ học máy thấp hơn, ví dụ phân loại 3.4.3.2 Mơ hình mạng đề xuất cài đặt Luận văn sử dụng cài đặt 3.4.2.2 thêm nhánh trích xuất đặc trưng đích protein Hình 3.14 42 Hình 3.14 Mơ hình mạng đề xuất cho tốn dự đốn tương tác thuốc đích protein 3.5 Q trình huấn luyện Ta có hàm dự đốn lực tương tác thuốc đích protein sau: 𝐾𝐾𝑑𝑑 = 𝑓𝑓(𝜃𝜃, (𝑑𝑑𝑖𝑖 , 𝑝𝑝𝑖𝑖 )) PT 3.7 Trong (𝑑𝑑𝑖𝑖 , 𝑝𝑝𝑖𝑖 ) cặp biểu diễn thông tin thuốc protein, 𝜃𝜃 tham số mơ hình, 𝑓𝑓 mơ hình học máy Q trình huấn luyện mơ hình quy tốn tối ưu hóa hàm mục tiêu sau: 𝐽𝐽(𝜃𝜃, 𝐷𝐷 ) = 𝑁𝑁 ∑𝑁𝑁 𝑖𝑖=1 𝐿𝐿(𝑓𝑓(𝜃𝜃, (𝑑𝑑𝑖𝑖 , 𝑝𝑝𝑖𝑖 ))), 𝑦𝑦𝑖𝑖 ) PT 3.8 Trong 𝐷𝐷 = {(𝑑𝑑𝑖𝑖 , 𝑝𝑝𝑖𝑖 ), 𝑦𝑦𝑖𝑖 } tập huấn luyện gồm N mẫu liệu nhãn tương ứng, 𝐿𝐿 hàm mát định nghĩa Để tối ưu hàm mát này, luận văn sử dụng thuật toán Adam Một thành phần Adam trung bình động trọng số mũ (hay cịn gọi trung bình rị rỉ) để ước lượng động lượng mô-men bậc hai gradient; cách sử dụng biến trạng thái: 𝑣𝑣𝑡𝑡 ← 𝛽𝛽1 𝑣𝑣𝑡𝑡−1 + (1 − 𝛽𝛽1 )𝑔𝑔𝑡𝑡 , 𝑠𝑠𝑡𝑡 ← 𝛽𝛽2 𝑠𝑠𝑡𝑡−1 + (1 − 𝛽𝛽2 )𝑔𝑔𝑡𝑡2 PT 3.9 PT 3.10 Với 𝛽𝛽1 , 𝛽𝛽2 tham số trọng số không âm Lựa chọn phổ biến thường 𝛽𝛽1 = 0.9 𝛽𝛽2 = 0.999 Động lượng khoảng giá trị thể rõ ràng biến trạng thái Việc kết hợp hai số hạng dựa thuật toán RMSProp Tốc độ học cho phép 43 kiểm soát độ dài bước cập nhật, giải vấn đề hội tụ Adam sử dụng ước tính thời điểm thứ thứ hai gradient để điều chỉnh tốc độ học cho trọng số mạng nơ-ron Adam sử dụng gradient bình phương để chia tỉ lệ tập huấn luyện thuật toán RMSprop tận dụng động lượng cách sử dụng đường trung bình động gradient thay gradient 3.6 Kết Hình 3.15 thể thơng tin giá trị mát qua epoch ghi nhận qua q trình huấn luyện mơ hình đề xuất với liệu Davis (trái) liệu KIBA (phải) Hình 3.15 Biểu đồ giá trị mát qua epoch mơ hình đề xuất huấn luyện với liệu Davis (trái) liệu KIBA (phải) Theo hình 3.15, giá trị mát huấn luyện với hai liệu có đồ thị gần tương đương Quan sát hai đồ thị, ta thấy giá trị mát giảm dần qua epoch Giá trị mát giảm rõ rệt từ epoch tới epoch 80, nghĩa độ dốc đồ thị lớn Giá trị mát giảm dần từ epoch thứ 81 tới kết thúc huấn luyện Thực nghiệm triển khai tới epoch 160 từ epoch 160 thông số đánh giá không thay đổi ngưỡng định Hình 3.16 thể thông số đánh giá MSE, 𝑟𝑟𝑚𝑚2 , AUPR CI đánh giá liệu Davis huấn luyện qua epoch Ta thấy đồ thị giá trị MSE 𝑟𝑟𝑚𝑚2 mượt 60 epoch đầu thay đổi không nhiều epoch sau Từ epoch 61, MSE 𝑟𝑟𝑚𝑚2 không thay đổi tuyến tính mà lúc tăng, lúc giảm hội tụ giá trị tối ưu Với giá trị AUPR CI, giá trị tăng nhanh chóng từ epoch tới epoch 60 giảm dần từ epoch 61 trở Quan sát cho thấy từ epoch 100 tới epoch 160, giá trị đánh giá hội tụ chậm 44 Hình 3.16 Biểu đồ giá trị thông số đánh giá với liệu Davis từ trái phải từ - tương ứng giá trị MSE, 𝑟𝑟𝑚𝑚2 , AUPR, CI Bảng 3.3 Bảng 3.4 so sánh kết phương pháp mà luận văn đề xuất với phương pháp báo DeepCPI, DeepGS với hai liệu Davis KIBA Đây kết mà luận văn thực nghiệm với phương pháp đề xuất so sánh với kết hai mơ hình DeepCPI DeepGS tác giả đưa hai báo tên Bảng 3.3 Kết so sánh phương pháp đề xuất với mơ hình sở liệu Davis Phương pháp Dạng biểu Dạng biểu CI ↑ diễn diễn đích thuốc protein DeepCPI GNN CNN 0.867 (Embedding) MSE ↓ 𝑟𝑟𝑚𝑚2 ↑ Điểm AUPR ↑ 0.293 0.607 0.705 DeepGS GAT CNN +Smi2Vec (Prot2Vec) 0.882 0.252 0.686 0.763 Đề xuất GAT + CNN Smi2Vec (Prot2Vec) + GCN 0.880 0.243 0.676 0.723 45 Bảng 3.4 Kết so sánh phương pháp đề xuất với mơ hình sở liệu KIBA Phương pháp Dạng biểu Dạng biểu CI ↑ diễn diễn đích thuốc protein DeepCPI GNN CNN 0.852 (Embedding) MSE ↓ 𝑟𝑟𝑚𝑚2 ↑ Điểm AUPR ↑ 0.211 0.657 0.782 DeepGS GAT CNN +Smi2Vec (Prot2Vec) 0.860 0.193 0.684 0.801 Đề xuất GAT + CNN Smi2Vec (Prot2Vec) + GCN 0.856 0.203 0.653 0.767 Như ta quan sát bảng, kết thử với liệu KIBA chưa đạt hiệu tốt liệu Davis số CI thấp (0.856 so với 0.880) thông số 𝑟𝑟𝑚𝑚2 thấp (0.653 so với 0.676) Tuy nhiên, thử với liệu KIBA, độ xác cao so với thử nghiệm với liệu Davis với số MSE thấp (0.203 so với 0.243) điểm AUPR cao (0.767 so với 0.723) Quan sát kết thực nghiệm với hai liệu so sánh với hai phương pháp tiên tiến DeepCPI DeepGS, phương pháp đề xuất thể kết tốt Với liệu Davis, mơ hình đề xuất có giá trị MSE tốt giá trị thông số đánh giá lại xấp xỉ với hai phương pháp so sánh Với liệu KIBA, giá trị 𝑟𝑟𝑚𝑚2 có giá trị tốt nhất, thơng số đánh giá lại đạt kết tốt so với hai phương pháp so sánh Phân tích đánh giá kết mơ hình Luận văn đề xuất sử dụng mạng nơ-ron đồ thị tích chập để biểu diễn đích protein đầu vào dựa vào nghiên cứu DeepGS Kết cho thấy vượt trội mặt học logic đích protein thơng qua cách biểu diễn đồ thị thay sử dụng dạng véc-tơ sau qua mạng CNN Phương pháp đề xuất so sánh với mơ hình DeepCPI để xem xét kết hợp hiệu cấu trúc tô-pô mạng nơ – ron đồ thị thuật tốn Smi2Vec để trích xuất thơng tin từ chuỗi cơng thức hóa học Phương pháp đề xuất so sánh với mơ hình DeepGS để xem xét hiệu thêm biểu diễn protein mơ hình mạng tích chập đồ thị Kết thực nghiệm phương pháp/mơ hình đề xuất đạt xấp xỉ tốt so với hai mơ hình so sánh Đánh giá tổng quan kết quả: Về mặt liệu Các giải thích dễ số lượng mẫu liệu chưa đủ lớn Tuy nhiên cách giải thích cho tất toán học sâu Trong toán học sâu, nhiều liệu có nghĩa mơ hình học nhiều đặc trưng tốt Không với lý thuyết xác suất hay phương pháp “học 46 thuộc” liệu bao gồm tất khơng gian mẫu, giá trị MSE Về mặt cấu trúc liệu Thông tin dạng đồ thị thuốc chưa mang đủ tồn thơng tin thuốc góc hai phân tử hay lực liên kết, v.v Ngồi tích hợp thơng tin đích đến thuốc Về mặt mơ hình Các mơ hình GNN sau học xong cập nhật nút đồ thị tổng hợp thông tin lại cách dùng giá trị trung bình nút hay dùng lấy giá trị lớn chiều Kết mơ hình CNN-GAT mang lại nhiều thơng tin thuốc áp dụng thuật tốn Smi2Vec mang lại nhiều thơng tin sử dụng mã hóa onehot Thay “bắt học” ta “cài đặt” tri thức vào mơ hình giúp mơ hình mơ tả xác q trình dự đốn tương tác 47 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết đạt Về mặt lí thuyết Luận văn nghiên cứu trình bày nội dung sau: (1) Các kiến thức y sinh học số khái niệm liên quan đến gen, DNA, protein, thuốc, y học xác, quy trình tìm kiếm phát triển thuốc mới, phương pháp nghiên cứu để cải thiện quy trình (2) Bài toán dự đoán tương tác thuốc protein, toán dự đoán lực, số sở lí thuyết liên quan đến tốn gồm có dạng biểu diễn liệu đầu vào khảo sát phương pháp tồn để giải toán (3) Tổng quan số mạng đồ thị, mạng nơ-ron đồ thị, số nghiên cứu bật gần sử dụng mạng nơ-ron đồ thị cho toán DTA Bài toán dự đoán tương tác protein –protein mơ hình mạng nơ-ron đồ thị cho toán Về mặt thực nghiệm Luận văn thu số kết sau: • Xử lí liệu cho tốn PPI • Tích hợp thành cơng thuật tốn chạy thử nghiệm • So sánh đánh giá kết thử nghiệm Thông qua luận văn, tơi học, làm việc với tốn y sinh học, kèm theo triển khai đề xuất ý tưởng mang hiệu cao mà cịn có ý nghĩa mặt sinh học Hạn chế đề tài Kết thực nghiệm luận văn cho thấy việc thử nghiệm dạng biểu diễn khác liệu mơ hình mạng phù hợp cho kết tốt phương pháp trước Tuy nhiên, nhiều hạn chế kinh nghiệm thời gian thực nên luận văn số khuyết điểm: (1) Chưa tối ưu tham số để tăng độ xác giảm thời gian huấn luyện (2) Chưa thử nghiệm nhiều mơ hình mạng kết hợp tổ hợp với dạng liệu đầu vào khác (3) Kết so sánh với mơ hình nghiên cứu bật mà chưa diễn giải mơ hình Bởi lẽ, số nghiên cứu bật, kết thường kết hợp với kiến thức chuyên ngành chuyên gia tin sinh để giải thích diễn giải mơ hình 48 Hướng phát triển đề tài Trong trình thực luận văn, từ hạn chế trên, tơi thấy cịn nhiều vấn đề khác liên quan cần tiếp tục nghiên cứu triển khai như: • Tìm hiểu sâu tri thức sinh học để tạo mơ hình cách tự nhiên • Thử nghiệm thêm nhiều tổ hợp biểu diễn liệu đầu vào khác nhau, có phải tăng cách số lượng đầu vào hiệu tốn tăng • Tiếp tục thử với mơ hình mạng nơ-ron đồ thị khác - kiểu mơ hình mạng xu hướng giới 49 TÀI LIỆU THAM KHẢO [1]aaSamuel,aJohnson,a2020,aWhataareatheadifferencesabetweenaBioinformatic saandaComputationalaBiology,ahttps://www.researchgate.net/post/What_are_the _differences_between_Bioinformatics_and_Computational_Biology [2] Zaslavsky L, Cheng T, Gindulyte A, He S, Kim S, Li Q, Thiessen P, Yu B and Bolton EE (2021) Discovering and Summarizing Relationships Between Chemicals, Genes, Proteins, and Diseases in PubChem Front Res Metr Anal 6:689059 doi: 10.3389/frma.2021.689059 [3]aaYourgenome,aWhataisathea“CentralaDogma”,ahttps://www.yourgenome.or g/facts/ what-is-the-central-dogma/ (accessed May 5, 2023) [4]aaAlexandreaVieira,aGensesaandaDisease,ahttps://www.nature.com/scitable/t opic/genes-and-disease-17 (accessed May 5, 2023) [5] Israel Ramirez, Down Syndrome (Trisomy 21), https://www.quora.com/How-does-having-an-extra-chromosome-cause-Downsyndrome (accessed May 5, 2023) [6]aâ“OverviewaNewaMedicinesainaDevelopmentaforadiabetes9”,aâhttp://phrm adocs.phrma.org/sites/default/files/pdf/12535phrmaoverviewdiabetes1109.pdf (accessed May 5, 2023) [7] Rifaioglu AS, Atas H, Martin MJ, Cetin-Atalay R, Atalay V, Doğan T Recent applications of deep learning and machine intelligence on in silico drug discovery: methods, tools and databases Brief Bioinform 2019 Sep 27;20(5):1878-1912 doi: 10.1093/bib/bby061 PMID: 30084866; PMCID: PMC6917215 [8] Hertzberg RP, Pope AJ High-throughput screening: new technology for the 21st century Curr Opin Chem Biol 2000; 4(4):445–51 [9]aâHopkinsaAL.aDrugadiscovery:apredictingapromiscuity.aNature2009;462(7 270):167–8 [10] Paul SM, Mytelka DS, Dunwiddie CT, et al How to improve R&D productivity: the pharmaceutical industry’s grand challenge Nat Rev Drug Discov 2010;9(3):203–14 [11] Zhou SF, Zhong WZ Drug Design and Discovery: Principles and Applications Molecules 2017;22(2):279 Published 2017 Feb 13 doi:10.3390/molecules22020279 [12] Heller SR, McNaught A, Pletnev I InChI, the IUPAC international chemical identifier J Cheminform 2015;7:23 [13] Schierz AC Virtual screening of bioassay data J Cheminform 2009;1:21 [14] E C Meng, B K Shoichet, and I D Kuntz, “Automated docking with gridbased energy evaluation,” JOURNAL OF COMPUTATIONAL CHEMISTRY, vol 13, no 4, pp 505–524, 1992 50 [15] Weininger D SMILES, a chemical language and information system J Chem Inf Comput Sci 1988;28(1):31–6 [16] Heller SR, McNaught A, Pletnev I InChI, the IUPAC international chemical identifier J Cheminform 2015;7:23 [17] Cereto-Massague´ A, Ojeda MJ, Valls C, et al Molecular fingerprint similarity search in virtual screening Methods 2015;71: 58–63 [18] Sheridan RP, Kearsley SK Why we need so many chemical simialrity search methods? Ddt 2002;7(17):903–11 [19] Bajusz D, Ra´cz A, He´berger K Why is Tanimoto index an appropriate choice for fingerprint-based similarity calculations? J Cheminform 2015;7:20 [20] The UniProt Consortium.UniProt: the universal protein knowledgebase Nucleic Axit Res 2017;45(D1):D158–69 [21] Berman HM, Westbrook J, Feng Z, et al The Protein Data Bank Nucleic Axit Res 2000;28(1):235–42 [22] M Thafar, A B Raies, S Albaradei, M Essack, and V B Bajic, “Comparison study of computational prediction tools for drug-target binding affinities,” Frontiers in Chemistry, vol 7, 2019 [23] I Kundu, G Paul, and R Banerjee, “A machine learning approach towards the prediction of protein–ligand binding affinity based on fundamental molecular properties,” RSC Advances, vol 8, no 22, pp 12 127–12 137, 2018 [24] M M Stepniewska-Dziubinska, P Zielenkiewicz, and P Siedlecki, “Development and evaluation of a deep learning model for protein–ligand binding affinity prediction,” Bioinfo rmatics, vol 34, no 21, pp 3666–3674, 2018 [25] E C Meng, B K Shoichet, and I D Kuntz, “Automated docking with gridbasedenergy evaluation,” Journal of Computational Chemistry, vol 13, no 4, pp 505–524, 1992 [26] M Jiang, Z Li, S Zhang, S Wang, X Wang, Q Yuan, and Z Wei, “Drug– target affinity prediction using graph neural network and contact maps,” RSC Advances, vol 10, no 35, pp 20 701–20 712, 2020 [27] A Cichonska, T Pahikkala, S Szedmak, H Julkunen, A Airola, M Heinonen, T Aittokallio, and J Rousu, “Learning with multiple pairwise kernels for drug bioactivity prediction,” Bioinformatics, vol 34, no 13, pp i509–i518, 2018 [28] T He, M Heidemeyer, F Ban, A Cherkasov, and M Ester, “SimBoost: A read-across approach for predicting drug–target binding affinities using gradient boosting machines,” Journal of Cheminformatics, vol 9, no 1, pp 1–14, 2017 [29] H Ozt ¨ urk, A ¨ Ozg ¨ ur, and E Ozkirimli, DeepDTA: ă deep drugtarget binding affinity prediction, Bioinformatics, vol 34, no 17, pp i821i829, 2018 51 [30] H Ozt ă urk, E Ozkirimli, and A ă Ozg ă ur, WideDTA: pre- ă diction of drug-target binding affinity, arXiv preprint arXiv:1902.04166, 2019 [31] T Nguyen, H Le, T P Quinn, T Nguyen, T D Le, and S Venkatesh, “GraphDTA: prediction of drug–target binding affinity using graph convolutional networks,” Bioinformatics, Oct 2020 [32] Q Feng, E Dueva, A Cherkasov, and M Ester, “PADME: A deep learningbased framework for drug-target interaction prediction,” arXiv preprint arXiv:1807.09741, 2018 [33] S Zheng, Y Li, S Chen, J Xu, and Y Yang, “Predicting drug–protein interaction using quasi-visual question answering system,” Nature Machine Intelligence, vol 2, no 2, pp 134–140, 2020 [34] M Jiang, Z Li, S Zhang, S Wang, X Wang, Q Yuan, and Z Wei, “Drug– target affinity prediction using graph neural network and contact maps,” RSC Advances, vol 10, no 35, pp 20 701–20 712, 2020 [35] William L Hamilton (2020) Graph Representation Learning Synthesis Lectures on Artificial Intelligence and Machine Learning, Vol 14, No , Pages 1-159 [36] Anil, Graph Representation Learning, https://wandb.ai/syllogismos/machinelearning-with-graphs/reports/7-Graph-Representation-Learning VmlldzozNzcwMDk [37] Jie Zhou, Ganqu Cui et al Graph neural networks: A review of methods and applications, AI Open, Vol 1, p 57-81, 2020 [38] Kipf, T N and Welling, M (2017) Semi-supervised classification with graph convolutional networks Proc of ICLR [39] Veliˇckovi´c, P., Cucurull, G., Casanova, A., Romero, A., Lio, P., and Bengio, Y (2018) Graph attention networks Proc of ICLR [40] X Lin, K Zhao, T Xiao, Z Quan, Z Wang, and P Yu DeepGS: Deep Representation Learning of Graphs and Sequences for Drug-Target Binding Affinity Prediction ECAI , volume 325 of Frontiers in Artificial Intelligence and Applications, page 1301-1308 IOS Press,(2020) [41] W Torng and R B Altman, “Graph convolutional neural networks for predicting drug-target interactions,” Journal of Chemical Information and Modeling, vol 59, no 10, p 4131–4149, 2019 [42] S Wang, S Sun, Z Li, R Zhang, and J Xu, “Accurate de novo prediction of protein contact map by ultradeep learning model,” PLOS Computational Biology, vol 13, no 1, e1005324, 2017 [43] Yang, F., Fan, K., Song, D et al Graph-based prediction of Protein-protein interactions with attributed signed graph embedding BMC Bioinformatics 21, 323 (2020) https://doi.org/10.1186/s12859-020-03646-8 52 [44] Wang YB, You ZH, Li X, Jiang TH, Chen X, Zhou X, Wang L Predicting protein-protein interactions from protein sequences by a stacked sparse autoencoder deep neural network Mol Biosyst 2017 Jun 27;13(7):1336-1344 doi: 10.1039/c7mb00188f PMID: 28604872 [45] Baranwal, M., Magner, A., Saldinger, J., Turali-Emre, E S., Kozarekar, S., Elvati, P., VanEpps, J S., Kotov, N A., Violi, A., & Hero, A O (2020) Struct2Graph: A graph attention network for structure based predictions of proteinprotein interactions BioRxiv https://doi.org/10.1101/2020.09.17.301200 [46] Shen J, Zhang J, Luo X, Zhu W, Yu K, Chen K, Li Y, Jiang H Predicting protein–protein interactions based only on sequences information Proc Natl Acad Sci 2007;104(11):4337–41 [47] Kipf TN, Welling M Variational graph auto-encoders arXiv preprint 2016 arXiv:1611.07308 [48] RDKit https://www.rdkit.org/ (accessed May 5, 2023) [49] Davis M.I.et al (2011) Comprehensive analysis of kinase inhibitor selectivity Nat Biotechnol., 29, 1046–1051 [50] Tang J et al (2014) Making sense of large-scale kinase inhibitor bioactivity data sets: a comparative and integrative analysis J Chem Inf Model., 54, 735– 743 [51] Tsubaki, M., Tomii, K., & Sese, J (2018) Compound–protein interaction prediction with end-to-end learning of neural networks for graphs and sequences Bioinformatics doi:10.1093/bioinformatics/bty535 [52] Swinney, David C 2011 “Chapter 18 - Molecular Mechanism of Action (MMoA) in Drug Discovery.”, John E Macor, 46:301–17 Annual Reports in Medicinal Chemistry Academic Press doi: https://doi.org/10.1016/B978-0-12386009-5.00009-6 [53] Toropov, Andrey & Toropova, Alla & Mukhamedzhanova, D.V & Gutman, Ivan (2005) Simplified molecular input line entry system (SMILES) as an alternative for constructing quantitative structure-property relationships (QSPR) Indian Journal of Chemistry - Section A Inorganic, Physical, Theoretical and Analytical Chemistry 44 1545-1552 [54] Bahdanau,D et al (2014) Neural machine translation by jointly learning to align and translate In: International Conference on Learning Representations [55] Ehsaneddin Asgari and Mohammad RK Mofrad, ‘Continuous distributed representation of biological sequences for deep proteomics and genomics’, PloS one, 10(11), e0141287, (2015) [56] Apweiler,R et al (2004) Uniprot: the universal protein knowledgebase Nucleic Axit Res., 32(Suppl 1), D115–D119 53 [57] Yang, L., Li, LP & Yi, HC DeepWalk based method to predict lncRNAmiRNA associations via lncRNA-miRNA-disease-protein-drug graph BMC Bioinformatics 22 (Suppl 12), 621 (2021) https://doi.org/10.1186/s12859-02204579-0 54