Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.2 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI NGUYỄN VĂN TỈNH DỰ ĐOÁN LIÊN KẾT TRONG MẠNG HỖN TẠP VÀ ỨNG DỤNG TRONG DỰ ĐOÁN MỐI QUAN HỆ GIỮA RNA KHÔNG MÃ HÓA VÀ BỆNH Chuyên ngành Khoa học máy.
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI NGUYỄN VĂN TỈNH DỰ ĐOÁN LIÊN KẾT TRONG MẠNG HỖN TẠP VÀ ỨNG DỤNG TRONG DỰ ĐOÁN MỐI QUAN HỆ GIỮA RNA KHƠNG MÃ HĨA VÀ BỆNH Chun ngành: Khoa học máy tính Mã số: 9480101 TĨM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Hà nội, 2023 Cơng trình hồn thành tại: Khoa Cơng nghệ thông tin, Trường Đại học Sư phạm Hà Nội Người hướng dẫn khoa học: PGS.TS Trần Đăng Hưng TS Lê Thị Tú Kiên Phản biện 1: PGS.TS Nguyễn Long Giang, Viện Công nghệ thông tin-Viện Hàn lâm KHCN Việt Nam Phản biện 2: PGS.TS Lê Đức Hậu, Trường Đại học Thủy Lợi Phản biện 3: PGS.TS Nguyễn Ngọc Hóa, Trường Đại học Cơng nghệ-ĐHQG Hà Nội Luận án bảo vệ trước Hội đồng chấm luận án cấp Trường họp Trường Đại học Sư phạm Hà Nội vào hồi … … ngày … tháng… năm… Có thể tìm hiểu luận án thư viện: Thư viện Quốc Gia, Hà Nội Thư viện Trường Đại học Sư phạm Hà Nội DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN [VTN1] Van Tinh Nguyen, Thi Tu Kien Le and Dang Hung Tran, "A new method on lncRNA-disease-miRNA tripartite graph to predict lncRNA-disease associations", 2020 12th International Conference on Knowledge and Systems Engineering (KSE), 2020, pp 287-293, doi: 10.1109/KSE50997.2020.9287563 (Scopus indexed) [VTN2] Van Tinh Nguyen, Thi Tu Kien Le, Tran Quoc Vinh Nguyen and Dang Hung Tran, “Inferring miRNA-disease associations using collaborative filtering and resource allocation on a tripartite graph”, BMC Med Genomics 14, 225 (2021) https://doi.org/10.1186/s12920-021-01078-8 (ISI Q2 journal) [VTN3] Van Tinh Nguyen and Dang Hung Tran, "An improved computational method for prediction of lncRNA-disease associations based on collaborative filtering and resource allocation", 2021 13th International Conference on Knowledge and Systems Engineering (KSE), 2021, pp 1-6, doi: 10.1109/KSE53942.2021.9648632 (Scopus indexed) [VTN4] Van Tinh Nguyen, Thi Tu Kien Le, Khoat Than and Dang Hung Tran, “Predicting miRNA–disease associations using improved random walk with restart and integrating multiple similarities”, Sci Rep 11, 21071 (2021) https://doi.org/10.1038/s41598-021-00677-w (ISI Q1 journal) MỞ ĐẦU Chúng ta sống giới kết nối nơi mà hầu hết liệu hay thông tin đối tượng, tác nhân, nhóm đối tượng hay nhóm thành phần tương tác với để tạo thành mạng lớn Chúng chứa nhiều loại nút nhiều loại tương tác Những mạng gọi mạng thông tin hỗn tạp Những mạng giàu ngữ nghĩa xây dựng từ nhiều nguồn liệu khác Phân tích mạng thông tin hỗn tạp sản sinh xu hướng nghiên cứu khai phá liệu, truy vấn thông tin, phân tích mạng xã hội, dự đốn liên kết, khai phá đồ thị, khoa học mạng lưới, … Dự đoán liên kết nhiệm vụ then chốt tích cực phân tích mạng thơng tin hỗn tạp Nó mang lại nhiều lợi ích cho nhà nghiên cứu tổ chức nhiều lĩnh vực khác Mục tiêu dự đốn liên kết tìm liên kết thiếu mạng liên kết xuất tương lai gần mạng Dự đoán liên kết áp dụng rộng rãi nhiều lĩnh vực, từ mạng xã hội tới hệ thống sinh học Với hệ thống sinh học, dự đoán liên kết sử dụng để dự đoán mối quan hệ nhiều loại đối tượng sinh học khác nhau, chẳng hạn quan hệ Triệu chứng bệnh-Gen, tương tác Thuốc-Protein, quan hệ Thuốc-miRNA, quan hệ Thuốc-bệnh, quan hệ RNA khơng mã hóa-bệnh… Trong khoảng thời gian dài, việc xác định RNAs khơng mã hóa (ncRNAs) gen người cơng việc khó khăn Chúng coi nhiễu sinh học khơng có chức sinh học Nhưng thực tế ncRNAs đóng vai trị quan trọng hoạt động khác sống Việc xác định mối quan hệ RNAs không mã hóa bệnh mở hội cho việc chẩn đốn điều trị bệnh người Vì nghiên cứu mối quan hệ ncRNAs bệnh người thực rộng rãi năm gần Việc xác định mối quan hệ ncRNAs bệnh phương pháp thực nghiệm sinh học truyền thống đắt đỏ, tốn thời gian cơng sức Vì vậy, địi hỏi phải có phương pháp tính tốn để xác định mối quan hệ ncRNA-bệnh người, đặc biệt để xác định mối quan hệ RNA không mã hóa nhỏ (miRNA)bệnh mối quan hệ RNA khơng mã hóa dài (lncRNA)- bệnh Trong năm gần đây, nhiều phương pháp tính tốn phát triển để dự đốn quan hệ RNA khơng mã hóa bệnh Các phương pháp tính tốn mang lại nhiều lợi ích phát ncRNAs liên quan đến bệnh, nhiên số hạn chế gần phải giải Thứ nhất, phương pháp tính toán để dự đoán quan hệ ncRNA-disease phải đối mặt với vấn đề tính thưa liệu Điều dựa thực tế số lượng mối quan hệ ncRNA-disease biết hạn chế so với số lượng mối quan hệ chưa biết chúng Từ khó xây dựng mạng thơng tin đáng tin cậy để biểu diễn mạng sinh học Do đo, hạn chế tính xác dự đốn Thứ nhì, vấn đề tính thưa liệu dẫn đến vấn đề cân mẫu dương tính mẫu âm tính thực thi phương pháp tính tốn để dự đốn quan hệ ncRNA-disease Đó lý hiệu phương pháp tính tốn chưa thực có độ tin cậy cao Thứ ba, việc tính tốn tương đồng phương pháp tính tốn hành dựa nhiều vào mối quan hệ ncRNA-disease biết Điều dẫn đến sai lệch đáng kể dự đoán mối quan hệ RNA khơng mã hóa bệnh Vì địi hỏi cần phải tích hợp thơng tin sinh học từ nhiều nguồn khác để cải thiện hiệu việc dự đốn Thứ tư, hầu hết phương pháp tính tốn hành khơng thể áp dụng để dự đốn quan hệ cho bệnh ncRNA cô lập, bệnh ncRNA chưa có mối quan hệ với ncRNA bệnh khác tập liệu xem xét Do cần phải tích hợp thơng tin từ nhiều nguồn khác để nâng cao hiệu dự đốn phương pháp tính tốn bệnh ncRNA lập Thứ năm, có q nhiều tham số cần điều chỉnh phương pháp tính tốn hành dẫn đến việc khó thực thi việc dự đốn quan hệ ncRNA-disease Do nhà nghiên cứu cần phải triển phương pháp tính tốn dễ triển khai để dự đoán quan hệ RNA khơng mã hóa bệnh Cuối cùng, ngày nhiều sở liệu sinh học trở nên sẵn có, cần phải tích hợp liệu từ nhiều nguồn khác để cải thiện độ tin cậy phương pháp dự đoán Cho tới nay, hàng tuần có số nghiên cứu xuất tạp chí hội thảo khoa học để đưa kết phương pháp tính tốn dự đốn quan hệ RNA khơng mã hóa bệnh Nhiều nghiên cứu tập trung vào việc giải hạn chế Tuy nhiên, việc lựa chọn liệu hữu ích từ nguồn thơng tin hỗn tạp để xây dựng mạng hỗn tạp đáng tin cậy cịn thách thức, cịn không gian cho nhà khoa học nhà nghiên cứu để xây dựng mạng thông tin hỗn tạp đáng tin cậy xây dựng phương pháp tính tốn để đạt hiệu cao dự đốn quan hệ ncRNA-bệnh Đó lý mà nghiên cứu sinh lựa chọn đề tài “Dự đoán liên kết mạng hỗn tạp ứng dụng dự đoán mối quan hệ RNA khơng mã hóa bệnh” cho luận án Mục tiêu luận án vấn đề nghiên cứu cần giải Nghiên cứu luận án tập trung vào đề xuất cải tiến phương pháp tính tốn để nâng cao hiệu dự đốn quan hệ RNA khơng mã hóa bệnh mạng thơng tin hỗn tạp cách giải vấn đề sau Thứ nhất, vấn đề tính thưa liệu cần giải để cải thiện hiệu dự đoán Thứ nhì, nghiên cứu luận án cần tích hợp nhiều liệu sinh học khác để xây dựng độ tương đồng hợp lý giảm ảnh hưởng việc phụ thuộc nhiều vào mối quan hệ ncRNA-disease biết Thứ ba, phương pháp tính tốn từ lĩnh vực khác dự đoán quan hệ vi khuẩn-bệnh (microbe-disease), dự đoán quan hệ metabolite-disease…cũng áp dụng lĩnh vực dự đốn quan hệ ncRNA-disease Do đó, luận án kế thừa phương pháp tính tốn từ lĩnh vực hiệu chỉnh chúng để đạt hiệu tốt dự đốn quan hệ ncRNA-disease Các đóng góp khoa học luận án: Luận án sau thực có đóng góp sau: - Đóng góp 1: Đề xuất mơ hình tính tốn cải tiến cách kết hợp giải thuật lọc cộng tác tiến trình phân bổ tài nguyên đồ thị phía dựa nhiều loại quan hệ biết nhiều loại đối tượng sinh học để dự đốn quan hệ RNA khơng mã hóa bệnh - Đóng góp 2: Đề xuất phương pháp tính tốn có hiệu cao để dự đoán quan hệ miRNA-disease Phương pháp sử dụng giải thuật K-láng giềng gần biết (WKNKN) bước tiền xử lý liệu để giải vấn đề tính thưa liệu dự đốn quan hệ miRNA-disease sử dụng giải thuật Random walk with restart cải tiến tích hợp nhiều độ tương đồng từ nhiều mạng hỗn tạp Đóng góp trình bày chương luận án, nội dung liên quan đóng góp xuất kỷ yếu hội thảo tạp chí cơng trình [VTN1], [VTN2] [VTN3] Đóng góp trình bày chương luận án Những nội dung liên quan đóng góp xuất cơng trình [VTN4] tạp chí Scientific Reports (ISI Q1) Cấu trúc luận án: Luận án trình bày bao gồm phần phần: Mở đầu, chương Kết luận hướng nghiên cứu tương lai mơ tả hình CHƯƠNG CÁC KIẾN THỨC CƠ BẢN 1.1 Các khái niệm 1.1.1 Mạng thông tin hỗn tạp Mạng thông tin Định nghĩa 1.1 Mạng thông tin Một mạng thông tin định nghĩa đồ thị G=(V , E) với hàm ánh xạ loại đối tượng ϕ: V → A hàm ánh xạ loại liên kết ψ: E → R Mỗi nút v ϵ V có loại đối tượng nhất, ϕ(v) ϵ A liên kết e ϵ E thuộc loại liên kết cụ thể, ψ(e) ϵ R Nếu hai liên kết thuộc loại liên kết, chúng có loại đối tượng bắt đầu loại đối tượng kết thúc Mạng thông tin hỗn tạp/đồng Định nghĩa 1.2 Mạng thông tin hỗn tạp/đồng Nếu mạng thơng tin có nhiều loại đối tượng nhiều loại liên kết gọi mạng thơng tin hỗn tạp (HIN), tức mạng hỗn tạp có |A|>1 |R|>1; Ngược lại, mạng thông tin gọi mạng thông tin đồng nhất, tức |A|=1 |R|=1 1.1.2 Các hệ thống sinh học Các hệ thống sinh học lớp đặc biệt mạng thông tin không đồng bao gồm số lượng lớn thực thể sinh học gen, miRNA, lncRNA, biểu gen, kiểu hình, v.v 1.1.3 Các RNAs khơng mã hóa (ncRNAs) Những RNAs khơng thể chuyển hóa thành protein gọi RNAs khơng mã hóa (ncRNAs) miRNAs miRNAs lớp ncRNAs sợi đơn, nội sinh, nhỏ, bảo tồn tiến hóa với chiều dài khoảng 20-26 nucleotides lncRNAs lncRNAs lớp ncRNAs với chiều dài lớn 200 nucleotides 1.2 Dự đốn liên kết mạng thơng tin hỗn tạp 1.2.1 Bài toán dự đoán liên kết Định nghĩa 1.5 Dự đốn liên kết mạng thơng tin hỗn tạp Cho mạng hỗn tạp biểu diễn đồ thị G=(V ∪ V ∪ … ∪ V M , E1 ∪ E2 ∪… ∪ EN ) , V i (i=1,2 , … , M ) tập nút loại i E j ( j=1,2, … , N ) biểu diễn tập cạnh loại j Nhiệm vụ dự đoán liên kết tìm câu trả lời có khơng liên kết e k nút vi ( v i ∈ V i )và nút v j ( v j ∈ V j ) Đầu vào: Đồ thị G=(V ∪ V ∪ … ∪ V M , E1 ∪ E2 ∪… ∪ EN ) : V i (i=1,2 , … , M ) tập nút loại i E j ( j=1,2, … , N ) biểu diễn tập cạnh loại j Output: Với đối tượng có kết nối tiềm ẩn vi ( v i ∈ V i )và v j ( v j ∈ V j ), liệu liên kết e k tồn (1) không tồn (0)? 1.2.2 Các phương pháp dự đoán liên kết Các phương pháp dự đốn liên kết phân loại thành: Các phương pháp dựa độ tương đồng mạng, phương pháp dựa xác xuất xác xuất cực đại, phương pháp dựa học máy, dựa học sâu…Chúng áp dụng nhiều lĩnh vực từ mạng xã hội tới mạng sinh học Hình 2.1 Sơ đồ luồng tiến trình mơ hình đề xuất hệ miRNA-disease, lncRNA-disease miRNA-lncRNA biết Ở giai đoạn thứ 2, để giải vấn đề tính thưa liệu, giải thuật lọc cộng tác triển khai đồ thị G để thu đồ thị phía Gu Sau đó, đồ thị phía Gu sử dụng tiến trình phân bổ tài nguyên giai đoạn thứ để tính toán điểm tài nguyên ứng viên ncRNA cho bệnh liên quan Ở giai đoạn cuối cùng, tất điểm tài nguyên ncRNA ứng viên với bệnh xếp hạng theo thứ tự giảm dần mà ứng viên với điểm tài nguyên cao có khả lớn có mối quan hệ kiểm chứng tương lai 2.4 Triển khai mơ hình đề xuất để suy diễn mối quan hệ miRNA-disease dựa lọc cộng tác phân bổ tài nguyên 2.4.1 Các giai đoạn mơ hình đề xuất suy diễn quan hệ miRNA-disease Giai đoạn 1: Xây dựng đồ thị phía G0 Giai đoạn 2: Xây dựng đồ thị phía Gu Giai đoạn 3: Triển khai tiến trình phân bổ tài ngun đồ thị phía Gu để suy diễn quan hệ miRNA-disease Giai đoạn 4: Xếp hạng Rscores miRNA ứng viên cho bệnh theo thứ tự giảm dần 2.4.2 Thực nghiệm kết phương pháp đề xuất Bước 1: Chuẩn bị tập liệu thực nghiệm Phương pháp đề xuất sử dụng tập liệu đến từ nghiên cứu Zhao et al Các tập liệu bao gồm 190 bệnh, 111 lncRNAs 264 miRNAs, 936 quan hệ lncRNA-disease biết, 3552 quan hệ miRNA-disease kiểm chứng 1880 quan hệ biết lncRNAs miRNAs Thông tin tập liệu tóm tắt Hình 2.2 Bước 2: Cài đặt phương pháp đề xuất ước lượng độ phức tạp tính tốn Phương pháp đề xuất cài đặt sử dụng ngơn ngữ lập Hình 2.2 Các tập liệu số nút liệu phương pháp đề xuất trình Python thư viện có liên quan Độ phức tạp tính tốn phương pháp ước lượng tương đương với O(n3) Đây độ phức tạp thời gian đa thức Bước 3: Đánh giá hiệu dự đoán Để đánh giá hiệu phương pháp đề xuất suy diễn mối quan hệ miRNA-disease, thực nghiệm 5-fold-crossvalidation thực đo lường AUC AUPR đánh giá Đánh giá AUC thực nghiệm 5-fold-cross-validation Hình 2.3 Đường cong ROC giá trị AUC phương pháp đề xuất lần chạy thực nghiệm với γ = 0.9 Giá trị AUC trung bình tốt đạt 0.9788 với γ = 0.9 sau thực thực nghiệm 5-fold-cross-validation 10 lần Hình 2.3 minh họa đường cong ROC giá trị AUC phương pháp đề xuất với γ = 0.9 lần chạy thực nghiệm Đánh giá AUPR thí nghiệm 5-fold cross-validation Sau thực thí nghiệm 5-fold-cross-validation 10 lần, phương pháp đề xuất đạt giá trị AUPR trung bình tốt 0.9373 với γ = 0.9 Hình 2.4 minh họa đường Precision-Recall giá trị AUPR phương pháp đề xuất với γ = 0.9 lượt chạy thí nghiệm Hình 2.3 Đường cong Precision-Recall giá trị AUPR phương pháp đề xuất lần chạy thực nghiệm với γ = 0.9 So sánh hiệu dự đoán với phương pháp khác có liên quan Hiệu phương pháp đề xuất so sánh với hiệu phương pháp có liên quan DCSMDA TPGLDA Hiệu phương pháp Bảng 2.1 Method AUC value AUPR value TPGLDA 0.9703 0.7421 DCSMDA 0.8155 The proposed method 0.9788 0.9373 Kiểm tra Case studies Các trường hợp nghiên cứu bệnh Ung thư tiền liệt tuyến, Suy tim, U thần kinh đệm Tăng nhãn áp (Bệnh thiên đầu thống) thực thi để khả mơ hình đề xuất dự đốn miRNA có quan hệ với bệnh 2.5 Triển khai mơ hình đề xuất để dự đốn quan hệ lncRNA-disease dựa lọc cộng tác phân bổ tài ngun 2.5.1 Các giai đoạn mơ hình đề xuất dự đoán quan hệ lncRNA-disease Giai đoạn 1: Xây dựng đồ thị phía G0 Giai đoạn 2: Áp dụng giải thuật lọc cộng tác quan hệ biết lncRNA-disease lncRNA-miRNA để thu đồ thị phía Gu Giai đoạn 3: Sử dụng tiến trình phân bổ tài nguyên cải tiến để thu quan hệ lncRNA-disease dự đoán Giai đoạn 4: Xếp hạng tất lncRNAs dự đoán cho bệnh theo thứ tự giảm dần để thu kết cuối 2.5.2 Thực nghiệm kết phương pháp đề xuất Bước 1: Thu thập liệu Các tập liệu phương pháp đề xuất bao gồm quan hệ lncRNA-disease biết, quan hệ miRNA-disease biết tương tác lncRNA-miRNA kiểm chứng Các nút liệu mối quan hệ nguồn liệu phương pháp đề xuất trình bày hình 2.5 Hình 2.5 Mối quan hệ tập liệu số nút liệu Cài đặt phương pháptrong đượctừng đề xuất tập ước lượng độ phức tạp tính tốn Phương pháp đề xuất cài đặt ngôn ngữ lập trình Python thư viện có liên quan Độ phức tạp tính tốn phương pháp đề xuất O(nl*nd*nm) ≈ O(n3) Nghĩa độ phức tạp tính tốn phương pháp đề xuất có độ phức tạp đa thức