Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.Dự đoán liên kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa RNA không mã hóa và bệnh.
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI NGUYỄN VĂN TỈNH DỰ ĐOÁN LIÊN KẾT TRONG MẠNG HỖN TẠP VÀ ỨNG DỤNG TRONG DỰ ĐOÁN MỐI QUAN HỆ GIỮA RNA KHƠNG MÃ HĨA VÀ BỆNH Chun ngành: Khoa học máy tính Mã số: 9480101 TĨM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Hà nội, 2023 Cơng trình hồn thành tại: Khoa Cơng nghệ thông tin, Trường Đại học Sư phạm Hà Nội Người hướng dẫn khoa học: PGS.TS Trần Đăng Hưng TS Lê Thị Tú Kiên Phản biện 1: PGS.TS Nguyễn Long Giang, Viện Công nghệ thông tin-Viện Hàn lâm KHCN Việt Nam Phản biện 2: PGS.TS Lê Đức Hậu, Trường Đại học Thủy Lợi Phản biện 3: PGS.TS Nguyễn Ngọc Hóa, Trường Đại học Cơng nghệ-ĐHQG Hà Nội Luận án bảo vệ trước Hội đồng chấm luận án cấp Trường họp Trường Đại học Sư phạm Hà Nội vào hồi … … ngày … tháng… năm… Có thể tìm hiểu luận án thư viện: Thư viện Quốc Gia, Hà Nội Thư viện Trường Đại học Sư phạm Hà Nội DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN [VTN1] Van Tinh Nguyen, Thi Tu Kien Le and Dang Hung Tran, "A new method on lncRNA-disease-miRNA tripartite graph to predict lncRNA-disease associations", 2020 12th International Conference on Knowledge and Systems Engineering (KSE), 2020, pp 287-293, doi: 10.1109/KSE50997.2020.9287563 (Scopus indexed) [VTN2] Van Tinh Nguyen, Thi Tu Kien Le, Tran Quoc Vinh Nguyen and Dang Hung Tran, “Inferring miRNA-disease associations using collaborative filtering and resource allocation on a tripartite graph”, BMC Med Genomics 14, 225 (2021) https://doi.org/10.1186/s12920-021-01078-8 (ISI Q2 journal) [VTN3] Van Tinh Nguyen and Dang Hung Tran, "An improved computational method for prediction of lncRNA-disease associations based on collaborative filtering and resource allocation", 2021 13th International Conference on Knowledge and Systems Engineering (KSE), 2021, pp 1-6, doi: 10.1109/KSE53942.2021.9648632 (Scopus indexed) [VTN4] Van Tinh Nguyen, Thi Tu Kien Le, Khoat Than and Dang Hung Tran, “Predicting miRNA–disease associations using improved random walk with restart and integrating multiple similarities”, Sci Rep 11, 21071 (2021) https://doi.org/10.1038/s41598-021-00677-w (ISI Q1 journal) MỞ ĐẦU Chúng ta sống giới kết nối nơi mà hầu hết liệu hay thông tin đối tượng, tác nhân, nhóm đối tượng hay nhóm thành phần tương tác với để tạo thành mạng lớn Chúng chứa nhiều loại nút nhiều loại tương tác Những mạng gọi mạng thông tin hỗn tạp Những mạng giàu ngữ nghĩa xây dựng từ nhiều nguồn liệu khác Phân tích mạng thông tin hỗn tạp sản sinh xu hướng nghiên cứu khai phá liệu, truy vấn thông tin, phân tích mạng xã hội, dự đốn liên kết, khai phá đồ thị, khoa học mạng lưới,… Dự đoán liên kết nhiệm vụ then chốt tích cực phân tích mạng thơng tin hỗn tạp Nó mang lại nhiều lợi ích cho nhà nghiên cứu tổ chức nhiều lĩnh vực khác Mục tiêu dự đốn liên kết tìm liên kết thiếu mạng liên kết xuất tương lai gần mạng Dự đoán liên kết áp dụng rộng rãi nhiều lĩnh vực, từ mạng xã hội tới hệ thống sinh học Với hệ thống sinh học, dự đoán liên kết sử dụng để dự đoán mối quan hệ nhiều loại đối tượng sinh học khác nhau, chẳng hạn quan hệ Triệu chứng bệnh-Gen, tương tác Thuốc-Protein, quan hệ Thuốc-miRNA, quan hệ Thuốc-bệnh, quan hệ RNA khơng mã hóa-bệnh… Trong khoảng thời gian dài, việc xác định RNAs không mã hóa (ncRNAs) gen người cơng việc khó khăn Chúng coi nhiễu sinh học khơng có chức sinh học Nhưng thực tế ncRNAs đóng vai trị quan trọng hoạt động khác sống Việc xác định mối quan hệ RNAs khơng mã hóa bệnh mở hội cho việc chẩn đốn điều trị bệnh người Vì nghiên cứu mối quan hệ ncRNAs bệnh người thực rộng rãi năm gần Việc xác định mối quan hệ ncRNAs bệnh phương pháp thực nghiệm sinh học truyền thống đắt đỏ, tốn thời gian cơng sức Vì vậy, địi hỏi phải có phương pháp tính tốn để xác định mối quan hệ ncRNA-bệnh người, đặc biệt để xác định mối quan hệ RNA không mã hóa nhỏ (miRNA)-bệnh mối quan hệ RNA khơng mã hóa dài (lncRNA)- bệnh Trong năm gần đây, nhiều phương pháp tính tốn phát triển để dự đốn quan hệ RNA khơng mã hóa bệnh Các phương pháp tính tốn mang lại nhiều lợi ích phát ncRNAs liên quan đến bệnh, nhiên số hạn chế gần phải giải Thứ nhất, phương pháp tính toán để dự đoán quan hệ ncRNAdisease phải đối mặt với vấn đề tính thưa liệu Điều dựa thực tế số lượng mối quan hệ ncRNA-disease biết hạn chế so với số lượng mối quan hệ chưa biết chúng Từ khó xây dựng mạng thơng tin đáng tin cậy để biểu diễn mạng sinh học Do đo, hạn chế tính xác dự đốn Thứ nhì, vấn đề tính thưa liệu dẫn đến vấn đề cân mẫu dương tính mẫu âm tính thực thi phương pháp tính tốn để dự đốn quan hệ ncRNA-disease Đó lý hiệu phương pháp tính tốn chưa thực có độ tin cậy cao Thứ ba, việc tính tốn tương đồng phương pháp tính tốn hành dựa nhiều vào mối quan hệ ncRNA-disease biết Điều dẫn đến sai lệch đáng kể dự đoán mối quan hệ RNA khơng mã hóa bệnh Vì địi hỏi cần phải tích hợp thơng tin sinh học từ nhiều nguồn khác để cải thiện hiệu việc dự đoán Thứ tư, hầu hết phương pháp tính tốn hành khơng thể áp dụng để dự đốn quan hệ cho bệnh ncRNA lập, bệnh ncRNA chưa có mối quan hệ với ncRNA bệnh khác tập liệu xem xét Do cần phải tích hợp thơng tin từ nhiều nguồn khác để nâng cao hiệu dự đốn phương pháp tính tốn bệnh ncRNA lập Thứ năm, có q nhiều tham số cần điều chỉnh phương pháp tính tốn hành dẫn đến việc khó thực thi việc dự đốn quan hệ ncRNA-disease Do nhà nghiên cứu cần phải triển phương pháp tính tốn dễ triển khai để dự đoán quan hệ RNA khơng mã hóa bệnh Cuối cùng, ngày nhiều sở liệu sinh học trở nên sẵn có, cần phải tích hợp liệu từ nhiều nguồn khác để cải thiện độ tin cậy phương pháp dự đoán Cho tới nay, hàng tuần có số nghiên cứu xuất tạp chí hội thảo khoa học để đưa kết phương pháp tính tốn dự đốn quan hệ RNA khơng mã hóa bệnh Nhiều nghiên cứu tập trung vào việc giải hạn chế Tuy nhiên, việc lựa chọn liệu hữu ích từ nguồn thơng tin hỗn tạp để xây dựng mạng hỗn tạp đáng tin cậy cịn thách thức, cịn khơng gian cho nhà khoa học nhà nghiên cứu để xây dựng mạng thông tin hỗn tạp đáng tin cậy xây dựng phương pháp tính tốn để đạt hiệu cao dự đốn quan hệ ncRNA-bệnh Đó lý mà nghiên cứu sinh lựa chọn đề tài “Dự đoán liên kết mạng hỗn tạp ứng dụng dự đốn mối quan hệ RNA khơng mã hóa bệnh” cho luận án • Mục tiêu luận án vấn đề nghiên cứu cần giải Nghiên cứu luận án tập trung vào đề xuất cải tiến phương pháp tính tốn để nâng cao hiệu dự đoán quan hệ RNA khơng mã hóa bệnh mạng thơng tin hỗn tạp cách giải vấn đề sau Thứ nhất, vấn đề tính thưa liệu cần giải để cải thiện hiệu dự đốn Thứ nhì, nghiên cứu luận án cần tích hợp nhiều liệu sinh học khác để xây dựng độ tương đồng hợp lý giảm ảnh hưởng việc phụ thuộc nhiều vào mối quan hệ ncRNA-disease biết Thứ ba, phương pháp tính tốn từ lĩnh vực khác dự đoán quan hệ vi khuẩn-bệnh (microbe-disease), dự đoán quan hệ metabolite-disease…cũng áp dụng lĩnh vực dự đốn quan hệ ncRNA-disease Do đó, luận án kế thừa phương pháp tính tốn từ lĩnh vực hiệu chỉnh chúng để đạt hiệu tốt dự đoán quan hệ ncRNA-disease Các đóng góp khoa học luận án: Luận án sau thực có đóng góp sau: - Đóng góp 1: Đề xuất mơ hình tính toán cải tiến cách kết hợp giải thuật lọc cộng tác tiến trình phân bổ tài nguyên đồ thị phía dựa nhiều loại quan hệ biết nhiều loại đối tượng sinh học để dự đốn quan hệ RNA khơng mã hóa bệnh - Đóng góp 2: Đề xuất phương pháp tính tốn có hiệu cao để dự đoán quan hệ miRNA-disease Phương pháp sử dụng giải thuật K-láng giềng gần biết (WKNKN) bước tiền xử lý liệu để giải vấn đề tính thưa liệu dự đoán quan hệ miRNA-disease sử dụng giải thuật Random walk with restart cải tiến tích hợp nhiều độ tương đồng từ nhiều mạng hỗn tạp Đóng góp trình bày chương luận án, nội dung liên quan đóng góp xuất kỷ yếu hội thảo tạp chí cơng trình [VTN1], [VTN2] [VTN3] Đóng góp trình bày chương luận án Những nội dung liên quan đóng góp xuất cơng trình [VTN4] tạp chí Scientific Reports (ISI Q1) • Cấu trúc luận án: Luận án trình bày bao gồm phần phần: Mở đầu, chương Kết luận hướng nghiên cứu tương lai mơ tả hình CHƯƠNG CÁC KIẾN THỨC CƠ BẢN 1.1 Các khái niệm 1.1.1 Mạng thông tin hỗn tạp • Mạng thơng tin Định nghĩa 1.1 Mạng thơng tin Một mạng thông tin định nghĩa đồ thị 𝐺 = (𝑉, 𝐸) với hàm ánh xạ loại đối tượng ϕ: V → A hàm ánh xạ loại liên kết ψ: E → R Mỗi nút v ϵ V có loại đối tượng nhất, ϕ(v) ϵ A liên kết e ϵ E thuộc loại liên kết cụ thể, ψ(e) ϵ R Nếu hai liên kết thuộc loại liên kết, chúng có loại đối tượng bắt đầu loại đối tượng kết thúc • Mạng thơng tin hỗn tạp/đồng Định nghĩa 1.2 Mạng thông tin hỗn tạp/đồng Nếu mạng thông tin có nhiều loại đối tượng nhiều loại liên kết gọi mạng thông tin hỗn tạp (HIN), tức mạng hỗn tạp có |A|>1 |R|>1; Ngược lại, mạng thơng tin gọi mạng thông tin đồng nhất, tức |A|=1 |R|=1 1.1.2 Các hệ thống sinh học Các hệ thống sinh học lớp đặc biệt mạng thông tin không đồng bao gồm số lượng lớn thực thể sinh học gen, miRNA, lncRNA, biểu gen, kiểu hình, v.v 1.1.3 Các RNAs khơng mã hóa (ncRNAs) Những RNAs khơng thể chuyển hóa thành protein gọi RNAs khơng mã hóa (ncRNAs) miRNAs miRNAs lớp ncRNAs sợi đơn, nội sinh, nhỏ, bảo tồn tiến hóa với chiều dài khoảng 20-26 nucleotides lncRNAs lncRNAs lớp ncRNAs với chiều dài lớn 200 nucleotides 1.2 Dự đoán liên kết mạng thơng tin hỗn tạp 1.2.1 Bài tốn dự đốn liên kết Định nghĩa 1.5 Dự đoán liên kết mạng thông tin hỗn tạp Cho mạng hỗn tạp biểu diễn đồ thị 𝐺 = (𝑉1 ∪ 𝑉2 ∪ … ∪ 𝑉𝑀 , 𝐸1 ∪ 𝐸2 ∪ … ∪ 𝐸𝑁 ), 𝑉𝑖 (𝑖 = 1,2, … , 𝑀) tập nút loại i 𝐸𝑗 (𝑗 = 1,2, … , 𝑁) biểu diễn tập cạnh loại j Nhiệm vụ dự đoán liên kết tìm câu trả lời có khơng liên kết 𝑒𝑘 nút 𝑣𝑖 (𝑣𝑖 ∈ 𝑉𝑖 ) nút 𝑣𝑗 (𝑣𝑗 ∈ 𝑉𝑗 ) Đầu vào: Đồ thị 𝐺 = (𝑉1 ∪ 𝑉2 ∪ … ∪ 𝑉𝑀 , 𝐸1 ∪ 𝐸2 ∪ … ∪ 𝐸𝑁 ): 𝑉𝑖 (𝑖 = 1,2, … , 𝑀) tập nút loại i 𝐸𝑗 (𝑗 = 1,2, … , 𝑁) biểu diễn tập cạnh loại j Output: Với đối tượng có kết nối tiềm ẩn 𝑣𝑖 (𝑣𝑖 ∈ 𝑉𝑖 ) 𝑣𝑗 (𝑣𝑗 ∈ 𝑉𝑗 ), liệu liên kết 𝑒𝑘 tồn (1) không tồn (0)? 1.2.2 Các phương pháp dự đoán liên kết Các phương pháp dự đoán liên kết phân loại thành: Các phương pháp dựa độ tương đồng mạng, phương pháp dựa xác xuất xác xuất cực đại, phương pháp dựa học máy, dựa học sâu…Chúng áp dụng nhiều lĩnh vực từ mạng xã hội tới mạng sinh học 1.2.3 Các ứng dụng dự đoán liên kết hệ thống sinh học Trong hệ thống sinh học, dự đoán liên kết thường sử dụng để dự đoán quan hệ đối tượng sinh học dự đoán quan hệ Gen-bệnh, dự đoán quan hệ bệnh-các trao đổi chất, phát triển thuốc, dự đoán tương tác thuốc-protein, dự đoán quan hệ thuốc-miRNA, dự đoán quan hệ thuốc-bệnh, dự đoán quan hệ ncRNA-bệnh… 1.3 Các phương pháp tính tốn dự đốn quan hệ RNAs khơng mã hóa bệnh 1.3.1 Dự đốn quan hệ ncRNA-bệnh coi toán dự đoán liên kết Dự đoán quan hệ ncRNA-disease coi tốn dự đốn liên kết mạng thơng tin hỗn tạp Nó thường sử dụng mạng hỗn tạp chứa nhiều loại đối tượng sinh học quan hệ chúng Những loại đối tượng sinh học quan hệ chúng thu 12 Hình 2.1 Sơ đồ luồng tiến trình mơ hình đề xuất hệ miRNA-disease, lncRNA-disease miRNA-lncRNA biết Ở giai đoạn thứ 2, để giải vấn đề tính thưa liệu, giải 13 thuật lọc cộng tác triển khai đồ thị G0 để thu đồ thị phía Gu Sau đó, đồ thị phía Gu sử dụng tiến trình phân bổ tài nguyên giai đoạn thứ để tính tốn điểm tài ngun ứng viên ncRNA cho bệnh liên quan Ở giai đoạn cuối cùng, tất điểm tài nguyên ncRNA ứng viên với bệnh xếp hạng theo thứ tự giảm dần mà ứng viên với điểm tài nguyên cao có khả lớn có mối quan hệ kiểm chứng tương lai 2.4 Triển khai mơ hình đề xuất để suy diễn mối quan hệ miRNA-disease dựa lọc cộng tác phân bổ tài nguyên 2.4.1 Các giai đoạn mơ hình đề xuất suy diễn quan hệ miRNA-disease • Giai đoạn 1: Xây dựng đồ thị phía G0 • Giai đoạn 2: Xây dựng đồ thị phía Gu • Giai đoạn 3: Triển khai tiến trình phân bổ tài nguyên đồ thị phía Gu để suy diễn quan hệ miRNA-disease • Giai đoạn 4: Xếp hạng Rscores miRNA ứng viên cho bệnh theo thứ tự giảm dần 2.4.2 Thực nghiệm kết phương pháp đề xuất • Bước 1: Chuẩn bị tập liệu thực nghiệm Phương pháp đề xuất sử dụng tập liệu đến từ nghiên cứu Zhao et al Các tập liệu bao gồm 190 bệnh, 111 lncRNAs 264 miRNAs, 936 quan hệ lncRNA-disease biết, 3552 quan hệ miRNA-disease kiểm chứng 1880 quan hệ biết lncRNAs miRNAs Thông tin tập liệu tóm tắt Hình 2.2 • Bước 2: Cài đặt phương pháp đề xuất ước lượng độ phức tạp tính tốn Phương pháp đề xuất cài đặt sử dụng ngơn ngữ lập 14 Hình 2.2 Các tập liệu số nút liệu phương pháp đề xuất trình Python thư viện có liên quan Độ phức tạp tính tốn phương pháp ước lượng tương đương với O(n3) Đây độ phức tạp thời gian đa thức • Bước 3: Đánh giá hiệu dự đoán Để đánh giá hiệu phương pháp đề xuất suy diễn mối quan hệ miRNA-disease, thực nghiệm 5-fold-cross-validation thực đo lường AUC AUPR đánh giá Đánh giá AUC thực nghiệm 5-fold-cross-validation Hình 2.3 Đường cong ROC giá trị AUC phương pháp đề xuất lần chạy thực nghiệm với γ = 0.9 Giá trị AUC trung bình tốt đạt 0.9788 với γ = 0.9 sau 15 thực thực nghiệm 5-fold-cross-validation 10 lần Hình 2.3 minh họa đường cong ROC giá trị AUC phương pháp đề xuất với γ = 0.9 lần chạy thực nghiệm • Đánh giá AUPR thí nghiệm 5-fold cross-validation Sau thực thí nghiệm 5-fold-cross-validation 10 lần, phương pháp đề xuất đạt giá trị AUPR trung bình tốt 0.9373 với γ = 0.9 Hình 2.4 minh họa đường Precision-Recall giá trị AUPR phương pháp đề xuất với γ = 0.9 lượt chạy thí nghiệm Hình 2.3 Đường cong Precision-Recall giá trị AUPR phương pháp đề xuất lần chạy thực nghiệm với γ = 0.9 • So sánh hiệu dự đốn với phương pháp khác có liên quan Hiệu phương pháp đề xuất so sánh với hiệu phương pháp có liên quan DCSMDA TPGLDA Hiệu phương pháp Bảng 2.1 Method AUC value TPGLDA 0.9703 DCSMDA 0.8155 The proposed method 0.9788 • Kiểm tra Case studies AUPR value 0.7421 0.9373 16 Các trường hợp nghiên cứu bệnh Ung thư tiền liệt tuyến, Suy tim, U thần kinh đệm Tăng nhãn áp (Bệnh thiên đầu thống) thực thi để khả mơ hình đề xuất dự đốn miRNA có quan hệ với bệnh 2.5 Triển khai mơ hình đề xuất để dự đoán quan hệ lncRNAdisease dựa lọc cộng tác phân bổ tài nguyên 2.5.1 Các giai đoạn mơ hình đề xuất dự đốn quan hệ lncRNA-disease • Giai đoạn 1: Xây dựng đồ thị phía G0 • Giai đoạn 2: Áp dụng giải thuật lọc cộng tác quan hệ biết lncRNA-disease lncRNA-miRNA để thu đồ thị phía Gu • Giai đoạn 3: Sử dụng tiến trình phân bổ tài nguyên cải tiến để thu quan hệ lncRNA-disease dự đốn • Giai đoạn 4: Xếp hạng tất lncRNAs dự đoán cho bệnh theo thứ tự giảm dần để thu kết cuối 2.5.2 Thực nghiệm kết phương pháp đề xuất • Bước 1: Thu thập liệu Các tập liệu phương pháp đề xuất bao gồm quan hệ lncRNA-disease biết, quan hệ miRNA-disease biết tương tác lncRNA-miRNA kiểm chứng Các nút liệu mối quan hệ nguồn liệu phương pháp đề xuất trình bày hình 2.5 Hình 2.5 Mối quan hệ tập liệu số nút liệu tập 17 • Cài đặt phương pháp đề xuất ước lượng độ phức tạp tính tốn Phương pháp đề xuất cài đặt ngơn ngữ lập trình Python thư viện có liên quan Độ phức tạp tính tốn phương pháp đề xuất O(nl*nd*nm) ≈ O(n3) Nghĩa độ phức tạp tính tốn phương pháp đề xuất có độ phức tạp đa thức • Bước 3: Đánh giá hiệu dự đoán Các thực nghiệm 5-fold-cross-validation triển khai độ đo AUC AUPR sử dụng để đánh giá hiệu phương pháp đề xuất Đánh giá AUC thí nghiệm 5-fold-cross-validation Phương pháp đề xuất đạt hiệu AUC tốt 𝛾 = 0.8 thí nghiệm 5-fold-cross-validation Hình 2.6 đường cong ROC giá trị AUC lượt chạy thí nghiệm Hình 2.6 Đường cong ROC giá trị AUC phương pháp đề xuất lần chạy thực nghiệm với 𝛾 = 0.8 Đánh giá AUPR thí nghiệm 5-fold cross-validation Phương pháp đề xuất đạt giá trị AUPR tốt 𝛾 = 0.8 thực nghiệm 5-fold-cross-validation Hình 2.7 minh họa đường PR giá trị AUPR lượt chạy thí nghiệm 18 Hình 2.7 Đường cong PR giá trị AUPR phương pháp đề xuất lần chạy thực nghiệm với 𝛾 = 0.8 • So sánh hiệu với phương pháp khác có liên quan Để so sánh hiệu phương pháp đề xuất với phương pháp khác có liên quan, kết số nghiên cứu khác bao gồm phương pháp MFLDA RFLDA sử dụng Hơn nữa, ablation study triển khai phương pháp đề xuất không áp dụng lọc cộng tác thực Tất phương pháp sử dụng chung tập liệu đầu vào thực nghiệm Bảng 2.6 giá trị AUC AUPR phương pháp có liên quan so sánh Bảng 2.6 Giá trị AUC AUPR phương pháp có liên quan so sánh với phương pháp đề xuất Method AUC AUPR MFLDA 0.741 0.205 RFLDA 0.976 0.779 The proposed method without 0.983 0.828 a collaborative filtering process The new proposed method 0.983 0.983 • Bước 4: Kiểm tra trường hợp nghiên cứu để hỗ trợ tính tin cậy hiệu dự đoán 19 Để hỗ trợ tính tin cậy kết dự đốn phương pháp đề xuất thực nghiệm 5-fold-cross-validation, trường hợp nghiên cứu bệnh Ung thư tiền liệt tuyến Ung thư dày triển khai 2.6 Tóm tắt chương Chương trình bày mơ hình đề xuất để dự đốn quan hệ ncRNA-disease kết hợp giải thuật lọc cộng tác để giải vấn đề tính thưa liệu phương pháp dự đoán quan hệ dựa tiến trình phân bổ tài nguyên nhiều loại quan hệ nhiều loại đối tượng Mơ hình đề xuất triển khai hai phương pháp để dự đoán quan hệ miRNA-disease quan hệ lncRNAdisease CHƯƠNG MỘT PHƯƠNG PHÁP TÍNH TỐN MỚI ĐỂ DỰ ĐỐN QUAN HỆ MIRNA-DISEASE SỬ DỤNG BƯỚC LẶP NGẪU NHIÊN CÓ QUAY LUI CẢI TIẾN VÀ TÍCH HỢP NHIỀU ĐỘ TƯƠNG ĐỒNG Trong chương này, phương pháp đề xuất để dự đoán quan hệ miRNA-disease Phương pháp đề xuất sử dụng giải thuật K-láng giềng biết gần (WKNKN) bước tiền xử lý nhằm giải vấn đề tính thưa liệu Nó tích hợp nhiều nguồn liệu để tăng tính tin cậy hiệu dự đốn Bên cạnh đó, phương pháp cải tiến giải thuật bước lặp ngẫu nhiên có quay lui kế thừa từ lĩnh vực dự đoán quan hệ microbe-disease để phát mối quan hệ miRNA-disease Kết chương xuất cơng trình [VTN4] 3.1 Động lực nghiên cứu nghiên cứu liên quan Gần đây, số lượng đáng kể ứng dụng dự đoán quan hệ 20 ncRNA-disease sử dụng phương pháp dựa random walk phát cao gồm phương pháp Le et al.’s BRWH Tuy nhiên, xác suất bước lặp nút lân cận nút bệnh miRNA tương ứng đồng hầu hết phương pháp dựa random-walk kể Và, hầu hết bệnh miRNA khơng có mối quan hệ với miRNA bệnh tập liệu xem xét khơng dự đốn cách hiệu Do đó, nhà nghiên cứu gần thường dựa giả thiết, disease (miRNA) có xác suất liên quan khác với miRNA (disease), mối quan hệ miRNA-disease gán cho trọng số riêng biệt không gian mạng hỗn tạp khác xây dựng cách tích hợp nhiều độ tương đồng để dự dốn quan hệ miRNA-disease Ngồi ra, phương pháp dựa random walk phổ biến để dự đoán quan hệ miRNA-disease tồn số hạn chế mà giải cải thiện hiệu việc dự đốn Vấn đề tính thưa liệu hạn chế Trong chương này, phương pháp để dự đoán quan hệ miRNA-disease sử dụng giải thuật RWR cải tiến tích hợp nhiều độ tương đồng đề xuất Phương pháp đề xuất sử dụng giải thuật K-láng giềng biết gần (WKNKN) bước tiền xử lý để giải vấn đề tính thưa liệu Nó tích hợp nhiều nguồn liệu khác để tăng tính tin cậy hiệu qảu dự đốn Bên cạnh đó, kế thừa giải thuật bước lặp ngẫu nhiên có quay lui mở rộng giới thiệu Luo J Long Y để dự đoán quan hệ microbedisease cải tiến tiến trình bước lặp ngẫu nhiên có quay lui để phát mối quan hệ miRNA-disease tiềm ẩn 3.2 Tài nguyên sử dụng phương pháp đề xuất Trong phương pháp đề xuất, quan hệ miRNA-disease biết tải từ sở liệu HMDD V2.0 Nó chứa 5430 quan hệ 21 kiểm chứng thực nghiệm 383 bệnh 495 miRNAs 3.3 Phương pháp đề xuất Sơ đồ phương pháp đề xuất để dự đoán quan hệ miRNAdisease sử dụng bước lặp ngẫu nhiên có quay lui tích hợp nhiều độ tương đồng trình bày hình 3.2 Hình 3.2 Sơ đồ luồng tiến trình phương pháp đề xuất (RWRMMDA) Một cách tổng quan, phương pháp đề xuất sử dụng quan hệ miRNA-disease biết, độ tương đồng chức miRNA độ 22 tương đồng ngữ nghĩa bệnh đầu vào để tiến hành dự đoán chưa giai đoạn mô tả sau Ở giai đoạn thứ nhất, độ tương đồng Gaussian Interaction Profile Kernel cho miRNAs bệnh tính tốn Ở giai đoạn thứ hai, độ tương đồng tích hợp cho miRNAs bệnh tính Ở giai đoạn thứ ba, giải thuật thuật K-láng giềng biết gần thực thi bước tiền xử lý liệu để giảm thiểu giá trị chưa biết tập liệu miRNA-disease Mục tiêu giảm thiểu ảnh hưởng vấn đề liệu thưa Tiếp đó, giai đoạn thứ tư, hai mạng hỗn tạp dựa không gian độ tương đồng miRNA bệnh xây dựng Sau giai đoạn thứ 5, giải thuật bước lặp ngẫu nhiên có quay lui cải tiến thực thi đồng thời mạng hỗn tạp dựa độ tương đồng miRNA độ tương đồng bệnh để tính tốn xác suất dự đốn cuối Cuối cùng, điểm xác suất dự đoán xếp hạng theo thứ tự giảm dần để thu miRNA tiềm tương ứng bệnh 3.4 Các thực nghiệm kết 3.4.1 Các tập liệu Các tập liệu sử dụng phương pháp đề xuất trình bày mục 3.2 3.4.2 Cài đặt đánh giá độ phức tạp tính tốn phương pháp đề xuất Phương pháp đề xuất cài đặt ngơn ngữ lập trình Python thư viện có liên quan Độ phức tạp tính tốn phương pháp đề xuất O(nd*nm*nm) ≈ O(n3) Nghĩa độ phức tạp tính tốn phương pháp đề xuất có độ phức tạp đa thức 3.4.3 Các đánh giá hiệu • Đánh giá AUC AUPR thí nghiệm 5-fold CV 23 Phương pháp đề xuất đạt giá trị AUC tốt 0.9855 giá trị AUPR tốt 0.8642 sau 25 lượt chạy thí nghiệm 5-fold crossvalidation Hình3.5 minh họa đường cong ROC giá trị AUC (a) đường cong PR giá trị AUPR lượt chạy thực nghiệm 5-fold-cross-validation Hình 3.5 Các đường cong ROC giá trị AUC (a) đường cong PR giá trị AUPR lượt chạy thực nghiệm 5-fold-crossvalidation phương pháp đề xuất • Đánh giá AUC AUPR thí nghiệm LOOCV tồn cục Hiệu dự đốn LOOCV toàn cục phương pháp được đề xuất đạt giá trị AUC 0.9882 giá trị AUPR 0.9066 minh họa hình 3.6 Hình 3.6 Đường cong ROC giá trị AUC (a) đường cong PR giá trị AUPR (b) đánh giá LOOCV tồn cục 24 • So sánh hiệu dự đoán với phương pháp khác Để chứng minh hiệu vượt trội phương pháp đề xuất so với phương pháp có liên quan khác, hiệu dự đốn so sánh với phương pháp NTSHMDA, PMFMDA, IMCMDA MCLPMDA theo với đo lường tốt thực nghiệm 5fold-cross-validation Hiệu phương pháp theo đo lường AUC AUPR minh họa hình 3.7 Hình 3.7 Các đường ROC giá trị AUC (a) đường PrecisionRecall giá trị AUPR (b) so sánh với phương pháp có liên quan 3.4.3 Các trường hợp nghiên cứu Ngoài thực nghiệm 5-fold-cross-validation LOOCV, số trường hợp nghiên cứu triển khai bệnh Ung thư vú, Ung thư biểu mô tế bào gan, Ung thư dày để khả phương pháp đề xuất dự đốn quan hệ miRNA-disease 3.5 Tóm tắt chương thảo luận Trong chương này, phương pháp đề xuất có tên “Dự đốn quan hệ miRNA–disease sử dụng bước lặp ngẫu nhiên có quay lui cải tiến tích hợp nhiều độ tương đồng” trình bày Phương pháp đề xuất sử dụng giải thuật WKNKN 25 bước tiền xử lý để giải vấn đề tính thưa liệu Nó tích hợp nhiều nguồn liệu khác để tăng tính tin cậy kết dự đốn Bên cạnh đó, phương pháp kế thừa cải tiến phương pháp RWR giới thiệu Luo J Long Y dự đoán quan hệ microbe-disease, để dự đoán quan hệ miRNA-disease Mặc dù kết thực nghiệm mô cho trường hợp nghiên cứu Ung thư phổi Ung thư buồng trứng phần dự đoán quan hệ cho bệnh (bệnh cô lập) phương pháp đề xuất đạt hiệu cao dự đoán quan hệ bệnh lập Tuy nhiên kết dự đốn sai lệch lựa chọn chủ quan số bệnh để mô trường hợp thực nghiệm Vì nghiên cứu tương lai cần tích hợp nhiều nguồn liệu sinh học khác để nâng cao hiệu tính tin cậy việc dự đốn KẾT LUẬN Luận án trình bày đóng góp lĩnh vực phát triển phương pháp tính tốn để dự đoán quan hệ ncRNA-disease dựa dự đoán liên kết mạng thông tin hỗn tạp Cụ thể, luận án có đóng góp sau: Thứ nhất, luận án đề xuất mơ hình tính tốn có tính tin cậy để dự đốn quan hệ ncRNA-disease Nó kết hợp giải thuật lọc cộng tác để giải vấn đề tính thưa liệu tiến trình phân bổ tài nguyên đồ thị ba phía dựa nhiều loại quan hệ biết nhiều loại đối tượng sinh học Sau mơ hình tính tốn triển khai lĩnh vực để dự đoán quan hệ miRNAdisease quan hệ lncRNA-disease Trong ứng dụng dự đoán quan hệ miRNA-disease, kết thực nghiệm phương pháp đề xuất đạt hiệu tin cậy với giá trị AUC AUPR tương 26 ứng 0.9788 0.9373 Kết ấn tượng số phương pháp khác có liên quan Trong ứng dụng để dự đoán quan hệ lncRNAdisease, phương pháp đề xuất đạt hiệu dự đoán tin cậy cao với giá trị AUC AUPR tốt 0.983 Do đó, coi cơng cụ hữu để dự đốn quan hệ ncRNA-disease Thứ hai, luận án phát triển phương pháp tính tốn mạnh mẽ để dự đốn quan hệ miRNA-disease Phương pháp sử dụng giải thuật WKNKN bước tiền xử lý để giải vấn đề tính thưa liệu Nó tích hợp nhiều độ tương đồng từ nhiều nguồn khác để xây dựng hai mạng hỗn tạp không gian độ tương đồng miRNA disease Do đó, xác suất bước lặp ngẫu nhiên cho nút lân cận cho nút disease miRNA khác khơng gian định Từ đó, giải thuật bước lặp ngẫu nhiên có quay lui cải tiến mạng hỗn tạp dựa độ tương đồng miRNA dựa độ tương đồng disease triển khai để tính tốn xác suất dự đốn quan hệ miRNA-disease Phương pháp đề xuất coi cơng cụ mạnh có giá trị để dự đốn quan hệ miRNA-disease Điều hỗ trợ kết LOOCV AUC AUPR toàn cục tương ứng 0.9882 0.9066, giá trị AUC AUPR thí nghiệm 5-fold-crossvalidation 0.9855 0.8642