Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA DỰ ĐOÁN CẤU TRÚC BẬC HAI CỦA PHÂN TỬ SINH HỌC TRÊN CƠ SỞ KẾT HỢP MỘT SỐ KỸ THUẬT TÍNH TỐN MỀM Chun ngành: KHOA HỌC MÁY TÍNH Mã số: 9.48.01.01 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng – 2023 LUẬN ÁN ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA Người hướng dẫn khoa học: TS Phạm Minh Tuấn TS Đặng Đức Long Phản biện 1: ………………………………………… Phản biện 2: ………………………………………… Phản biện 3: ………………………………………… Luận án bảo vệ trước Hội đồng chấm luận án cấp Trường họp Đại học Đà Nẵng Vào hồi … … ngày … tháng … năm … Có thể tìm hiểu luận án tại: - Thư viện Quốc gia; - Trung tâm Học liệu Truyền thông, trường Đại học Bách Khoa; - Trung tâm Thông tin - Học liệu Truyền thông, Đại học Đà Nẵng Mở đầu Sinh học phân tử lĩnh vực khoa học quan trọng sinh học với nhiều ứng dụng việc tìm thuốc vật liệu tiên tiến Cấu trúc bậc hai phân tử sinh học yếu tố quan trọng để xác định tính chất, hoạt động chức chúng Việc xác định xác cấu trúc bậc hai phân tử sinh học thách thức lớn cho nghiên cứu sinh học phức tạp cấu trúc hạn chế phương pháp kiểm tra Tuy nhiên, với phát triển cơng nghệ tính tốn, đặc biệt kỹ thuật tính tốn mềm sử dụng để giải thách thức Trong luận án này, đề xuất phương pháp kết hợp kỹ thuật tính tốn mềm áp dụng kỹ thuật vào toán dự đoán cấu trúc bậc hai phân tử sinh học Tính cấp thiết, ý nghĩa khoa học luận án Luận án có tính cấp thiết cao ý nghĩa khoa học lớn lĩnh vực sinh học Luận án đề xuất phương pháp kết hợp tính tốn mềm áp dụng dự đoán cấu trúc bậc hai phân tử sinh học, đồng thời đánh giá hiệu phương pháp Điều giúp cho nhà khoa học cải thiện việc dự đoán cấu trúc bậc hai phân tử sinh học giúp cho việc phát triển phương pháp với mục đích tìm cấu trúc xác phân tử sinh học Bài toán dự đoán cấu trúc bậc hai RNA toán phức tạp lĩnh vực phân tử sinh học RNA (Ribonucleic acid) loại acid nucleic có tế bào tế bào sinh vật cung cấp thông tin gen cho việc sản xuất protein Cấu trúc bậc hai RNA hình thức tồn tế bào tác động đến việc sản xuất protein trình sinh học khác Xuất phát từ thực tế lý trên, nghiên cứu sinh lựa chọn đề tài:"DỰ ĐOÁN CẤU TRÚC BẬC HAI CỦA PHÂN TỬ SINH HỌC TRÊN CƠ SỞ KẾT HỢP MỘT SỐ KỸ THUẬT TÍNH TỐN MỀM" thực luận án tiến sĩ chuyên ngành Khoa học Máy tính Mục tiêu, đối tượng, phạm vi phương pháp nghiên cứu 2.1 Mục tiêu Luận án thực nhằm nghiên cứu giải phần thách thức toán dự đoán cấu trúc bậc hai phân tử sinh học, cụ thể cấu trúc bậc hai RNA Luận án nhằm hướng đến mục tiêu sau đây: - Nghiên cứu đề xuất phương pháp kết hợp tính tốn mềm - Áp dụng phương pháp đề xuất vào toán dự đoán cấu trúc bậc hai phân tử sinh học 2.2 Đối tượng nghiên cứu Đối tượng nghiên cứu luận án gồm: - Phân tử sinh học: cụ thể RNA - Các kỹ thuật tính tốn mềm gồm: Thuật toán di truyền, logic mờ, mạng nơ-ron nhân tạo, mạng LSTM 2.3 Phạm vi nghiên cứu Phạm vi nghiên cứu bao gồm: - Nghiên cứu tổng quan toán dự đoán cấu trúc bậc hai phân tử sinh học phương pháp dự đoán, sở xác định hạn chế phương pháp vấn đề - Từ kết phân tích tổng quan phương pháp dự đoán cấu trúc bậc hai phân tử sinh học, đề xuất số thuật toán cải tiến: - Thuật toán di truyền - Kết hợp thuật toán di truyền với logic mờ - Kết thợp thuât toán di truyền với mạng LSTM 2.4 Phương pháp nghiên cứu Phương pháp nghiên cứu luận án nghiên cứu lý thuyết nghiên cứu thực nghiệm Đóng góp luận án Luận án "DỰ ĐỐN CẤU TRÚC BẬC HAI CỦA PHÂN TỬ SINH HỌC TRÊN CƠ SỞ KẾT HỢP MỘT SỐ KỸ THUẬT TÍNH TỐN MỀM" cung cấp số đóng góp quan trọng lĩnh vực nghiên cứu phân tử sinh học Đóng góp luận án gồm: Xác định kỹ thuật tính tốn mềm có hiệu để dự đốn cấu trúc bậc hai RNA Kết hợp số kỹ thuật tính tốn mềm để tăng tính xác hiệu việc dự đoán cấu trúc bậc hai RNA 4 Bố cục luận án Bố cục luận án "DỰ ĐOÁN CẤU TRÚC BẬC HAI CỦA PHÂN TỬ SINH HỌC TRÊN CƠ SỞ KẾT HỢP MỘT SỐ KỸ THUẬT TÍNH TỐN MỀM" gồm phần sau: - Mở đầu - Chương 1: Tổng quan RNA, cấu trúc bậc hai RNA tính tốn mềm - Chương 2:Đề xuất phương pháp kết hợp tính tốn mềm để dự đốn cấu trúc bậc hai phân tử sinh học - Chương 3: Áp dụng tính toán mềm cho toán dự đoán cấu trúc bậc hai RNA - Kết luận - Phụ lục Chương Tổng quan RNA, cấu trúc bậc hai RNA tính tốn mềm 1.1 Cơng nghệ sinh học Cơng nghệ sinh học lĩnh vực đa ngành sử dụng kỹ thuật, phương pháp, công cụ thiết bị nhiều lĩnh vực khác sinh học phân tử, di truyền học, vi sinh, hóa học, vật lý, máy tính, điện tử, khí, khoa học vật liệu, y học nhiều lĩnh vực khác Với mục đích nghiên cứu, phát triển ứng dụng sản phẩm, dịch vụ, quy trình, cơng nghệ giải pháp cho vấn đề liên quan đến sức khỏe, môi trường, lượng, thực phẩm nhiều lĩnh vực khác 1.2 Tin sinh học Tin sinh học lĩnh vực nghiên cứu tương tác thành phần hệ thống sinh học cách sử dụng phương pháp cơng nghệ tính tốn Trong thời đại nay, tin sinh học trở thành lĩnh vực đa dạng phức tạp, có ảnh hưởng lớn đến nhiều lĩnh vực khác nhau, từ y tế, nông nghiệp đến cơng nghệ thơng tin Dự đốn cấu trúc phân tử RNA toán quan trọng lĩnh vực sinh học phân tử có nhiều ứng dụng thực tiễn điều trị bệnh, phát chẩn đốn bệnh, thiết kế thuốc, tìm hiểu chế di truyền, v.v 1.3 1.3.1 Cấu trúc Ribonucleic Acid (RNA) khái niệm liên quan Cấu trúc RNA Ribonucleic acid (RNA) phân tử sinh học quan trọng Nó đóng vai trị trình tổng hợp protein từ deoxyribonucleic acid (DNA) Mỗi phần tử RNA bao gồm chuỗi ribonucleotide liên kết với liên kết hóa học cộng hóa trị ribonucleotide chứa bốn nucleotide: Adenine pAq, Guanine pGq, Cytosine pC q U racil pU q, tự gấp lại (folding) để hình thành cấu trúc bậc hai với cặp nucleotide A U, G C, G U , đối xứng chúng U A, C G U G Những cặp nucleotide gọi cặp tắc Một chuỗi RNA gấp lại để hình thành nhiều cấu trúc bậc hai khác Không giống DNA chuỗi kép, RNA thường tìm thấy dạng phân tử axit nucleic sợi đơn thường chứa vùng bổ sung để tạo thành vịng xoắn kép tự gấp lại Việc tự gấp tạo cấu trúc chia thành ba cấp độ tổ chức chính: cấu trúc chính, bậc hai bậc ba 1.3.2 Các khái niệm liên quan đến RNA Phân tử RNA định rõ đặc điểm chuỗi bốn loại nucleotide bazơ : Adenine pAq, Cytosine pC q, Guanine pGq U racil pU q Chuỗi nucleotide tuyến tính sợi RNA tạo Một nucleotide cấu tạo bazơ, ribose phosphate; mục đích mình, tơi sử dụng thuật ngữ “nucleotide” “bazơ” thay cho thành cấu trúc chuỗi định nghĩa thức sau: Định nghĩa 1.1 Một chuỗi RNA có chiều dài n nucleotide chuỗi x x1 x2 xn , xi P tA, C, G, U u, @i P t1, , nu Định nghĩa 1.2 Cấu trúc bậc hai RNA y ứng với chuỗi RNA x có chiều dài n định nghĩa tập hợp cặp (khơng có thứ tự) ts, tu, với s, t P t1, , nu cặp riêng lẻ, tức hai cặp ts, tu tu, v u P y, ts, tu X tu, vu m (tập rỗng) Định nghĩa 1.3 Cấu trúc bậc hai RNA khơng có cặp nucleotide bắt liên kết chéo (pseudoknot free) y tương ứng với chuỗi RNA x có độ dài n cấu trúc bậc hai RNA hai cặp nucleotide pi, j q pi1, j 1q P y, chúng lồng nhau, tức i i1 j j, liên tiếp nhau, tức i j i1 j Ở giả định mà không tính tổng quát i j, i1 j i i1 Định nghĩa 1.4 Cấu trúc bậc hai RNA có cặp nucleotide bắt liên kết chéo (pseudoknotted) y tương ứng với chuỗi RNA x có độ dài n cấu trúc bậc hai RNA tồn hai cặp nucleotide pi, j q pi1 , j q P y, mà i i1 j j (đây thường cặp nucleotide giao nhau) Ở giả định mà khơng tính tổng qt i j, i1 j i i1 1.3.3 Dự đoán cấu trúc RNA Cấu trúc RNA bao gồm ba mức độ: cấu trúc bậc (primary structure) chuỗi gồm nucleotide liên kết với liên kết phân tử, cấu trúc bậc hai (secondary structure) gồm mảng ghép (stem-loop) cấu trúc bậc ba (tertiary structure) gồm gập lại cấu trúc bậc hai tương tác phân tử RNA protein 1.3.4 Các cách biểu diễn cấu trúc bậc hai RNA Cấu trúc bậc hai RNA trình bày theo nhiều cách khác nhau: Biểu diễn Radial, Biểu diễn (Tree), Biểu diễn tuyến tính (Linear), Biểu diễn kí hiệu dấu ngoặc đơn dấu chấm (Dot-Bracket) Trong luận án, cấu trúc bậc hai RNA biểu diễn hai cách: biểu diễn Radial biểu diễn kí hiệu dấu ngoặc đơn dấu chấm (Dot-Bracket) 1.4 Tính tốn mềm Tính tốn mềm phương pháp hiệu phổ biến lĩnh vực sinh học phân tử tin sinh học, đặc biệt dự đoán cấu trúc bậc hai RNA Các phương pháp sử dụng để dự đoán cấu trúc bậc hai RNA cách nhanh chóng xác, mà khơng cần phải tiến hành thí nghiệm phức tạp tốn 1.4.1 Thuật toán di truyền - (Genetic Algorithm GA) Các bước thuật tốn di truyền bao gồm: Bước Bước Bước Bước Bước Bước Bước 1.4.2 1: 2: 3: 4: 5: 6: 7: Khởi tạo quần thể ban đầu; Đánh giá độ thích nghi; Chọn lọc; Lai ghép; Đột biến; Tiến hóa hệ tiếp theo; Kiểm tra điều kiện dừng;; Logic mờ đặc trưng tập mờ Logic mờ phương pháp giải vấn đề khơng có giải pháp xác rõ ràng, mà xác định Chương Đề xuất phương pháp kết hợp tính tốn mềm để dự đốn cấu trúc bậc hai phân tử sinh học 2.1 Bài toán dự đoán cấu trúc bậc hai phân tử sinh học Cấu trúc bậc hai RNA bao gồm cặp đôi nucleotide pG C, A U, G U q xếp thành cấu trúc ba chiều Các cặp đôi nucleotide tạo thành mắt cầu, khớp với thông qua đoạn xoắn vịng xoắn Dự đốn cấu trúc bậc hai RNA giúp hiểu chế hoạt động RNA chức tế bào Bài toán dự đoán cấu trúc bậc RNA mơ hình hóa sau: - Đầu vào: chuỗi RNA x x1 x2 xn , xi P tA, U, G, C u, n chiều dài chuỗi RNA (số nucleotide có chuỗi) mơ hình lượng tự - Mục tiêu: Phát triển thuật toán Apxq trả nhiều cấu trúc bậc hai y tương ứng với x dự đoán hấp dẫn 11 12 mặt sinh học Một cách tiếp cận phổ biến để thu cấu trúc bậc hai hấp dẫn mặt sinh học tìm cấu hình lượng tự tối thiểu (minimum free energy - MFE) y M F E chuỗi RNA x cho theo mơ hình lượng tự giả định yM F E arg Gpx, y q y PY đó: - Y tập cấu trúc bậc hai có chuỗi RNA x; - 4G hàm lượng cung cấp độ ổn định cấu trúc; - arg miny Gpy q dùng để cấu trúc y có 4Gpy q nhỏ 2.2 Các tham số nhiệt động học Các tham số nhiệt động học cho trình gấp khúc RNA DNA xác định phương pháp khác Trong phần này, chúng tơi trình bày tất loại tham số RNA mà sử dụng định dạng chúng 2.3 Tính tốn lượng tự cấu trúc bậc hai Phần mơ tả cách tính lượng tự cấu trúc bậc hai, sử dụng tham số mô tả phần trước 2.3.1 Những hàm tổng quát Các nghiên cứu vòng xoắn (helice) có cặp bên ngồi khơng phải pC Gq ổn định Giá trị N on_GC_terminal có nghĩa thêm tham số bổ sung để nắm bắt ổn 13 định Trong số tài liệu, thuật ngữ AU terminal penalty sử dụng Do đó, để tránh nhầm lẫn, chúng tơi gọi N on_GC_terminal_penalty 2.3.2 Tính lượng tự cho vịng xếp chồng Cho chuỗi x, lượng tự vòng xếp chồng xi xi xj 1 xj , với pxi , xj q, pxi , xj 1 q cặp nucleotide vòng xếp chồng, cho bởi: 4G_xpx, i, j q = 4G_Stack pxi , xj , xi , xj 1 q 2.3.3 Tính tốn lượng tự cho vịng kẹp tóc Năng lượng tự vịng kẹp tóc có kích thước lớn 3, tạo từ bốn đại lượng: 4G1 , 4G2 , 4G3 G4 2.3.4 Tính tốn lượng tự cho vịng lặp Chiều dài vòng lặp cho số lượng nucleotide tự hai cặp nucleotide đóng, ký hiệu pi, j q pi1, j 1q Chúng ta gọi l1 chiều dài cạnh vòng lặp, tức là: l1 i1 i Khi đó, l2 chiều dài cạnh l2 j j Chiều dài vòng lặp l l1 l2 2.3.5 Tính lượng tự cho vòng nhiều nhánh Xét vòng nhiều nhánh với k nhánh cặp nucleotide đóng chúng pxi ; sj q, pxi1 ; xj1 q, pxik , xjk q 2.3.6 Tính tốn lượng tự cho cấu trúc nhiều miền Công thức sau cho thấy đóng góp nucleotide lơ lửng cho k miền, pxi1 xj1 q, , pxik xjk q cặp nucleotide đóng miền 14 2.4 2.4.1 Các phương pháp đề xuất Thuật tốn di truyền Cấu trúc bậc hai có chuỗi RNA có tổ hợp lớn Nếu cấu trúc bậc RNA có chiều dài n tổ hợp kết nối có n! Vì thuật tốn di truyền giải pháp sử dụng để giải tốn trình bày (2.1) Giải thuật di truyền áp dụng sau: Input: chuỗi RNA, X x1 x2 xn với xi P tA, U, G, C u, n chiều dài chuỗi; Output: - y M F E y1 y2 yn với yi P t p q u cho p q "dấu ngoặc đúng", - 4GM F E Bước 1: Tạo tập cặp bazơ; Bước 2: Tạo tập helix; Bước 3: Khởi tạo quần thể ngẫu nhiên; Bước 4: Đánh giá, đủ tốt đến Bước ; Bước 5: Chọn lọc; Bước 6: Lai ghép; Bước 7: Đột biến; Bước 8: Quay Bước 4; Bước 9: Tính y M F E 4GM F E ; 2.4.2 Kết hợp thuật toán di truyền với logic mờ Trong luận án này, phương pháp logic mờ sử dụng trình chọn lọc, lai ghép đột biến Giải thuật di truyền kết hợp với logic mờ áp dụng sau: 15 Input: chuỗi RNA, X x1 x2 xn với xi P tA, U, G, C u, n chiều dài chuỗi; Output: - y M F E y1 y2 yn với yi P t p1 q1 1 u cho p1 q1 "dấu ngoặc đúng", - 4GM F E Bước 1: Tạo tập cặp bazơ; Bước 2: Tạo tập helix; Bước 3: Khởi tạo quần thể ngẫu nhiên dựa tập mờ; Bước 4: Đánh giá, đủ tốt đến Bước ; Áp dụng modul mờ Bước 5: Chọn lọc; Bước 6: Lai ghép; Bước 7: Đột biến; Bước 8: Quay Bước 4; Bước 9: Tính y M F E 4GM F E ; 2.4.3 Kết hợp thuật toán di truyền với mạng nơ-ron nhân tạo, cụ thể mạng LSTM Trong luận án này, tơi đề xuất phương pháp kết hợp thuật tốn di truyền với mạng LSTM để dự đoán cấu trúc bậc hai RNA Chương Áp dụng tính tốn mềm cho toán dự đoán cấu trúc bậc hai RNA 3.1 Cơ sở liệu RNA Tất liệu sử dụng cho thực nghiệm lấy từ Rfam1 với phiên Rfam 14.9 (November 2022, 4108 họ) COVID-19 Data Portal2 (Nền tảng liệu COVID-19 Châu Âu) 3.2 Bộ liệu Tôi tiến hành thực nghiệm tập liệu RNA bao gồm chuỗi với độ dài khác Dưới chuỗi RNA mà tiến hành thực nghiệm với phương pháp đề xuất chương 2, thể bảng 3.1.Thông tin cụ thể chuỗi trình bày phần chương https://rfam.xfam.org/ https://www.covid19dataportal.org/ 16 17 Bảng 3.1: Các chuỗi thực nghiệm STT 10 11 3.3 Tên chuỗi SARS-CoV-2 E.Coli Bmori Schizosaccharomyces pombe Ichthyosporidium sp Oryza sativa Japonica Group (Japanese rice) Mycoplasma capricolum Influenza A virus Corynebacterium diphtheriae Coxsackie A16 Enterovirus A71 Chiều dài 88 Bases 221 Bases 498 Bases 119 Bases 1352 Bases 324 Bases 865 543 176 252 252 Bases Bases Bases Bases Bases Kết thực nghiệm Tôi tiến hành thực nghiệm liệu với chuỗi trình bày bảng 3.1 Kết phướng pháp ứng với chuỗi thể bảng Bảng 3.2: Kết thực nghiệm phương pháp đề xuất ứng với chuỗi thực nghiệm -24.40 -67.93 -178.2 GA kết hợp với logic mờ (FL) 4G -25.20 -71.90 -180.7 GA với mạng LSTM 4G -26.6 -73.90 -183 Chiều dài SARSCoV-2 E.Coli B.mori Schizosaccharomyces pombe Ichthyosporidium sp Oryza sativa Japonica Group (Japanese rice) Mycoplasma capricolum Influenza A virus Corynebacterium diphtheriae Coxsackie A16 Enterovirus A71 88 Bases 221 Bases 498 Bases 119 Bases -27.2 -32.10 -33.60 -33.70 1352 Bases -314.99 -429.8 -432.9 -435.3 324 Bases -93.44 -95.11 -97.31 -103.82 865 Bases 543 Bases -225.60 -94.69 -229.0 -131.0 -235.4 -137.6 -239.6 -139.6 176 Bases -61.80 -63.11 -64.50 -68.60 252 Bases 252 Bases -79.16 -74.16 -80.10 -76.75 -85.90 -79.57 -87.90 -82.36 Di truyền (GA) 4G 18 RNA Quy hoạch động (DP) 4G -24.20 -66.53 -176.8 19 3.4 3.4.1 Thuật toán di truyền Khởi tạo tham số cho thuật toán di truyền Việc khởi tạo tham số cho thuật toán di truyền trình quan trọng trình thực nghiệm toán dự đoán cấu trúc bậc hai RNA Giá trị khởi tạo cho tham số cụ thể thể bảng 3.3 Bảng 3.3: Giá trị tham số cho thuật toán di truyền áp dụng cho toán dự đoán cấu trúc bậc hai RNA Tham số Số hệ (G) Kích thước quần thể (P ) Tỷ lệ lai ghép (Rc ) Tỷ lệ đột biến (Rm ) Tỷ lệ chon lọc (Rs ) Số lần bốc ngẫu nhiên (N OR) 3.4.2 Kết thực nghiệm 3.4.3 So sánh Giá trị 700 800 70% 80% 70% 100 3.5 Kết hợp thuật toán di truyền với logic mờ 3.5.1 Khởi tạo tham số cho thuật toán di truyền kết hợp với logic mờ Ngồi tham số thuật tốn di truyền truyền thể bảng 3.3, để kết hợp với logi mờ đưa thêm tham số ε biên độ hàm thành viên µpiq, thể 20 công thức (2.14) Giá trị khởi tạo cho tham số cụ thể thể bảng 3.4 Bảng 3.4: Giá trị tham số cho thuật toán di truyền kết hợp với logic mờ áp dụng cho toán dự đoán cấu trúc bậc hai RNA Tham số Số hệ (G) Kích thước quần thể (P ) Tỷ lệ lai ghép (Rc ) Tỷ lệ đột biến (Rm ) Tỷ lệ chon lọc (Rs ) Số lần bốc ngẫu nhiên (N OR) Biên độ (ε) 3.5.2 Kết thực nghiệm 3.5.3 So sánh 3.6 3.6.1 Giá trị 700 800 70% 80% 70% 100 10 Phương pháp kết hợp thuật toán di truyền với mạng LSTM Mơ hình kết hợp GA với LSTM Mơ hình giới thiệu chương hình ??, xin giới thiệu lại cho tiện theo dõi - Xi chuỗi RNA tập chuỗi RNA Xi x1 x2 xn với xi P tA, U, G, C u, i P t1 nu n chiều dài chuỗi RNA - Qj tham số thể bảng 3.3 M F E - 4Gij yij giá đầu thuật toán GA, tức là: yij M F E 4Gij - Loss F unction định nghĩa sau: LpXi , Qj q 4Gij 21 Hình 3.1: * Sơ đồ kết hợp GA LSTM cho toán dự đoán cấu trúc bậc hai RNA 3.6.2 Kết thực nghiệm 3.6.3 So sánh 22 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Luận án "Dự đoán cấu trúc bậc hai phân tử sinh học sở kết hợp số kỹ thuật tính tốn mềm" nghiên cứu quan trọng lĩnh vực tin sinh học, đặc biệt việc dự đoán cấu trúc bậc hai phân tử sinh học Với mục tiêu đặt ban đầu, luận án đạt số kết sau: - Tổng hợp phân tích, đánh giá phân loại phương pháp dự đoán cấu trúc bậc hai phân tử sinh học Từ đó, đưa ưu điểm khuyết điểm phướng pháp sở để luận án đề xuất số phương pháp dự đoán cấu trúc bậc hai phân tử sinh học - Đề xuất liệu cho thuật toán di truyền - Đề xuất phương pháp kết hợp thuật toán di truyền với logic mờ - Đề xuất kết hợp thuật tốn di truyền với LSTM Mỗi phương pháp có ưu điểm hạn chế riêng, kết hợp đề xuất đem lại kết tốt việc dự đoán cấu trúc bậc hai phân tử sinh học Nghiên cứu chứng minh kết hợp nhiều kỹ thuật tính tốn mềm hướng tiếp cận hữu ích việc dự đốn cấu trúc bậc hai phân tử sinh học Hướng phát triển Nghiên cứu đặt hướng nghiên cứu tiếp theo, bao gồm sử dụng phương pháp học sâu khác mạng neural tích chập (CNN) mạng neural chuyển đổi (Transformer) để dự đoán cấu trúc bậc hai phân tử sinh học Trong tương lai, để 23 nâng cao độ xác phương pháp dự đoán cấu trúc bậc hai RNA, NCS đề xuất hướng phát triển sau: Mở rộng phạm vi nghiên cứu để áp dụng phương pháp dự đoán cấu trúc bậc hai cho loại phân tử sinh học khác nhau, bao gồm protein, peptide, lipid, phân tử có tính chất đa dạng khác Kết hợp phương pháp học máy học tăng cường để cung cấp cách tiếp cận mạnh mẽ tính tốn mềm Nghiên cứu phát triển phương pháp xử lý liệu lớn, kỹ thuật học sâu cách tích hợp chúng để nâng cao hiệu suất độ xác Hiện nay, phương pháp tính tốn mềm chủ yếu tập trung vào dự đốn cấu trúc tĩnh Tuy nhiên, tính động cấu trúc bậc hai quan trọng q trình sinh học Do đó, hướng phát triển phát triển phương pháp tính tốn mơ động để mô thay đổi biến đổi cấu trúc bậc hai theo thời gian thực Với hướng phát triển này, hy vọng cải thiện độ xác phương pháp dự đốn cấu trúc bậc hai phân tử RNA áp dụng vào toán liên quan tương lai 24 Các cơng trình nghiên cứu liên quan đến luận án Doan Duy Binh, Pham Minh Tuan, Dang Duc Long, Dau Manh Hoan (2020), "New Approach in Genetic Algorithm for RNA Secondary Structure Prediction", Journal of Advances in Information Technology, 11 (4), Pages 249-258 Doan Duy Binh, Pham Minh Tuan, Dang Duc Long (2020), "Predicting RNA secondary structure based on machine learning and genetic algorithm", ICFNDS’20: The 4th International Conference on Future Networks and Distributed Systems (ICFNDS), 52, Pages 1–12 DD Binh, PM Tuan, DD Long (2020), "A NEW METHOD OF RNA SECONDARY STRUCTURE PREDICTION BASED ON GENETICS ALGORITHMS AND MACHINE LEARNING", HỘI NGHỊ KHOA HỌC CÔNG NGHỆ QUỐC GIA LẦN THỨ XIII NGHIÊN CỨU CƠ BẢN VÀ ỨNG DỤNG CÔNG NGHỆ THÔNG TIN, 13, Trang 1-10 ĐD Bình, PM Tuấn, ĐĐ Long, NH Danh (2018), "RNA SECONDARY STRUCTURE PREDICTION BY A COMBINATION OF GENETIC ALGORITHM WITH FUZZY LOGIC", HỘI NGHỊ KHOA HỌC CÔNG NGHỆ QUỐC GIA LẦN THỨ XI NGHIÊN CỨU CƠ BẢN VÀ ỨNG DỤNG CƠNG NGHỆ THƠNG TIN, 11, 110-119 ĐD Bình, PM Tuấn, ĐĐ Long (2017),"CẢI TIẾN THUẬT TOÁN DI TRUYỀN VÀ ÁP DỤNG DỰ ĐOÁN CẤU TRÚC BẬC HAI RNA", HỘI NGHỊ KHOA HỌC CÔNG NGHỆ QUỐC GIA LẦN THỨ X NGHIÊN CỨU CƠ BẢN VÀ ỨNG DỤNG CÔNG NGHỆ THƠNG TIN, 10, Trang 54-67 ĐD Bình (2016), "ĐÁNH GIÁ VÀ SO SÁNH CÁC GIẢI THUẬT BIỂU DIỄN CẤU TRÚC BẬC HAI CỦA RNA", Hue University Journal of Science (HU JOS), 121 (7-A), trang 5-18