Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm

Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm.

Tổng quan về RNA, cấu trúc bậc hai RNA và tính toán mềm

Công nghệ sinh học

Công nghệ sinh học là một lĩnh vực đa ngành, kết hợp các kỹ thuật và phương pháp từ sinh học phân tử, di truyền học, vi sinh, hóa học, vật lý, máy tính, điện tử, cơ khí và y học Mục tiêu của công nghệ sinh học là nghiên cứu, phát triển và ứng dụng sản phẩm, dịch vụ, quy trình và giải pháp cho các vấn đề liên quan đến sức khỏe, môi trường, năng lượng và thực phẩm.

Công nghệ sinh học gồm nhiều phân ngành, cụ thể là:

- Sinh học phân tử:Nghiên cứu về cấu trúc và chức năng của các phân tử sinh học như DNA, RNA và protein.

- Di truyền học:Nghiên cứu về di truyền và sự thay đổi di truyền trong các loài sinh vật.

- Kỹ thuật tế bào:Sử dụng các kỹ thuật để nghiên cứu tế bào và tương tác giữa chúng.

- Kỹ thuật dược:Nghiên cứu và phát triển các loại thuốc và vaccine để điều trị bệnh.

- Kỹ thuật sinh thái học:Nghiên cứu các mối quan hệ giữa sinh vật và môi trường sống của chúng.

- Kỹ thuật chẩn đoán và điều trị:Sử dụng các công nghệ để chẩn đoán và điều trị các bệnh liên quan đến sinh học.

Công nghệ sinh học đang có sự phát triển mạnh mẽ và ngày càng trở nên quan trọng trong việc giải quyết các thách thức liên quan đến sức khỏe con người, nông nghiệp, môi trường và năng lượng.

Tin sinh học

Tin sinh học nghiên cứu sự tương tác giữa các thành phần trong hệ thống sinh học thông qua các phương pháp và công nghệ tính toán Hiện nay, tin sinh học là một lĩnh vực đa dạng và phức tạp, ảnh hưởng sâu rộng đến nhiều lĩnh vực như y tế, nông nghiệp và công nghệ thông tin.

Các bài toán đặc trưng trong tin sinh học hiện nay bao gồm:

Dự đoán cấu trúc protein là một vấn đề quan trọng, nhằm xác định cấu trúc bề mặt của protein, từ đó cung cấp cái nhìn sâu sắc hơn về vai trò của protein trong các quá trình sinh học.

Dự đoán cấu trúc RNA là một bài toán quan trọng, nhằm xác định cấu trúc bậc hai của RNA, từ đó làm sáng tỏ vai trò của RNA trong các quá trình sinh học.

Ba phát hiện gen tập trung vào việc xác định vị trí của các gen trong DNA, giúp nâng cao hiểu biết về vai trò của gen trong các quá trình sinh học.

Phân tích dữ liệu gen là một lĩnh vực quan trọng nhằm khám phá các đặc tính của gen, từ đó làm sáng tỏ vai trò của chúng trong các quá trình sinh học Việc hiểu rõ về gen không chỉ giúp phát hiện các yếu tố di truyền mà còn góp phần vào nghiên cứu y học và cải thiện sức khỏe con người.

Dự đoán tương tác protein-protein là một bài toán quan trọng trong sinh học, nhằm xác định các tương tác giữa các protein Việc hiểu rõ các tương tác này giúp làm sáng tỏ các quá trình sinh học liên quan, từ đó cung cấp cái nhìn sâu sắc hơn về chức năng và vai trò của protein trong tế bào.

Dự đoán cấu trúc phân tử RNA là một vấn đề quan trọng trong sinh học phân tử, với nhiều ứng dụng thực tiễn như điều trị và chẩn đoán bệnh, thiết kế thuốc, cũng như nghiên cứu cơ chế di truyền.

Có nhiều phương pháp hiện có để dự đoán cấu trúc của RNA, bao gồm:

Phương pháp tối ưu hóa năng lượng tự do là kỹ thuật tính toán năng lượng tự do cho tất cả các cấu trúc khả thi của RNA, nhằm xác định cấu trúc có năng lượng tự do thấp nhất Mặc dù hiệu quả trong việc dự đoán cấu trúc RNA ngắn, phương pháp này gặp khó khăn do độ phức tạp tính toán cao.

Phương pháp dựa trên hồi quy sử dụng mô hình hồi quy để dự đoán cấu trúc RNA dựa vào các đặc trưng của chuỗi RNA Mặc dù phương pháp này có ứng dụng trong việc phân tích RNA, nhưng nó gặp khó khăn trong việc xử lý các tình huống phức tạp và thiếu tính toàn diện.

Phương pháp dựa trên thuật toán di truyền là một kỹ thuật tối ưu hóa hiệu quả, giúp cải thiện độ chính xác trong việc dự đoán cấu trúc RNA Phương pháp này đặc biệt phù hợp cho các RNA có độ dài lớn, nhờ vào khả năng tối ưu hóa các giá trị tham số một cách hiệu quả.

Phương pháp dựa trên mô hình học sâu sử dụng mạng neural để dự đoán cấu trúc RNA, mang lại kết quả chính xác và khả năng xử lý các tình huống phức tạp.

Mặc dù đã có nhiều tiến bộ trong việc dự đoán cấu trúc RNA, nhưng độ chính xác của các kết quả vẫn là một thách thức lớn Gần đây, nhiều nghiên cứu đã tập trung vào việc áp dụng các phương pháp kết hợp nhằm nâng cao độ chính xác trong dự đoán cấu trúc RNA.

Trong luận án "Dự đoán cấu trúc bậc hai của phân tử sinh học trên sự kết hợp một số kỹ thuật tính toán mềm", tác giả đã cải tiến các tham số trong thuật toán di truyền, kết hợp logic mờ và mạng LSTM để giải quyết bài toán dự đoán cấu trúc bậc hai của RNA Các khái niệm liên quan đến dự đoán cấu trúc RNA và các kỹ thuật tính toán mềm sẽ được trình bày chi tiết trong các chương tiếp theo.

1 RNA: Là tên viết tắt của "Ribonucleic Acid" (axit ribonucleic) là một loại phân tử sinh học quan trọng trong việc truyền tải thông tin di truyền và tổ chức các quá trình của tế bào.

2 Cấu trúc RNA: Cấu trúc RNA đề cập đến việc RNA gập lại một cách đặc biệt để tạo thành cấu trúc phù hợp với chức năng của nó.

3 Dự đoán cấu trúc RNA: Bài toán dự đoán cấu trúc RNA là bài toán dự đoán cấu trúc gấp của RNA từ chuỗi nucleotide của nó.

4 Kỹ thuật tính toán mềm: Kỹ thuật tính toán mềm là sử dụng phần mềm và thuật toán để giải quyết các vấn đề trong khoa học và kỹ thuật, bao gồm tin sinh học.

Cấu trúc Ribonucleic Acid (RNA) và các khái niệm liên quan

Triết lý cốt lõi của phân tử sinh học mô tả quá trình chuyển thông tin di truyền từ DNA sang RNA và sau đó đến protein trong các hệ thống sinh học Khái niệm này được Francis Crick định nghĩa lần đầu vào năm 1957, trong đó ông nêu rõ rằng thông tin được chuyển từ DNA sang RNA qua quá trình phiên mã, sau đó có thể xảy ra một lộ trình thông tin ngược lại từ RNA sang DNA (phiên mã ngược) Tuy nhiên, khi thông tin được chuyển sang protein qua quá trình dịch mã, không có quá trình đảo ngược nào xảy ra Hình 1.1 minh họa sơ đồ của khái niệm này.

Hình 1.1: Mối quan hệ giữa DNA, RNA và Protein

Biểu hiện gen là một quá trình quan trọng trong di truyền học, diễn ra ở tất cả các sinh vật sống, bao gồm sinh vật nhân thực như động vật và thực vật, sinh vật nhân sơ như vi khuẩn và vi khuẩn cổ, cùng với virus Quá trình này liên quan đến việc chuyển đổi thông tin di truyền được lưu trữ trong DNA thành các sản phẩm chức năng của gen Kết quả của biểu hiện gen chủ yếu là protein, nhưng cũng có thể là chức năng RNA trong một số trường hợp.

Quá trình biểu diễn gen bao gồm ba bước quan trọng: phiên mã, vận chuyển và dịch mã Phiên mã là quá trình chuyển đổi thông tin từ DNA sang RNA Sau đó, RNA được vận chuyển từ nhân vào tế bào chất Cuối cùng, dịch mã là quá trình tổng hợp protein từ RNA.

RNA đóng vai trò quan trọng trong nhiều quá trình sinh học, đặc biệt là trong việc mã hóa protein bằng cách chuyển đổi RNA thành các axit amin.

RNA không chỉ mang thông tin di truyền mà còn tham gia điều chỉnh các quá trình tế bào, ảnh hưởng đến sự phát triển của bệnh ung thư và hình thành mạng lưới điều hòa trong hệ thần kinh Ngoài ra, RNA còn là thành phần thiết yếu của virus RNA như HIV, SARS-CoV và SARS-CoV-2, cho thấy khả năng tự hình thành cấu trúc và tương tác với các phân tử khác, đóng vai trò quan trọng trong nhiều quá trình sinh học.

RNA thông tin là những phân tử RNA được dịch mã thành protein, trong khi RNA không mã hóa (ncRNA) không tham gia vào quá trình này Các loại RNA không mã hóa như tRNA, RNA ribosome, miroRNA và snRNA rất phong phú và đóng vai trò quan trọng trong nhiều chức năng sinh học.

RNA không chỉ tham gia vào quá trình tổng hợp protein mà còn có nhiều vai trò quan trọng khác trong tế bào như xúc tác, bảo vệ và điều hòa Cấu trúc của RNA ảnh hưởng lớn đến các đặc tính và chức năng của nó trong các quá trình tế bào Do đó, nghiên cứu cấu trúc RNA và tác động của nó đến vai trò sinh học trong tế bào sống là rất cần thiết.

Dự đoán cấu trúc bậc hai của RNA là một vấn đề quan trọng trong sinh học phân tử Cấu trúc bậc hai và bậc ba của RNA có thể được xác định thông qua các phương pháp tinh thể học tia X và quang phổ cộng hưởng từ hạt nhân (NMR).

Các kỹ thuật như tán xạ tia X góc nhỏ (SAXS) và thăm dò gốc hydroxyl gặp nhiều khó khăn, chậm chạp và tốn kém Hơn nữa, hầu hết các RNA hiện nay không thể kết tinh, điều này làm nổi bật sự cần thiết phải phát triển các phương pháp toán học và tính toán nhằm dự đoán cấu trúc bậc hai của RNA.

Ribonucleic acid (RNA) là một phân tử sinh học quan trọng, đóng vai trò chính trong quá trình tổng hợp protein từ deoxyribonucleic acid (DNA) RNA cho phép hiểu rõ về vai trò cấu trúc và xúc tác trong tế bào Mỗi phân tử RNA bao gồm một chuỗi ribonucleotide liên kết với nhau qua các liên kết hóa học cộng hóa trị Mỗi ribonucleotide chứa một trong bốn nucleotide: Adenine (A), Guanine (G), Cytosine (C) và Uracil (U) RNA có khả năng tự gấp lại để hình thành cấu trúc bậc hai với các cặp nucleotide A≡U, G=C và G≡U, cùng với các đối xứng U≡A và C=G.

Cặp nucleotide U−G (Hình 1.2) được gọi là cặp chính tắc Chuỗi RNA có khả năng gấp lại để tạo ra nhiều cấu trúc bậc hai khác nhau Việc xác định chính xác cấu trúc bậc hai của RNA được gọi là bài toán dự đoán cấu trúc bậc hai.

Hình 1.2: Các nucleotide chuẩn của RNA và sự kết cặp của chúng

RNA thường tồn tại dưới dạng phân tử axit nucleic sợi đơn, khác với DNA là chuỗi kép Nó có khả năng tự gấp lại để hình thành các vòng xoắn kép nhờ vào các vùng bổ sung Quá trình tự gấp này tạo ra ba cấp độ tổ chức chính của RNA: cấu trúc chính, bậc hai và bậc ba.

Hình 1.3: Ba cấp của cấu trúc RNA a) Cấu trúc bậc 1 b) Cấu trúc bậc 2 c) Cấu trúc bậc 3 [63]

1 Cấu trúc chính (primary structure) đề cập đến chuỗi nucleotide của RNA, có thể thu được từ chuỗi DNA của gen mã hóa RNA.

2 Cấu trúc bậc hai (secondary structure) của RNA là sự thể hiện hai chiều của các cặp chính tắc.

3 Cấu trúc bậc ba (tertiary structure) đề cập đến sự biểu diễn ba chiều của cấu trúc RNA được hình thành từ cấu trúc bậc hai Các yếu tố của cấu trúc này liên quan đến sự tương tác giữa hai hoặc nhiều yếu tố cấu trúc bậc hai.

RNA đóng vai trò quan trọng trong nhiều khía cạnh của đời sống sinh học, do đó, nghiên cứu về RNA có thể mở ra nhiều ứng dụng thực tiễn, đặc biệt là trong việc phát triển các loại thuốc mới.

[73], ức chế sự ép gen [28], phát hiện ung thư [11, 35], tiên lượng ung thư [11], và phát hiện nhiễm vi rút và xác định vi rút [11].

1.3.2 Các khái niệm liên quan đến RNA

Phần này giới thiệu các khái niệm liên quan đến cấu trúc bậc hai của RNA mà tôi sẽ sử dụng trong luận án.

Phân tử RNA được cấu thành từ bốn loại nucleotide: Adenine (A), Cytosine (C), Guanine (G) và Uracil (U) Chuỗi nucleotide tuyến tính của RNA tạo thành cấu trúc chính và được định nghĩa là một chuỗi có chiều dài n nucleotide, ký hiệu là x = x1 x2 xn, trong đó mỗi xi thuộc tập hợp {A, C, G, U} với i nằm trong khoảng từ 1 đến n.

Tính toán mềm

Tính toán mềm là phương pháp hiệu quả trong sinh học phân tử và tin sinh học, đặc biệt cho dự đoán cấu trúc bậc hai RNA Các phương pháp này cho phép dự đoán cấu trúc bậc hai của RNA nhanh chóng và chính xác, tiết kiệm thời gian và chi phí so với các thí nghiệm phức tạp.

Việc áp dụng tính toán mềm trong dự đoán cấu trúc bậc hai của RNA không chỉ tiết kiệm thời gian và chi phí cho nghiên cứu, mà còn giảm thiểu nguy cơ sai sót trong thí nghiệm Hơn nữa, các phương pháp này giúp các nhà nghiên cứu phân tích và hiểu rõ hơn về cấu trúc và chức năng của RNA.

Các phương pháp dự đoán cấu trúc bậc hai của RNA bằng tính toán mềm bao gồm thuật toán di truyền, logic mờ, mạng nơ-ron và học sâu Những phương pháp này đã được áp dụng và cải tiến qua nhiều nghiên cứu trong lĩnh vực sinh học phân tử và tin sinh học.

Các lợi ích khi sử dụng tính toán mềm trong dự đoán cấu trúc bậc hai RNA gồm có:

1 Tiết kiệm thời gian và chi phí: Tính toán mềm cho phép xử lý các dữ liệu lớn và phức tạp với tốc độ nhanh hơn so với phương pháp truyền thống Điều này giúp tiết kiệm thời gian và chi phí trong quá trình nghiên cứu.

2 Chính xác hơn: Các phương pháp tính toán mềm có khả năng dự đoán cấu trúc bậc hai của RNA chính xác hơn so với các phương pháp truyền thống Điều này giúp giảm thiểu sai sót trong quá trình phân tích và giúp các nhà nghiên cứu đưa ra những kết luận chính xác hơn.

3 Đa dạng hóa phương pháp nghiên cứu: Tính toán mềm cho phép áp dụng nhiều phương pháp tính toán khác nhau như mạng nơ-ron, thuật toán di truyền, logic mờ, v.v trong quá trình dự đoán cấu trúc bậc hai của RNA Điều này giúp đa dạng hóa phương pháp nghiên cứu và tăng cường tính linh hoạt trong việc tìm ra phương pháp phù hợp nhất cho từng trường hợp cụ thể.

4 Độ chính xác cao: Kết hợp các phương pháp tính toán mềm với nhau giúp tăng độ chính xác của kết quả dự đoán cấu trúc bậc hai của RNA.

1.4.1 Thuật toán Di truyền - (Genetic Algorithm - GA)

Thuật toán di truyền (Genetic Algorithm - GA) là phương pháp tối ưu hóa dựa trên cơ chế di truyền và tiến hóa tự nhiên GA tìm kiếm các giải pháp tối ưu bằng cách khám phá không gian giải pháp và áp dụng các quy tắc tiến hóa tương tự như quá trình di truyền ở các loài sinh vật.

Thuật toán di truyền bao gồm các thành phần chính như quần thể, hàm mục tiêu và các toán tử di truyền Quần thể là tập hợp các cá thể, mỗi cá thể đại diện cho một giải pháp khác nhau cho bài toán Hàm mục tiêu được sử dụng để đánh giá độ tốt của từng cá thể trong quần thể Các toán tử di truyền, bao gồm lai ghép, đột biến và chọn lọc, giúp tạo ra các thế hệ con cá thể mới từ các thế hệ cha mẹ.

Các bước chính của thuật toán di truyền bao gồm:

1 Khởi tạo quần thể ban đầu: Tạo ra một tập hợp các cá thể khác nhau, mỗi cá thể được biểu diễn bằng một chuỗi gen.

2 Đánh giá độ thích nghi: Đánh giá độ thích nghi của mỗi cá thể trong quần thể bằng cách tính toán giá trị của hàm mục tiêu.

3 Chọn lọc: Lựa chọn các cá thể tốt nhất trong quần thể để tiến hóa sang thế hệ tiếp theo.

4 Lai ghép: Kết hợp các đặc trưng của các cá thể tốt nhất bằng cách lựa chọn hai cá thể cha mẹ và tạo ra một con cá thể mới.

5 Đột biến: Thay đổi một số đặc trưng của cá thể để tạo ra sự đa dạng trong quần thể.

6 Tiến hóa thế hệ tiếp theo: Tạo ra một thế hệ mới bằng cách áp dụng các bước chọn lọc, lai ghép và đột biến.

7 Kiểm tra điều kiện dừng: Kiểm tra xem có đạt được điều kiện dừng hay không, nếu không, quay trở lại bước 2.

Thuật toán di truyền được áp dụng rộng rãi trong nhiều lĩnh vực như kỹ thuật, khoa học máy tính, kinh tế học và tối ưu hóa, nhờ khả năng tìm ra giải pháp tối ưu cho những vấn đề phức tạp và khó giải quyết.

Lưu đồ thuật toán GA được thể hiện trong hình 1.8, dưới đây:

1.4.2 Logic mờ và các đặc trưng của tập mờ

Logic mờ là phương pháp giải quyết vấn đề không có giải pháp chính xác, chỉ xác định được các kết quả khả thi và xác suất xảy ra của chúng Trong toán học và khoa học máy tính, logic mờ cho phép giá trị đúng/sai không chỉ là true hoặc false, mà còn nằm trong khoảng từ 0 đến 1 Hệ thống này giải quyết các vấn đề không áp dụng được logic truyền thống Được giới thiệu bởi Lotfi Zadeh vào năm 1965, logic mờ kết hợp mô hình toán học và kiến thức con người để xử lý thông tin không chắc chắn, là phần quan trọng của lý thuyết tập mờ.

Các hệ mờ dựa trên Logic mờ và lý thuyết tập mờ đóng vai trò quan trọng trong việc bổ sung cho logic chuẩn Theo Zadeh, việc sử dụng các biến ngôn ngữ có thể nâng cao mức độ biểu diễn tri thức Cách tiếp cận truyền thống trong biểu diễn tri thức với logic hai phần tử gặp nhiều hạn chế, đặc biệt là trong việc xử lý sự thiếu hụt thông tin.

Hệ thống mờ được phát triển dựa trên những lý do chính sau: khả năng xử lý thông tin không chắc chắn, cải thiện độ chính xác trong các quyết định, và khả năng mô phỏng cách con người suy nghĩ Những lý do này đã thúc đẩy nghiên cứu và ứng dụng của hệ thống mờ trong nhiều lĩnh vực khác nhau.

- Các hệ mờ dễ thực hiện ngay cả khi người thiết kế có ít kiến thức về lý thuyết logic mờ.

- Các hệ thống mờ có thể xử lý các thay đổi tham số quan trọng và các điều kiện tải không ổn định nói chung.

- Logic mờ thích hợp cho các quy trình công nghiệp trong đó thời gian chu kỳ được kiểm soát có thể hoạt động trong một khoảng thời gian dài.

- Hệ thống mờ bắt chước suy luận của con người.

- Hệ mờ có thể đáp ứng nhu cầu về một mô hình toán học cũng như nó tương đối đơn giản, nhanh chóng và thích ứng.

Logic mờ giúp đơn giản hóa việc đạt được các mục tiêu thiết kế phức tạp về toán học thông qua việc sử dụng các quy tắc ngôn ngữ hoặc mô tả.

Kết luận Chương 1

Chương 1 đã trình bày tổng quan về cấu trúc RNA, đặc biệt là cấu trúc bậc hai RNA và các khái niệm liên quan Trình bày các lợi ích của việc dự đoán cấu trúc RNA.

Chương 1 của luận án cung cấp cái nhìn tổng quan về tính toán mềm, bao gồm các khái niệm cơ bản về thuật toán di truyền, logic mờ và học máy Bên cạnh đó, chương này cũng trình bày các phương pháp dự đoán cấu trúc bậc hai cùng những vấn đề còn tồn tại trong lĩnh vực này.

Luận án phân tích những ưu điểm và hạn chế của các phương pháp nghiên cứu hiện tại, từ đó đề xuất các phương pháp mới nhằm cải tiến và ứng dụng vào thực tế, mang lại hiệu quả tốt hơn.

Bài viết đề xuất các phương pháp kết hợp kỹ thuật tính toán mềm nhằm giải quyết bài toán dự đoán cấu trúc bậc hai của phân tử sinh học Các kỹ thuật kết hợp này sẽ được trình bày chi tiết trong chương 2 và chương 3 của luận án.

Các công trình đã công bố liên quan đến nội dung Chương 1:

1 ĐD Bình (2016), "ĐÁNH GIÁ VÀ SO SÁNH CÁC GIẢI THUẬT BIỂU DIỄNCẤU TRÚC BẬC HAI CỦA RNA", Hue University Journal of Science (HUJOS), 121 (7-A), trang 5-18

Đề xuất các phương pháp kết hợp trong tính toán mềm để dự đoán cấu trúc bậc hai phân tử sinh học

Bài toán dự đoán cấu trúc bậc hai của phân tử sinh học

Dự đoán cấu trúc bậc hai của RNA là một trong những thách thức quan trọng trong sinh học phân tử RNA không chỉ là phân tử sinh học thiết yếu trong việc chuyển giao thông tin di truyền từ DNA đến protein, mà còn tham gia vào nhiều chức năng quan trọng khác trong tế bào.

Cấu trúc bậc hai của RNA được hình thành từ các cặp đôi nucleotide như GưC, AưU và GưU, sắp xếp thành một cấu trúc ba chiều Những cặp đôi này tạo ra các mắt cầu, kết nối thông qua các đoạn xoắn và vòng xoắn Dự đoán cấu trúc bậc hai của RNA là cần thiết để hiểu rõ cơ chế hoạt động và chức năng của RNA trong tế bào Bài toán dự đoán cấu trúc bậc hai của RNA có thể được mô hình hóa một cách hiệu quả.

- Đầu vào:một chuỗi RNAx=x 1 x 2 x n ,xi∈ {A,U,G,C},nlà chiều dài của chuỗi RNA (số các nucleotide có trong chuỗi) và một mô hình năng lượng tự do.

- Mục tiêu: Phát triển thuật toán A(x) trả về một hoặc nhiều cấu trúc bậc hai y tương ứng vớixđược dự đoán hấp dẫn về mặt sinh học.

Một phương pháp phổ biến để tìm các cấu trúc bậc hai tối ưu cho RNA là xác định cấu hình năng lượng tự do tối thiểu (MFE) của chuỗi RNA đã cho, dựa trên mô hình năng lượng tự do giả định Phương pháp này xuất phát từ giả thuyết rằng các phân tử RNA có xu hướng gấp lại thành các cấu hình có năng lượng tự do tối thiểu, được thể hiện qua công thức: y MFE = arg min y∈Y 4G(x,y).

- Y là tập các cấu trúc bậc hai có thể có của chuỗi RNAx;

- 4Glà hàm năng lượng cung cấp độ ổn định của cấu trúc;

- arg min y 4G(y)dùng để chỉ ra rằng cấu trúcycó4G(y)là nhỏ nhất.

Cấu trúc bậc hai RNA bao gồm nhiều cấu trúc thành phần con, được thể hiện trong hình 2.1

Hình 2.1: Các cấu trúc thành phần tạo nên cấu trúc bậc hai RNA [60]

Năng lượng của cấu trúc bậc hai RNA được xác định bởi sự kết hợp của năng lượng các cấu trúc thành phần Năng lượng của cấu trúc bậc hai RNA4G(y) được thể hiện qua công thức 2.2.

- 4G: Năng lượng của cấu trúc bậc haiytương ứng với chuỗix;

- 4G_External: Năng lượng của vòng lặp ngoài tức là các nucleotide không được ghép cặp nằm tự do ở hai đầu của chuỗi.

- 4G_Stack: Năng lượng củaStacked pairs;

- 4G_Hair pin: Năng lượng củahairpin loops;

- 4G_Internal: Năng lượng củainternal loops;

- 4G_Bulge: Năng lượng củabulge loops;

- 4G_Multibranhch: Năng lượng củamultibranhched loops.

Các tham số nhiệt động học

Các tham số nhiệt động học cho quá trình gấp khúc RNA và DNA đã được xác định thông qua nhiều phương pháp khác nhau Trong phần này, tôi sẽ trình bày chi tiết các loại tham số RNA mà tôi đã sử dụng và cách định dạng chúng.

2.2.1 Năng lượng tự do cho những vòng xếp chồng (Stack loop):

4G_Stack(a,b,c,d) biểu thị giá trị chung cho một vòng xếp chồng, trong đó a,b,c,d ∈ {A,C,G,U} và (a,b), (c,d) hình thành các cặp Lưu ý rằng giá trị được trùng lắp, vì4G_Stack(a,b,c,d)=4G_Stack(d,c,b,a), (hình 2.2).

2.2.2 Những năng lượng gây mất ổn định theo kích thước vòng:

Mỗi vòng kẹp tóc, vòng lặp trong hoặc vòng lồi đều liên quan đến một lỗi năng lượng tự do dương, phụ thuộc vào độ dài của vòng (số nucleotide tự do giữa các cặp đóng) Các hàm tính toán năng lượng cho các loại vòng này bao gồm 4G_Length_Internal(l) cho vòng lặp trong, trong đó l đại diện cho chiều dài của vòng, và 4G_Length_Bulge(l) cho vòng lồi.

4G_Length_Hair pin(l)- hàm tính năng lượng vòng kẹp tóc, (hình 2.3).

Bảng năng lượng cho vòng lặp trong với cặp bazơ đóng (G,C) được trình bày trong hình 2.2(a) Hình 2.2(b) minh họa kiểu cấu trúc này, trong khi hình 2.2(c) cung cấp một ví dụ cụ thể với các giá trị a = G, b = C, c = G và d = C được tìm thấy trong bảng ở hình (a).

Hình 2.3: (a) Năng lượng tự do cho từng vòng với kích thước cụ thể (b) Một ví dụ của vòng lặp trong có chiều dài là 4

2.2.3 Năng lượng tự do cho các vòng kẹp tóc (hairpin loops) tổng quát:

Năng lượng tự do của vòng kẹp tóc được xác định bởi cặp nucleotide đóng và các nucleotide tự do xung quanh Hàm này được ký hiệu là 4G_Hairpin_n(a,b,c,d), trong đó (a,b) đại diện cho cặp nucleotide đóng của vòng kẹp tóc.

Hình 2.4: (a) Bảng năng lượng tự do cho vòng kẹp tóc của kiểu trong (b) (c) là một ví dụ, trong đó c = G và d = A.

2.2.4 Năng lượng tự do cho vòng kẹp tóc (hairpin loops) với chiều dài là 4:

Vòng kẹp tóc có chiều dài 4 đặc biệt ổn định và đã xác định được các giá trị tăng thêm cho chúng, dựa trên cặp nucleotide đóng và các nucleotide tự do giữa chúng Những giá trị này sẽ được bổ sung vào các thông số nhiệt động lực học khác liên quan đến vòng kẹp tóc, được trình bày trong phần tiếp theo Hàm được gọi là 4G_Hair pin_4(a,b,c,d,e,f), trong đó (a,f) đại diện cho cặp nucleotide đóng của vòng kẹp tóc (hình 2.5).

Hình 2.5: (a) Ví dụ của giá trị năng lượng cho vòng kẹp tóc có độ dài 4 (b) một ví dụ cụ thể cho những vòng kẹp tóc.

2.2.5 Năng lượng tự do cho vòng lặp trong (internal loops) tổng quát: Đối với vòng lặp trong, năng lượng tự do đã được xác định, chúng là một hàm của cặp nucleotide đóng và các nucleotide tự do lân cận:4G_Internal_n(a,b,c,d), với(a,b)là cặp nucleotide đóng Hàm được áp dụng cho cả cặp nucleotide bên trong và bên ngoài Lưu ý rằng đối với cặp nucleotide bên trong, thứ tự của các biến được đảo ngược, (hình 2.6).

Bảng năng lượng cho vòng lặp trong với cặp bazơ đóng là (C,G) được trình bày trong hình 2.6(a) Hình 2.6(b) minh họa kiểu cấu trúc này, trong khi hình 2.6(c) cung cấp ví dụ về các giá trị được tìm thấy trong bảng, với c = G, d = A và c = A, d = G.

2.2.6 Năng lượng tự do cho vòng lặp trong (internal loops) đối xứng với kích thước 2:

Các vòng lặp đối xứng kích thước 2 đã được nghiên cứu chi tiết, với các tham số được xác định rõ ràng Hàm tính giá trị cho các vòng lặp này là 4G_Internal_2(a,b,m,n,c,d), trong đó phụ thuộc vào hai cặp nucleotide (a,b) và (c,d), cùng với hai nucleotide tự do c và d (hình 2.7).

Hình 2.7 trình bày năng lượng tự do cho vòng lặp có kích thước 2, với kiểu hiển thị ở (b) Ví dụ về vòng lặp trong, với c = G và d = A, được mô tả ở (c).

2.2.7 Năng lượng tự do cho vòng lặp trong (internal loops) không đối xứng có kích thước 3:

Các vòng lặp không đối xứng kích thước 3 bao gồm một nucleotide tự do ở một bên và hai nucleotide tự do ở bên kia Hàm tổng quát được gọi là 4G_Internal_3(a,b,m,n,c,d,e), trong đó (a,b) và (m,n) là hai cặp đóng Lưu ý rằng các giá trị này cũng có thể áp dụng cho trường hợp ngược lại, khi hai nucleotide tự do xuất hiện gần điểm cuối.

2.2.8 Năng lượng tự do cho vòng lặp trong (internal loops) đối xứng với kích thước 4:

Một trường hợp đặc biệt của các vòng lặp nhiệt động học là các vòng lặp đối xứng kích thước 4, với hai nucleotide tự do ở mỗi bên Hàm 4G_Internal_4(a,b,m,n,v,w,c,d) mô tả hai cặp đóng (a,b) và (m,n) trong cấu trúc này (hình 2.9).

2.2.9 Năng lượng tự do cho những điểm bên ngoài (External):

Các nucleotide lơ lửng là những nucleotide tự do nằm gần vùng thân của cấu trúc Chúng có vai trò quan trọng trong việc tăng cường sự ổn định của cấu trúc.

Hình 2.8 mô tả năng lượng tự do cho vòng lặp không đối xứng kích thước 3 Cụ thể, phần (a) trình bày năng lượng tự do, trong khi phần (b) cho thấy kiểu thể hiện tương ứng Phần (c) minh họa năng lượng cho các trường hợp với c = C, d = A và e = C Tiếp theo, phần (d) tiếp tục trình bày năng lượng tự do cho vòng lặp không đối xứng kích thước 3, với kiểu thể hiện ở (e) và năng lượng tương ứng cho ví dụ ở (f), với x = A, y = C và e = G.

Hình 2.9 mô tả một phần của bảng năng lượng tự do cho vòng lặp đối xứng kích thước 4, với kiểu vòng thể hiện ở hình (b) Năng lượng cho ví dụ được trình bày trong hình (c), trong đó các tham số được xác định là v = A, w = A, c = G và d = G.

4G_External_1(a,b,c) là một cấu trúc với cặp đóng (phần nucleotide tự do treo gần với một đầu của chuỗi), trong đó a = G và b = C Tương tự, 4G_External_n(a,b,c) cũng có cặp đóng (phần nucleotide tự do treo gần với đầu n - cuối của chuỗi), với a = C và b = G, như minh họa trong hình 2.10.

2.2.10 Các quy tắc năng lượng tự do hổn hợp:

Tính toán năng lượng tự do của một cấu trúc bậc hai

Phần này trình bày cách tính toán năng lượng tự do của cấu trúc bậc hai, dựa trên các tham số đã được mô tả trước đó Cụ thể, bài viết sẽ giới thiệu các thuật toán tính năng lượng cho các vòng kẹp tóc (hairpin loop) và vòng lặp trong (internal loop).

Sau đây, một số hàm tổng quát, được sử dụng bởi các tính toán cho các loại cấu trúc khác nhau, và sẽ được mô tả dưới đây.

Nghiên cứu cho thấy rằng các vòng xoắn (helix) có cặp bên ngoài không phải (C−G) có độ ổn định kém hơn Giá trị Non_GC_terminal được thêm vào như một tham số bổ sung để phản ánh sự mất ổn định này.

Hình phạt Non_GC được sử dụng trong trường hợp AU terminal penalty Để tránh sự nhầm lẫn, tôi sẽ gọi nó là Non_GC_terminal_penalty Hàm Non_GC_Penalty(a,b) được áp dụng và được tính toán theo cách cụ thể.

0 nếu(a.b)là(C.G)hoặc(G.C) Non_GC_Terminal ngược lại

Các bổ sung được xem xét dựa trên kích thước của vòng kẹp tóc và vòng lặp trong, bao gồm cả vòng lồi Chúng được tính toán một cách cụ thể.

4G_Length_Hair pin(30) +Len_Par∗log(l/30); l >30

(2.4) trong đól biểu thị chiều dài của kẹp tóc, tức là số nucleotide tự do.

Các bổ sung về chiều dài đối với vòng lồi (bulges) và vòng lặp trong (internal) có thể được tính tương tự như sau:

4G_Length_Bulge(30) +Len_Par∗log(l/30); l >30

4G_Length_Internal(30) +Len_Par×log(l/30); l>30

Các nucleotide bên ngoài có thể gia tăng tính ổn định của cấu trúc, tùy thuộc vào các nucleotide lân cận Hàm này có thể được gọi là một yếu tố quan trọng trong việc hiểu sự tương tác giữa các nucleotide.

4G_External(x,i 1 ,j 1 ,i 2 , j 2 )được sử dụng chính trong cấu trúc nhiều vòng hoặc đa miền và được tính toán như sau:

4G_External_1(x j 1 ,x i 1 , x j 1 +1) + 4G_External_n(x j 2 ,x i 2 , xi 2 − 1); i 1 + 1 < i 2 −1 min(4G_External_1(x j 1 , x i 1 , x j 1 +1 ),

2.3.2 Tính năng lượng tự do cho vòng xếp chồng

Cho một chuỗi x, năng lượng tự do của một vòng xếp chồng xix i+1 x j−1 xj, với (x i ,x j),(x i+1 ,x j−1 ) là các cặp nucleotide trong vòng xếp chồng, được cho bởi 4G_x(x,i,j)=4G_Stack(x i ,x j ,x i+1 ,x j−1 ).

2.3.3 Tính toán năng lượng tự do cho vòng kẹp tóc

Thuật toán 2.1 mô tả cách tính năng lượng tự do của vòng kẹp tóc cho chuỗix,trong đó cặp đóng của vòng kẹp tóc là(x i ,x j ).

Thuật toán 2.1 Tính toán năng lượng tự do của vòng kẹp tóc (hairpin loop).

Input: một chuỗi RNA, X = x 1 x 2 x n với x k ∈ {A,U, G,C}, n là chiều dài của chuỗi Vị trí i, j

Output: Năng lượng tự do 4G_Hair pin

Hàm 4G_H(x,i,j) không chấp nhận các vòng kẹp tóc có chiều dài ngắn hơn 3 Năng lượng tự do của các vòng kẹp tóc có kích thước từ 3 trở lên được xác định bởi bốn đại lượng: 4G1, 4G2, 4G3 và 4G4.

- 4G 1 tương ứng với bổ sung liên quan đến chiều dài kẹp tóc;

- Đối với kẹp tóc có kích thước 3,4G 2 chứa giá trị của hàmNon_GC_penalty(x i ;xj);

- Nếu kẹp tóc có kích thước 3 hoặc 4 và một phần công thêm cho nó được lập bảng (4G_Hair pin_3hoặc4G_Hair pin_4),4G3có phần cộng thêm này này;

Kẹp tóc GGG và kẹp tóc Poly_C là những trường hợp đặc biệt trong ngành công nghiệp làm tóc Đặc biệt, kẹp tóc Poly_C có giá trị được xác định dựa trên chiều dài của nó, mang lại hiệu quả tối ưu cho người sử dụng.

2.3.4 Tính toán năng lượng tự do cho vòng lặp trong

Vòng lồi có thể được coi là một trường hợp đặc biệt của vòng lặp trong, với chiều dài của vòng lặp trong được xác định bởi số nucleotide tự do giữa hai cặp nucleotide đóng, ký hiệu là (i,j) và (i 0 , j 0 ) Chiều dài cạnh của vòng lặp được ký hiệu là l 1 = i 0 − i − 1, trong khi chiều dài cạnh kia là l 2 = j − j 0 − 1 Từ đó, chiều dài tổng của vòng lặp được tính bằng l = l 1 + l 2.

Nếu l1 khác l2, vòng lặp trong được coi là không đối xứng Nghiên cứu đã chỉ ra rằng các vòng bên trong không đối xứng có độ ổn định kém hơn so với các vòng đối xứng Hàm 4G_Asymmetry(l1, l2) được sử dụng để chỉ ra lỗi này.

Thuật toán 2.2 Tính toán năng lượng tự do của vòng lặp trong (Internal-Loop).

Input: một chuỗi RNA, x = x 1 x 2 x n với x k ∈ {A,U, G,C}, n là chiều dài của chuỗi Các vị trí i, j, i 0 , j 0

Output: Năng lượng tự do 4G_Internal

9 4G_Internal = 4G_Internal + Non_GC_Penalty(x i , x j ) + Non_GC_Penalty(x i 0 , x j 0 );

20 if (((l 1 = 1 or l 2 = 1)) and (Gail_Rule = 1)):

Thuật toán 2.2 hiển thị tính toán cho hàm 4G-I(x,i,j,i 0 ,j 0 ), cho năng tượng tự do của một vòng lặp trong hoặc vòng lồi được đóng bởi các cặp bazơ (x i ,xj) và (x i 0,x j 0 ).

Nếu phần lồi ra có kích thước bằng 1, nó được coi là một vòng xếp chồng Khi kích thước lớn hơn 1, chỉ các Non_GC_Penalty cho cả hai cặp mới được thêm vào, và hàm chiều dài của phần lồi được bổ sung, kết thúc trường hợp lồi Đối với vòng lặp trong kích thước đặc biệt (2, 3 hoặc 4), năng lượng tự do tương ứng được xác định bởi một hàm đã được lập bảng Trong trường hợp các vòng lặp trong khác, bốn đại lượng G1, G2, G3 và G4 sẽ được thêm vào.

- 4G 1 là hình thức bổ sung phụ thuộc vào độ dài;

- 4G 2 và4G 3 là các điểm không khớp đầu cuối tương ứng với mỗi một trong hai cặp nucleotide đóng.

- 4G 4 là hình thức bổ sung cho trường hợp không đối xứng, được tính như mô tả ở trên.

2.3.5 Tính năng lượng tự do cho vòng nhiều nhánh

Xét một vòng nhiều nhánh với k+1 nhánh, các cặp nucleotide đóng của chúng được biểu diễn là (x_i; x_j), (x_{i1}; x_{j1}), , (x_{ik}; x_{jk}) Năng lượng của vòng nhiều nhánh được tính theo công thức cụ thể.

2.3.6 Tính toán năng lượng tự do cho cấu trúc nhiều miền Đối với cấu trúc nhiều miền, năng lượng nucleotide lơ lửng được xem xét 2.12. Công thức sau đây cho thấy sự đóng góp của các nucleotide lơ lửng cho k miền, trong đó (x i 1 x j 1 ), ,(x i k x j k )là các cặp nucleotide đóng của mỗi miền Các nucleotide lơ lửng nằm giữa các miền được tính toán theo cách tương tự với đa vòng Nếu miền gần nhất với đầuncó một nucleotide lơ lửng, thì phần đóng góp của nó sẽ được thêm vào. Phép cộng tương tự được thực hiện nếu miền gần nhất với đầu 1 có một nucleotide lơ lửng.

Hình 2.12: Các bazơ lơ lững giữa các miền.

Năng lượng của cấu trúc nhiều miền đươc tính bằng công thức sau:

Khi tính toán năng lượng lơ lửng của chuỗi nucleotide, nếu x_i1 là nucleotide đầu tiên, giá trị 4G_External_n(x_j1, x_i1, x_i1-1) sẽ được thay bằng 0 Tương tự, nếu x_jk là nucleotide cuối cùng, giá trị 4G_External_1(x_jk, x_i_k, x_jk+1) cũng sẽ được thay bằng 0 Để tính năng lượng tự do của chuỗi S với cấu trúc bậc hai R, ta thực hiện phép cộng đơn giản các năng lượng tự do của tất cả các cấu trúc thành phần.

Các phương pháp đề xuất

Cấu trúc bậc hai của chuỗi RNA có sự đa dạng lớn, với số lượng tổ hợp kết nối có thể lên đến n! Do đó, thuật toán di truyền được xem là giải pháp hiệu quả để giải quyết bài toán tối thiểu hóa năng lượng tự do (MFE) của RNA, được biểu diễn bằng công thức y MFE = arg min y∈Y 4G(x,y).

- xlà chuỗi RNA cónphần tử (cấu trúc bậc 1);

- ylà cấu trúc bậc hai, thể hiện bởi các ký hiệu ‘(’, ‘)’, và ‘.’

- Nếu y = (( )) ((( ))) , thì cấu trúc bậc hai thể hiện tại hình 2.13:

- Nếu y = (( ))(( )) (( )) , thì cấu trúc bậc hai thể hiện tại hình 2.14:

Bài toán đặt ra là chọn tổ hợp biểu diễn cấu trúc bậc hai y có năng lượng tốt nhất từ nhiều tổ hợp khả thi Thuật toán di truyền là giải pháp phù hợp cho vấn đề này.

Giải thuật di truyền được tôi áp dụng như sau:

Thuật toán 2.3 Mã giả của Thuật toán GA cho bài toán tìm cấu trúc RNA:

Input: một chuỗi RNA, X = x 1 x 2 x n với x i ∈ {A,U, G,C}, n là chiều dài của chuỗi;

- y MFE = y 1 y 2 y n với y i ∈ { (, ), } sao cho ( ) là "dấu ngoặc đúng",

Bước 1: Tạo tập các cặp bazơ;

Bước 2: Tạo tập các helix;

Bước 3: Khởi tạo quần thể ngẫu nhiên;

Bước 4: Đánh giá, nếu đủ tốt thì đến Bước 9;

Bước 9: Output y MFE và 4G MFE ;

Các bước của thuật toán được trình bày cụ thể dưới đây:

Bước 1: Tạo tập các cặp bazơ

Theo Định nghĩa 1.2 tại mục 1.3.2, trong cấu trúc bậc hai RNA, các cặp có thể có là (C,G), (A,U), và (G,U) Để kiểm tra tính hợp lệ của các cặp tại các vị trí i và j, tôi thực hiện kiểm tra trên phân tử x_i và x_j Thuật toán đơn giản chỉ sử dụng hai vòng lặp để xác định điều kiện này, và những cặp (x_i, x_j) thỏa mãn sẽ được đưa vào tập S Base_Pair.

Thuật toán 2.4 Mã giả tạo tập các cặp bazơ

- Cấu trúc bậc 1 của chuối RNA, với chiều dài là n, trong đó các phần tử chỉ có các bazơ: Adenine (A), Cytosine (C), Guanine (G) và

- Tập tất cả các cặp bazơ chính tắc (đã trình bày trong1.3.1) có thể có.

Số lượng tối đa có thể có của các cặp bazơ này là: n/2

Không phải tất cả các cặp bazơ đều là cặp chính tắc, do đó số lượng phần tử của S Base_Pair có thể ít hơn số lượng tối đa có thể có, như được thể hiện trong dòng 4 của thuật toán 2.4.

Bước 2: Tạo các helix cho từng cặp (x i ,xj)∈S Base_Pair đã được kiểm tra ở Bước 1 Để tìm các helix h, ta tiến hành chạy chỉ số i tiến tới và j lùi lại cho đến khi không còn tìm thấy (x i ,xj)∈/S Base_Pair hoặc khi i≥j Kết quả tìm được sẽ được đưa vào tập các Helix H.

Thuật toán 2.5 Mã giã của thuật toán sinh Helix

- một chuỗi RNA, X = x 1 x 2 x n với x i ∈ {A,U, G,C}, n là chiều dài của chuỗi;

8 if not (i, j) in S Base_Pair or i >= j:

- Tập các cặp bazơ được trình bày ở thuật toán 2.4

- Tậphchứa tất cả helix có thể có.

- Một helix (stem/stack) được định rõ bởi ba rằng buộc:

(a) Mỗi helix phải có ít nhất 3 cặp bazơ (nucleotide) chính tắc xếp chồng;

(b) Chuỗi hoặc vòng nối hai sợi của helix phải có chiều dài ít nhất là 3 bazơ;

(c) Mỗi helix không chia sẻ nucleotide với những helix khác.

Hình 2.15: Quá trình tạo helix

Về phương pháp tính toán có thể được giải thích như sau:

Đầu tiên, phát hiện cặp bazơ chính tắc (i, j) trong S Base_Pair và đưa vào h, nơi h đại diện cho một helix có thể có Trong quá trình này, i sẽ chạy từ đầu chuỗi, trong khi j sẽ chạy từ cuối chuỗi.

Tiếp tục kiểm tra cặp (i+1, j−1); nếu cặp này vẫn nằm trong S Base_Pair, hãy đưa cặp đó vào và tiếp tục kiểm tra tương tự Điều này được thể hiện ở dòng 4, 5, 6, 7, 8 của thuật toán (hình 2.15).

Khihcó chiều dài lớn hơn hoặc bằng 3 cặp bazơ liên tiếp nhau thì đưahvào trong tậpH Dòng 10 củathuật toán 2.5thể hiện điều được trình bày ở trên.

Bước 3: Khởi tạo quần thể

Trong phần này tôi trình bày ba phương pháp khởi tạo quần thể ngẫu nhiện Cụ thể được trình bày như sau:

Bước 3.1.Chọn ngẫu nhiên dấu chấm và ngoặc đơn (Dot-Bracket){‘(’, ‘)’, ‘.’}

Thuật toán 2.6.1 Mã giả tạo quần thể ngẫu nhiên

- Plà số cá thể có trong quần thể.

Quần thể ngẫu nhiên Y bao gồm các cấu trúc được chọn ngẫu nhiên từ tập hợp {‘(’, ‘)’, ‘.’} Với phương pháp hoàn toàn ngẫu nhiên này, việc tạo ra một cá thể thỏa mãn cấu trúc bậc hai RNA với mức năng lượng thấp là rất khó Điều này dẫn đến việc tìm kiếm đáp án tối ưu trong quá trình thực hiện thuật toán di truyền (GA) trở nên khó khăn Do đó, tôi đề xuất một phương án mới.

2 và 3, được thể hiện ởBước 3.2vàBước 3.3.

Bước 3.2.Chọn ngẫu nhiên các cặp bazơ có trong tậpS Base_Pair đã tạo ởBước 1.

Thuật toán 2.6.2 Mã giả tạo quần thể ngẫu nhiên, sử dụng tập bazơ đã tạo ở bước 1

Thuật toán 2.6.2được trình bày như sau:

- Tâp các cặp bazơS Base_Pair , đã trình bày trong thuât toán 2.4.

- NORsố lần chọn ngẫu nghiên.

- Quần thể ngẫu nhiên Y gồm các cấu trúc y, với y i ,i ∈ {1 n} được chọn từ trong tập{‘(’, ‘)’, ‘.’}.

Cấu trúc bậc hai bắt đầu với một dãy các ký tự yi =‘.’, với i thuộc tập {1 n} Mỗi lần chọn ngẫu nhiên, một cặp bazơ (i, j) từ tập S Base_Pair sẽ được xác định Nếu vị trí yi =‘.’ và yj =‘.’, thì sẽ thay thế yi bằng ‘(’ và yj bằng ‘)’, như được thể hiện trong các dòng 5, 6, 7, 8 của thuật toán 2.6.2.

Cấu trúcysauNORlần chọn ngẫu nhiên sẽ đưa vào trong quần thểY.

Trong phương án 2, chỉ xem xét các cặp bazơ có khả năng tồn tại mà chưa đánh giá các cặp bazơ tạo thành cấu trúc helix trong bậc hai của RNA Để cải thiện vấn đề này, phương án 3 được đề xuất, như thể hiện ở Bước 3.3.

Bước 3.3.Chọn ngẫu nhiên các helix có trong tậpH đã tạo ởBước 2.

Thuật toán 2.6.3 Mã giả tạo quần thể ngẫu nhiên, sử dụng tập Helix đã tạo ở bước 2

- Tâp các helixH, đã trình bày trongthuât toán 2.5.

- Quần thể ngẫu nhiên Y gồm các cấu trúc y, với y i ,i ∈ {1 n} được chọn từ tập{‘(’, ‘)’, ‘.’}.

Cấu trúc bậc hai được khởi tạo từ một dãy các ký tự i = ‘.’, với i thuộc tập {1 n} Mỗi lần chọn ngẫu nhiên sẽ dẫn đến việc chọn một helix h từ tập H, tương ứng với mỗi vị trí.

(i,j)nằm trongh, nếu vị tríyi=‘.’vàyj=‘.’thì thayyi=‘(’vàyi=‘)’, được thể hiện ở dòng 10,11,12,13 củathuật toán 2.6.3.Cấu trúcysauNORlần chọn ngẫu nhiên sẽ đưa vào trong quần thểY.

Các bước đánh giá, chọn lọc, lai ghép và đột biến hoàn toàn sử dụng thuật toán

GA thuần tuý, cụ thể là:

Thuật toán 2.7 Mã giả thực hiện các toán tử di truyền

Input: Quần thể ngẫu nhiên Y

Output: Một quần thể Y gồm các cá thể đã qua các bước đánh giá, chọn lọc, lai ghép và đột biến

Giả sử: y cha = y cha 1 ,y cha 2 , , y cha n y me = y me 1 , y me 2 , , y me n

Thì ta được 2 con là: y c 1 = y cha 1 , y cha 2 , , y cha k−1 , y me k y me n y c 2 = y me 1 , y me 2 , , y me k−1 ,y chak y chan Đột biến

Thuật toán 2.7:được trình bày như sau

- Quần thể ngẫu nhiênY, đã trình bày trong Bước 3 củathuât toán 2.1.

- Rc tỷ lệ lại ghép.

- Rm tỷ lệ đột biến.

- Quần thể Y gồm các cấu trúc y, với y i ,i ∈ {1 n} được chọn từ tập{‘(’, ‘)’, ‘.’} đã qua các bước đánh giá, chọn lọc, lai ghép và đột biến.

Bước 9: Tính y MFE và 4G MFE

Các giá trị y MFE và4G MFE được tính như sau: y MFE =arg min y∈Y 4G(x,y) (2.12)

Để áp dụng thuật toán di truyền cho dự đoán cấu trúc bậc hai RNA, cần xác định các tham số phù hợp Việc tinh chỉnh các tham số của thuật toán di truyền có thể cải thiện hiệu suất Dưới đây là một số tham số quan trọng và cách điều chỉnh chúng cho bài toán này.

1 Kích thước quần thể (Population size): Đây là số lượng cá thể trong quần thể.

2 Tỷ lệ lai ghép (Crossover Rate): Tỷ lệ lai ghép quy định tỷ lệ gen được trao đổi giữa các cá thể trong quần thể để tạo ra thế hệ mới.

3 Tỷ lệ đột biến (Mutation Rate): Tỷ lệ đột biến xác định tỷ lệ gen trong mỗi thế hệ bị thay đổi ngẫu nhiên.

Các tham số và các toán tử mà tôi sử dụng trong thuật toán GA là:

- Tỷ lệ lai ghép (Rc)

- Tỷ lệ đột biến (Rm)

- Tỷ lệ chọn lọc (Rs)

- Số lần bốc ngẫu nhiên (NOR) Được giải thích trong bảng 2.1 dưới đây:

Bảng 2.1: Tham số và các toán tử cho thuật toán di truyền

Tham số và toán tử Giải thích tham số

G là số thế hệ mà GA sẽ thực thi.

P là tổng số cá thể trong một quần thể.

R c là tỷ lệ xảy ra lai ghép trên một cặp bố mẹ.

R s là tỷ lệ chọn lọc các cá thể trong quần thể.

R m là tỷ lệ đột biến xảy ra trên một thế hệ con nhất định.

NOR Số lần bốc ngẫu nhiên.

2.4.2 Kết hợp thuật toán di truyền với logic mờ

Thuật toán di truyền thuần tuý được áp dụng để tìm cấu trúc bậc hai RNA dựa trên mức năng lượng làm tiêu chí tiến hoá Trong trường hợp một cá thể có các kết nối không phù hợp, mức năng lượng sẽ tăng cao và cá thể đó sẽ bị loại bỏ ngay lập tức, bất chấp các kết nối tốt khác bên trong Để giảm thiểu việc loại bỏ đáng tiếc này, tôi đã áp dụng logic mờ, cho phép mỗi vị trí kết nối có tính linh hoạt Thay vì cố định như trong GA thuần tuý, mỗi vị trí được mờ hoá thông qua hàm thành viên, giúp giảm thiểu khả năng bị loại bỏ cho các cá thể.

Việc áp dụng sự kết hợp giữa thuật toán di truyền và logic mờ để dự đoán cấu trúc bậc hai của RNA có thể nâng cao khả năng phân tích thông tin từ các chuỗi RNA Phương pháp này không chỉ giúp dự đoán chính xác hơn mà còn mang lại sự tối ưu hóa toàn diện và linh hoạt trong quá trình phân tích.

Trong chương này, tôi đã giới thiệu ba phương pháp mới nhằm cải thiện quá trình dự đoán cấu trúc bậc hai của phân tử RNA Các phương pháp bao gồm việc kết hợp thuật toán di truyền với logic mờ, kết hợp thuật toán di truyền với mạng LSTM, và điều chỉnh các tham số của thuật toán di truyền.

Trong nghiên cứu này, tôi đã đề xuất việc áp dụng thuật toán di truyền với phương pháp chọn ngẫu nhiên quần thể và so sánh với các phương pháp dự đoán truyền thống Luận án trình bày ba phương pháp tạo quần thể ngẫu nhiên, được mô tả chi tiết qua các thuật toán 2.4.1, 2.4.2, 2.4.3, cùng với một bộ tham số cho thuật toán di truyền, được thể hiện trong bảng 2.1.

Tôi đã kết hợp thuật toán di truyền với logic mờ để nâng cao độ chính xác của kết quả dự đoán Những đặc điểm liên quan đến hệ thống mờ được tích hợp vào thuật toán di truyền, trong đó tôi sử dụng logic mờ để tạo ra quần thể từ tập mờ Quá trình này được thể hiện qua các thuật toán 2.9.1, 2.9.2, 2.9.3, và logic mờ cũng được áp dụng trong các bước chọn lọc, lai ghép và đột biến.

Cuối cùng, tôi đã phát triển một mô hình kết hợp thuật toán di truyền (GA) với mạng LSTM nhằm nâng cao hiệu suất dự đoán cấu trúc bậc hai RNA Kết quả nghiên cứu cho thấy phương pháp này đạt được độ chính xác cao hơn, khẳng định hiệu quả của việc áp dụng thuật toán GA kết hợp với mạng LSTM trong bài toán dự đoán cấu trúc RNA.

Trong chương này, luận án đã đề xuất các phương pháp kết hợp thuật toán di truyền với các kỹ thuật tính toán mềm để dự đoán cấu trúc bậc hai của RNA Những phương pháp kết hợp này đã cho thấy hiệu suất vượt trội so với các phương pháp truyền thống, đặc biệt là sự kết hợp giữa thuật toán di truyền và mạng LSTM, đạt kết quả tốt nhất Điều này khẳng định hiệu quả và tiềm năng của các kỹ thuật tính toán mềm trong việc giải quyết bài toán dự đoán cấu trúc bậc hai của RNA Kết quả thực nghiệm cho các phương pháp đề xuất sẽ được trình bày chi tiết trong Chương 3.

Các công trình đã công bố liên quan đến nội dung của chương 2 là:

1 Doan Duy Binh, Pham Minh Tuan, Dang Duc Long, Dau Manh Hoan (2020),

"New Approach in Genetic Algorithm for RNA Secondary Structure Prediction",

Journal of Advances in Information Technology, 11 (4), Pages 249-258

2 Doan Duy Binh, Pham Minh Tuan, Dang Duc Long (2020), "Predicting RNA secondary structure based on machine learning and genetic algorithm",ICFNDS’20: The 4th International Conference on Future Networks and Distributed Systems (ICFNDS), 52, Pages 1–12

3 DD Binh, PM Tuan, DD Long (2020), "A NEW METHOD OF RNA SEC-

The article titled "Secondary Structure Prediction Based on Genetic Algorithms and Machine Learning" discusses innovative approaches to predicting protein secondary structures using advanced computational techniques It highlights the integration of genetic algorithms and machine learning methodologies to enhance prediction accuracy Presented at the 13th National Conference on Basic Research and Application of Information Technology, the research emphasizes the significance of these technologies in understanding protein folding and function The findings contribute valuable insights into computational biology and have potential applications in drug design and bioinformatics.

4 ĐD Bình, PM Tuấn, ĐĐ Long, NH Danh (2018), "RNA SECONDARY STRUC- TURE PREDICTION BY A COMBINATION OF GENETIC ALGORITHM WITH FUZZY LOGIC", HỘI NGHỊ KHOA HỌC CÔNG NGHỆ QUỐC GIA LẦN THỨ XI NGHIÊN CỨU CƠ BẢN VÀ ỨNG DỤNG CÔNG NGHỆ THÔNG TIN, 11, 110-119

5 ĐD Bình, PM Tuấn, ĐĐ Long (2017),"CẢI TIẾN THUẬT TOÁN DI TRUYỀN

Tại Hội nghị Khoa học Công nghệ Quốc gia lần thứ X, nghiên cứu về "Dự đoán cấu trúc bậc hai RNA" đã được trình bày, nhấn mạnh tầm quan trọng của công nghệ thông tin trong việc phát triển các ứng dụng khoa học Bài viết trên trang 54-67 cung cấp cái nhìn sâu sắc về phương pháp và ứng dụng của dự đoán cấu trúc RNA, mở ra hướng đi mới trong nghiên cứu cơ bản và ứng dụng thực tiễn.

Áp dụng tính toán mềm cho bài toán dự đoán cấu trúc bậc hai RNA 81 3.1 Cơ sở dữ liệu RNA

Bộ dữ liệu

Tôi đã thực hiện thí nghiệm trên một tập dữ liệu RNA với các chuỗi có độ dài khác nhau Bảng 3.1 trình bày các chuỗi RNA mà tôi đã thử nghiệm bằng các phương pháp đề xuất ở chương 2 Thông tin chi tiết về từng chuỗi sẽ được cung cấp trong các phần tiếp theo của chương này.

Kết quả thực nghiệm

Tôi đã thực hiện thí nghiệm trên bộ dữ liệu với các chuỗi được liệt kê trong bảng 3.1 Kết quả của từng phương pháp tương ứng với từng chuỗi được trình bày trong bảng dưới đây.

Bảng 3.1: Các chuỗi thực nghiệm

STT Tên chuỗi Chiều dài

6 Oryza sativa Japonica Group (Japanese rice) 324 Bases

Bảng 3.2: Kết quả thực nghiệm các phương pháp đề xuất ứng với các chuỗi thực nghiệm

GA kết hợp với logic mờ (FL) 4G

GA với mạng LSTM 4G SARS

Bài viết này trình bày thông tin về Ichthyosporidium sp với chiều dài chuỗi 1352 Nucleotides, nhằm minh họa cho các kỹ thuật đã được đề xuất ở chương 2 Thông tin chi tiết về các mẫu thử khác sẽ được trình bày trong phần phụ lục.

Bảng 3.3: Thông tin chuỗi Ichthyosporidium sp với chiều dài 1352 Nucleotides

Tên chuỗi Thông tin Chuỗi

-Ichthyosporidium sp. small subunit ribosomal RNA

- Product:small subunit ribosomal RNA

CACCAGGUUGAUUCUGCCUGACGUGGAUGCUAGUC UCUAAAGUUAAGCCAUGGAUGUCUAAGCAAAGCGU AAGUCGAGCGGCACAGGCUCAGUAACGGGCGAAUA UUUAAUCUCCUCGAGUGGAUAUCCUCUGUAACCGG AGGGCAAAACACAGGACGUGCAGUUGUAUAAGGAU UGUUCGUUUAACAUUAGUGGGGGAGAGUAAGACGC CAGUCCAUCAGUUAGUAAGUAGGGUAAGGGCCUAC UUAGACGAAUACGGAUACGGGGAAUUAUCGUUUGA UUCCGGAGAGGGAGCCUGAGAGACGGCUACCGGGU CCAAGGACAACAGCAGGCGCGAAAAUUACCGCAGC CUGCAUUCAGGUCGGUAGUAAGGAGACGUGUAAAC GAUGUGCAGGUAAAGAAUGCACUGUAUACAGGAGG ACAAGACUGGUGCCAGCACCCGCUGUAAUACCAGC UCCUGGAGUGUCUAUGAUGAUUGCUGCAGUUAAAG CGUUCGUAGUCGAACCGGGUUGAAUUGCGUGACAG UCAGACUCUCAAGGUGUGAUGAGCGCUGUGAUUCU GGGGAAUAAGGAGUGUUUAGGGGCCAGGGUAUUAA ACGGCAAGCGGUGAAAUGUGUUGACCCGUUUAUGG AGCGACAGAGGCGAAAGGCUGGCCAGGGGCAAAUC CGAUGAUAAAGGACGUAGGCUAGAGGAUCGAAGAC GAUUAGAGACCGUUGUAGUUCUAGCAGUAAACAAU GCCGAUGUUGUGGUGCCGUAACGGACGCAAAAGAG AAAUCUAGUAGGGCCCUGGGGAGAGUACACGCGCA ACAGGAAAUUUAAAGGAAAUUGACGGAAGAACACC ACAAGGAGUGGAGUGUGCGGCUUAAUUUGACUCAA CGCGGGACACCUUACCGGGCCCACGGCCACACGAG UGUGACACACGAUAGCCGAGGAGUGGUGCAUGGCC CGUUAACGACAAGUGAGUGAUCUUUGGGUUAAGUC CGUAAAUUAGUGAGACCCCAGCAAAGGACAGGUGC GCAAAGCACAGGAAGGAUGGGUCAAGGACAGGUCA GUGAUGCCCUUAGAUGGUCCGGGCUGCACGCGCAC UACAGUGGUCGCCGAAAUUUAGAUAUAGAGCUAAA GGCGAUCGAGAGGGAAUGAGCUUUGGAAGAGGCUC AGGAACGUGGAAUUGCUAGUAAUCGCGGACUCAUU AAGACGCGAUGAAUACGUCCCUGUUCUUUGUACAC ACCGCCCGUCGUUAUCGAAUACGGUGCUCGGCGCG AGCAAGGUGAAAUCACUGAGCGAGCGCAAGGUACC GGAUCUGAUACAAGUCGUAACAAGGUAGCUGUAGG AGAACCAUUAGCAGGAUCAUAA.

Thuật toán di truyền

3.4.1 Khởi tạo các tham số cho thuật toán di truyền

Khởi tạo tham số cho thuật toán di truyền là bước quan trọng trong việc dự đoán cấu trúc bậc hai RNA Để thực hiện điều này, cần xác định các thông số cần thiết cho thuật toán.

- Số thế hệ (number of generations)-G: Đây là số lượng thế hệ mà thuật toán sẽ tiến hành tối ưu hóa.

- Kích thước quần thể (population size)-P: Đây là số lượng cá thể trong quần thể.

- Xác suất lai ghép (crossover probability)-Pc: Đây là xác suất mà hai cá thể trong quần thể sẽ được ghép lại để tạo ra một cá thể mới.

- Xác suất đột biến (mutation probability)-Pm: Đây là xác suất mà một cá thể trong quần thể sẽ bị đột biến để tạo ra một cá thể mới.

Tỷ lệ chọn lọc (selection rate) - Rs là tỷ lệ phần trăm cá thể trong quần thể được lựa chọn để tham gia vào quá trình lai ghép và đột biến trong mỗi vòng lặp.

The number of random selections, referred to as NOR, indicates the quantity utilized by genetic algorithms to generate a random population through a random function.

Giá trị khởi tạo cho các tham số cụ thể được thể hiện quả bảng 3.4 dưới đây.

Bảng 3.4: Giá trị các tham số cho thuật toán di truyền áp dụng cho bài toán dự đoán cấu trúc bậc hai RNA

Số thế hệ (G) Kích thước quần thể (P)

Số lần bốc ngẫu nhiên (NOR)

Sau khi thiết lập các tham số cho thuật toán di truyền, tôi đã tiến hành thí nghiệm trên bộ dữ liệu như được mô tả trong bảng 3.3 Kết quả của các thí nghiệm này được trình bày chi tiết trong bảng 3.5.

Bảng 3.5: Năng lượng và cấu trúc của chuỗi chuỗi Ichthyosporidium sp với chiều dài 1352 nucleotides

Năng lương Cấu trúc (thể hiện bằng các cặp ngoặc (, ) và dấu )

2 Cấu trúc được thể hiện như sau (Hình 3.1):

Hình 3.1: Cấu trúc của chuỗi Ichthyosporidium sp với chiều dài 1352 nucleotides khi áp dụng thuật toán GA vợi bộ tham số cho trong bảng 3.4

Quy hoạch động (DPA) được ứng dụng trong việc dự đoán cấu trúc bậc hai của RNA, đặc biệt thông qua phần mềm mfold Phần mềm này sử dụng mô hình nhiệt động học để đánh giá năng lượng tự do của cấu trúc RNA Năng lượng được tính toán dựa trên các thành phần đã được trình bày ở phần trước.

Khi áp dụng GA với bộ tham số đề xuất và mô hình nhiệt động học trên bộ dữ liệu đã chọn, kết quả cho thấy thuật toán di truyền mang lại hiệu quả năng lượng tốt hơn so với DPA sử dụng cùng mô hình và bộ dữ liệu Điều này được thể hiện rõ trong bảng 3.6 dưới đây.

Bảng 3.6: Năng lượng và cấu trúc của chuỗi Ichthyosporidium sp với chiều dài 1352 nucleotides

Thuật toán quy hoạch động

Thuật toán di truyền Năng lương Cấu trúc Năng lượng Cấu trúc

2 Cấu trúc được thể hiện như sau (Hình 3.2, Hình 3.3):

Hình 3.2: Cấu trúc của chuỗi Ichthyosporidium sp với chiều dài 1352 Nucleotides với thuật toán quy hoạch động

Hình 3.3: Cấu trúc của chuỗi Ichthyosporidium sp với chiều dài 1352 Nucleotides với thuật toán di truyền vợi bộ tham số cho trong bảng 3.4

Kết hợp thuật toán di truyền với logic mờ

3.5.1 Khởi tạo các tham số cho thuật toán di truyền kết hợp với logic mờ

Bên cạnh các tham số trong thuật toán di truyền được trình bày trong bảng 3.4, tôi đã bổ sung tham số ε, đại diện cho biên độ trong hàm thành viên à(i) Tham số này được thể hiện trong công thức (2.14), như đã nhắc lại.

0nếuk+ε 6i trong đókvị trí ngẫu nhiên trong chuỗi RNA.

Giá trị khởi tạo cho các tham số cụ thể được thể hiện quả bảng 3.7 dưới đây.

Bảng 3.7: Giá trị các tham số cho thuật toán di truyền kết hợp với logic mờ áp dụng cho bài toán dự đoán cấu trúc bậc hai RNA

Kết hợp thuật toán di truyền với logic mờ đã cho phép dự đoán cấu trúc bậc hai RNA với độ chính xác cao hơn so với chỉ sử dụng thuật toán di truyền dựa trên năng lượng Thực nghiệm được thực hiện trên tập dữ liệu RNA với các chuỗi có độ dài khác nhau, và kết quả được minh họa cụ thể qua bộ dữ liệu trong bảng 3.3, trong khi các mẫu thử khác được trình bày ở phần phụ lục.

Dưới đây cấu trúc và năng lượng khi áp dụng kỹ thuật kết hợp thuật toán di truyền với logic mờ.

Bảng 3.8: Năng lượng và cấu trúc của chuỗi Ichthyosporidium sp với chiều dài 1352 Nucleotides

2 Cấu trúc được thể hiện như sau (Hình 3.4):

Hình 3.4: Cấu trúc của chuỗi Ichthyosporidium sp với chiều dài 1352 Nucleotides với thuật toán GA có kết hợp logic mờ

Khi áp dụng GA với mô hình nhiệt động học chuẩn trên bộ dữ liệu đã đề xuất, so với thuật toán di truyền kết hợp logic mờ, kết quả cho thấy rằng thuật toán di truyền kết hợp logic mờ mang lại hiệu quả năng lượng tốt hơn Điều này được thể hiện rõ trong bảng 3.9.

Thuật toán di truyền kết hợp logi mờ Năng lương Cấu trúc Năng lượng Cấu trúc

Phương pháp kết hợp thuật toán di truyền với mạng LSTM

3.6.1 Mô hình kết hợp GA với LSTM

Mô hình đã được giới thiệu trong chương 2 tại hình 2.18, xin được giới thiệu lại cho tiện theo dõi.

Sơ đồ kết hợp GA và LSTM cho bài toán dự đoán cấu trúc bậc hai RNA.

Sơ đồ khung dự đoán cấu trúc bậc hai RNA theo mô hình kết hợp GA và LSTM, được mô tả như sau:

- Hộp đường chấm chấm biểu thị các mô-đun và hộp đường liền nét biểu thị các bước vận hành và xử lý dữ liệu.

- Training module: Là quá trình huấn luyện.

- Test module : Là quá trình kiểm tra. trong đó

- Xi một chuỗi RNA trong tập chuỗi RNA Xi =x 1 x 2 x n với xj ∈ {A,U,G,C}, j ∈{1 n}vànchiều dài chuỗi RNA.

- Pj bộ tham số được thể hiện trong bảng 3.4.

- 4G i j vàyi j là giá đầu ra của thuật toán GA, tức là:y MFE i j và4G MFE i j

- Loss Functionđược định nghĩa như sau:L(X i ,Pj) =4G i j

Sau thời gian huấn luyện 2 tuần, với 80%số mẫu được huấn luyện, bộ tham số sinh ra sau quá trình huấn luyện được thể hiện ở bảng 3.10

Bảng 3.10: Bộ tham số Q có được sau quá trình huấn luyện

Tôi đã sử dụng kỹ thuật kết hợp mạng LSTM với thuật toán di truyền để dự đoán cấu trúc bậc hai của RNA Phương pháp này được áp dụng cho các chuỗi RNA có độ dài khác nhau và kết quả được so sánh với các kỹ thuật khác.

Kết quả thực nghiệm cho thấy rằng việc kết hợp mạng LSTM với thuật toán di truyền mang lại độ chính xác cao hơn trong việc dự đoán cấu trúc bậc hai RNA, đặc biệt là đối với các chuỗi RNA dài, so với các phương pháp dự đoán khác đã được thảo luận trong luận án.

Tôi đã áp dụng mô hình mạng LSTM với 2 lớp ẩn, được huấn luyện trên máy tính với bộ vi xử lý Intel Core i5 và RAM 8GB Để minh họa cho kỹ thuật này, tôi sử dụng một mẫu thử từ bảng 3.3 và bộ tham số Q được trình bày trong bảng 3.10, trong khi các mẫu thử khác được cung cấp trong phần phụ lục Dưới đây là cấu trúc và năng lượng của kỹ thuật kết hợp mạng LSTM với thuật toán di truyền.

Bảng 3.11: Năng lượng và cấu trúc của chuỗi SARS-CoV-2 - 88 Nucleotides

2 Cấu trúc khi áp dụng thuật toán di truyền kết hợp với học LSTM (Hình 3.5):

Hình 3.5: Cấu trúc của chuỗi SARS-CoV-2 - 88 Nucleotides khi áp dụng mô hình GA-LSTM

Khi áp dụng GA với mô hình nhiệt động học chuẩn và bộ dữ liệu đề xuất, so sánh với thuật toán di truyền kết hợp logic mờ và thuật toán di truyền kết hợp mạng LSTM, kết quả cho thấy thuật toán di truyền kết hợp với mạng LSTM mang lại hiệu quả tốt hơn về mặt năng lượng Điều này được thể hiện rõ trong bảng 3.12.

Thuật toán di truyền kết hợp logi mờ

Thuật toán di truyền kết hợp mang LSTM Năng lương Cấu trúc Năng lượng Cấu trúc Năng lượng Cấu trúc

Chương này trình bày về cơ sở dữ liệu RNA, mô hình năng lượng tự do, và các phương pháp tính toán năng lượng, bao gồm các thuật toán cho từng thành phần trong cấu trúc bậc hai của RNA Luận án cũng đề cập đến bài toán dự đoán cấu trúc bậc hai của phân tử RNA và các phương pháp hiện có để giải quyết vấn đề này.

Tôi đã nghiên cứu về lợi ích của tính toán mềm trong bài toán dự đoán cấu trúc bậc hai RNA và áp dụng các phương pháp kết hợp để nâng cao độ chính xác Trong quá trình thực nghiệm, tôi đã thử nghiệm các phương pháp như điều chỉnh tham số của thuật toán di truyền, kết hợp thuật toán di truyền với logic mờ và LSTM Kết quả cho thấy rằng những phương pháp này đã cải thiện đáng kể độ chính xác so với các phương pháp truyền thống.

Kết quả thực nghiệm cho thấy tính toán mềm rất hữu ích trong dự đoán cấu trúc bậc hai của RNA Sự kết hợp các phương pháp tính toán mềm có thể nâng cao độ chính xác của dự đoán Tuy nhiên, việc tìm ra các phương pháp kết hợp tối ưu vẫn là thách thức trong tương lai.

Các công trình đã công bố liên quan đến nội dung của chương 3 là:

2 Doan Duy Binh, Pham Minh Tuan, Dang Duc Long (2020), "Predicting RNA secondary structure based on machine learning and genetic algorithm",ICFNDS’20:The 4th International Conference on Future Networks and Distributed Systems(ICFNDS), 52, Pages 1–12

3 DD Binh, PM Tuan, DD Long (2020), "A NEW METHOD OF RNA SEC- ONDARY STRUCTURE PREDICTION BASED ON GENETICS ALGORITHMS AND MACHINE LEARNING",HỘI NGHỊ KHOA HỌC CÔNG NGHỆ QUỐC GIA LẦN THỨ XIII NGHIÊN CỨU CƠ BẢN VÀ ỨNG DỤNG CÔNG NGHỆ THÔNG TIN, 13, Trang 1-10

4 ĐD Bình, PM Tuấn, ĐĐ Long, NH Danh (2018), "RNA SECONDARY STRUC- TURE PREDICTION BY A COMBINATION OF GENETIC ALGORITHM WITH FUZZY LOGIC", HỘI NGHỊ KHOA HỌC CÔNG NGHỆ QUỐC GIA LẦN THỨ XI NGHIÊN CỨU CƠ BẢN VÀ ỨNG DỤNG CÔNG NGHỆ THÔNG TIN, 11, 110-119

5 ĐD Bình, PM Tuấn, ĐĐ Long (2017),"CẢI TIẾN THUẬT TOÁN DI TRUYỀN

Hội nghị khoa học công nghệ quốc gia lần thứ X đã tập trung vào nghiên cứu cơ bản và ứng dụng công nghệ thông tin, với một trong những chủ đề nổi bật là "Dự đoán cấu trúc bậc hai RNA" Bài viết trình bày các phương pháp và ứng dụng trong việc dự đoán cấu trúc RNA, nhấn mạnh tầm quan trọng của công nghệ thông tin trong nghiên cứu sinh học Các kết quả nghiên cứu được trình bày trong trang 54-67, góp phần nâng cao hiểu biết về cấu trúc và chức năng của RNA trong các quá trình sinh học.

6 ĐD Bình (2016), "ĐÁNH GIÁ VÀ SO SÁNH CÁC GIẢI THUẬT BIỂU DIỄNCẤU TRÚC BẬC HAI CỦA RNA", Hue University Journal of Science (HUJOS), 121 (7-A), trang 5-18

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Luận án "Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm" đóng vai trò quan trọng trong tin sinh học, đặc biệt trong việc dự đoán cấu trúc bậc hai của các phân tử sinh học Nghiên cứu đã đạt được nhiều kết quả đáng kể theo các mục tiêu ban đầu đã đề ra.

Bài viết tổng hợp và phân tích các phương pháp dự đoán cấu trúc bậc hai của phân tử sinh học, đồng thời đánh giá và phân loại chúng Qua đó, nêu rõ ưu điểm và khuyết điểm của từng phương pháp hiện tại Những phân tích này sẽ là cơ sở để luận án đề xuất các phương pháp dự đoán cấu trúc bậc hai mới cho phân tử sinh học.

- Đề xuất một bộ dữ liệu cho thuật toán di truyền.

- Đề xuất phương pháp kết hợp thuật toán di truyền với logic mờ.

- Đề xuất kết hợp thuật toán di truyền với LSTM.

Mỗi phương pháp dự đoán cấu trúc bậc hai của phân tử sinh học đều có ưu điểm và hạn chế riêng Nghiên cứu đã chỉ ra rằng việc kết hợp nhiều kỹ thuật tính toán mềm mang lại hiệu quả tốt hơn trong việc dự đoán cấu trúc này Sự kết hợp này được xem là một hướng tiếp cận hữu ích trong lĩnh vực nghiên cứu sinh học.

Nghiên cứu này mở ra hướng đi mới cho việc áp dụng các phương pháp học sâu như mạng neural tích chập (CNN) và mạng neural chuyển đổi (Transformer) trong dự đoán cấu trúc bậc hai của phân tử sinh học Để nâng cao độ chính xác trong dự đoán cấu trúc bậc hai của RNA, NCS đề xuất các hướng phát triển tiềm năng trong tương lai.

1 Mở rộng phạm vi nghiên cứu để áp dụng phương pháp dự đoán cấu trúc bậc hai cho các loại phân tử sinh học khác nhau, bao gồm protein, peptide, lipid, và các phân tử có tính chất đa dạng khác.

2 Kết hợp các phương pháp học máy và học tăng cường để cung cấp một cách tiếp cận mạnh mẽ hơn trong tính toán mềm.

3 Nghiên cứu và phát triển các phương pháp xử lý dữ liệu lớn, kỹ thuật học sâu và cách tích hợp chúng để nâng cao hiệu suất và độ chính xác.

4 Hiện nay, các phương pháp tính toán mềm chủ yếu tập trung vào dự đoán cấu trúc tĩnh Tuy nhiên, tính động của cấu trúc bậc hai cũng rất quan trọng trong các quá trình sinh học Do đó, hướng phát triển tiếp theo là phát triển phương pháp tính toán mô phỏng động để mô phỏng sự thay đổi và biến đổi cấu trúc bậc hai theo thời gian thực.

Với những định hướng phát triển này, tôi kỳ vọng sẽ nâng cao độ chính xác trong việc dự đoán cấu trúc bậc hai của phân tử RNA, đồng thời áp dụng những cải tiến này vào các bài toán liên quan trong tương lai.

CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN ĐẾN LUẬN ÁN

SARS-CoV-2 - 88 Bases

Bảng 13: Thông tin chuỗi SARS-CoV-2 - 88 Bases

Organism:Severe acute respiratory syndrome coronavirus 2

- Isolate:SARS-CoV-2 /humans:female, 24-year-old COVID-19 pneumonia /CHN/LA-19/2020

Bảng 14: Năng lượng và cấu trúc của chuỗi SARS-CoV-2 - 88 Bases

Thuật toán quy hoạch động Thuật toán di truyền

Năng lương Cấu trúc Năng lượng Cấu trúc

Cấu trúc được thể hiện như sau (Hình 6, Hình 7):

Hình 6: Cấu trúc của chuỗi SARS-CoV-2 - 88 Bases với thuật toán quy hoạch động

Hình 7: Cấu trúc của chuỗi SARS-CoV-2 - 88 Bases với thuật toán di truyền

3 Kết hợp thuật toán di truyền với logic mờ

Thuật toán quy di truyền Thuật toán di truyền kết hợp với logic mờ Năng lương Cấu trúc Năng lượng Cấu trúc

Cấu trúc được thể hiện như sau (Hình 8):

Hình 8: Cấu trúc của chuỗi SARS-CoV-2 - 88 Bases với thuật toán GA có kết hợp logic mờ

4 Phương pháp kết hợp thuật toán di truyền với mạng LSTM

Thuật toán di truyền kết hợp với logic mờ

Thuật toán di truyền kết hợp với LSTM Năng lương Cấu trúc Năng lượng Cấu trúc

Hình 9: Cấu trúc của chuỗi SARS-CoV-2 - 88 Bases với thuật toán GA có kết hợp LSTM

Virus E.Coli với chiều dài 221 nucleotides

Bảng 17: Thông tin chuỗi E.Coli 221 nucleotides

- Lib Name: LIBEST_027994 Immune responses of Coptotermes formosanus.

Shiraki workers against Escherichia coli

ACAUGGGGAUAAGGGCAGGCGGUGA AUGCCUUGGCUCUCGGAGGCGAAGA AGGACGUGAUAAGCUGCGAUAAGCC CGGCGUAGGCGCAAAUAGCCGUUAA UACCGGGGUUUCCGAAUGGGGCAAC CCGCCGGGAGUAAUUCCGGCAUCUC UUGAAAGAGGGAGGCGAACGUGGGG AACUGAAACAUCUCAGUACCUGCAG GAAAAAAAAAAAAAAAAAAAA

Bảng 18: Năng lượng và cấu trúc của chuỗi Virus E.Coli với chiều dài 221 nucleotides

Hình 10: Cấu trúc của chuỗi E.Coli với chiều dài 221 nucleotides với thuật toán quy hoạch động

Hình 11: Cấu trúc của chuỗi E.Coli với chiều dài 221 nucleotides với thuật toán di truyền

Thuật toán di truyền Thuật toán di truyền kết hợp với Logic mờ Năng lương Cấu trúc Năng lượng Cấu trúc

Cấu trúc được thể hiện như sau ()Hình 12):

Hình 12: Cấu trúc của chuỗi E.Coli có chiều dài 221 nucleotides áp dụng thuật toán di truyền kết hợp với Logic mờ

Thuật toán di truyền kết hợp với Logic mờ

Cấu trúc được thể hiện như sau ()Hình 13):

Virus Bmori với chiều dài 498 nucleotides

Hình 13: Cấu trúc của chuỗi E.Coli có chiều dài 221 nucleotides áp dụng thuật toán di truyền kết hợp với LSTM

Hình 14: Cấu trúc của chuỗi Bmori 498 nucleotides với quy hoạch động

Bảng 21: Thông tin chuỗi Virus Bmori với chiều dài 498 nucleotides

- Develop stage: 4th and 5th instar larvae

CAGAUCAUCAAGAACGACAUCGGAGUG CUGAUCACCUCCUCGCCUGUGGUGUUC ACCAACCUCGUCCAACCCAUCACUGUC UCGUAUGACUACGCCGGUGCUGGAAUC CAGUCCAGAGCCGCUGGUUGGGGCAGA AUCAGGGCUGGCGGUCCCAUCUCCGCU CAGCUCCUCGAGUUGACCGUGACCACC AUCUCCGGCGAUCAGUGCGUGCGUGGC GUGGCCCAGGCCUCCGUCGACUUCAAC GUCGCCGCCCCACCGGUGGAACCCCAC AUCGAACUCUGCAUCAUCCACUCGCCG AACCACGGCAUGUGUAACGGUGACUCC GGCAGCGCUCUAGUCCGCCUGGACCGC GGCACCCAGAUCGGAAUCGUGUCAUGG GGCUUCCCCUGCGCCCGCGGCGCUCCC GAUAUGUUCGUCCGAGUCAGCGCCUUC CAAGACUGGGUCGCCCGCCACUUCGUU GCUUGAAUAAAUGACUUGAUAUGAUCG UAAAAAAAAAAA

Bảng 22: Năng lượng và cấu trúc của chuỗi Virus Bmori với chiều dài 498 nucleotides

Hình 15: Cấu trúc của chuỗi Bmori với chiều dài 498 nucleotides với thuật toán di truyền Bảng 23: Năng lượng và cấu trúc của chuỗi Virus Bmori với chiều dài 498 nucleotides

Thuật toán di truyền Thuật toán di truyền kết hợp với Logic mờ Năng lương Cấu trúc Năng lượng Cấu trúc

Hình 16: Cấu trúc của chuỗi Bmori với chiều dài 498 nucleotides với thuật toán di truyền kết hợp với logic mờ

Bảng 24: Năng lượng và cấu trúc của chuỗi Virus Bmori với chiều dài 498 nucleotides

Schizosaccharomyces pombe với chiều dài 119 nucleotides

Hình 17: Cấu trúc của chuỗi Bmori với chiều dài 498 nucleotides với thuật toán di truyền kết hợp với LSTM

Bảng 25: Thông tin chuỗi Schizosaccharomyces pombe với chiều dài 119 nucleotides

-Schizosaccharomyces pombe chromosome II, complete replicon

GUCUACGGCCAUACCUAGGCGAA AACACCAGUUCCCGUCCGAUCAC UGCAGUUAAGCGUCUGAGGGCCU CGUUAGUACUAUGGUUGGAGACA ACAUGGGAAUCCGGGGUUUUGUA GGUU

Bảng 26: Năng lượng và cấu trúc của chuỗi Schizosaccharomyces pombe với chiều dài 119 nucleotides

Hình 18: Cấu trúc của chuỗi Schizosaccharomyces pombe với chiều dài 119 nucleotides với thuật toán quy hoạch động

Hình 19: Cấu trúc của chuỗi Schizosaccharomyces pombe với chiều dài 119 nucleotides với thuật toán GA

Thuật toán quy di truyền Thuật toán di truyền kết hợp với logic mờ Năng lương Cấu trúc Năng lượng Cấu trúc

Hình 20: Cấu trúc của chuỗi Schizosaccharomyces pombe với chiều dài 119 nucleotides với thuật toán GA kết hợp với logic mờ

Thuật toán quy di truyền kết hợp với logic mờ

Hình 21: Cấu trúc của chuỗi Schizosaccharomyces pombe với chiều dài 119 nucleotides với thuật toán GA kết hợp với LSTM

Oryza sativa Japonica Group (Japanese rice) với chiều dài 324 nucleotides xv 1 Thông tin chuỗi (Bảng 29 )

Bảng 29: Thông tin chuỗi Oryza sativa Japonica Group (Japanese rice) với chiều dài 324 nucleotides

- Organism:Oryza sativa Japonica Group (Japanese rice)

- Specimen Voucher:G.C He, College of

Life Sciences, Wuhan University, China

GGAUGCGAUCAUACCAGCACUAAAGCACCGGAUCCCAUCAGAACUCCGAAGUUAAGCGUGCUUGGGCGAGAGUAGUACUAGGAUGGGUGACCUCCUGGGAAGUCCUCGUGUUGCAUCCCUCCUUUUUGUCUCUCUCUCCCCCCUUUUGACUCGCGCCGCUGCGUCCAUCGUGUUGUGUCGCCCCUUGGGCGGCGAAGCUGGGGAGAAUCGGAUGUAACAUUUUCUGUAGAUGUCCGUGGAUAUAUCAUUUGCCUGAUUCCGAGUCCGUAUGAGAAAGUUACGCCUAUUUUAAGAAAUGACACCCGAAUGACGCCAAGGCAUGUC

Bảng 30: Năng lượng và cấu trúc của chuỗi Oryza sativa Japonica Group (Japanese rice) với chiều dài 324 nucleotides

Hình 22: Cấu trúc của chuỗi Oryza sativa Japonica Group (Japanese rice) với chiều dài 324 nucleotides với thuật toán quy hoạch động

Hình 23: Cấu trúc của chuỗi Oryza sativa Japonica Group (Japanese rice) với chiều dài 324 nucleotides với thuật toán GA

Thuật toán di truyền Thuật toán di truyền kết hợp với logic mờ Năng lương Cấu trúc Năng lượng Cấu trúc

Hình 24: Cấu trúc của chuỗi Oryza sativa Japonica Group (Japanese rice) với chiều dài 324 nucleotides với thuật toán GA kết hợp với logic mờ

Mycoplasma capricolum với chiều dài 865 nucleotides

Hình 25: Cấu trúc của chuỗi Oryza sativa Japonica Group (Japanese rice) với chiều dài 324 nucleotides với thuật toán GA kết hợp với LSTM

Cấu trúc được thể hiện như sau (Hình 26 và Hình 27):

Bảng 33: Thông tin chuỗi Mycoplasma capricolum với chiều dài 865 nucleotides

Organism:Mycoplasma capricolum subsp. capricolum

CGCCCGUCACACCAUGAGAGUUGGUAAUAC CAGAAGUAGGUAGCUUAACCAUUUGGAGAG CGCUUCCCAAGGUAGGACUAGCGAUUGGGG UGAAGUCGUAACAAGGUAUCCGUACGGGAA CGUGCGGAUGGAUCACCUCCUUUCUAUGGA GAUAUUUAUAUUACUGACUAUUUAAUUCUA UUUAGUUUUCAGAGAUCGUCACACAUCUUU AAAUAUAGAUUGUUCUUUGAAAACUGAAUA UUAGAUGAAAUGCAAUUUUCUGAUUAUAAC AAUAUUUAUAAUUAGAUAAUUAUUACGAUA UUAAAUUCGUAAUGACAUCAAAAACAAUUA ACUAAAAUUAAUUGAGUUACAAAUUGCUAG AAAGAUUUUCUAAAAAAUAGUAAGAGCAUA UGGUGAAUGCCUUGGAAAAUGGAGCCGAAG AAGGACGUGACUACCUGCGAUAAGUCUGGG GGAGCUGGAAGUAAGCUUUGAUCCCGGAAU UUCCGAAUGGGGAAACCUAACAUGAUUUAU CUCAUGUUAUCUAUAAGUGAAUACAUAGCU UAUAUGAUGGGAACCUAGGGAACUGAAACA UCUUAGUACCUAGAGGAAAAGAAAAUAAUA AUGAUUCUGCUAGUAGCGGCGAGCGAAAAC GGAACAGGCCAAACCAUCCUAUGGGGUGGG GUUGUAGGACUUUUGUUCGAGUUAGAAAAU CAUUGUAUAAUAGAAGCUACUGGGAAGUAG CGCCAUAGAGGGUGAUAGCCCCGUAUAUGA AAUAUAAUGAUCUCAAUAAAGUAUCCUGAG UACGGCGAAACACGUGAAAUUUUGUCGGAA UCUGCCAAGACCACUUGGUAAGCCUAAAUA CUACCAUUUUACCGAUAGUGAACCA

Bảng 34: Năng lượng và cấu trúc của chuỗi Mycoplasma capricolum với chiều dài 865 nucleotides

Hình 26: Cấu trúc của chuỗi Mycoplasma capricolum với chiều dài 865 nucleotides với thuật toán quy hoạch động

Cúm mùa ở Mỹ - Influenza A virus với chiều dài 543 nucleotides

The structure of the Mycoplasma capricolum sequence, consisting of 865 nucleotides, has been analyzed using genetic algorithms Additionally, the energy and structural characteristics of this 865-nucleotide sequence have been detailed in Table 35.

Hình 28: Cấu trúc của chuỗi Mycoplasma capricolum với chiều dài 865 nucleotides với thuật toán di truyền kết hợp với logic mờ

Bảng 36: Năng lượng và cấu trúc của chuỗi Mycoplasma capricolum với chiều dài 865 nucleotides

Cấu trúc được thể hiện như sau (Hình 30 và Hình 31):

Hình 29: Cấu trúc của chuỗi Mycoplasma capricolum với chiều dài 865 nucleotides với thuật toán di truyền kết hợp với LSTM

Bảng 37: Thông tin chuỗi Cúm mùa ở Mỹ - Influenza A virus với chiều dài 543 nucleotides

AAGGUGUCAUCCGAUUUACUGUUCUUGAAG UCCCAGCGCAAAAUGCCAUAAGUACCACGU UCCCUUAUACUGGAGAUCCUCCAUACAGCC AUGGAACAGGAACAGGAUACACCAUGGACA CGGUCAACAGAACACAUCAAUAUUCAGAAA AGGGGAAGUGGACAACAAACACGGAAACUG GAGCGCCCCAGCUUAACCCAAUUGUUGCAA CUACACACUCCUGGAUUCCUAAGAGGAACC GCUCUAUCCUCAACACAAGCCAAAGGGGAA UUCUUGAGGAUGAAAAGAUGUAUCAAAAGU GCUGCAACCUGUUCGAGAAAUUCUUCCCCA GUAGUUCAUACAGAAGGCCGGUUGGAAUCU CUAGCAUGGUGGAGGCCAUGGUGUCUAGGG CCCGGAUUGAUGCCAGGAUUGACUUCGAGU CUGGGCGGAUUAAGAAAGAAGAGUUCGCUG AGAUCAUGAAGAUCUGUUCCACCAUUGAAG AGCUCAGACGGCAAAAAUAGUGAAUUUAGC UUGUCCUUCAUGAAAAAAUGCCUUGUUUCU ACU

Bảng 38: Năng lượng và cấu trúc của chuỗi Cúm mùa ở Mỹ - Influenza A virus với chiều dài 543 nucleotides

Hình 30: Cấu trúc của chuỗi Cúm mùa ở Mỹ - Influenza A virus với chiều dài 543 nucleotides với thuật toán quy hoạch động

Hình 31: Cấu trúc của chuỗi Cúm mùa ở Mỹ - Influenza A virus với chiều dài 543 nucleotides với thuật toán di truyền

Hình 32: Cấu trúc của chuỗi Cúm mùa ở Mỹ - Influenza A virus với chiều dài 543 nucleotides với thuật toán di truyền kết hợp với logic mờ

Hình 33: Cấu trúc của chuỗi Cúm mùa ở Mỹ - Influenza A virus với chiều dài 543 nucleotides với thuật toán di truyền kết hợp với LSTM

Bạch hầu - Corynebacterium diphtheriae với chiều dài 176 nucleotides xxvii 1 Thông tin chuỗi (Bảng 41 )

Bảng 41: Thông tin chuỗi Corynebacterium diphtheriae với chiều dài 176 nucleotides

- Center Name: University of Lodz

GUUGGUGGUUAUUGUGUCGG GGGUACGCCCGGUCCCUUUC CGAACCCGGAAGCUAAGCCC GAUUGCGCUGAUGGUACUGC ACCAUGGAGGGUCCCUUUCC GAACCCGGAAGCUAAGCCCG AUUGCGCUGAUGGUACUGCA CCUGGGAGGGUGUGGGAGAG UAGGUCGCCGCCAACC

Bảng 42: Năng lượng và cấu trúc của chuỗi Corynebacterium diphtheriae với chiều dài 176 nucleotides

Hình 34: Cấu trúc của chuỗi Corynebacterium diphtheriae với chiều dài 176 nucleotides với thuật toán quy hoạch động

Hình 35: Cấu trúc của chuỗi Corynebacterium diphtheriae với chiều dài 176 nucleotides với thuật toán GA

Hình 36: Cấu trúc của chuỗi Corynebacterium diphtheriae với chiều dài 176 nucleotides với thuật toán di truyền kết hợp logic mờ

Thuật toán di truyền kết hợp logic mờ

IX Tay chân miệng (loại ít gây ra các biến chứng về thần kinh)- Cox- sackie A16 với chiều dài 252 nucleotides

Hình 37: Cấu trúc của chuỗi Corynebacterium diphtheriae với chiều dài 176 nucleotides với thuật toán di truyền kết hợp LSTM

Bảng 45: Thông tin chuỗi Coxsackie A16 với chiều dài 252 nucleotides

- Ít gây ra các biến chứng về thần kinh

ACAGGACGCUCUAAUAUGGACAUGGUGCAA AGAGUCUAUUGAGCUAGUUAGUAGUCCUCC GGCCCCUGAAUGCGGCUAAUCCUAACUGCG GAGCACAUACCCUCGACCCAGGGGGCAGUG UGUCGUAACGGGCAACUCUGCAGCGGAACC GACUACUUUGGGUGUCCGUGUUUCCUUUUA UUCUUAUACUGGCUGCUUAUGGUGACAAUU GAAAGAUUGUUACCAUAUAGCUAUUGGAUU GGCCAUCCGGUG

Bảng 46: Năng lượng và cấu trúc của chuỗi Coxsackie A16 với chiều dài 252 nucleotides

Hình 38: Cấu trúc của chuỗi Coxsackie A16 với chiều dài 252 nucleotides với thuật toán quy hoạch động Bảng 47: Năng lượng và cấu trúc của chuỗi Coxsackie A16 với chiều dài 252 nucleotides

Hình 39: Cấu trúc của chuỗi Coxsackie A16 với chiều dài 252 nucleotides với thuật toán di truyền

Hình 40: Cấu trúc của chuỗi Coxsackie A16 với chiều dài 252 nucleotides với thuật toán di truyền kết hợp logic mờ

Bảng 48: Năng lượng và cấu trúc của chuỗi Coxsackie A16 với chiều dài 252 nucleotides

Hình 41: Cấu trúc của chuỗi Coxsackie A16 với chiều dài 252 nucleotides với thuật toán di truyền kết hợpLSTM

Tay chân miệng (loại gây ra các biến chứng nguy hiểm)- Enterovirus A71 với chiều dài 252 nucleotides

Bảng 49: Thông tin chuỗi Enterovirus A71 với chiều dài 252 nucleotides

- Gây ra các biến chứng nguy hiểm

AUAGGACGCUCUAAUACGGACAUGGCGUGA AGAGUCUAUUGAGCUAGUUAGUAGUCCUCC GGCCCCUGAAUGCGGCUAAUCCUAACUGCG GAGCACAUACCCUUAAUCCAAAGGGCAGUG UGUCGUAACGGGCAACUCUGCAGCGGAACC GACUACUUUGGGUGUCCGUGUUUCUUUUUA UUCUUGUAUUGGCUGCUUAUGGUGACAAUU AAAGAAUUGUUACCAUAUAGCUAUUGGAUU GGCCAUCCAGUG

Bảng 50: Năng lượng và cấu trúc của chuỗi Enterovirus A71 với chiều dài 252 nucleotides

Hình 42: Cấu trúc của chuỗi Enterovirus A71 với chiều dài 252 nucleotides với thuật toán quy hoạch động

Hình 43: Cấu trúc của chuỗi Enterovirus A71 - 252 nucleotides với thuật toán GA

Bảng 51: Năng lượng và cấu trúc của chuỗi Enterovirus A71 với chiều dài 252 nucleotides

Hình 44: Cấu trúc của chuỗi Enterovirus A71 - 252 nucleotides với thuật toán GA kết hợp logic mờ Bảng 52: Năng lượng và cấu trúc của chuỗi Enterovirus A71 với chiều dài 252 nucleotides

Tiêu đề	Dự Đoán Cấu Trúc Bậc Hai Của Phân Tử Sinh Học Trên Cơ Sở Kết Hợp Một Số Kỹ Thuật Tính Toán Mềm
Tác giả	Đoàn Duy Bình
Người hướng dẫn	TS. Phạm Minh Tuấn, TS. Đặng Đức Long
Trường học	Đại học Bách Khoa
Chuyên ngành	Khoa Học Máy Tính
Thể loại	luận án tiến sĩ
Năm xuất bản	2023
Thành phố	Đà Nẵng

Định dạng
Số trang	178
Dung lượng	3,71 MB