Bài toán tối ưu trong sinh học phân tử là một trong những lĩnh vực khoa học tính toán được nghiên cứu nhiều hiện nay; trong đó có vấn đề dự đoán cấu trúc chuỗi RNA bằng những thuật toán tối ưu. Bài viết giới thiệu thuật toán ACO (Ant Colony Optimization) là một phương pháp mới giải bài toán tối ưu tìm cấu trúc bậc 2 của phân tử RNA có tổng năng lượng bền vững nhất.
UED JOURNAL OF SOCIAL SCIENCES, HUMANITIES AND EDUCATION VOL.2, NO.4 (2012) ÁP DỤNG THUẬT TOÁN ACO VÀO VIỆC GIẢI CÁC BÀI TOÁN TỐI ƯU TRONG SINH HỌC PHÂN TỬ Trần Quốc Chiến, Đặng Đức Long, Đồn Duy Bình* TĨM TẮT Bài toán tối ưu sinh học phân tử lĩnh vực khoa học tính tốn nghiên cứu nhiều nay; có vấn đề dự đoán cấu trúc chuỗi RNA thuật toán tối ưu Thuật toán ACO (Ant Colony Optimization)- tối ưu đàn kiến – phương pháp nghiên cứu lấy cảm hứng từ việc mô hành vi đàn kiến tự nhiên nhằm mục đích giải toán tối ưu phức tạp thực tế Các cá thể kiến trao đổi thông tin đường thông qua vết mùi (Pheromone) để lại đường Các đường có nồng độ mùi loại bỏ, cuối tất đàn kiến đường có khả trở thành đường ngắn từ tổ đến nguồn thức ăn Trong báo chúng tơi giới thiệu thuật tốn ACO (Ant Colony Optimization) phương pháp giải toán tối ưu tìm cấu trúc bậc phân tử RNA có tổng lượng bền vững Từ khóa: tối ưu hóa, thuật tốn tối ưu đàn kiến, RNA, sinh học phân tử, Tin sinh học Đặt vấn đề: Tối ưu hóa tìm trạng thái tối ưu hệ thống cho đạt mục tiêu mong muốn chất lượng theo tiêu chuẩn Dang tổng qt tốn cho (xem 5.[3]): f(x) → Min (max) gi(x) bi , (x) bj , gj gk(x)= bk , i=1, m1 , j= m1+1, m , (1) k= m +1, m , Trong f(x) gọi hàm mục tiêu; gi(x), (i = 1, m ), gọi hàm ràng buộc Mỗi đẳng thức hay bất đắng thức gọi ràng buộc Gọi: g (x) b , i= 1, m i i , n D = xR gj(x) bj , j= m1+1, m gk(x)= bk , k = m +1, m buộc hay miền chấp nhận Mỗi vector (2) gọi miền ràng x = (x1, x2, , xn) ∈ D gọi phương án toán (hay lời giải chấp nhận được) Phương án x* ∈ D gọi phương án tối ưu toán thỏa mãn điều kiện sau: f(x*) ≤ f(x), x ∈ D (đối với tốn tìm Min) f(x*) ≥ f(x), x ∈ D (đối với tốn tìm Max) tương ứng f(x*) gọi giá trị tối ưu Ngày nay, có chuyên ngành khoa học Tin sinh học (Bioinformatics), với nhiệm vụ ứng dụng phát triển phương pháp cơng nghệ thơng tin để xử lý TẠP CHÍ KHOA HỌC XÃ HỘI, NHÂN VĂN VÀ GIÁO DỤC TẬP 2, SỐ (2012) khai thác lượng thông tin vô lớn sinh học phân tử, phát triển nhanh Trong lĩnh vực nghiên cứu này, tốn tối ưu hóa phổ biến, từ việc so sánh chuỗi phân tử sinh học, dự đoán cấu trúc bền vững phân tử DNA (deoxyribo nucleic acid), RNA (ribo nucleic acid), protein, đến dự đoán tương tác phân tử (xem [2]) Một toán vấn đề dự đoán cấu trúc bậc tối ưu phân tử RNA định dựa thơng tin chuỗi cho cấu trúc có lượng tự tổng cộng âm (ở trạng thái bền vững nhất) Việc giải tốn cách xác nhiều trường hợp chưa thể thực (thuộc lớp tốn NP-hard) Do đó, có nhiều thuật toán đưa để giải vấn đề Thuật toán ACO (Ant Colony Optimization) thuật tốn tối ưu hóa đại ứng dụng toán tối ưu phức tạp; sở thuật toán dựa di chuyển đàn kiến trình tìm kiếm nguồn thực ăn thông qua việc phát pheromone Trong khuôn khổ bào báo giới thiệu nguyên lý việc sử dụng thuật toán ACO vào việc dự đoán cấu trúc bậc tối ưu chuỗi RNA Cấu trúc RNA (xem5.[1]5.[3]) Các RNA cấu tạo từ đơn phân ribonucleotide; ribonucleotide nối kết với liên kết 3',5'-phosphodiester tạo thành chuỗi polyribonucleotide - cấu trúc sơ cấp (bậc 1) phân tử RNA Trong phân tử RNA có bốn loại đơn phân (dựa khác gốc base) adenine (A), uracil (U), guanine (G) cytosine (C) Về mặt thông tin, phân tử RNA với cấu trúc bậc biểu diễn dạng chuỗi ký tự bốn chữ cái: A, U, G, C Ví dụ phân tử 5S ribosome RNA có cấu trúc bậc thể sau: (1) GUCUACGGCCAUACCACCCUGAACGCGCCCGAUCUCGUCUGAUCUCGGA AGCUAAGCAGGGUCGGGCCUGGUUAGUACUUGGAUGGGAGACCGCCUGG GAAUACCGGGUGCUGUAGGCUU(120) với số ngoặc đơn đánh dấu vị trí thứ tự đơn phân chuỗi Trong thể sinh vật có nhiều loại phân tử RNA khác như: RNA thông tin (mRNA), RNA vận chuyển (tRNA), ribosome RNA (rRNA), RNA nhỏ nhân (snRNA), RNA điều khiển siRNA, miRNA, v.v … Các phân tử có vai trị thiết yếu q trình sống phát triển sinh vật (xem 5.[4]) Để thực vai trò sống vậy, phân tử RNA phải tồn với cấu trúc không gian ba chiều định (trạng thái cấu trúc bền vững nhất) Cơ sở cấu trúc không gian ba chiều việc hình thành cấu trúc bậc hai phân tử RNA Cấu trúc bậc RNA hình thành sợi đơn chuỗi đơn phân chúng uốn cong gập khúc không gian để đưa số đơn phân lại gần nhau, tạo liên kết khơng hóa trị (chủ yếu liên kết hydro cặp đơn phân G-C A-U) cấu trúc vịng, cặp tóc, v.v…, dẫn đến trạng thái bền vững (làm lượng tự âm hơn) chuỗi RNA Do việc dự đốn cấu trúc bậc RNA có vai trị quan trọng việc xác định cấu trúc không gian ba chiều (bậc 3) xác định tính chất, hoạt động phân tử RNA Ví dụ cấu trúc bậc bậc UED JOURNAL OF SOCIAL SCIENCES, HUMANITIES AND EDUCATION VOL.2, NO.4 (2012) phân tử tRNA mơ tả Hình Hình Cấu trúc bậc ba (trái) bậc hai phân tử tRNA Thuật toán ACO (xem 5.[2]) ACO (Ant Colony Optimization) – phương pháp nghiên cứu lấy cảm hứng từ việc mô hành vi đàn kiến tự nhiên nhằm mục đích giải toán tối ưu phức tạp thực tế Vào năm 1991 A.Colorni M Dorigo, giới thiệu Giải thuật kiến nhận ý đơng đảo nhờ vào khả tối ưu nhiều lĩnh vực khác ACO lấy cảm hứng từ việc quan sát hành vi đàn kiến trình tìm kiếm nguồn thực ăn Từ qua sát đấy, người ta khám phá rằng, đàn kiến ln tìm nguồn thức ăn cách tổ chúng với đường ngắn Các cá thể kiến trao đổi thông tin đường thông qua vết mùi (Pheromone) để lại đường Vết mùi bay dần theo thời gian, củng cố kiến khác tiếp tục đường lần Cứ vậy, kiến sau lựa chọn đường có nồng độ vết mùi dày đặc chúng lại tiếp tục gởi thêm mùi đường mà chúng chọn Các đường có nồng độ mùi loại bỏ, cuối tất đàn kiến sẻ đường có khả trở thành đường ngắn từ tổ đến nguồn thức ăn Bắt nguồn từ đàn kiến tự nhiên, thông qua hành vi chúng, Dorigo xây dựng kiến nhân tạo (Artificial ants) có đặc trưng kiến tự nhiên, tức có khả sản sinh mùi để lại đường đi, có khả lần theo nồng độ mùi để lựa chọn đường có nồng độ mùi cao để Gắn với đường (i,j) (cạnh) nồng độ mùi ij thơng số heuristic ij cạnh Ban đầu, nồng độ mùi cạnh (i,j) khởi tạo số c, xác định cơng thức: = ij đó: = m nn C , (3) TẠP CHÍ KHOA HỌC XÃ HỘI, NHÂN VĂN VÀ GIÁO DỤC ij TẬP 2, SỐ (2012) : Nồng độ vết mùi cạnh (i,j) m: Số lượng kiến, Cnn: Chiều dài hành trình cho phương pháp tìm kiếm gần Tại đỉnh i, kiến k chọn đỉnh j chưa qua tập láng giềng i, Hình Kiến lựa chọn láng giềng i theo quy luật phân bổ xác xuất xác định theo công thức sau: p k ij = N k l đó: p k ij ij ij il i , j ,N i k (4) il : Xác suất kiến k lựa chọn cạnh (i,j), : Hệ số điều chỉnh ảnh hưởng ij , ij : Thông tin heuristic giúp đánh giá xác lựa chọn kiến định từ đỉnh i qua đỉnh j, xác định theo công thức: ij = (5) d ij dij khoảng cách đỉnh i đỉnh j, : Hệ số điều chỉnh ảnh hưởng ij , N k ij : tập đỉnh láng giềng i mà kiến k chưa qua Giải toán dự đoán cấu trúc bậc RNA thuật toán ACO 4.1 Phân tích tốn Để dự đốn cấu trúc bậc chuỗi RNA, đưa tốn tìm cấu trúc (tập hợp liên kết khơng hóa trị) có lượng tự nhỏ cho chuỗi Năng lượng tự cấu trúc bậc xác định tổng đóng góp lượng phần tử cặp đơi, vịng, cặp tóc, v.v… Giá trị đóng góp lượng phần tử cấu trúc riêng lẻ xác định thực nghiệm (xem 5.[1]5.[4]) Mơ hình thể sau: e(ri , r j ) E(S) = (6) i , jS với E(S) lượng toàn chuỗi, e(ri,rj) lượng UED JOURNAL OF SOCIAL SCIENCES, HUMANITIES AND EDUCATION VOL.2, NO.4 (2012) phần tử đơn phân i j chuỗi S Phương pháp tổ hợp (combinatorial) giải tốn tối ưu Khi đó, cấu trúc bậc tạo tổ hợp tất cặp đơi theo tất cách tạo nên dãy cấu trúc Năng lượng tự cấu trúc dãy tính tốn cụ thể từ liệu thực nghiệm cơng thức (6), sau chọn cấu trúc có lượng nhỏ Nhưng thực tế, thực phương pháp tổ hợp đơn giản khối lượng tính tốn u cầu nhớ tăng theo cấp số mũ chiều dài chuỗi Trên lý thuyết, số cấu trúc bậc chuỗi lớn hay 1.8N, N số đơn phân (ký tự) chuỗi Do phương pháp tổ hợp đơn giản thực với chuỗi ngắn (nhỏ 200 đơn phân) (xem 5.[1]5.[4]) Thuật toán ACO sử dụng để giải toán tối ưu tổ hợp thời gian với nhớ cho phép thực tế Từ ví dụ phân tử 5S ribosome RNA có cấu trúc bậc thể sau: (1) GUCUACGGCCAUACCACCCUGAACGCGCCCGAUCUCGUCUGAUCUCGGA AGCUAAGCAGGGUCGGGCCUGGUUAGUACUUGGAUGGGAGACCGCCUGG GAAUACCGGGUGCUGUAGGCUU(120) Ta biểu diễn đơn phân chuỗi RNA ma trận cỡ (NxN) Khi cặp đơi điểm đường chéo ma trận (Hình 3) Hình Đồ thị tạo cặp chuỗi biểu thị đơn phân tử RNA Bài tốn đặt tìm tập hợp cặp đôi khu vực chúng toàn chuỗi (đường từ đầu đến cuối ma trận) cho lượng tổng hợp chuỗi RNA (trên đường đi) nhỏ (âm nhất) Bài toán quy toán tối ưu đồ thị, nối cặp điểm đồ thị Cho đồ thị G=(C, L) C tập phần tử chuỗi RNA, với chuỗi RNA gồm phần tử A, U, G, C; L tập tất kết nối chấp nhận phần tử chuỗi RNA 4.2 Giải toán Từ việc phân tích trên, chúng tơi triển khai tìm đồ thị lượng kết phân từ chuỗi RNA Từ chúng tơi dùng thuật tốn ACO để thực việc tìm đường tập đỉnh chuỗi RNA với hàm mục tiêu là: f(x) → Min 10 TẠP CHÍ KHOA HỌC XÃ HỘI, NHÂN VĂN VÀ GIÁO DỤC TẬP 2, SỐ (2012) Mơ hình cấu trúc bậc hai chuỗi RNA tương ứng với ví dụ trên: Hình Cấu trúc bậc hai chuỗi RNA 4.3 Sơ đồ thuật toán ACO áp dụng cho toán Bắt đầu Định vị kiến ngẫu nhiên phần tử RNA lưới cất phân tử thời (đầu chuỗi) danh sách duyệt Xác định xác suất đến phân tử Sai Số vòng lặp tối đa thực Di chuyển tới phân tử đặt phân tử danh sách duyệt Tất các phân tử duyệt qua Đúng Kết thúc Sai Đúng Ghi lại tổng lượng xoá danh sách duyệt Xác định mức lượng nhở từ trước đến cập nhật pheromone Hình Sơ đồ thuật toán ACO áp dụng cho toán Kết luận Với thuật toán ACO thể nhiều ưu điểm việc giải toán tối ưu tổ 11 UED JOURNAL OF SOCIAL SCIENCES, HUMANITIES AND EDUCATION VOL.2, NO.4 (2012) hợp, chưa sử dụng để giải vấn đề dự đoán cấu trúc bậc phân tử RNA Ở chúng tơi phân tích đặc điểm vấn đề thuật toán ACO chứng minh thuật toán ACO phù hợp có ưu điểm tốt để giải vấn đề Chúng xây dựng sơ đồ giải thuật sử dụng thuật toán ACO để dự đoán cầu trúc bậc hai chuỗi RNA Tiếp theo xây dựng phần mềm sơ đồ giải thuật tạo để dự đoán cách xác thuận tiện cấu trúc bậc phân tử RNA TÀI LIỆU THAM KHẢO [1] Baxevanis A.D., Francis Ouellette B F (Eds) 2005 Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, 2nd edition CRC Press, Taylor & Francis Group [2] Marco Dorigo, Thomas Stűtzle 2004 Ant Colony Optimization, Massachusetts Instituteof Technology [3] Nguyễn Hải Thanh 2006 Tối ưu hóa, NXB Bách Khoa Hà Nội [4] Trần Thị Xô, Nguyễn Thị Lan 2004 Cơ sở di truyền công nghệ gen, NXB Khoa học Kỹ thuật APPLICATION OF ACO ALGORITHMS TO DEALING WITH MOLECULAR BIOLOGY PROBLEMS Tran Quoc Chien, Doan Duy Binh1 Dang Duc Long2 The University of Da Nang - University of Science and Education The University of Da Nang - University of Technology ABSTRACT Optimization problems in molecular biology is one of the most investigated fields in computer science today; one notable case is the prediction of RNA structures by optimizing algorithms ACO (Ant Colony Optimization) algorithm is the research method inspired from the simulation of the behavior of ants in nature for the solution to optimization problems The communication among ants or between ants and the environment is based on the use of chemicals produced by the ants; these chemicals are called pheromones Roads with fewer pheromones will be gradually removed; eventually all ants will go on the road having the potential to become the shortest path from their nest to a food source This paper introduces the ACO (Ant Colony Optimization) algorithm as a new way to solve the problem of predicting the optimal secondary structures of RNAs that have the most stable total energy Key words: optimization, Ant Colony Optimization, RNA, molecular biology, BioInfomatics * PGS.TSKH Trần Quốc Chiến, ThS Đồn Duy Bình, Email: doanduybinh@gmail.com Trường Đại học Sư Phạm, Đại học Đà Nẵng TS Đặng Đức Long, Trường Đại học Bách khoa, Đại học Đà Nẵng 12 TẠP CHÍ KHOA HỌC XÃ HỘI, NHÂN VĂN VÀ GIÁO DỤC TẬP 2, SỐ (2012) 13 ... nhở từ trước đến cập nhật pheromone Hình Sơ đồ thuật toán ACO áp dụng cho toán Kết luận Với thuật toán ACO thể nhiều ưu điểm việc giải toán tối ưu tổ 11 UED JOURNAL OF SOCIAL SCIENCES, HUMANITIES... sử dụng để giải vấn đề dự đoán cấu trúc bậc phân tử RNA Ở phân tích đặc điểm vấn đề thuật toán ACO chứng minh thuật toán ACO phù hợp có ưu điểm tốt để giải vấn đề Chúng xây dựng sơ đồ giải thuật. .. tốn NP-hard) Do đó, có nhiều thuật tốn đưa để giải vấn đề Thuật toán ACO (Ant Colony Optimization) thuật tốn tối ưu hóa đại ứng dụng toán tối ưu phức tạp; sở thuật toán dựa di chuyển đàn kiến