Giải thuật hiện thực cho bài toán MSA

Một phần của tài liệu Các kỹ thuật toán học cho bài toán so sánh đa trình tự (Trang 60 - 61)

4- NGÀY HOÀN THÀNH NHI ỆM VỤ :

4.2.Giải thuật hiện thực cho bài toán MSA

Để giải quyết bài toán MSA, luận văn tiếp cận theo phương pháp Progressive Algorithm. Như đã trình bày trong phần cơ sở lý thuyết và phương pháp thực hiện, Progressive Algorithm phụ thuộc rất nhiều vào việc phân hoạch tập các sequence thành các nhóm cũng như trật tự align các nhóm này thành 1 nhóm duy nhất. Chúng ta sẽ định nghĩa một số phương thức sử dụng trong việc xây dựng giải thuật:

Định nghĩa hàm khoảng cách của các cặp sequence(Pairwise Distance): ( , )i j max ( , ) 1i j

Dist S S =SPSP S S +

Trong đó SPmax là giá trị lớn nhất của tập 2

k

C kết quả phép alignment của các cặp chuỗi (Si, Sj). Việc tìm SPmax được thực hiện bằng cách áp dụng bài toán PSA cho tất cả các cặp chuỗi (Si, Sj).

Chúng ta sẽ xây dựng giải thuật giải quyết bài toán MSA bắt đầu từ việc cải tiến thuật toán Center Star. Phân tích Center Star Algorithm chúng ta thấy:

1. Điểm cốt lõi của giải thuật là chọn ra phần tử trung tâm SC. 2. Giải thuật không phân biệt trình tự chọn các sequence để align.

3. Giải thuật Center Star chỉ align các sequence tiếp theo với thể hiện của SC

trong tập K.

Điểm chú ý thứ 3 có thể được giải thích là tất cả các thay đổi(việc xuất hiện gap) của các thể hiện của SC trong K sẽ dẫn đến sự thay đổi của tất cả các phần tử trong K. Điều này thật sự không tốt, nó phản ánh sự “thiên vị” của giải thuật với phần tử SC, kết quả thu được chỉ phản ánh mối quan hệ của các phần tử với SC, không phản ánh được mối quan hệ giữa các phần tử còn lại. Rõ ràng việc tìm ra phương pháp mà kết quả cuối cùng phản ánh mối quan hệ tiến hoá giữa các phần tử trong MSA sẽ hợp lý hơn. Ý tưởng được đưa ra ở đây là thay vì align các sequence tiếp theo với thể hiện của SC trong tập K, chúng ta sẽ align phần tử này với toàn bộ tập K dựa trên giải thuật Feng- Doolittle về align các nhóm sequence. Kết quả thu được của sự cải tiến này là phù hợp hơn về mặt thực tế sinh học.

Hình 4.3 Quá trình align của Center Star Algorithm và phiên bản cải tiến

Như đã đề cập trong phần lý thuyết về Progressive Algorithm, việc lựa chọn ra trình tự các sequence chưa align để thực hiện align với K có ảnh hưởng rất lớn đến kết quả cuối cùng của phép alignment. Từ điểm chú ý thứ 2 ta thấy cần thiết phải xây dựng một trật tự các sequence sẽ align với K. Korostensky và Gonnet[17], [18] đưa ra một phương pháp đánh giá MSA bằng kỹ thuật Circular Sum thay cho Sum-of-Pair. Luận văn không tiếp cận theo phương pháp này tuy nhiên lấy ý tưởng về việc áp dụng bài toán TSP vào bài toán MSA [36]. Ý tưởng được đưa ra là chúng ta sẽ sử dụng bài toán TSP để mô tả thứ tự sẽ align các sequence.

Một phần của tài liệu Các kỹ thuật toán học cho bài toán so sánh đa trình tự (Trang 60 - 61)