.2 Quá trình xây dựng ma trận của thuật giải cho bài toán PSA

Một phần của tài liệu Luận van cao học tin (Trang 59 - 61)

Việc sử dụng đồng thời 3 ma trận BLOSUM trong giải thuật sẽ làm tăng độ chính xác về phương diện thực tế cho bài toán PSA, tuy nhiên điều này cũng địi hỏi thời gian tính tốn của giải thuật phải tăng lên tương ứng 3 lần. Chúng ta chấp nhận điều này nhằm hướng đến một lời giải tốt nhất cho bài toán PSA.

Chọn S(m,n)

Ma trận ứng với BLOSUM100 Ma trận ứng với BLOSUM62

Ma trận ứng với BLOSUM45

Ma trận tính tốn của giải thuật S62(m,n)

S100(m,n)

S45(m,n)

4.2. Giải thuật hiện thực cho bài toán MSA

Để giải quyết bài toán MSA, luận văn tiếp cận theo phương pháp Progressive Algorithm. Như đã trình bày trong phần cơ sở lý thuyết và phương pháp thực hiện, Progressive Algorithm phụ thuộc rất nhiều vào việc phân hoạch tập các sequence thành các nhóm cũng như trật tự align các nhóm này thành 1 nhóm duy nhất. Chúng ta sẽ định nghĩa một số phương thức sử dụng trong việc xây dựng giải thuật:

Định nghĩa hàm khoảng cách của các cặp sequence(Pairwise Distance):

( , )i j max ( , ) 1i j

Dist S S =SPSP S S +

Trong đó SPmax là giá trị lớn nhất của tập 2

k

C kết quả phép alignment của các cặp chuỗi (Si, Sj). Việc tìm SPmax được thực hiện bằng cách áp dụng bài toán PSA cho tất cả các cặp chuỗi (Si, Sj).

Chúng ta sẽ xây dựng giải thuật giải quyết bài toán MSA bắt đầu từ việc cải tiến thuật toán Center Star. Phân tích Center Star Algorithm chúng ta thấy:

1. Điểm cốt lõi của giải thuật là chọn ra phần tử trung tâm SC. 2. Giải thuật khơng phân biệt trình tự chọn các sequence để align.

3. Giải thuật Center Star chỉ align các sequence tiếp theo với thể hiện của SC trong tập K.

Điểm chú ý thứ 3 có thể được giải thích là tất cả các thay đổi(việc xuất hiện gap) của các thể hiện của SC trong K sẽ dẫn đến sự thay đổi của tất cả các phần tử trong K. Điều này thật sự khơng tốt, nó phản ánh sự “thiên vị” của giải thuật với phần tử SC, kết quả thu được chỉ phản ánh mối quan hệ của các phần tử với SC, không phản ánh được mối quan hệ giữa các phần tử còn lại. Rõ ràng việc tìm ra phương pháp mà kết quả cuối cùng phản ánh mối quan hệ tiến hoá giữa các phần tử trong MSA sẽ hợp lý hơn. Ý

tưởng được đưa ra ở đây là thay vì align các sequence tiếp theo với thể hiện của SC

trong tập K, chúng ta sẽ align phần tử này với toàn bộ tập K dựa trên giải thuật Feng- Doolittle về align các nhóm sequence. Kết quả thu được của sự cải tiến này là phù hợp

Một phần của tài liệu Luận van cao học tin (Trang 59 - 61)

Tải bản đầy đủ (PDF)

(100 trang)