Xây dựng hệ thống 24

Một phần của tài liệu LUẬN VĂN: SẮP HÀNG HOÀN CHỈNH HAI HỆ GENOME     pot (Trang 26 - 27)

Thuật toán “Pairwise Alignment with Rearrangement” [23] tuy đã sắp hàng được hoàn toàn hai hệ gen, tuy nhiên nhược điểm của nó chỉ có thể bắt cặp với những hệ gen đã được chia sẵn. Vấn đề đặt ra là khi đưa vào một hệ gen mới bất kỳ, chúng ta phải tiến hành xác định những đoạn gen trong đó để tiến hành sắp hàng các đoạn gen. Điều này đòi hỏi phải khi đưa vào hai hệ gen của hai sinh vật bất kỳ, phải tìm cách chia các hệ gen thành nhiều đoạn gen con liên tiếp sao cho khi sắp hàng với nhau chúng tạo được những cặp gen có độ tương đồng cao, tức là những cặp gen có nhiều khả năng là được biến đổi và tiến hoá từ cùng một

đoạn gen trong hệ gen tổ tiên chung xa xưa của chúng.

Nhưđã trình bày ở phần đầu, một số chương trình sắp hàng hệ gen hiện có tập trung vào việc tìm kiếm những vùng gen tương đồng trên hai hệ gen như

MUAVE[1], SLAGAN[5] và nổi bật là BLASTZ[18]. Với những cải tiến độc

đáo của mình, BLASTZ có khả năng tìm kiếm những vùng gen có độ tương đồng cao một cách tương đối tốt và với thời gian chấp nhận. Trong khóa luận này, em xây dựng lên một hệ thống bắt cặp hệ gen hoàn chỉnh, dựa trên ý tưởng sử dụng BLASTZ như một bước tiền xử lý trước khi áp dụng thuật toán “Pairwise Alignment with Rearrangement”, qua đó khắc phục được nhược điểm hiện có của phương pháp này. Cụ thể chúng ta sẽ sử dụng những vùng tương đồng mà BLASTZ nhận dạng được để tiến hành chia cắt hệ gen thành những đoạn gen ngắn liên tiếp, tạo thành đầu vào cho chương trình “Pairwise Alignment with Rearrangement” với “Fast Swapping” [20], trong quá trình này vấn đề cần lưu ý là phải tiến hành loại bỏ các đoạn trùng lặp, lựa chọn và giữ lại các cặp gen có độ

tương đồng cao hơn.

Để xác định các biến đổi về điểm cũng như tính toán khoảng cách giữa các đoạn gen. Thuật toán “Pairwise Alignment with Rearrangement”, sử dụng phương pháp bắt cặp trình tự theo thuật toán quy hoạch động của Needleman – Wunsch [16]( Xem phần 1.2). Trong hệ thống này, em sẽ sử dụng thay thế bằng một phương pháp khác sử dụng thuật toán quy hoạch động được đưa ra bởi

Gotoh “Optimal Alignment with Linear space” [9] và có sự cải tiến dựa trên nhận xét của Ukkonen[22]. Phương pháp mới này cho phép tính toán khoảng cách giữa các đoạn gen chính xác và hợp lý hơn so với phương pháp cũ của Needleman – Wunsch.

Chương trình gồm những bước cụ thể như sau:

• Đầu vào là hai hệ gen hoàn chỉnh bất kỳ.

• Sử dụng chương trình BLASTZ để xác định và bắt cặp những vùng ADN tương đồng.

• Tiến hành tách từng hệ gen thành một dãy các đoạn ADN thành phần nhỏ

liên tục dựa vào các vùng có độ tương đồng cao xác định được bởi BLASTZ.

• Dựa trên thuật toán Gotoh và nhận xét của Ukkonen, xây dựng chương chình bắt cặp trình tự. Áp dụng để sắp hàng từng cặp ADN thành phần trong hai hệ gen, xác định các phép biến đổi ở mức độ điểm (thay thế, chèn, xóa).

• Sắp hàng toàn bộ hệ gen, xác định các biến đổi ở mức độ gen bằng thuật toán Pairwise Alignment with Rearrangement với Fast Swapping..

• Đầu ra đưa ra danh sách nhưng cặp gen đã được sắp hàng, trong đó chỉ rõ những sự biến đổi ở mức độ điểm ở từng cặp gen. Cho biết thông tin về

các đoạn gen đã bị dịch chuyển, bị đảo ngược, tồn tại ở hệ gen này nhưng không tồn tại ở hệ gen kia. Sắp hàng hoàn chỉnh hai hệ gen.

Một phần của tài liệu LUẬN VĂN: SẮP HÀNG HOÀN CHỈNH HAI HỆ GENOME     pot (Trang 26 - 27)