Bacteriorhodopsin – protein màng

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng (Trang 38 - 40)

CHƯƠNG 3. SẮP HÀNG TRÌNH TỰ

Chương này trình bày một số khái niêm về so sánh trình tự và một số phương pháp sắp hàng trình tự.

3.1. Đị h hĩ

Sắp hàng trình tự (hay phép gióng hàng, gióng cột) là q trình nghiên cứu sự giống nhau giữa các chuỗi trình tự (sequence), đo lường sự giống nhau giữa các chuỗi trình tự. Là cách thức so sánh giữa 2 hay nhiều trình tự dựa trên việc so sánh một chuỗi các thành phần (ký tự) của trình tự để tìm ra điểm tương đồng, giống nhau giữa các trình tự.

Các trình tự là các chuỗi DNA, RNA hoặc các trình tự amino acid (protein). Sắp hàng trình tự giúp cho quá trình dự báo sự giống nhau về chức năng của các trình tự, dự báo cấu trúc bậc 3 của DNA, protein. Trong việc tìm hiểu một gene mới, chúng ta thường quan tâm đến việc xác định những đặc điểm để phân biệt gene đồng thời đưa ra những giả thuyết về chức năng của gene. Việc đưa ra giả thuyết về chức năng của gene thường dựa vào những giải thuật đánh giá sự giống nhau, tương đồng giữa các trình tự.

3.2. Phân loại

Dựa trên phương pháp, người ta chia thành 2 loại sắp hàng (alignment)

 Phép sắp hàng theo hướng toàn cục (Global Sequence Alignment): Phép sắp hàng được áp dụng trên tồn bộ chuỗi trình tự. Thường được sử dụng khi các trình tự so sánh có kích thước gần tương đương và các trình tự này có độ tương đồng cao.

 Phép sắp hàng theo hướng cục bộ (Local Sequence Alignment): Phép toán sắp hàng được áp dụng trên một phần của chuỗi trình tự. Thường được sử dụng khi các trình tự có độ dài lớn, độ tương đồng khơng cao hoặc khi các trình tự có kích thước khác biệt lớn.

Dựa trên số lượng trình tự được sắp hàng, người ta chia thành 2 loại sắp hàng: - Sắp hàng từng cặp (Pairwise Sequence Alignment-PSA)

- Sắp hàng đa trình tự (Multiple Sequence Alignment-MSA)

3.2.1. Sắp hàng từng cặp (Pairwise Sequence Alignment-PSA) Đị h hĩ [3][8] Đị h hĩ [3][8]

Gọi S1 và S2 là 2 chuỗi, một sự sắp xếp A giữa S1 và S2 sẽ tạo ra 2 chuỗi S’1 và S’2 bằng cách thêm vào các ký tự “-“ vào S1 , S2 , trong đó:

|S’1 |=|S’2 |

Nếu loại bỏ các ký tự “-“ khỏi S’1 và S’2 ta sẽ có S1 và S2 Với |S1 |, |S2 | lần lượt là chiều dài của S1 và S2 .

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng (Trang 38 - 40)

Tải bản đầy đủ (PDF)

(78 trang)