Ma trận Blosum

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng (Trang 43 - 46)

Có nhiều hình thức ma trận đánh giá khác nhau dựa trên quá trình nghiên cứu thống kê thực tế sinh học.

 Identity matrix: Đây là cơ chế đánh giá độ tương đồng đơn giản nhất. Trong ma trận này, các cặp amino acid giống nhau sẽ có giá trị của phần tử tương ứng trong ma trận là 1, các cặp amino acid còn lại sẽ nhận giá trị 0.

 Ma trận mã di truyền: Trong ma trận này, hàm đánh giá của mỗi cặp amino acid dựa trên độ tương đồng về mã di truyền. Ngày nay ma trận này hiếm khi được sử dụng trong việc sắp hàng các trình tự.

 Ma trận tương đồng hóa học (chemical similarity matrix): trong ma trận này, các amino acid có cấu trúc tương đồng về cấu trúc vật lý cũng như thuộc tính hóa học như kích thước, hình dạng, khả năng phân cực,…thì phần tử tương ứng trong ma trận sẽ nhận giá trị lớn hơn so với các cặp cịn lại.

 Ma trận thay thế (substitution matrix) : Ma trận này được tính tốn và xây dựng trên các quan sát thống kê về tần số thay đổi của các amino acid trong việc sắp hàng các chuỗi trình tự. Ma trận thay thế được đánh giá là tốt hơn so với 3 ma trận trên và hiện nay cũng được sử dụng nhiều nhất. Ma trận BLOSUM gồm nhiều cấp độ, ký hiệu là BLOSUMn.

 Ma trận BLOSUMn (1≤n≤100) cho biết độ tương đồng của các chuỗi được dùng để tính ra chúng. Ví dụ ma trận BLOSUM62, giá trị các phần từ trong ma trận được tính từ tập các protein có độ tương đồng khơng lớn hơn 62%. Trong tập các ma trận BLOSUMn, các ma trận có chỉ số n nhỏ thường được sử dụng trong việc align các trình tự có độ khác biệt cao (độ tương đồng thấp), và các ma trận có chỉ số n lớn thường được sử dụng cho các trình tự có độ tương đồng cao. Chẳng

hạn ma trận BLOSUM62 thường được dùng cho việc sắp hàng các trình tự khi chưa xác định độ tương đồng của chúng, ma trận BLOSUM45 thường được dùng cho các trình tự có độ khác biệt cao, ma trận BLOSUM100 thường được sùng cho các trình tự có độ tương đồng cao.

 Việc tính tốn các tập ma trận BLOSUM dựa trên cơng thức xác suất biến đổi:           E P P k b a b a score( , )  , log 0

Trong đó P0 là xác suất chuyển đổi từ amino acid a sang amino acid b trong tập quan sát.

PE là xác suất xuất hiện của amino acid b trong tập quan sát.

k là hệ số làm trịn. Thơng thường k=10 và giá trị hàm đánh giá được làm tròn thành số nguyên.

score(a,b)>0 cho biết sự thay thế giữa amino acid a và b có khả năng xảy ra cao hơn so với sự thay đổi một cách ngẫu nhiên.

score(a,b)<0 cho biết sự thay thế giữa amino acid a và b có khả năng xảy ra thấp hơn so với sự thay đổi một cách ngẫu nhiên.

score(a,b)=0 cho biết sự thay thế giữa amino acid a và b tương đương với việc thay thế 2 amino acid một cách ngẫu nhiên.

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng (Trang 43 - 46)

Tải bản đầy đủ (PDF)

(78 trang)