Sắp hàng từng cặp (Pairwise Sequence Alignment-PSA)

Một phần của tài liệu Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ (Trang 40)

Đị h hĩ [3][8]

Gọi S1 và S2 là 2 chuỗi, một sự sắp xếp A giữa S1 và S2 sẽ tạo ra 2 chuỗi S’1 và S’2 bằng cách thêm vào các ký tự “-“ vào S1 , S2 , trong đó:

|S’1 |=|S’2 |

Nếu loại bỏ các ký tự “-“ khỏi S’1 và S’2 ta sẽ có S1 và S2 Với |S1 |, |S2 | lần lượt là chiều dài của S1 và S2 .

Hình 3.1: Cấu trúc một PSA

3.2.2. Sắp hà đ trì h tự (Multiple Sequence Alignment-MSA)

Hình 3.2:So sánh đa trình tự (S1) (S2) A C G C T G C A T G T (S’ 2) (S’1) A C − − G C T G − CA T G − T − TGTTAAC TGTAAC TGTAC ATGTC ATGTGGC TGTTAAC TGTAAC TGTAC ATGT C ATGTGGC Cho: Các trình tự Ma trận đánh giá Giá trị của GAP Phương pháp đánh giá MSA Cách sắp hàng tối ưu MSA Trình tự (sequence)

Thông thường, các protein được lưu trữ trong cơ sở dữ liệu thường được tổ chức thành các nhóm chung (protein family), có sự tương đồng về cấu trúc, chức năng và cấu trúc bậc 3. Khi có một protein mới muốn khảo sát, chúng ta mong rằng thông qua phép toán sắp hàng để có thể đưa ra các giả thuyết về cấu trúc, chức năng và quá trình tiến hóa của nó. Tuy nhiên chúng ta không thể thực hiện việc sắp hàng trình tự protein này với từng trình tự của mỗi protein trong cơ sở dữ liệu, điều này là không thể về mặt thời gian xử lý. Do đó cách tiếp cận tốt nhất là chúng ta sẽ so sánh trình tự của protein này với mỗi tập hợp protein trong cơ sở dữ liệu thông qua việc so sánh các trình tự của protein này với một trình tự đại diện cho mỗi tập hợp pro- tein. Vấn đề đặt ra là làm cách nào để tìm ra trình tự đại diện cho một tập hợp pro- tein? Trình tự đại diện cho một tập hợp protein được tìm thấy thông qua phép sắp hàng đa trình tự để tìm ra trình tự tương đồng nhất.

Phép sắp hàng k trình tự S1, S2, S3, …, Sk sẽ tạo ra k trình tự mới S’1, S’2, S’3,…, S’k bằng cách thêm các ký tự “-“ (được gọi là gap) vào các chuỗi ban đầu trong đó các chuỗi mới tạo này phải có chiều dài bằng nhau.

Vậy có thể nói rằng việc biến đổi từ trình tự S1 sang trình tự S’1 là sự kết hợp của các quá trình: quá trình thay thế, sự xuất hiện của các gap.

3.3. GAP

Ký hiệu là –

Trong quá trình tiến hóa, các trình tự có thể thêm hoặc bớt một số phần tử (thường ký hiệu là InDel – insertions/deletions) trong trình tự, cho nên các sinh vật có họ hàng gần nhau có thể khác nhau ở phần thêm vào giữa các trình tự. Bởi vậy khi chuyển sang việc so sánh trong mô hình toán học cần phải cho phép có quãng cách (gap) để có thể tìm được các phần trình tự giống nhau nhất. Tuy nhiên, khả năng thêm hay bớt trong các trình tự là quá trình tiến hóa lâu dài, vì vậy khi đánh giá các sinh vật nào gần nhau thì cũng có ít quãng cách hơn. Do đó trong mô hình toán học có đưa thêm vào điểm phạt cho quãng cách (gap penalties) sao cho đáp ứng giống bài toán thực tế. Các loài gần nhau sẽ có trình tự giống nhau các đoạn

liên tục và dài cho nên các mô hình toán học còn thêm điểm phạt cho mỗi một đoạn quãng cách (open gap penalties).

Bên cạnh đó, trong quá trình tiến hóa cũng có trường hợp bị đột biến tại một số phần tử trong trình tự (có thể hiểu đơn giản là nucleotic hay amino acid này được thay thế bằng phần tử khác).

Gồm 2 loại: deletion gap và insertion gap tương ứng với quá trình thêm vào hoặc mất đi các phần tử di truyền

Hình 3.3:Các loại GAP

3.4. Giá trị GAP

Theo các nghiên cứu, các thay đổi dạng chèn và xóa bớt các ký tự trong trình tự xuất hiện rất ít so với trường hợp do đột biến. Do đó, trong mô hình so sánh các trình tự không quan tâm tới việc chèn hay xóa thêm các ký tự mà chỉ xét thêm các gap trong việc so sánh để đảm bảo phản ánh chính xác loại thay đổi này. Gap được hiểu đơn giản khi nhìn trong chuỗi trình tự là phần trống, không có ký tự để so sánh với ký tự của các chuỗi khác. Khi tính điểm so sánh cần phải tính thêm điểm phạt (gap penalty) do quãng cách này gây ra vì càng nhiều quãng cách thì các trình tự đem ra so sánh càng ít giống nhau.

Dựa trên hàm tuyến tính theo chiều dài gap để tính giá trị của gap:

γ (k) = −(q+r x k)

Seq AGARFIELDTHELASTFATCAT

Seq BGARFIELDTHEVERYFASTCAT

Errors/ mismatches insertion

q (q>0): giá trị xác định khả năng mở gap (gap open)

r (r>0) : giá trị xác định khả năng xuất hiện mỗi phần tử trong gap (gap ex- tension)

Hình 3.4:Giá trị của GAP

3.5. Ma trậ đá h iá

Kết quả của việc tính giá trị cho mỗi phép sắp hàng phụ thuộc nhiều và kết quả của hàm đánh giá sự tương đồng của mỗi cặp amino acid (a,b).

Trong thực tế sinh học khả năng xuất hiện của mỗi cặp amino acid là khác nhau, xác suất xuất hiện cùng lúc của mỗi cặp amino acid này có thể cao trong khi xác suất xuất hiện của cặp amino acid kia có thể thấp. Vì thế, độ tương đồng của các cặp amino acid thường được lưu trữ dưới dạng một ma trận 2 chiều gọi là ma trận đánh giá.

Có nhiều hình thức ma trận đánh giá khác nhau dựa trên quá trình nghiên cứu thống kê thực tế sinh học.

 Identity matrix: Đây là cơ chế đánh giá độ tương đồng đơn giản nhất. Trong ma trận này, các cặp amino acid giống nhau sẽ có giá trị của phần tử tương ứng trong ma trận là 1, các cặp amino acid còn lại sẽ nhận giá trị 0.

 Ma trận mã di truyền: Trong ma trận này, hàm đánh giá của mỗi cặp amino acid dựa trên độ tương đồng về mã di truyền. Ngày nay ma trận này hiếm khi được sử dụng trong việc sắp hàng các trình tự.

 Ma trận tương đồng hóa học (chemical similarity matrix): trong ma trận này, các amino acid có cấu trúc tương đồng về cấu trúc vật lý cũng như thuộc tính hóa học như kích thước, hình dạng, khả năng phân cực,…thì phần tử tương ứng trong ma trận sẽ nhận giá trị lớn hôn so với các cặp còn lại.

 Ma trận thay thế (substitution matrix) : Ma trận này được tính toán và xây dựng trên các quan sát thống kê về tần số thay đổi của các amino acid trong việc sắp hàng các chuỗi trình tự. Ma trận thay thế được đánh giá là tốt hơn so với 3 ma trận trên và hiện nay cũng được sử dụng nhiều nhất. Ma trận BLOSUM gồm nhiều cấp độ, ký hiệu là BLOSUMn.

 Ma trận BLOSUMn (1≤n≤100) cho biết độ tương đồng của các chuỗi được dùng để tính ra chúng. Ví dụ ma trận BLOSUM62, giá trị các phần từ trong ma trận được tính từ tập các protein có độ tương đồng không lớn hơn 62%. Trong tập các ma trận BLOSUMn, các ma trận có chỉ số n nhỏ thường được sử dụng trong việc align các trình tự có độ khác biệt cao (độ tương đồng thấp), và các ma trận có chỉ số n lớn thường được sử dụng cho các trình tự có độ tương đồng cao. Chẳng

hạn ma trận BLOSUM62 thường được dùng cho việc sắp hàng các trình tự khi chưa xác định độ tương đồng của chúng, ma trận BLOSUM45 thường được dùng cho các trình tự có độ khác biệt cao, ma trận BLOSUM100 thường được sùng cho các trình tự có độ tương đồng cao.

 Việc tính toán các tập ma trận BLOSUM dựa trên công thức xác suất biến đổi:           E P P k b a b a score( , )  , log 0

Trong đó P0 là xác suất chuyển đổi từ amino acid a sang amino acid b trong tập quan sát.

PE là xác suất xuất hiện của amino acid b trong tập quan sát.

k là hệ số làm tròn. Thông thường k=10 và giá trị hàm đánh giá được làm tròn thành số nguyên.

score(a,b)>0 cho biết sự thay thế giữa amino acid a và b có khả năng xảy ra cao hơn so với sự thay đổi một cách ngẫu nhiên.

score(a,b)<0 cho biết sự thay thế giữa amino acid a và b có khả năng xảy ra thấp hơn so với sự thay đổi một cách ngẫu nhiên.

score(a,b)=0 cho biết sự thay thế giữa amino acid a và b tương đương với việc thay thế 2 amino acid một cách ngẫu nhiên.

Hình 3.6:Tính score bằng ma trận đánh giá

3.6. Phươ pháp đánh giá

Phương pháp đánh giá cho phép đánh giá sự giống nhau, tương đồng giữa các trình tự dựa trên một số tiêu chí nào đó.

Việc sắp hàng giữa 2 hay nhiều trình tự sẽ cho kết quả khác nhau từ một tập chuỗi trình tự ban đầu. Cơ sở để đánh giá sự giống nhau giữa các trình tự sau phép sắp hàng thường căn cứ vào một hàm đánh giá cụ thể. Việc xây dựng hàm đánh giá tốt sẽ cho phép xác định được kết quả nào của phép sắp hàng tối ưu. Hàm đánh giá chính là cốt lõi của một phương pháp đánh giá.

Đối với PSA, phương pháp đánh giá phổ biến nhất là dựa vào tổng giá trị của các cặp ký tự đại diện không phải là Gap và giá trị của Gap trong PSA.

Đối với MSA, vì tính chất phức tạp của dữ liệu sinh học nên tất cả các phương thức đánh giá đều có những hạn chế và không có một tiêu chuẩn tổng quát nào để đo lường chất lượng của nó.

Trong phần này xin giới thiệu một phương pháp phổ biến nhất cho một MSA, đó là phương pháp Sum of Pair.

Hình 3.7:Phương pháp đánh giá Sum of Pair

Nội dung của phương pháp này là đánh giá MSA của k trình tự dựa trên tổng kết quả sắp hàng của tất cả ( k2 ) cặp trình tự có trong MSA. Theo phương pháp này giá trị của mỗi cột của MSA sẽ được tính bắng tổng tất cả các hàm đánh giá độ tương đồng của các cặp phần tử trong cột này.

3.7. Một số phươ pháp xếp hàng trình tự

3.7.1. Phươ pháp sắp hàng chính xác (Exact algorithms)

Thuật toán sắp hàng chính xác dựa trên việc tổng quát hóa thuật toán Needleman-Wunsch. Đây là thuật toán luôn luôn đưa ta sắp hàng tối ưu bằng cách sử dụng thuật toán quy hoạch động “quay về theo lối cũ” (backtracking). Khuyết điểm trong chiến lược sắp hàng chính xác là yêu cầu về thời gian và bộ nhớ (tăng theo hàm số mũ với số lượng các trình tự).

3.7.2. Phươ pháp sắp hà lũy tiến toàn cục (Progressive algo- rithms)

Về cơ bản, phương pháp này vẫn dựa trên nền tảng của thuật toán qui hoạch động. Thuật toán này tìm ra các trình tự có quan hệ gần nhau bằng cách sử dụng cây hướng dẫn (guide tree). Đây là phương pháp đơn giản và hiệu quả về mặt thời gian và bộ nhớ. Thuật toán được đề xuất đầu tiên bởi Hogeweg và sau đó được phát triển bởi Feng-Dolittle. Ý tưởng của thuật toán này là ban đầu thực hiện thiết lặp sắp hàng 2 trình tự, sau đó sắp hàng kết quả của cặp này với một trình tự khác để mở

rộng sắp hàng đa trình tự. Tiến trình này được lặp đi lặp lại nhiều lần cho đến khi tất cả các trình tự được sắp hàng. Một số chương trình được hiện thực theo phương pháp này: ClustalW, Multalign, Pileup, Blast, Fasta, Multal, Dialign.

3.7.3. Phươ pháp sắp hàng lặp (Iterative algorithms)

Thuật toán này lặp đi lặp lại việc sắp hàng để cố gắng tìm ra sắp hàng tối ưu nhất bằng cách sử dụng các profile, block, pattern,…Phương pháp này thường được áp dụng cho sắp hàng cục bộ. Khuyết điểm của phương pháp này là đòi hỏi thời gian tính toán cao và trong một số trường hợp kết quả thu được không tốt.

3.7.4. Phươ pháp dựa trên mô hình Makov ẩn (Hidden Mar- kov Model-HMM)

Là phương pháp dựa trên thống kê các trạng thái và xác suất chuyển đổi giữa chúng. Được áp dụng cho cả sắp hàng toàn cục và sắp hàng cục bộ. Các thuật toán phổ biến như thuật toán Forward-Backward, thuật toán Viterbi, thuật toán Baum- Welch. Ý tưởng của phương pháp này là sử dụng mô hình Markov ẩn để biểu diễn MSA, sau đó tối ưu khả năng mà một mô hình HMM có thể biểu diễn cho các trình tự đã được align. Trong mô hình này, các nucleotic (A, C, T, G) hoặc 23 amino acid sẽ là tập hợp các ký tự. Các trạng thái của mô hình sẽ thuộc 3 loại trạng thái: match, insert, delete. Mỗi ký tự sẽ có một xác suất xuất hiện nhất định tại mỗi trạng thái. Giữa các trạng thái sẽ có xác suất chuyển đổi từ trạng thái này sang trạng thái khác. Dựa trên mô hình này, mỗi chuỗi trình tự bất kỳ trong sinh học sẽ được sinh ra bằng một con đường tập các trạng thái. Tập hợp các trạng thái của các chuỗi trình tự trong mô hình HMM sẽ là 1 kết quả của bài toán sắp hàng đa trình tự. Và như vậy bài toán sắp hàng đa rình tự sẽ trở thành bài toán tìm xác xuất điều kiện cực đại của các chuỗi trình tự khi biết mô hình.

CHƯƠNG 4. THUẬT TOÁN DBSCAN

Chương này trình bày về thuật toán DBSCAN (Density Based Spatial Clus- tering of Aplication with Noise) được dùng để gom nhóm các trình tự theo mức độ tương đồng.

4.1. T ng quan về thuật toán phân cụm

Phần lớn các ứng dụng đều đòi hỏi việc quản lý dữ liệu không gian. Các hệ thống cơ sở dữ liệu không gian là những cơ sở dữ liệu dùng để quản lý dữ liệu không gian. Chính vì vậy, việc khai phá tri thức tự động hoá trở nên vô cùng quan trọng trong cơ sở dữ liệu không gian .

Có rất nhiều nhóm nghiên cứu dùng kỹ thuật khai phá dữ liệu để khai thác tập dữ liệu không gian. Các bài toán được chú trọng là sự xác định các lớp, các nhóm đối tượng của cơ sở dữ liệu có ý nghĩa là các lớp con. Ví dụ, việc quan sát dữ liệu trên trái đất để khám phá ra các lớp về nhà dọc theo một vài con sông.

Các thuật toán gom nhóm tập trung vào việc xác định lớp. Tuy nhiên, ứng dụng có sự gia tăng lớn về dữ liệu không gian đi đôi với việc đòi hỏi các thuật toán gom nhóm:

1. Các yêu cầu tối thiểu của phạm vi kiến thức là cần xác định tham số truyền vào, bởi vì các giá trị xấp xỉ nhau thường không biết được chính xác khi đối mặt với cơ sở dữ liệu lớn.

2. Khám phá ra các nhóm với các hình dáng trái ngược nhau, bởi vì hình dáng của các cluster trong cơ sở dữ liệu không gian có thể là hình cầu, đường thẳng, hình thon dài, …

3. Có hiệu quả tốt trên cơ sở dữ liệu lớn, hoạt động tốt hơn với tập cơ sở dữ liệu có vài ngàn đối tượng.

Các thuật toán gom nhóm trước đây không đưa ra giải pháp để kết hợp những yêu cầu này. Trong chương này sẽ chỉ trình bày thuật toán gom nhóm hiệu quả là DBSCAN. Thuật toán chỉ yêu cầu một tham số truyền vào và hỗ trợ người

dùng xác định giá trị xấp xỉ với nó. Thuật toán khám phá ra các nhóm có hình dáng trái ngược nhau. Nói tóm lại, DBSCAN hiệu quả với cơ sở dữ liệu không gian lớn.

4.2. Thuật toán gom nhóm

Có hai loại thuật toán gom nhóm cơ bản đó là thuật toán phân hoạch và thuật toán thứ tự.

Thuật toán phân hoạch xây dựng một vùng cơ sở dữ liệu D của n đối tượng vào k nhóm, k là một tham số truyền vào của thuật toán. Thuật toán phân hoạch khởi tạo một phân hoạch D và sau đó dùng chiến lược điều khiển vòng lặp để tối ưu một chức năng của mục tiêu. Mỗi nhóm được đại diện bởi trọng tâm của nhóm (thuật toán k-means) hoặc vị trí của một số đối tượng trong nhóm ở gần trung tâm của nhóm nhất (thuật toán k-medoid). Ngược lại, các thuật toán phân hoạch sử dụng thủ tục hai bước. Trước hết, xác định k đại diện giá trị nhỏ nhất chức năng đối tượng. Bước tiếp theo đưa ra một phân hoạch tương ứng.

Thuật toán thứ tự tạo ra sự phân chia thứ tự trong D. Phân chia có thứ tự

Một phần của tài liệu Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng luận văn thạc sĩ (Trang 40)