Bài toán tìm xâu con chung dài nhất

Một phần của tài liệu Một số phương pháp thiết kế thuật toán cơ bản trong tính toán song song và ứng dụng (Trang 33 - 34)

Định nghĩa xâu.

Kí hiệu a,b,c,...là các kí tự trong bảng chữ cái . Một xâu được xác định như một dãy liên tiếp của các kí tự. Với một xâu s ta có một số quy ước về ký hiệu như sau:

- s là độ dài xâu s. Nếu s 0 thì s là xâu rỗng và được ký hiệu là .

- si là ký tự thứ i của xâu si1,...,s. Định nghĩa xâu con.

Cho ss1s2...sn,si  là một xâu có độ dài n trên bảng chữ cái . Một xâu

   sisi si si X k, ... 2

1 là một xâu con của s, nếu j,1 jk: 1ijn, và ijij1

Định nghĩa xâu con chung dài nhất

Cho S s1,s2,...,sd là một tập các xâu trên bảng chữ cái  với độ dài

d

n n

n1, 2,..., tương ứng. Xâu con chung dài nhất của tập S là một xâu X thỏa mãn:

(i) X là một xâu con của si, i1,2,...,d.

(ii) X có độ dài lớn nhất thỏa mãn (i). Ví dụ:

Cho 3 xâu s1"ATGCCAAT", s2 "AGGTGCT", s3"GCCTAC". Khi đó xâu con chung dài nhất của cả ba xâu là X"GCT".

Trong tin sinh học, tùy thuộc vào kiểu của dữ liệu, kích thước của bảng chữ cái

 thì độ dài của xâu ký tự rất đa dạng. Bảng 1 dưới đây thống kê về độ dài xâu ký tự của một số dữ liệu tin sinh học [12].

Bảng 2.1 Độ dài xâu ký tự của một số dữ liệu tin sinh học

Dữ liệu sinh học Bảng chữ cái  Độ dài xâu ký tự

Protein A,C,...,W, 20 ~ 102 – 104

ARN A,C,G,U ~ 102 – 104

Gen gen1,gen2,...,genk ~ 102 – 104

ADN A,C,G,T ~ 103 – 1012

Bảng 2.1 cho thấy độ dài của các xâu trong dữ liệu tin sinh học là rất lớn. Do đó việc tìm ra xâu con chung dài nhất giữa các xâu đòi hỏi tính toán rất phức tạp và tốn rất nhiều thời gian.

Một phần của tài liệu Một số phương pháp thiết kế thuật toán cơ bản trong tính toán song song và ứng dụng (Trang 33 - 34)

Tải bản đầy đủ (PDF)

(61 trang)