Định nghĩa xâu.
Kí hiệu a,b,c,...là các kí tự trong bảng chữ cái . Một xâu được xác định như một dãy liên tiếp của các kí tự. Với một xâu s ta có một số quy ước về ký hiệu như sau:
- s là độ dài xâu s. Nếu s 0 thì s là xâu rỗng và được ký hiệu là .
- si là ký tự thứ i của xâu si1,...,s. Định nghĩa xâu con.
Cho s s1s2...sn,si là một xâu có độ dài n trên bảng chữ cái . Một xâu
sisi si si X k, ... 2
1 là một xâu con của s, nếu j,1 jk: 1ij n, và ij ij1
Định nghĩa xâu con chung dài nhất
Cho S s1,s2,...,sd là một tập các xâu trên bảng chữ cái với độ dài
d
n n
n1, 2,..., tương ứng. Xâu con chung dài nhất của tập S là một xâu X thỏa mãn:
(i) X là một xâu con của si, i1,2,...,d.
(ii) X có độ dài lớn nhất thỏa mãn (i). Ví dụ:
Cho 3 xâu s1"ATGCCAAT", s2 "AGGTGCT", s3"GCCTAC". Khi đó xâu con chung dài nhất của cả ba xâu là X "GCT".
Trong tin sinh học, tùy thuộc vào kiểu của dữ liệu, kích thước của bảng chữ cái
thì độ dài của xâu ký tự rất đa dạng. Bảng 1 dưới đây thống kê về độ dài xâu ký tự của một số dữ liệu tin sinh học [12].
Bảng 2.1 Độ dài xâu ký tự của một số dữ liệu tin sinh học
Dữ liệu sinh học Bảng chữ cái Độ dài xâu ký tự
Protein A,C,...,W, 20 ~ 102 – 104
ARN A,C,G,U ~ 102 – 104
Gen gen1,gen2,...,genk ~ 102 – 104
ADN A,C,G,T ~ 103 – 1012
Bảng 2.1 cho thấy độ dài của các xâu trong dữ liệu tin sinh học là rất lớn. Do đó việc tìm ra xâu con chung dài nhất giữa các xâu đòi hỏi tính toán rất phức tạp và tốn rất nhiều thời gian.