Một chuỗi đƣợc tạo thành từ một tập hợp các mục có thể xảy ra trong thời gian hay xảy ra cái khác, đó là, ở vị trí nhƣng không nhất thiết phải liên quan với thời gian. Có thể nói rằng một chuỗi là một tập có thứ tự của các tập tin. Thông thƣờng, một chuỗi đƣợc ký hiệu là S= (a1,a2,...,an), với a1,a2,...,an là những tập hợp mục đặt trong chuỗi S.
Chiều dài của chuỗi đƣợc định nghĩa là số lƣợng các tập mục có trong trình tự, ký hiệu là |S|. Để tìm ra các mẫu trong trình tự, nó là cần thiết để không chỉ nhìn vào các mục có trong trình tự mà còn là thứ tự xuất hiện của chúng. Một biện pháp
35
mới, đƣợc gọi là trình tự và thiết lập độ đo tƣơng tự ( 3 ) đã đƣợc giới thiệu cho các lĩnh vực an ninh mạng. Độ đo 3 bao gồm hai phần: Một là định lƣợng các thành phần của chuỗi (bộ tƣơng tự) và một định lƣợng tính chất tuần tự. Trình tự giống nhau định lƣợng số lƣợng tƣơng tự theo thứ tự xuất hiện của các tập mục trong hai chuỗi. Chiều dài của dãy con chung dài nhất (LLCS) đối với chiều dài của chuỗi dài nhất với quyết định các khía cạnh tƣơng tự trên hai chuỗi. Ví dụ, với hai chuỗi và , tƣơng tự đƣợc đo nhƣ sau:
= | | | |
Bộ tƣơng tự (độ đo tƣơng tự Jaccard) đƣợc định nghĩa là tỷ lệ với số tập mục phổ biến và số lƣợng các tập mục chung trong hai chuỗi. Nhƣ vậy, cho hai chuỗi và , tập tƣơng tự đƣợc đo nhƣ sau:
= | || |
Xem xét hai trình tự và , trong đó = (a, b, c, d) và = (d, c, b, a). Bây giờ, các bi độ đo tập tƣơng tự cho hai trình tự này là 1, chỉ ra rằng thành phần của chúng là nhƣ nhau.
Nhƣng chúng ta có thể thấy rằng chúng không ở tất cả các tƣơng tự khi xem xét thứ tự xuất hiện của các tập mục. Khía cạnh này đƣợc xác bởi các thành phần trình tự giống nhau. Nơi các thành phần tƣơng tự là 0,25 cho những trình tự này. theo dõi những vị trí xuất hiện của tập mục trong trình tự. Cho hai trình tự, = (a, b, c, d) và = (b, a, k, c, t, p, d), và sau khi chuẩn hóa, các thành phần trình tự tƣơng đồng lƣợt ra đƣợc 0,43. Sự tƣơng tự thiết lập cho hai trình tự này là 0,57. Hai ví dụ trên minh họa cho sự cần thiết phải kết hợp bộ tƣơng đồng và trình tự các thành phần tƣơng đồng vào một chức năng. Do đó, 3 biện pháp cho hai trình tự và đƣợc cho bởi:
= p*
| | | | + q*| | | |
Với và p , và xác định trọng lƣợng tƣơng đối đƣợc đƣa ra cho trật tự xảy ra ( trình tự tƣơng đồng) và nội dung (tập tƣơng tự), tƣơng ứng. Trong ứng dụng thực tế, có thể chỉ định các thông số này. Các LLCS giữa hai chuỗi có thể đƣợc tìm thấy bằng cách tiếp cận năng động lập trình. Ở đây, và . và xác định trọng lƣợng tƣơng đối đƣợc đƣa ra cho trật tự
36
xảy ra (tƣơng tự) và nội dung (thiết lập tƣơng tự), tƣơng ứng. Trong ứng dụng thực tế, ngƣời sử dụng có thể chỉ định các thông số này[7].
là một tập hợp các chuỗi hữu hạn đƣợc tạo ra từ một tập hợp các biểu tƣợng, ∑. Cho R là tập các số thực sau đó ( i, j): x đƣợc gọi là chỉ số tƣơng đồng giữa các trình tự i, j nếu có đủ các đặc tính sau đây:
(1) Non negativity( không âm): ( i, j) 0 với i, j .
(2) Symmetry(tính đối xứng): (si, sj) = ( j, i) 0 với i, j . (3) Normalization(tiêu chuẩn hóa): ( i, j) 1 với i, j .