Một số định nghĩa

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộ của viễn thông tỉnh bắc kạn​ (Trang 29 - 32)

Trong các định nghĩa dưới đây, ta chỉ xét các xâu được xây dựng từ cùng một tập kí tự Σ. Khơng mất tính tổng quát, trong luận văn ta chỉ xét

theo nghĩa thơng thường là tập tất cả các xâu kí tự độ dài k xây dựng từ tập kí tự Σ.

2.4.1.1.Self

Self hay cịn được gọi là tập S bao gồm các xâu s  Σℓ mà chúng ta đang cần được bảo vệ.

2.4.1.2.NonSelf

NonSelf là tập các xâu s  Σℓ khơng nằm trong tập S mà bộ dị cĩ thể so khớp được.

2.4.1.3.Bộ dị

Bộ dị là xâu d  Σ cĩ thể khớp được với nonself nhằm mục đích phát hiện ra các xâu lạ trong tập S.

Bộ dị r-chunk

Một bộ dị r-chunk là một bộ (d,i) gồm một xâu d  Σr và một số nguyên i  {1,…, ℓ–r+1}. Nĩ khớp được với một xâu khác s  Σℓ nếu s[i,…,i+r –1] = d.

Bộ dị r-contiguous

Một bộ dị r-contiguous là một xâu d Σℓ. Nĩ khớp được với một xâu khác s  Σℓ nếu cĩ một i  {1,…,ℓ – r + 1} với d[i,…,i + r – 1]=s[i,…,i+r–1].

2.4.1.4.Tập bộ dị ChunkD(S, r) và ContD(S, r)

Cho một tập xâu kí tự S  Σℓ và một số nguyên r{1,…,ℓ}, ChunkD(S, r) là tập hợp các bộ dị r-chunk khơng khớp được với bất kỳ xâu nào trong S và ContD(S, r) là tập các bộ dị r-contiguous khơng khớp được với bất kỳ xâu nào trong S.

Khi đĩ:

ChunkD(S, 3)= D1D2D3 gồm 12 bộ dị loại 3-chunk:

D1 = {(010,1), (011,1), (101,1), (111,1)} D2 = {(010,2), (101,2), (110,2), (111,2)} D3 = {(001,3), (100,3), (101,3)}

ContD(S, 3) = {01100; 01101; 11100; 11101}

2.4.1.5.Khả năng phát hiện của tập bộ dị

Khả năng phát hiện của một tập bộ dị là số lượng nonself mà tập bộ dị đĩ khớp được.

Một tập bộ dị được gọi là đầy đủ và khơng dư thừa nếu nĩ là tập bộ dị bé nhất cĩ khả năng phát hiện bằng khả năng phát hiện của mọi tập bộ dị.

Ví dụ 2.2. Với tập S như trong Ví dụ 2.1 ở trên thì khả năng phát hiện ChunkD(S,3) là 23: 1. 00001 9. 01101 17.11001 2. 00100 10.01110 18.11010 3. 00101 11.01111 19.11011 4. 01000 12.10001 20.11100 5. 01001 13.10100 21.11101 6. 01010 14.10101 22.11110 7. 01011 15.10110 23.11111 8. 01100 16.10111

Khả năng phát hiện của ContD(S,3) là 12: 1. 00100 7. 10100 2. 00101 8. 10101 3. 01100 9. 11100 4. 01101 10.11101 5. 01110 11.11110 6. 01111 12.11111

2.4.1.6.Hole

Một xâu h  Σℓ được gọi là hole hay cịn gọi là “lỗ hổng” nếu nĩ khơng thuộc tập S và nĩ cũng khơng bị phát hiện bởi bất kỳ bộ dị nào.

Những xâu này là nguyên nhân gây ra lỗi phát hiện sai loại false negative. Tất cả các hệ thống phát hiện xâm nhập mạng đều cố gắng kiểm sốt số lượng hole này.

Ví dụ 2.3. Với tập S như trong Ví dụ 2.1 thì tập các hole của ChunkD(S,3) là:

1. 10010 2. 10011

Tập các hole của ContD(S,3) là:

1. 10010 5. 11001 2. 10011 6. 11010 3. 10110 7. 11011 4. 10111

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộ của viễn thông tỉnh bắc kạn​ (Trang 29 - 32)

Tải bản đầy đủ (PDF)

(66 trang)