Thuật tốn sinh tập bộ dị dạng r

Tập bộ dị dạng r-contiguous thường cĩ khả năng phát hiện thay đổi kém hơn so với tập bộ dị dạng r-chunk nhưng nĩ thích hợp cho dữ liệu cĩ tính cấu trúc.

2.4.3.1.Thuật tốn

Input: Tập các xâu S, ℓ, r Output: ContD(S,r)

Tạo bảng A tương tự như r-chunk; //Sinh tập bộ dị r – contiguous

//sử dụng hai tập hợp để chứa bộ dị D1 và D2

D1 = giá trị của i khi đổi về dạng nhị phân r bit ứng với phần tử a[i, 1] (i = 1,…, n) cĩ giá trị bằng 0 và D2 = ;

for i=2 to ℓ-r+1 do begin

D2=;

for mỗi dD1 do begin

if copy(d,i,r-1)+’0’ mà A[k,i] = 0 then D2  copy(d,i,r-1)+’0’ if copy(d,i,r-1)+’1’ mà A[k,i] = 0 then D2 copy(d,i,r-1)+’1’ end; end; D1= D2; End; ContD(S,r) = D1; 2.4.3.2.Độ phức tạp thuật tốn

Độ phức tạp thuật tốn tìm tập ContD(S,r) là O(r.2r(ℓ-r+1)).

Ví dụ 2.5. S = {01011 ; 11001 ; 10110 ; 00101 ; 01010}, với ℓ = 5, r = 3. Ta cĩ bảng A như sau: Bảng 2.2. Các thơng số bảng băm A. 1 2 3 0 0 0 0 1 1 0 1 2 1 1 1 3 0 1 1 4 0 1 0 5 1 1 1 6 1 0 1 7 0 0 0

Tại cột 1 của bảng A ta thấy: + A[0, 1] = 0 Vậy D1[1] = 000 + A[3, 1] = 0 Vậy D1[2] = 011 + A[4, 1] = 0 Vậy D1[3] = 100

+ A[7, 1] = 0 Vậy D1[4] = 111 i = 2 < ℓ - r + 1 nên Với D1[1] = 000

*) Xâu = 0001 s = (001)2 = (1)10

Thấy A[s, 2] = A[1, 2] = 0 Vậy D2[1] = 0001 *) Xâu = 0000

s = (000)2 = (0)10

Thấy A[s, 2] = A[0, 2] = 0 Vậy D2[2] = 0000 Với D1[2] = 011

*) Xâu = 0111 s = (111)2 = (7)10

Thấy A[s, 2] = A[7, 2] = 0 Vậy D2[3] = 0111 *) Xâu = 0110

s = (110)2 = (6)10

Thấy A[s, 2] = A[6, 2] = 0 Vậy D2[4] = 0110 Với D1[3], D1[4] ta làm tương tự và được

D2[5] = 1001, D2[6] = 1000 D2[7] = 1111, D2[8] = 1110 D1 = D2; D2 = ; i = 3 <= ℓ-r+1 nên Với D1[1] = 0001 *) Xâu = 00011 s = (011)2 = (3)10

*) Xâu = 00010 s = (010)2 = (2)10

Thấy A[s, 3] = A[2, 3] = 1 nên khơng lưu 00011 vào mảng D2 Với D1[2] = 0000

+ Xâu = 00001

s = (001)2 = (1)10

Thấy A[s, 2] = A[1, 3] = 1 nên khơng lưu 00001 vào mảng D2

+ Xâu = 00000

s = (010)2 = (0)10

Thấy A[s, 2] = A[0, 3] = 0 Vậy D2[1] = 00000

Với D1[3], D1[4], D1[5], D1[6], D1[7], D1[8] làm tương tự ta được D2[2] = 00000, D2[3] = 01100 D2[4] = 01111, D2[5] = 10000 D2[6] = 11111 D1 = D2; D2 = ; i = 4 > ℓ - r +1 nên kết thúc. Vậy tập bộ dị tìm được là: D[1] = 00000 D[4] = 10000 D[2] = 01100 D[5] = 11100 D[3] = 01111 D[6] = 11111

Như vậy với phương pháp sử dụng bảng băm A, tốc độ sinh tập bộ dị sẽ tăng nhanh, với độ phức tạp thời gian là O(2r.(ℓ-r+1)).

2.5.Các nghiên cứu gần đây

Phân loại thư rác tự động là một lĩnh vực được chú ý nhất trong những năm gần đây. Để phân loại người ta sử dụng nhiều cách tiếp cận khác nhau như dựa trên từ khĩa, dựa trên ngữ nghĩa các từ cĩ tần số xuất hiện cao, mơ hình Maximum Entropy, tập thơ ... Một số lượng lớn các phương pháp phân loại đã được áp dụng như: mơ hình hồi quy [Fuhr et al,1991], phân loại dựa trên láng giềng gần nhất (k-nearest neighbors)

1997], cây quyết định [Fuhr et al,1991], học luật quy nạp [William & Yoram, 1996], mạng nơron (neural network) [Wiener et al, 1995], học trực tuyến [William & Yoram, 1996], và máy vector hỗ trợ (SVM-support vector machine) [Vapnik, 1995]. Hiệu quả của các phương pháp này rất khác nhau ngay cả khi áp dụng cho tiếng Anh.

Cách tiếp cận dùng hệ miễn dịch nhân tạo cho lọc thư rác được đề xuất đầu tiên bởi Terri Oda [11] cho phép hệ thống lọc thư rác cĩ khả năng học trong mơi trường động với nội dung thay đổi liên tục theo thời gian thực. Tuy nhiên, kỹ thuật áp dụng cịn đơn giản nên tốc độ chậm và độ chính xác cịn hạn chế.

Sau đĩ Tarek M Mahmoud và Ahmed M Mahfouz đã áp dụng AIS để lọc thư rác SMS. SMS là dạng tin nhắn văn bản được gửi giữa các điện thoại, thơng thường các tin nhắn này khơng cĩ tệp tin đính kèm nên dung lượng nhỏ vì vậy quá trình huấn luyện dễ dàng hơn, tuy nhiên việc huấn luyện và so khớp phải diễn ra trong khoảng thời gian ngắn vì SMS là dạng tin nhắn được diễn ra trong thời gian thực [Tarek M Mahmoud, 2012].

Chương 3.

KẾT QUẢ CÀI ĐẶT CÁC THUẬT TỐN.

Trong chương này, tác giả tiến hành thử nghiệm áp dụng kết hợp thuật tốn chọn lọc tích cực và chọn lọc tiêu cực trong hệ miễn dịch nhân tạo cho lọc thư rác trên các bộ cơ sở dữ liệu chuẩn như TREC’07 và Spambase. Đồng thời, tác giả cũng sử dụng các đánh giá độ chính xác cho phương pháp được đề xuất và so sánh với một số phương pháp lọc thư rác hiện nay, cài đặt thử nghiệm tại một Email server tại Viễn Thơng tỉnh Bắc Kạn. Những phương pháp đánh giá và kết quả trong chương trình này cĩ thể tìm thấy trong [8], [9], [10].

Thuật tốn sinh tập bộ dị dạng r– contiguous

Thuật tốn sinh tập bộ dị r-chunk

Giao diện chương trình và kết quả