Bài báo trình bày một giải pháp cho vấn đề này dựa trên việc ứng dụng mô hình tối ưu hóa đa mục tiêu trong thiết kế các bộ lọc thư rác. Để đánh giá giải pháp, nhóm tác giả đã thực hiện thí nghiệm thiết kế các luật lọc thư rác cho phần mềm SpamAssassin sử dụng dữ liệu thư điện tử tiếng Việt. Kết quả thí nghiệm cho thấy phương pháp mới không chỉ cho kết quả tốt hơn so với các phương pháp hiện có mà còn cho phép đánh giá “sự thỏa hiệp” (tradeoff) giữa hai tỉ lệ nói trên khi thiết kế bộ lọc thư rác. Mời các bạn cùng tham khảo!
Thảo Quốc Gia2015 2015về vềĐiện Điện Tử, Tử,Truyền Truyền Thông Thông Thông TinTin (ECIT 2015) HộiHội Thảo Quốc Gia vàCông CôngNghệ Nghệ Thông (ECIT 2015) Ứng dụng tối ưu hóa đa mục tiêu tốn tự động phân loại thư rác Nguyễn Xuân Thắng1, Trần Quang Anh2 , Trịnh Bảo Ngọc1 Nguyễn Thanh Hà2 : Đại học Hà Nội Email: {nxthang, ngoctb}@hanu.edu.vn : Học Viện Cơng Nghệ Bưu Chính Viễn Thơng Email: tqanh@ptit.edu.vn; thanhha140589@gmail.com Abstract— Một vấn đề tồn hệ thống phân loại tự động thư rác dựa nội dung để cân độ xác phân loại thư rác tỉ lệ chặn nhầm thư hợp lệ thiết kế lọc thư rác Bài báo trình bày giải pháp cho vấn đề dựa việc ứng dụng mơ hình tối ưu hóa đa mục tiêu thiết kế lọc thư rác Để đánh giá giải pháp, nhóm tác giả thực thí nghiệm thiết kế luật lọc thư rác cho phần mềm SpamAssassin sử dụng liệu thư điện tử tiếng Việt Kết thí nghiệm cho thấy phương pháp không cho kết tốt so với phương pháp có mà cịn cho phép đánh giá “sự thỏa hiệp” (tradeoff) hai tỉ lệ nói thiết kế lọc thư rác Hiện quy trình thiết kế lọc thư rác theo phương pháp học máy gồm bước sau: - Sử dụng tập mẫu để huấn luyện phân loại tự động - Chọn ngưỡng T dùng để xác định xem thư có phải thư rác hay không Thư tách thành đặc trưng so sánh với đặc trưng ghi nhận huấn luyện Nếu tổng trọng số đặc trưng lớn giá trị T thư phân loại thư rác - Tính tốn tham số SDR FAR để đánh giá hiệu lọc Theo quy trình giá trị SDR FAR phụ thuộc vào ngưỡng T trọng số đặc trưng Để tìm lọc có SDR FAR phù hợp người dùng phải thử giá trị T trọng số khác lặp lại quy trình Lưu ý trình huấn luyện phân loại thường tốn thời gian tập mẫu lớn Hơn nữa, quy trình chưa hỗ trợ việc đánh giá “sự thỏa hiệp” SDR FAR Nhóm tác giả đề xuất giải pháp cho vấn đề cách coi yêu cầu thiết kế lọc thư rác tốn tối ưu hóa đa mục tiêu ta cần tìm giá trị ngưỡng T trọng số đặc trưng cho tham số SDR FAR lọc thư rác tối ưu Giải pháp áp dụng để thiết kế lọc thư rác tảng phần mềm SpamAssassin [1] với đặc trưng trích chọn luật trọng số đặc trưng điểm luật tương ứng Do đặc thù toán tối ưu đa mục tiêu mô tả báo có khơng gian tìm kiếm lớn nhiều chiều nên nhóm tác giả đề xuất sử dụng giải thuật tiến hóa đa mục tiêu (multi-objective evolutionary algorithm – MOEA) [9], cụ thể giải thuật SPEA-II [10,11], để giải tốn Tuy SPEA-II khơng cho lời giải xác nhất, giải thuật cho kết tập phương án thỏa hiệp (hay gọi tập phương án tối ưu Pareto) [12] Từ đó, kết hợp thêm tiêu chí khác, ta chọn lời giải tốt cho toán So sánh với giải pháp tại, giải pháp nhóm tác giả đề xuất có hai ưu điểm sau: - Tìm giá trị khác ngưỡng T điểm luật để xây dựng lọc thư rác có tham số SDR FAR phù hợp với yêu cầu người dùng mà không tốn thời gian huấn luyện lại phân loại tự động - Đưa tập nghiệm “thỏa hiệp” hai mục tiêu đem lại lựa chọn dễ dàng cho người dùng phải cân nhắc SDR FAR Phần lại báo tổ chức sau: phần II trình bày hệ thống lọc thư rác SpamAssassin Phần III phát Keywords- Lọc thư rác, tối ưu hóa đa mục tiêu, giải thuật di truyền, SpamAssassin I GIỚI THIỆU Ngày nay, thư điện tử trở thành công cụ đắc lực phục vụ cho nhu cầu trao đổi thông tin quan, tổ chức, doanh nghiệp cá nhân Tuy nhiên, thư điện tử bị lợi dụng để phát tán thư rác, lây lan virus máy tính lừa đảo trực tuyến, gây thiệt hại lớn cho người sử dụng Nhiều giải pháp đưa để đối phó với vấn nạn thư rác, đáng kể giải pháp tự động phân loại thư rác dựa nội dung thông qua học máy Phương pháp cần có hai tập mẫu riêng biệt chứa thư rác thư hợp lệ phân loại xác từ trước Từ tập mẫu này, thuật toán học máy sử dụng để trích chọn đặc trưng nội dung (thường từ cụm từ) thư rác, đánh trọng số cho đặc trưng huấn luyện phân loại tự động cho phép phân loại thư chưa xuất hai tập mẫu Ưu điểm giải pháp có tính linh hoạt có hiệu cao Để đánh giá hiệu lọc thư rác người ta thường sử dụng hai tham số độ xác phân loại thư rác (Spam Detection Rate – SDR) tỉ lệ chặn nhầm thư hợp lệ (False Alarm Rate – FAR) Trong đó, SDR tỉ số số thư rác mà lọc phân loại tổng số thư rác đầu vào FAR tỉ lệ số thư hợp lệ bị lọc phân loại nhầm thư rác tổng số thư hợp lệ đầu vào Một lọc thư rác lý tưởng có tỉ lệ SDR FAR 100% 0% Tuy nhiên quan sát thực tế trình xây dựng lọc thư rác cho thấy điều chỉnh để tăng tỉ lệ SDR đồng thời làm tăng tỉ lệ FAR ngược lại việc giảm tỉ lệ FAR kéo theo giảm tỉ lệ SDR Do vấn đề đặt thiết kế lọc thư rác cân nhắc “sự thỏa hiệp” (tradeoff) hai tham số SDR FAR để tìm giải pháp phù hợp cho tình cụ thể ISBN: 978-604-67-0635-9 30 30 Thảo Quốc Gia2015 2015về vềĐiện Điện Tử, Tử,Truyền Truyền Thông Thông Thông TinTin (ECIT 2015) HộiHội Thảo Quốc Gia vàCông CôngNghệ Nghệ Thông (ECIT 2015) cho tham số SDR lọc lớn tiến hành phân loại thư tập huấn luyện Đối chiếu với bước giải pháp tự động phân loại thư rác dựa nội dung thông qua học máy mô tả phần I giai đoạn thực việc trích trọn đặc trưng thư rác thể luật tập luật, giai đoạn hai thực xác định trọng số đặc trưng thể điểm số luật Dễ thấy xây dựng lọc thư rác tảng SpamAssassin, điểm số luật có ảnh hướng lớn đến hiệu lọc điểm số luật thể độ quan trọng luật q trình phân loại thư Xác định điểm số cho luật xác hiệu lọc thư rác cao ngược lại Gọi SDR0 FAR0 giá trị mong muốn hai tham số SDR FAR lọc thư rác cần thiết kế (với ý nghĩa lọc đạt yêu cầu lọc có SDR ≥ SRD0 FAR ≤ FAR0) Trong phương pháp xác định điểm số tại, sau xác định ngưỡng T, điểm số luật tính tốn tham số SDR lọc thu lớn Tuy nhiên khả sau xảy sau thực thi xong thuật tốn tính điểm số: (1) Giá trị SDR lọc thu không đạt yêu cầu (2) Giá trị FAR lọc thu không đạt yêu cầu (3) Giá trị SDR FAR đạt yêu cầu chưa phải tối ưu Để giải vấn đề người dùng phải thử chọn giá trị ngưỡng T khác, thực lại thuật tốn tính điểm tiếp tục kiểm tra xem tham số SDR FAR lọc đạt yêu cầu chưa Quy trình khơng gây tốn thời gian, tốn tài nguyên hệ thống mà chưa giải triệt để vấn đề (3) chưa xem xét đến giá trị FAR q trình tính điểm Từ phân tích nêu trên, nhóm tác giả đề xuất giải pháp coi toán xác định điểm cho luật lọc thư rác toán tối ưu hóa đa mục tiêu ta cần tìm giá trị ngưỡng T giá trị điểm số luật cho giá trị tham số SDR FAR lọc thu tối ưu Lưu ý mối quan hệ “thỏa hiệp” SDR FAR nêu phần I nên khó tìm giá trị T điểm số cho SDR FAR thực tối ưu (SDR=100% FAR=0%), thay vào nhóm tác giả hướng tới việc tìm tập phương án thỏa hiệp (hay gọi tập phương án tối ưu Pareto) [12] Từ đó, kết hợp thêm tiêu chí khác, ta chọn lời giải tốt cho toán biểu toán đề xuất phương pháp giải Phần IV trình bày kết thí nghiệm đánh giá hiệu giải pháp Phần V tóm tắt kết nghiên cứu liên quan đến chủ đề trình bày báo Cuối cùng, kết luận trình bày phần VI II BỘ LỌC SPAMASSASSIN SpamAssassin hệ thống lọc thư rác sử dụng phổ biến Apache Foundation phát triển SpamAssassin phân loại thư rác dựa tập luật định nghĩa sẵn Mỗi luật gán điểm số cho trước Trong trình lọc thư rác, tập luật áp dụng cách thư cần phân loại để chấm điểm Khi tổng số điểm thư vượt ngưỡng cho trước thư bị phân loại thư rác Một ví dụ luật dùng Spamassassin mô tả danh sách (1): Body DEAR_FRIEND /^\s*Dear Friend\b/i Describe DEAR_FRIEND Dear Friend? That’s not very dear Score DEAR_FRIEND 0.542 Danh sách 1: Ví dụ luật SpamAssassin Ví dụ định nghĩa luật có tên DEAR_FRIEND, SpamAssassin áp dụng luật thư cần phân loại, phần mềm kiểm tra xem thư có chứa mẫu chuỗi ký tự quy định biểu thức quy /^\s*Dear Friend\b/i hay khơng Nếu thư có chứa chuỗi số điểm 0.542 cộng vào tổng điểm số dùng để phân loại thư Cấu trúc cụ thể luật dùng SpamAssassin trình bày cụ thể [1,3] Một tập luật với điểm số chúng tạo thành lọc thư rác SpamAssassin Quá trình xây dựng lọc thư rác cho SpamAssassin chia thành hai giai đoạn: xác định nội dung luật (các mẫu chuỗi ký tự dùng biểu thức quy) gán điểm số cho luật Ở giai đoạn thứ vào hai tập mẫu cho trước đặc trưng thư rác (từ cụm từ) trích chọn để hình thành nên nội dung luật lọc Mỗi luật tương ứng với từ cụm từ đặc trưng thư rác Dễ thấy nội dung luật phụ thuộc vào loại ngôn ngữ sử dụng thư tập mẫu, có luật khác dành riêng cho lọc thư rác tiếng Anh lọc thư rác tiếng Việt Trong nghiên cứu trước đây[2,5,6], nhóm tác giả trình bày cụ thể vấn đề xây dựng luật lọc thư rác tiếng Việt thư rác đa ngôn ngữ Bài báo sử dụng kết tập luật lọc thư rác thu từ nghiên cứu Ở giai đoạn thứ hai điểm số gán cho luật, q trình có ý nghĩa tương tương với việc gán trọng số cho đặc trưng trích chọn Hiện SpamAssassin sử dụng thuật toán học máy tảng mạng neural lớp[2,3] Trong nút mạng mơ tả luật, đầu vào nút thể luật có xuất thư rác, trọng số nút điểm luật Sau kết thúc q trình huấn luyện tồn tập luật gán điểm số tương ứng Về q trình mơ hình hóa dạng tốn tối ưu hóa đơn mục tiêu, với ngưỡng T cho trước trình huấn luyện gán điểm cho luật III PHÁT BIỂU BÀI TOÁN VÀ PHƯƠNG PHÁP GIẢI A PHÁT BIỂU BÀI TOÁN Giả sử tập mẫu ban đầu bao gồm tập thư rác S=(s1, s2, …, sK) tập thư hợp lệ H=(h1, h2, …, hL) Giả sử lọc thư rác cần xây dựng bao gồm tập luật R=(r1, r2, …, rN), luật cần xác định điểm tương ứng phần tử tập điểm X=(x1, x2, …, xN) Với luật r thư điện tử e ta xác định hàm so khớp m(r,e) sau: đặc trưng r xuất e mr,e= ngược lại (1) Tiếp theo tổng điểm thư điện tử e tính theo công thức sau: 31 31 Thảo Quốc Gia 2015về vềĐiện ĐiệnTử, Tử,Truyền TruyềnThông Thông TinTin (ECIT 2015) HộiHội Thảo Quốc Gia 2015 Công CôngNghệ NghệThông Thông (ECIT 2015) N Scoree= m(ri ,e)xi thể tập tối ưu Pareto, tập phương án gọi tập Pareto biết tốt (Best-known Pareto set) Ba tiêu chí sau thường dùng để đánh giá tập Pareto biết tốt nhất: - Là tập tập tối ưu Pareto - Các giá trị hàm mục tiêu tương ứng phương án phải phân bố đa dạng đường biên Pareto không gian mục tiêu - Các giá trị hàm mục tiêu tương ứng phải biểu thị toàn cảnh đường biên Pareto (2) i=1 Với giá trị ngưỡng T xác định, lọc SpamAssassin kết luận e thư rác hay thư hợp lệ dựa công thức: Score(e) ≥ T Spame= ngược lại (3) Từ tham số SDR FAR lọc thư rác tính theo cơng thức: C CÁC GIẢI THUẬT TIẾN HÓA ĐA MỤC TIÊU Với cách tiếp cận nói trên, việc giải tốn tối ưu hóa đa mục tiêu thực thơng qua trình tìm kiếm tập Pareto biết tốt Do giải thuật tìm kiếm metaheuristic mà cụ thể giải thuật tiến hóa công cụ đặc biệt phù hợp để giải lớp toán Thực tế giải thuật tiến hóa đa mục tiêu NSGA hay SPEA thực tìm kiếm tập Pareto biết tốt lượt chạy Theo thống kê [13], giải thuật tiến hóa chiếm 70% tổng số phương pháp tối ưu hóa đa mục tiêu dựa meta-heuristic Đã có nhiều giải thuật tiến hóa đa mục tiêu (MOEA) công bố, [14] tác giả trình bày tổng quan giải thuật Điểm khác biệt chủ yếu giải thuật tiến hóa đa mục tiêu nằm cách tính độ thích nghi cho cá thể (Fitness assignment), cách trì quần thể ưu tú (Elitism) phương pháp để đa dạng hóa quần thể Xếp hạng Pareto (Pareto ranking) phương pháp thường dùng để tính độ thích nghi cá thể cách gán thứ hạng (độ thích nghi cao nhất) cho cá thể khơng bị vượt trội quần thể loại chúng khỏi danh sách xếp hạng, tìm cá thể khơng bị vượt trội để gán thứ hạng tiếp tục toàn quần thể xếp hạng Duy trì quần thể ưu tú vấn đề quan trọng tối ưu hóa đa mục tiêu sử dụng MOEA Trong ngữ cảnh giải thuật MOEA, tất cá thể không bị vượt trội phát MOEA coi thành viên quần thể ưu tú Có hai chiến lược thường dùng để thực việc trì quần thể ưu tú: (i) lưu trữ cá thể ưu tú quần thể (ii) lưu trữ cá thể ưu tú danh sách thứ cấp bên quần thể đưa chúng trở lại quần thể Phương pháp chia sẻ độ thích nghi (Fitness sharing) dùng để đa dạng hóa quần thể Phương pháp khuyến khích tìm kiếm vùng chưa biết đường biên Pareto cách giảm bớt độ thích nghi cá thể vùng có mật độ cao Các kỹ thuật khác thường dùng để ước lượng mật độ cá thể xung quanh cá thể xét kỹ thuật đếm số vùng lân cận (niche count) hay kỹ thuật tính khoảng cách mật độ ước tính giá trị khoảng cách Euclide trung bình khơng gian mục tiêu cá thể xét tới láng giềng gần thứ k (k-th nearest neighbor) Khoảng cách mật độ dùng chế chọn cha mẹ sau: lấy ngẫu nhiên hai cá thể x y; chúng có thứ tự (non-domination rank) cá thể có K SDR= Spam(si ) K (4) i=1 L FAR= Spam(hi ) L (5) i=1 Do thân giá trị ngưỡng T biến số nên ta sử dụng x0 để ký hiệu thay cho T Cuối tốn tối ưu hóa đa mục tiêu phát biểu sau: z1 = SDR(X) Max z2 = FAR(X) Min, X=(xo, x1, …, xN) ∈ RN+1 với ràng buộc: ximin ≤xi ≤ximax ; i0 N (6) Trong giá trị SDR(X) FAR(X) tính theo công thức (4) (5) Các giá trị ximin ximax thể khoảng giá trị cho phép biến xi B TỐI ƯU HÓA PARETO Thực tế hai mục tiêu tốn tối ưu hóa (6) khơng thể đạt đồng thời, phương pháp tối ưu hóa Pareto [12] áp dụng để giải tốn Ta xem xét tốn tối ưu hóa đa mục tiêu tổng quát với yêu cầu phải đồng thời tối thiểu hóa P hàm mục tiêu – mục tiêu loại tối đa hóa chuyển thành loại tối thiểu hóa cách nhân với -1: zi = fi(X) Min, X=(x1, x2, …, xN) ∈ RN , i=1, 2, … P (P≥2) với ràng buộc: g j X ; j=1 m Một phương án khả thi X gọi vượt trội so với phương án khả thi Y (ký hiệu X ≽ Y), nếu, zi(X) ≤ zi(Y) (i=1, , P) zj(X) < zj(Y) mục tiêu j Một phương án gọi phương án tối ưu Pareto khơng bị vượt trội phương án khác không gian phương án {X} Các giá trị hàm mục tiêu tương ứng phần tử tập phương án tối ưu Pareto nói tạo thành đương biên Pareto (Pareto Front) khơng gian mục tiêu Các giải thuật tối ưu hóa đa mục tiêu lý tưởng tìm tất phương án tập tối ưu Pareto Tuy nhiên việc chứng minh tập hợp phương án tìm tập tối ưu Pareto thường không khả thi Do cách tiếp cận thực tế thường chọn tìm kiếm tập phương án thể tốt có 32 32 Thảo QuốcGia Gia2015 2015về Điện Điện Tử, Truyền Thông Thông Tin Tin (ECIT 2015) HộiHội Thảo Quốc Tử, Truyền ThôngvàvàCông CôngNghệ Nghệ Thông (ECIT 2015) khoảng cách mật độ cao chọn; ngược lại cá thể có mức thứ tự thấp chọn tập kiểm tra Tập mẫu dùng q trình tìm kiếm lọc có tham số SDR FAR tối ưu, tập kiểm tra dùng để đánh giá lọc hoạt động thực tế Cả tập mẫu tập kiểm tra chứa thư rác thư hợp lệ Bảng mô tả số lượng thư cụ thể dùng kịch D SỬ DỤNG MOEA ĐỂ GIẢI BÀI TỐN Nhóm tác giả lựa chọn giải thuật tiến hóa đa mục tiêu SPEA-II để giải tốn Trong phần mô tả số điểm q trình sử dụng SPEA-II để giải toán Biểu diễn nhiễm sắc thể: Bài toán yêu cầu tìm kiếm giá trị ngưỡng T điểm cho luật có lọc thư rác SpamAssassin cho tham số SDR FAR lọc thu tốt Do nhiễm sắc thể biểu diễn phương án khả thi để gán giá trị cho ngưỡng T luật có lọc Cụ thể nhiễm sắc thể vecto chứa N+1 số thực (các gen) tương ứng với phương án X=(xo, x1, …, xN) ∈ RN+1 không gian phương án Giá trị xi phải nằm ngưỡng cho phép ximin ≤xi ≤ximax xác định trước Phương pháp mã hóa số thực (real-coded method) [14] sử dụng để biểu diễn nhiễm sắc thể Tính tốn giá trị hàm mục tiêu: Giá trị hàm mục tiêu nhiễm sắc thể tính tốn thơng qua phần mềm SpamAssassin Bộ lọc SpamAssassin tương ứng với nhiễm sắc thể sử dụng để kiểm tra thư có tập mẫu bao gồm tập thư rác S tập thư hợp lệ H Từ kết kiểm tra ta tính tham số SDR FAR lọc từ xác định giá trị hàm mục tiêu nhiễm sắc thể Lưu ý đơn giản ta chọn giá trị hàm mục tiêu 1-SDR thay SDR, mục tiêu tốn tối tiểu hóa hai hàm mục tiêu FAR 1-SDR Cơ chế chọn lọc: Được dùng để chọn nhiễm sắc thể cha mẹ cho việc sinh hệ Chúng sử dụng chế chọn lọc dựa đấu loại trực tiếp (Binary Tournament Selection) hai nhiễm sắc thể chọn ngẫu nhiên từ quần thể để tham gia đấu loại, nhiễm sắc thể có giá trị hàm thích nghi tốt người chiến thắng Phép toán lai tạo (Crossover operator): Hai nhiễm sắc thể cha mẹ chọn tạo hai nhiễm sắc thể cho quần thể Chúng sử dụng phép toán lai tạo giả nhị phân (Simulated Binary Crossover) để thực q trình Phép tốn đột biến (Mutation operator): Chúng chọn phép đột biến đa thức (polynomial mutation operator) để biến đổi nhiễm sắc thể nhằm tăng tính đa dạng quần thể Gán độ thích nghi: Phương pháp xếp hạng Pareto dùng để gán độ thích nghi cho nhiễm sắc thể có quần thể Duy trình quần thể ưu tú: SPEA-II sử dụng danh sách thứ cấp để lưu trữ nhiễm sắc thể ưu tú (là phương án không bị vượt trội mô tả phương pháp tối ưu Pareto) quần thể Danh sách đưa lại vào quần thể trình chọn lọc Chia sẻ độ thích nghi: Sử dụng kỹ thuật tính khoảng cách mật độ trình bày phần IV Kịch (300 thư) Mẫu Kiểm tra 120 60 80 40 Thư rác Thư hợp lệ Kịch (750 thư) Mẫu Kiểm tra 300 150 200 100 Bảng 1: Số lượng thư điện tử dùng kịch Trong kịch thử nghiệm thực thiết kế lọc gồm 30 luật 100 luật để đảm bảo thực nghiệm thực với số lượng thư số lượng luật quy mô nhỏ quy mô lớn Dải giá trị hợp lệ chọn cho ngưỡng T [0,5]; cho điểm luật [0,2] Thuật toán SPEA-II cài đặt để tính điểm cho luật có lọc, tham số SPEA-II mô tả bảng (N có giá trị 30 100) Tham số Kích thước quần thể Giá trị 100 Số lượng hệ 1000 Số mục tiêu Số biến thực Cận biến Cận biến N+1 Tham số Cận biến N+1 Cận biến N+1 Xác suất lai tạo Xác suất đột biến Giá trị 0,9 1/(N+1) Bảng 2: Các tham số thuật toán SPEA-II Các thử nghiệm chạy máy tính có cấu hình Intel Core i3-3120M 2.5GHz, RAM 4GB, OS Ubuntu 14.04 Để đảm bảo tính khách quan thử nghiệm chạy 20 lần với nhân ngẫu nhiên khác nhau, số liệu trình bày báo giá trị trung bình kết thu sau lần chạy Kết thử nghiệm so sánh với phương pháp tính điểm tối ưu hóa đơn mục tiêu (SOOA) [2] SpamAssassin mẫu liệu thư điện tử Để thực so sánh, chọn 10 giá trị ngưỡng T phân bố khoảng [0,5], với giá trị ngưỡng phương pháp tính điểm tính tốn điểm luật để tối ưu hóa tham số SDR, giá trị tham số FAR lọc tính tốn so sánh với phương pháp đề xuất báo Các kết thử nghiệm theo kịch thứ (với tập chứa 300 thư) trình bày hình (bộ lọc có 30 luật) hình (bộ lọc có 100 luật) Các kết thu thiết kế lọc phương pháp SOOA trình bày hình vẽ để tiện so sánh Các số liệu cho thấy lọc thiết kế sử dụng SPEA-II có tham số SDR FAR tốt so với lọc thiết kế phương pháp SOOA Cụ thể lọc có 30 luật, giả sử ta muốn thiết kế lọc có FAR = 0%, kết tốt mà phương pháp SOOA tìm (SDR=40,8%, FAR=0%) Trong sử dụng SPEA-II ta thu lọc có (SDR=60%, FAR=0%) Tương tự ta quan tâm đến lọc có FAR ≤ 10% kết tốt KẾT QUẢ Nhóm tác giả thử nghiệm xây dựng lọc thư rác SpamAssassin với hai kịch sử dụng hai sở liệu thư điện tử khác chứa 300 thư 750 thư nhóm tác giả thu thập từ nhiều nguồn khác Trong kịch bản, tập thư điện tử ban đầu chia thành hai tập gọi tập mẫu 33 33 HộiHội Thảo Quốc Gia 2015 Công CôngNghệ NghệThông Thông (ECIT 2015) Thảo Quốc Gia 2015về vềĐiện ĐiệnTử, Tử,Truyền TruyềnThông Thông TinTin (ECIT 2015) mà SOOA tìm (67,7%, 10%) (55,8%, 1,25%) SPEA-II tìm kết tốt (60%, 0%), (64,2%, 1,3%) (68,3%, 5%) tích kỹ số liệu trình bày bảng ta thấy lọc chứa nhiều luật SPEA-II tìm kết tốt Điều thể số lượng điểm tìm tập đường biên Pareto (18 điểm 31 điểm ứng với trường hợp sử dụng 30 luật 100 luật) giá trị trung bình khoảng cách D (51,3 47 ứng với trường hợp sử dụng 30 luật 100 luật) 3 Hình Kết kịch thử nghiệm với lọc 30 luật Phương pháp SOOA Bộ lọc 30 luật Bộ lọc 100 luật Thiết kế Thực tế Thiết kế Thực tế SDR FAR SDR FAR SDR FAR SDR FAR 67,7 10,0 65,0 12,5 81,3 15 81,7 17,5 55,8 1,25 56,7 2,5 78,3 12,5 78,3 12,5 40,8 45,0 2,5 68,3 3,8 66,7 5,0 Phương pháp SPEA-II Bộ lọc 30 luật Bộ lọc 100 luật Thiết kế Thực tế Thiết kế Thực tế SDR FAR SDR FAR SDR FAR SDR FAR 72,5 12,5 71,7 12,5 82,5 13,8 83,3 15,0 71,0 10,0 71,7 10,0 80,8 12,5 80,0 12,5 73,3 16,3 73,3 17,5 80,0 11,3 80,0 10,0 Bảng 3: So sánh kết thu sử dụng hai phương pháp SSOA SPEA-II kịch Các kết thu thử nghiệm theo kịch thứ hai với số lượng thư mẫu lớn cho thấy kết luận tương tự kịch thứ nhất: - SPEA-II cho kết tốt so với SOOA hai phương diện tối ưu hóa FAR hay SDR - SPEA-II cho phép người dùng lựa chọn thiết kế phù hợp vào đường biên Pareto tìm - Với lọc sử dụng nhiều luật SPEA-II tìm kết tốt Hình mơ tả kết thử ngiệm theo kịch thứ hai sử dụng lọc có 30 luật 100 luật Bảng tóm tắt kết tốt SOOA SPEA-II tìm thực nghiệm Hình Kết kịch thử nghiệm với lọc 100 luật Khi tăng số luật lọc lên thành 100 luật ta thu kết tương tự Phương pháp SPEA-II cho kết tốt SOOA hai phương diện tối ưu hóa riêng FAR SDR Hơn việc khảo sát đường biên Pareto, người dùng cân nhắc việc đánh đổi SDR FAR để từ tìm giải pháp phù hợp với yêu cầu Trên mặt phẳng tọa độ Đề-các tạo hai trục SDR FAR, dễ thấy lọc lý tưởng tương ứng với điểm có tọa độ I(100,0) Gọi D khoảng cách Euclide từ điểm đường biên Pareto đến điểm I, giá trị D cho ta thông tin ước lượng tương đối chất lượng lọc thu (D nhỏ chất lượng lọc cao) Bảng trình bày 03 lọc tốt SPEA-II tìm so sánh chúng với phương pháp SOOA Các số liệu SDR FAD thiết kế (sử dụng tập thư mẫu) hoạt động thực tế (sử dụng tập thư kiểm tra) trình bày bảng Phân Hình Kết kịch thử nghiệm với lọc 30 luật 34 34 Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) VI KẾT LUẬN Trong báo này, đề xuất phương pháp để tính điểm cho luật q trình thiết kế lọc thư rác SpamAssassin Trong việc gán điểm cho luật thực thông qua giải tốn tối ưu hóa đa mục tiêu đồng thời tối đa hóa tham số SDR tối thiểu hóa tham số FAR lọc So sánh với phương pháp cũ, phương pháp có ưu điểm khơng tìm kết tốt mà cho phép người dùng lựa chọn kết “thỏa hiệp” theo tiêu chí cho trước Các thực nghiệm tiến hành với kích thước khác tập thư điện tử mẫu tập luật dùng lọc Kết thực ngiệm minh chứng rõ kết luận trình bày báo TÀI LIỆU THAM KHẢO Hình Kết kịch thử nghiệm với lọc 100 luật 3 [1] Phương pháp SOOA Bộ lọc 30 luật Bộ lọc 100 luật Thiết kế Thực tế Thiết kế Thực tế SDR FAR SDR FAR SDR FAR SDR FAR 79,0 15,5 78,7 15,0 75,7 4,0 75,0 5,0 81,3 19,0 81,3 19,0 84,3 20,0 84,5 21,0 74,7 8,5 74,7 9,0 78,3 14,0 78,5 14,0 Phương pháp SPEA-II Bộ lọc 30 luật Bộ lọc 100 luật Thiết kế Thực tế Thiết kế Thực tế SDR FAR SDR FAR SDR FAR SDR FAR 79,3 11,0 79,3 11,0 83,3 10,0 83,3 10,0 77,3 9,0 77,3 9,0 78,3 6,0 78,7 6,0 76,3 7,5 76,7 8,0 81,7 13,5 82,0 14,0 [2] [3] [4] [5] [6] [7] Bảng 3: So sánh kết thu sử dụng hai phương pháp SSOA SPEA-II kịch V [8] CÁC NGHIÊN CỨU LIÊN QUAN Cho tới có nhiều cơng trình nghiên cứu liên quan đến vấn đề lọc thư rác sử dụng lọc địa thư, lọc nội dung sử dụng Bayesian SVM, sử dụng phương pháp học máy [3], sử dụng mạng phức hợp [4] Trong vấn đề phân loại thư rác dựa nội dung, ngôn ngữ sử dụng thư điện tử có vai trị quan trọng Nhóm tác giả xuất số cơng trình nghiên cứu liên quan đến việc xây dựng lọc thư rác cho loại ngôn ngữ (tiếng Trung [2], tiếng Việt [6]) thiết kế luật lọc thư đa ngôn ngữ [5] Trong phần lớn nghiên cứu tại, việc tính điểm cho luật dùng lọc SpamAssassin thực thông qua việc giải tốn tối ưu hóa đơn mục tiêu sử dụng giải thuật di truyền mạng neural [2] Phương pháp tính điềm nhóm tác giả đề xuất báo thực giải tốn tối ưu hóa đa mục tiêu nên có nhiều ưu điểm so với phương pháp cũ Các giải thuật tiến hóa đa mục tiêu sử dụng hiệu vấn đề lọc thư rác tiêu biểu nghiên cứu ứng dụng MOEA để xác định đặc trưng luật [7] tạo luật phức hợp từ luật [8] [9] [10] [11] [12] [13] [14] 35 35 The Apache SpamAssassin Project SpamAssassin: The Powerful #1 Open-Source Spam Filter [Online] 2015 [Cited: 16 July 2015] http://spamassassin.apache.org/index.html Tran, Q A., Duan, H X Li, X., “Real-time statistical rules for spam detection”, IJCSNS International Journal of Computer Science and Network Security, VOL.6 No.2B, pp 178–184, 2006 Schwartz A SpamAssassin O’Reilly, 2004 Joseph S Kong, Behnam Attaran Rezaei, Nima Sarshar, Vwani P Roychowdhury, P Oscar Boykin, “Collaborative Spam Filtering Using E-Mail Networks” IEEE Computer 39(8): 67-73, 2006 Minh Tuan Vu and F Jiang V.Q Tran Tran, Quang Anh, “Multilingual rules for spam detection” Proceedings of IB2COM 2012, pages 106– 110, 2012 Nguyen T.A., Tran Q.A., Nguyen N.B., “Vietnamese spam detection based on language classification”, HUT-ICCE 2008 - 2nd International Conference on Communications and Electronics, 2008 V Fernandes, I Yevseyeva, R Frantz, C Grilo, N Díaz, M Emmerich, “An Automatic Generation of Textual Pattern Rules for Digital Content Filters Proposal, Using Grammatical Evolution Genetic Programming”, Procedia Technology, Volume 16, Pages 806-812, 2014 I Yevseyeva, V Fernandes, D Ord´as, J M´endez “Optimising antispam filters with evolutionary algorithms” Expert Systems with Applications, 2013 C A C Coello, “Evolutionary multi-objective optimization: A historical view of the field” IEEE Computational Intelligence Magazine, 1(1):28–36, 2006 E Zitzler, L Thiele, and K Deb, “Comparision of multiobjective evolutionary algorithms: Emprical results” Evolutionary Computation, 8(1):173–195, 2000 E Zitzler, M Laumanns, and L Thiele, “SPEA2: Improving the strength pareto evolutionary algorithm for multiobjective optimization” In Evolutionary Methods for Design Optimization and Control with Applications to Industrial Problems, pp 95–100, 2001 Marler, R.T and J.S Arora, “Survey of multi-objective optimization methods for engineering” Structural and Multidisciplinary Optimization, 26(6): pp 369-395, 2004 A Konak, D W Coit, A E Smith, “Multi-objective optimization using genetic algorithms: A tutorial” J Reliability Engineering and System Safety, No 91, pp 992-1007, 2006 V Lücken, Christian, B Barán, C Brizuela, "A survey on multiobjective evolutionary algorithms for many-objective problems." Computational Optimization and Applications pp 707-756, 2014 ... biến xi B TỐI ƯU HĨA PARETO Thực tế hai mục tiêu tốn tối ưu hóa (6) khơng thể đạt đồng thời, phương pháp tối ưu hóa Pareto [12] áp dụng để giải toán Ta xem xét tốn tối ưu hóa đa mục tiêu tổng... Front) không gian mục tiêu Các giải thuật tối ưu hóa đa mục tiêu lý tưởng tìm tất phương án tập tối ưu Pareto Tuy nhiên việc chứng minh tập hợp phương án tìm tập tối ưu Pareto thư? ??ng khơng khả... việc giải tốn tối ưu hóa đơn mục tiêu sử dụng giải thuật di truyền mạng neural [2] Phương pháp tính điềm nhóm tác giả đề xuất báo thực giải toán tối ưu hóa đa mục tiêu nên có nhiều ưu điểm so với