Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 30 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
30
Dung lượng
437,62 KB
Nội dung
LỜI MỞ ĐẦU HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG o0o - NGUYỄN THỊ VÂN TRANG NGHIÊN CỨU MỘT SỐ THUẬT TỐN HỌC MÁY CĨ GIÁM SÁT VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC Chuyên ngành : Truyền liệu mạng máy tính Mã số : 60.48.15 TĨM TẮT LUẬN VĂN THẠC SỸ KỸ THUẬT HÀ NỘI – NĂM 2012 LỚP CH10CNT1 NGUYỄN THỊ VÂN TRANG LỜI MỞ ĐẦU Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS HOÀNG XUÂN DẬU Phản biện 1: …………………………………………… Phản biện 2: …………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thơng Vào lúc: .giờ ngày .tháng .năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thông LỚP CH10CNT1 NGUYỄN THỊ VÂN TRANG LỜI MỞ ĐẦU LỜI MỞ ĐẦU Hiện nay, việc trao đổi thông tin, liên lạc qua Internet trở nên quen thuộc, phổ biến hầu hết quốc gia, lĩnh vực đời sống xã hội Thư điện tử (email) dịch vụ truyền thông tiện ích, ứng dụng thường xuyên, giúp người trao đổi thơng tin cách nhanh chóng, xác Cùng với phát triển mạnh mẽ mạng Internet, dịch vụ thư điện tử mở rộng với số lượng lớn nhà cung cấp dịch vụ lượng người dùng khổng lồ Thư điện tử truyền qua mạng Internet dạng tín hiệu điện nên tốc độ di chuyển gần tức thời Tuy nhiên, ngồi lợi ích mà thư điện tử mang lại, chúng gây phiền phức, thiệt hại cách khắc phục, loại bỏ phịng chống Một vấn đề nhức nhối ln song hành với thư điện tử thư rác hay cịn gọi “spam emails” Đó thư quảng cáo, hay thư mang nội dung với mục đích công ăn cắp thông tin hoạc phá hoại gây thiệt hại cho người dùng Theo thống kê MessageLabs vào tháng 10 năm 2005, số lượng thư rác chiếm 68% tổng số tất thư gửi Để ngăn chặn thư rác, nhiều tổ chức, cá nhân nghiên cứu phát triển kỹ thuật phân loại thư điện tử thành nhóm (group); từ xác định, nhận biết thư rác thư có giá trị Tuy nhiên, người tạo nên spam emails LỚP CH10CNT1 NGUYỄN THỊ VÂN TRANG LỜI MỞ ĐẦU (spammer) ln tìm cách vượt qua phân loại phát tán chúng Do vậy, cần có giải pháp có khả tự học để lọc thư rác cách hiệu Xuất phát từ thực trạng đó, tơi chọn đề tài “Nghiên cứu số thuật tốn học máy có giám sát ứng dụng lọc thư rác” với mục đích nghiên cứu số thuật tốn học máy có giám sát thử nghiệm ứng dụng cho toán lọc thư rác Nội dung luận văn trình bày theo chương: Chương 1: Giới thiệu tổng quát học máy bao gồm khái niệm, ứng dụng phần trình bày chi tiết học máy có giám sát, kỹ thuật học máy có giám sát dùng cho phân loại Naïve Bayes, SVM, định,…Chương giới thiệu khái quát thư rác, đặc trưng thư rác toán lọc thư rác Chương 2: Đi sâu nghiên cứu hai thuật toán học máy có giám sát Nạve Bayes phương pháp SVM (Support Vector Machine) Chương 3: Phần đầu chương giới thiệu liệu thử nghiệm cài đặt chi tiết hai thuật toán đề cập chương Phần cuối chương trình bày kết thu đưa đánh giá hai thuật toán sử dụng toán lọc thư rác LỚP CH10CNT1 NGUYỄN THỊ VÂN TRANG CHƯƠNG 1: TỔNG QUAN VỀ HỌC MÁY CHƯƠNG 1: TỔNG QUAN VỀ HỌC MÁY 1.1 Tổng quan học máy 1.1.1 Khái quát học máy Học máy (tiếng Anh: Machine Learning) lĩnh vực trí tuệ nhân tạo liên quan đến việc phát triển kĩ thuật cho phép máy tính "học" Học máy xem phương pháp tạo chương trình máy tính sử dụng kinh nghiệm, quan sát liệu khứ để cải thiện cơng việc tương lai 1.1.2 Phân loại học máy Học máy chủ yếu phân thành loại chính: a) Học có giám sát (supervised learning) Với cách học này, kinh nghiệm cho cách tường minh dạng đầu vào đầu hàm đích, ví dụ cho trước tập mẫu nhãn phân loại tương ứng b) Học khơng có giám sát (unsupervised learning) Ngược với học có giám sát, học không giám sát cách học mà kinh nghiệm gồm mẫu khơng có nhãn giá trị hàm đích kèm c) Học tăng cường (reinforcement) Đối với dạng học này, kinh nghiệm không cho trực tiếp dạng đầu vào/ đầu Thay vào đó, hệ thống nhận giá trị tăng cường kết cho chuỗi hành động LỚP CH10CNT1 NGUYỄN THỊ VÂN TRANG CHƯƠNG 1: TỔNG QUAN VỀ HỌC MÁY 1.1.3 Ứng dụng học máy Học máy nhánh nghiên cứu quan trọng trí tuệ nhân tạo với nhiều ứng dụng thành công thực tế Cụ thể: Xử lý ngôn ngữ tự nhiên Phát nhận dạng mặt người Lọc thư rác, phân loại văn … 1.1.4 Học máy có giám sát Nhiệm vụ chương trình học có giám sát dự đốn giá trị hàm cho đối tượng đầu vào hợp lệ, sau xem xét số ví dụ huấn luyện (nghĩa là, cặp đầu vào đầu tương ứng) Mục đích tốn học có giám sát để học ánh xạ từ x tới y Mơ hình chung học có giám sát khái qt hình 1.2: Tập huấn luyện Thuật tốn học máy có giám sát x h dự đốn y Hình 1.2: Mơ hình thuật tốn học có giám sát LỚP CH10CNT1 NGUYỄN THỊ VÂN TRANG CHƯƠNG 1: TỔNG QUAN VỀ HỌC MÁY Hiện có nhiều thuật tốn sử dụng để tạo trình học có giám sát, phổ biến là: Thuật tốn K hàng xóm (KNN) Mơ hình xác suất Nạve Bayes Phương pháp Support Vector Machines … 1.2 Tổng quan thư rác đặc trưng thư rác 1.2.1 Khái quát thư rác (spam – emails) Thư rác (spam) thư điện tử không yêu cầu, không mong muốn gửi hàng loạt tới nhiều người nhận 1.2.2 Các đặc trưng thư rác Các loại thư rác có số đặc điểm sau: Thư rác gửi cách tự động Thư rác gửi đến địa ngẫu nhiên diện rộng Nội dung thư rác thường nội dung bất hợp pháp, gây phiền hà cho người dùng Địa người gửi thư rác thường địa trá hình 1.2.3 Phân loại thư rác Có nhiều cách phân loại thư rác: Dựa kiểu phát tán thư rác LỚP CH10CNT1 NGUYỄN THỊ VÂN TRANG CHƯƠNG 1: TỔNG QUAN VỀ HỌC MÁY Dựa vào quan hệ với người gửi thư rác Dựa vào nội dung thư rác Dựa động lực người gửi 1.2.4 Quy trình thủ đoạn gửi thư rác Để phát tán thư rác, người gửi thư rác phải có điều kiện sau: có danh sách địa email nhận thư, hai có server cho phép gửi thư, ba phải soạn nội dung thư theo yêu cầu quảng cáo qua mặt lọc nội dung, cuối cần có chương trình để gửi thư 1.2.4.1 Thu thập địa email Danh sách địa email cần gửi thu thập từ nhiều nguồn khác nhau, họ mua từ trang web thương mại có nhiều thành viên đăng ký sử dụng kỹ thuật kỹ thuật Phishing email, Người gửi thư rác cịn sử dụng máy tìm kiếm để tìm kiếm địa email trang web Danh sách địa sinh tự động theo chế 1.2.4.2 Tìm kiếm máy tính Internet cho phép gửi thư Muốn gửi thư rác, người gửi thư rác cần có tay danh sách server để gửi thư Các server server chuyên để gửi thư rác người gửi thư rác LỚP CH10CNT1 NGUYỄN THỊ VÂN TRANG CHƯƠNG 1: TỔNG QUAN VỀ HỌC MÁY sở hữu thuê, server bị người gửi thư rác lợi dụng 1.3 Bài toán phân loại thư rác dựa học máy có giám sát 1.3.1 Sự cần thiết phân loại thư rác a) Tốc độ phát triển thư rác Theo số liệu thống kê hãng bảo mật Symantec cho biết, có tổng số 70 tỷ thư rác gửi ngày toàn cầu, thư với nội dung mời gọi mua dược phẩm chiếm tới 64% Số lượng thư rác năm từ tháng 4/2008 đến tháng 12/2010: Hình 1.6: Số lượng thư rác năm từ tháng 4/ 2008 đến tháng 12/2010 LỚP CH10CNT1 NGUYỄN THỊ VÂN TRANG CHƯƠNG 1: TỔNG QUAN VỀ HỌC MÁY b) Sự bùng nổ thư rác Việt Nam Hãng bảo mật Sophos vừa công bố danh sách "dirty dozen" nhất, nêu danh tính top 12 quốc gia phát tán thư rác nhiều giới tính đến thời điểm tháng 13/2012 Đứng đầu Ấn Độ, Mỹ Hàn Quốc Việt Nam đứng thứ 10 Việt Nam có tên danh sách Sophos Trend Micro thể bảng 1.1 Bảng 1.1:Danh sách top 10 quốc gia phát tán spam giới quí I/2012 Sophos Việt Nam đứng thứ 10/12 TỶ LỆ PHẦN TRĂM PHÁT STT TÊN NƯỚC India 9.3% USA 8.3% S Korea 5.7% Indonesia 5.0% Russia 5.0% Italy 4.9% Brazil 4.3% Poland 3.9% Pakistan 3.3% 10 VietNam 3.2% 11 Taiwan 2.9% 12 Peru 2.5% 13 Khác 41.7% LỚP CH10CNT1 TÁN THƯ RÁC NGUYỄN THỊ VÂN TRANG CHƯƠNG 2: MỘT SỐ THUẬT TỐN HỌC MÁY CĨ GIÁM SÁT hợp với việc chơi tennis theo điều kiện thời tiết đưa bảng 2.1: Bảng 2.1: Bộ liệu huấn luyện cho toán phân loại “Chơi Tennis” Ngày Trời Nhiệt độ Độ ẩm Gió Chơi Tennis D1 Nắng Nóng Cao Yếu Khơng D2 Nắng Nóng Cao Mạnh Khơng D3 Nhiều mây Nóng Cao Yếu Có D4 Mưa Trung bình Cao Yếu Có D5 Mưa Ấm áp Bình thường Yếu Có D6 Mưa Lạnh Bình thường Mạnh Khơng D7 Nhiều mây Lạnh Bình thường Mạnh Có D8 Nắng Ấm áp Cao Yếu Không D9 Nắng Lạnh Bình thường Yếu Có D10 Mưa Ấm áp Bình thường Yếu Có D11 Nắng Ấm áp Bình thường Mạnh Có D12 Nhiều mây Ấm áp Cao Mạnh Có D13 Nhiều mây Nóng Bình thường Yếu Có D14 Mưa Ấm áp Cao Mạnh Khơng Trong đó: có mẫu tích cực (có chơi Tennis) mẫu tiêu cực (Khơng chơi Tennis): Độ ẩm = Cao có tích cực tiêu cực Độ ẩm = Bình thường có tích cực tiêu cực Gió = Yếu có tích cực tiêu cực Gió = Mạnh có tích cực tiêu cực LỚP CH10CNT1 14 NGUYỄN THỊ VÂN TRANG CHƯƠNG 2: MỘT SỐ THUẬT TỐN HỌC MÁY CĨ GIÁM SÁT Vậy từ liệu bạn xác định xem với điều kiện người chơi có chơi Tennis khơng ? Trả lời: Bước1: P(Chơi Tennis = Có) = = 0.64 14 P(Chơi Tennis = Khơng) = = 0.36 14 P(Gió = Mạnh|Chơi Tennis = Có ) = = 0.33 P(Gió = Mạnh|Chơi Tennis =Khơng) = = 0.6 Bước 2: Tính xác suất RCó = P(Có) P(Trời = Nắng |Có ) P(Nhiệt độ = Lạnh |Có) P(Độ ẩm = Cao | Có) P(Gió = Mạnh | Có) = 0.005 RKhơng = P(Khơng) P(Trời = Nắng | Không ) P(Nhiệt độ = Lạnh | Không) P(Độ ẩm = Cao | Không) P(Gió = Mạnh | Khơng) = 0.021 Vì 0.021 > 0.005 nên kết luận lại người chơi KHƠNG chơi Tennis có điều kiện thời tiết 2.1.3 Áp dụng phân loại thư rác Với phương pháp phân loại Bayes đơn giản, thư (phần nội dung) biểu diễn vector x = (x1, x2, …, xn), x1, x2, …, xn giá trị đặc trưng X1, X2,…, Xn LỚP CH10CNT1 15 NGUYỄN THỊ VÂN TRANG CHƯƠNG 2: MỘT SỐ THUẬT TỐN HỌC MÁY CĨ GIÁM SÁT Mỗi đặc trưng từ cụm từ Ở đây, n số lượng đặc trưng xác định từ toàn tập liệu huấn luyện, tức số lượng từ/cụm từ khác tập liệu huấn luyện Mỗi thư gán nhãn phân loại Y nhận hai giá trị: Y = cho trường hợp thư rác Y = cho trường hợp thư bình thường Để xác định nhãn phân loại cho thư, phân loại Bayes tính xác suất điều kiện P (Y = y | X1 = x1,…, Xn = xn) (2.9) tức xác suất thư với nội dung (x1, x2, …, xn) nhận nhãn phân loại y, y {1,0} Sử dụng cơng thức Bayes, xác suất tính sau: P(Y y | X x1 , , X n xn ) P( X x1 , , X n xn | Y y) P(Y y ) P( X x1 , , X n xn ) (2.10) Trong công thức (2.10), giá trị mẫu số không phụ thuộc vào nhãn phân loại bỏ qua Nhãn phân loại Y nhãn tương ứng với giá trị lớn tử số Cụ thể, trường hợp phân loại thư rác, nhãn thư xác định cách tính giá trị biểu thức: P(Y | X x1 , , X n xn ) P(Y | X x1 , , X n xn ) P( X1 x1 , , X n xn | Y 1) P(Y 1) P( X x1 , , X n xn | Y 0) P(Y 0) LỚP CH10CNT1 16 (2.11) NGUYỄN THỊ VÂN TRANG CHƯƠNG 2: MỘT SỐ THUẬT TỐN HỌC MÁY CĨ GIÁM SÁT Giá trị biểu thức (2.11) lớn có nghĩa xác suất thư thư rác lớn xác suất thư bình thường thư gán nhãn thư rác Giá trị biểu thức (2.11) nhỏ cho kết ngược lại 2.2 Thuật tốn SVM 2.2.1 Mơ tả thuật tốn Xét toán phân loại đơn giản - phân loại hai phân lớp với tập liệu huấn luyện bao gồm n mẫu cho dạng x i , y i , i=1,….n Trong đó, xi m vector bao gồm m phần tử chứa giá trị m thuộc tính hay đặc trưng yi nhãn phân loại nhận giá trị +1 (tương ứng với mẫu xi thuộc lĩnh vực quan tâm) -1 ( tương ứng mẫu xi khơng thuộc lĩnh vực quan tâm) Có thể hình dung liệu điểm không gian ơclit m chiều gán nhãn SVM xây dựng sở hai ý tưởng Ý tưởng thứ ánh xạ liệu gốc sang không gian gọi không gian đặc trưng với số chiều lớn cho khơng gian xây dựng siêu phẳng cho phép phân chia liệu thành hai phần riêng biệt, phần bao gồm điểm có nhãn phân loại Ý tưởng ánh xạ sang không gian đặc trưng minh hoạ hình 2.1 LỚP CH10CNT1 17 NGUYỄN THỊ VÂN TRANG CHƯƠNG 2: MỘT SỐ THUẬT TỐN HỌC MÁY CĨ GIÁM SÁT Khơng gian gốc Khơng gian đặc trưng Hình 2.1: Ánh xạ liệu từ không gian gốc sang không gian đặc trưng cho phép phân chia liệu siêu phẳng Ý tưởng thứ hai số siêu phẳng cần lựa chọn siêu phẳng có lề lớn Lề khoảng cách từ siêu phẳng tới điểm gần nằm hai phía siêu phẳng (mỗi phía tương ứng với nhãn phân loại) Lưu ý siêu phẳng nằm cách điểm gần với nhãn khác Trên hình 2.2 minh hoạ siêu phẳng (đường liền nét) với lề cực đại tới điểm liệu biểu diễn hình trịn hình vng LỚP CH10CNT1 18 NGUYỄN THỊ VÂN TRANG CHƯƠNG 2: MỘT SỐ THUẬT TỐN HỌC MÁY CĨ GIÁM SÁT Mặt siêu phẳng lề tối ưu Các mẫu dương Các mẫu âm Lề Hình 2.2: Siêu phẳng với lề cực đại cho phép phân chia hình vng khỏi hình trịn khơng gian đặc trưng Để tránh việc tính tốn trực tiếp với liệu không gian mới, ta sử dụng phương pháp gọi thủ thuật nhân cách tìm hàm nhân (kernel function) K cho: K (a , b ) a , b (2.19) Sử dụng phương pháp nhân tử Lagrăng thay tích vơ hướng hai vector giá trị hàm nhân theo công thức (2.19), tốn tìm lề cực đại SVM đưa toán quy hoạch toán học bậc hai sau: Tìm vector hệ số (1 , , , n ) cho phép cực tiểu hoá hàm mục tiêu n n n W( ) y i y j i j K ( xi , x j ) i i 1 j 1 i 1 (2.20) đồng thời thoả mãn điều kiện LỚP CH10CNT1 19 NGUYỄN THỊ VÂN TRANG CHƯƠNG 2: MỘT SỐ THUẬT TOÁN HỌC MÁY CÓ GIÁM SÁT n y i i 0 (2.21) i 1 Và i C Trong (2.20), (2.21), (2.22), x i yi tương ứng liệu nhãn phân loại ví dụ huấn luyện thứ i, i hệ số cần xác định Trong ràng buộc (2.22), C số lượng tối đa điểm liệu có phân loại sai, tức điểm nằm phía siêu phẳng lại có nhãn điểm nằm bên Việc sử dụng C cho phép khắc phục tình trạng liệu huấn luyện có ví dụ bị gán nhãn khơng xác Sau huấn luyện xong, giá trị nhãn phân loại cho ví dụ x tính n f ( x ) sign( y i i K ( x i , x ) b) (2.23) i 1 Ở đây, b tính giai đoạn huấn luyện theo công thức sau n b y i y j j K ( xi , x j ) (2.24) j 1 i hệ số thoả mãn điều kiện 0