1. Trang chủ
  2. » Luận Văn - Báo Cáo

tìm hiểu phương pháp học tích cực và ứng dụng cho bài toán lọc thư rác

65 1,1K 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 65
Dung lượng 1,21 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ HỒNG HẬU TÌM HIỂU PHƯƠNG PHÁP HỌC TÍCH CỰC ỨNG DỤNG CHO BÀI TOÁN LỌC THƯ RÁC LUẬN VĂN THẠC SĨ Hà Nội - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ HỒNG HẬU TÌM HIỂU PHƯƠNG PHÁP HỌC TÍCH CỰC ỨNG DỤNG CHO BÀI TOÁN LỌC THƯ RÁC Ngành: Công nghệ thông tin Chuyên ngành: H ệ thống thông tin Mã s ố: 60 48 05 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚ NG DẪN KHOA HỌC: TS. NGUYỄN TRÍ THÀNH Hà N ội - 2011 1 MỤC LỤC DANH SÁCH HÌNH VẼ 3 DANH SÁCH CÁC BẢNG BIỂU 4 CHƯƠNG I: GIỚI THIỆU 5 1.1 Giới thiệu đề tài 5 1.1.1 Lý do chọn đề tài 5 1.1.2 Mục tiêu của đề tài 6 1.1.3 Các giai đoạn thực hiện đề tài 7 1.2 Cấu trúc của luận văn 8 CHƯƠNG II - TỔNG QUAN VỀ HỌC TÍCH CỰC 10 2.1 Giới thiệu học tích cực 10 2.2 Phương pháp học tích cực 13 2.3 Kịch bản học tích cực 15 2.3.1 Stream_based Sampling 15 2.3.2 Pool-based Sampling 15 2.4 Các chiến lược truy vấn trong học tích cực 15 2.4.1 Lấy mẫu không chắc chắn 16 2.4.2 Truy vấn dựa vào hội đồng 17 2.5 So sánh học tích cực học thụ động 17 2.6 Miền ứng dụng của học tích cực 18 2.7 Kết luận 19 CHƯƠNG III - MỘT SỐ THUẬT TOÁN HỌC TÍCH CỰC 20 3.1 Học tích cực dựa trên perceptron 20 3.1.1 Giới thiệu 20 3.1.2 Thuật toán perceptron 20 3.1.3 Cải tiến bước cập nhật perceptron 23 3.1.4 Perceptron chỉnh sửa tích cực 25 3.2 Học tích cực với SVM 27 2 3.2.1 Giới thiệu 27 3.2.2 Máy hỗ trợ vector 27 3.2.3 Version space 30 3.2.4 Học tích cực với SVM 33 3.3 Kết luận 39 CHƯƠNG 4. ỨNG DỤNG HỌC TÍCH CỰC CHO BÀI TOÁN LỌC THƯ RÁC 40 4.1 Giới thiệu 40 4.2 Học tích cực trong bài toán lọc thư rác 41 4.3 Thử nghiệm kết quả 43 4.3.1. Cài đặt chương trình thử nghiệm 43 4.3.2. Thu thập biểu diễn dữ liệu 45 4.3.3. Xây dựng chương trình biểu diễn tiền xừ lý dữ liệu 48 4.3.4. Kết quả thử nghiệm 51 4.4 Kết luận 57 KẾT LUẬN 58 TÀI LIỆU THAM KHẢO 60 3 DANH SÁCH HÌNH VẼ Hình 2.1 Lược đồ chung cho bộ học thụ động Hình 2.2 Lược đồ chung cho bộ học tích cực Hình 2.3 Lược đồ tổng thể của học tích cực Hình 3.1 Thuật toán perceptron chuẩn Hình 3.2 Thuật toán cải tiến percepron chuẩn Hình 3.3 Quy tắc học tích cực là truy vấn các nhãn cho các điểm x trong L Hình 3.4. Phiên bản tích cực của Perceptron đã chỉnh sửa. Hình 3.5 (a) Máy hỗ trợ vector tuyến tính đơn giản. (b) Máy hỗ trợ vector máy hỗ trợ vector transaction Hình 3.6 Máy hỗ trợ vector sử dụng hàm nhân đa thức bậc 5 Hình 3.7 (a) Tính đối ngẫu trong version space (b) Một bộ phân lớp SVM trên một version space Hình 3.8 (a) Lề đơn giản truy vấn b (b) Lề đơn giản truy vấn a Hình 3.9 (a) Lề MaxMin truy vấn b (b) Lề MaxRatio truy vấn e. Hình 4.1 Bộ lọc thư rác áp dụng phương pháp học tích cực Hình 4.2 Bộ lọc thư rác tích cực dựa trên Perceptron/SVM active Hình 4.3 Giao diện chính của chương trình Hình 4.4 Giao diện lựa chọn thư mục chứ dữ liệu Hình 4.5 Thông báo quá trình làm sạch dữ liệu thành công Hình 4.6 Giao diện thông báo kết quả xử lý Hình 4.7 Kết quả thuật toán perceptron Hình 4.8 Cấu trúc file cấu hình của chương trình ActiveExperiment Hình 4.9 Kết quả chạy thuật toán SIMPLE Hình 4.10 Kết quả chạy thuật toán SELF_CONF Hình 4.11 Kết quả chạy thuật toán KFF Hình 4.12. Kết quả chạy thuật toán BALANCE_EE 4 DANH SÁCH CÁC BẢNG BIỂU Bảng 4.1 Ví dụ nội dung của bốn thư Bảng 4.2 Từ điển chỉ số cho dữ liệu trong bảng 4.1 Bảng 4.3 Biểu diễn vector cho dữ liệu trong bảng 4.1 Bảng 4.4 Kết quả chạy qua 20 lần truy vấn của các thuật toán 5 CHƯƠNG I: GIỚI THIỆU 1.1 Giới thiệu đề tài 1.1.1 Lý do chọn đề tài Ngày nay thư điện tử (email) đã trở thành một công cụ đắc lực phục vụ cho nhu cầu trao đổi thông tin của các cơ quan tổ chức, doanh nghiệp cũng như mỗi cá nhân. Email giúp con người có thể kết nối mọi nơi, mọi lúc với công việc cuộc sống cá nhân. Tuy nhiện thư điển tử cũng đang bị lợi dụng để phát tán thư rác (spam) lây lan virus máy tính lừa đảo trực tuyến, gây thiệt hại lớn cho người sử dụng. Thư rácthư điện tử được gửi hàng loạt với nội dung mà người nhận không mong đợi, không muốn xem, hay chứa những nội dung không liên quan đến người nhận thường được sử dụng để gửi thông tin quảng cáo. Do có giá thành tương đối thấp so với các phương pháp quảng cáo khác, thư rác hiện chiếm một tỷ lệ lớn ngày càng tăng trong tổng số thư điện tử được gửi qua Internet. Sự xuất hiện gia tăng thư rác không những gây khó chịu làm mất thời gian của người nhận mà còn ảnh hưởng tới đường truyền Internet làm chậm tốc độ xử lý của máy chủ thư điện tử, gây thiệt hại lớn về kinh tế. Thư rác là một trong những thách thức lớn nhất hiện nay mà khách hàng các nhà cung cấp dịch vụ phải đối phó. Spam đã trở thành một hình thức quảng cáo chuyên nghiệp, phát tán virus, ăn cắp thông tin với nhiều thủ đoạn mánh khóe cực kỳ tinh vi. Người dùng sẽ phải mất khá nhiều thời gian để xóa những thư điện tử “không mời mà đến”, nếu vô ý còn có thể bị nhiễm virus, trojan, spyware nặng nề hơn là mất thông tin như thẻ tín dụng, tài khoản ngân hàng qua các email dạng thư lừa người dùng tưởng đó là thư hợp lệ (phishing). Để loại bỏ hoặc giảm thiểu ảnh hưởng của thư rác, nhiều cách tiếp cận khác nhau đã được nghiên cứu sử dụng. Giải pháp đấu tranh với thư rác rất đa dạng, bao gồm từ các cố gắng về pháp lý trong việc xây dựng luật ngăn chặn phát tán thư rác cho tới những giải pháp kỹ thuật nhằm phát hiện 6 ngăn chặn thư rác trong những giai đoạn khác nhau của quá trình tạo phát tán thư. Tất nhiên, những kẻ gửi thư rác sẽ liên tục cải thiện chiến thuật/cách thức của chúng, do đó, điều quan trọng là biện pháp ngăn chặn thư rác phải “học” cách thức thay đổi của thư rác theo thời gian để giúp việc ngăn chặn có hiệu quả. việc ngăn chặn thư rác phải được thực hiện nhanh nhất có thể để không làm ảnh hưởng đến hệ thống, công việc khác. Từ những đặc điểm của hệ thống thư điện tử như có sự tương tác với người sử dụng sự biến đổi của thư rác, luận văn nghiên cứu về học tích cực và xác định được sự phù hợp cho bài toán lọc thư rác. Đề tài “Tìm hiểu phương pháp học tích cực ứng dụng cho bài toán lọc thư rác” được tiến hành nhằm đưa ra được phương pháp xây dựng bộ lọc thư rác có thể “học” được cách thức thay đổi của thư rác tận dụng được sự tương tác với người dùng để đưa ra các truy vấn phân loại cho thư điện tử giúp cho việc phân loại thư rác đạt hiệu quả chính xác cao. Trong phạm vi đề tài, luận văn tiến hành nghiên cứu một số giải pháp học thư rác dựa vào các phương pháp học tích cực (bộ lọc tích cực). Nội dung nghiên cứu bao gồm cả thử nghiệm trên dữ liệu thực làm rõ khả năng lọc thư của các bộ lọc tích cực, so sánh hiệu quả của các phương pháp được áp dụng trong bộ lọc. 1.1.2 Mục tiêu của đề tài Để loại bỏ thư rác, các nhà cung cấp dịch vụ thư điện tử đã tích hợp nhiều chương trình lọc thư rác vào dịch vụ thư điện tử. Các chương trình lọc thư rác chủ yếu dựa vào các phương pháp học máy thông qua một bộ học. Tuy nhiên dựa vào thực tế: thư điện tử là một dịch vụ online, các thư điện tử được cập nhật thay đổi theo thời gian có sự tương tác của người sử dụng hòm thư với hệ thống vì vậy đề tài đã tập trung vào nghiên cứu bộ học tích cực áp dụng cho bài toán lọc thư rác. 7 Trên cơ sở xác định loại hình nghiên cứu của đề tài là nghiên cứu lý thuyết ứng dụng thực nghiệm, mục tiêu của đề tài là tìm hiểu về phương pháp học tích cực tìm giải giải pháp cho bài toán lọc thư rác, chọn mô hình thích hợp để áp dụng vào bài toán lọc thư rác với các tiêu chí: - Lọc thư rác nhanh, phát hiện chính xác thư rác (spam mail). - Tận dụng được khả năng tương tác với người sử dụng dịch vụ mail, sự phân loại mail của người dùng để tăng thêm lượng mail đã gán nhãn cũng như chất lượng của dữ liệu gán nhãn. - Có khả năng thích nghi với các biến thể của thư rác, chủ động lọc loại ra các thư rác ngày một hoạt động tinh vi hơn. Giống như trong lĩnh vực phòng chống virus máy tính, hacker luôn tìm cách để chống lại các chương trình diệt virus, thì trong chương trình lọc thư rác, những người gửi thư rác luôn tìm cách để tránh được bộ lọc thư rác một cách hữu hiệu. Vì vậy mà thư rác luôn luôn được biến đổi, cải tiến hơn do những người gửi thư rác. Sử dụng phương pháp học tích cực cho bài toán lọc thư rác làm phong phú thêm tập lời giải cho bài toán nhận dạng các đối tượng biến đổi. Bộ lọc thư rác tích cực giảm chi phí thời gian thu thập dữ liệu, bởi vì nó được xây dựng dựa trên sự tương tác giữa bộ học người dùng là nhận dạng thư rác hay thư thường. Với mục tiêu đã nêu ở trên luận văn chủ yếu tập trung nghiên cứu vào phương pháp học tích cực, áp dụng được các bộ học để tìm ra lời giải cho bài toán lọc thư rác. Để kiểm tra đánh giá kết quả, luận văn sử dụng các chương trình thực nghiệm đã cài đặt sẵn các bộ học mà luận văn nghiên cứu, thu thập dữ liệu thực tế, xây dựng chương trình xử lý dữ liệu thành các tri thức để huấn luyện các bộ học thực nghiệm nhằm phát hiện ra các thư rác một cách chính xác đạt hiệu quả cao. 1.1.3 Các giai đoạn thực hiện đề tài Quá trình nghiên cứu của luận văn được thực hiện qua các giai đoạn sau: 8 Giai đoạn 1 – Nghiên cứu lý thuyết: Thu thập tài liệu, các bài viết liên quan đến học tích cực phương pháp lọc mail. Nghiên cứu tài liệu, tìm hiểu phương pháp học học máy nói chung phương pháp học tích cực nói riêng. Tìm hiểu cụ thể vào pương pháp học tích cực dựa vào perceptron học tích cực với SVM. Tìm hiểu một số phương pháp lọc mail, tham khảo một số mô hình lọc mail đã được xây dựng. Trên cơ sở khoa học lý thuyết đã tìm hiểu lựa chọn phương pháp áp dụng trong thực tế. Giai đoạn 2 – Xây dựng chương trình tiền xử lý dữ liệu để làm dữ liệu cho bài toán lọc mail. Tìm hiểu cài đặt các công cụ có ứng dụng cho bài toán lọc mail. Thu thập dữ liệu từ thực tế, sử dụng chương trình có sẵn, xử lý dữ liệu chạy thực nghiệm dữ liệu trên các công cụ đã cài đặt được. Phân tích đánh giá nhận xét kết quả thực nghiệm Giai đoạn 3 – Tổng kết: Khái quát hóa rút ra kết luận chung cho đề tài. Viết báo cáo, công bố kết quả nghiên cứu trong đề tài. 1.2 Cấu trúc của luận văn Luận văn gồm bốn chương: Chương 1 dẫn nhập giới thiệu chung về luận văn, lý do chọn đề tài, mục tiêu của đề tài ý nghĩa của đề tài. Chương này cũng trình bày các giai đoạn thực hiện luận văn cấu trúc của luận văn. Chương 2: trình bày các cơ sở lý thuyết phục vụ cho bài toán lọc mai. Cụ thể chương 2 sẽ giới thiệu về phương pháp học tích cực. Đưa ra mô hình học tích cực, so sánh giữa hai mô hình học thụ động học tích cực. Từ đó nêu ra được ưu điểm của học tích cực các miền ứng dụng. Chương 3: sẽ trình bày về các mô hình học tích cực. Đầu tiên, Chương 3 trình bày cơ sở lý thuyết của phương pháp học tích cực dựa vào perceptron sử dụng cải tiến bước cập nhật. Cuối Chương 3 trình bày về học tích cực với SVM, giới thiệu ba phương pháp truy vấn trong bộ học SVM: Simple Margin, MaxMin Margin Ratio Margin. Chương 4: Giới thiệu bài toán lọc thư rác, phương pháp học tích cực trong bài toán lọc thư rác. Chương 4 sử dụng phương pháp học tích cực dựa vào Perceptron SVM active vào xây dựng mô hình cho bài toán lọc thư rác. [...]... 2.6 Miền ứng dụng của học tích cực Học tích cực được áp dụng trong rất nhiều ứng dụng khác nhau, nhưng đặc biệt gần đây người ta lại chú ý đến phương pháp học tích cực trong lĩnh vực xử lý ngôn ngữ tự nhiên Ngoài ra học tích cực cũng được sử dụng trong nhiều ứng dụng như: • Nhận dạng giọng nói (Hakkani-Tür et al., 2002), hiểu ngôn ngữ nói (Tur et al., 2003; 2005) • Phân tíchpháp (Thompson cộng... luận Trong chương này đã trình bày cơ sở lý thuyết của học tích cực Giới thiệu học tích cực là gì, phương pháp học tích cực, các kịch bản các phương pháp truy vấn Tóm lại, phương pháp học tích cực được tóm tắt lại như sau: Đầu tiên chúng ta chọn một mô hình độ tổn thất mô hình thích hợp với bài toán học Sau đó chúng ta cũng chọn một phương pháp cho việc tính độ tổn thất mô hình tiềm năng đưa ra câu... đó sẽ cho phép bộ học tích cực thực hiện tốt hơn bộ học thụ động • Thành phần truy vấn Điểm khác chủ yếu giữa bộ học tích cực bộ học thụ động là khả năng đặt câu hỏi vào câu hỏi câu trả lời trước Khái niệm về câu hỏi câu trả lời chính xác là gì sẽ phụ thuộc vào các bài toán cụ thể tiếp theo Khả năng sử dụng phương pháp học tích cực sẽ được lựa chọn tùy vào từng trường hợp, từng bài toán cụ... học tích cực Có một vài kịch bản học trong một số bài toán khác nhau, trong đó bộ học có thể đưa ra câu truy vấn Tuy nhiên có hai kịch bản chính, khá phổ biến trong các nghiên cứu thư ng xuyên được sử dụng trong các bài toán áp dụng phương pháp học tích cực Hai kịch bản học đó là stream-based sampling pool-based sampling 2.3.1 Stream-based sampling Trong kịch bản ‘stream-based sampling’, bộ học. .. chọn cho mỗi bộ phân lớp, các mẫu mà có độ bất đồng lớn nhất giữa các bộ phân lớp sẽ được lựa chọn đưa ra cho người sử dụng gán nhãn 2.5 So sánh học tích cực học thụ động • Bộ học Một bộ học tích cực thu thập thông tin bằng cách đưa ra các câu truy vấn nhận lại các câu trả lời Sau đó nó đưa ra bộ phân lớp hoặc mô hình có thể sử dụng được cho bài toán của mình Bộ học tích cực khác với bộ học thụ... chung cho bộ học thụ động Dữ liệu đã gán nhãn/chưa gán nhãn Truy vấn Thế giới Phản hồi Bộ học tích cực Dữ liệu ra Mô hình /Bộ phân lớp Hình 2.2: Lược đồ chung cho bộ học tích cực Học tích cực (đôi khi còn được gọi là học truy vấn hay thiết kế thực nghiệm tối ưu trong các bài toán thống kê) là một lĩnh vực nhỏ của học máy nói riêng trong trí tuệ nhân tạo nói chung Giả thiết chính là nếu thuật toán học. .. từ dữ liệu đã xếp hạng này có được lựa chọn để được gán nhãn 2.4 Các chiến lược truy vấn trong học tích cực Các mẫu được chọn phải có rất nhiều thông tin có hiệu quả cho bài 16 toán Để làm được việc lựa chọn mẫu, có một số phương pháp truy vấn độc lập với kịch bản học tích cực đã giới thiệu giới thiệu ở trên Trong số các phương pháp truy vấn được sử dụng trong các ứng dụng khác nhau của phương pháp. .. nhãn bài toán đặt ra là tạo ra một bộ phân lớp thực hiện tốt trên tập dữ liệu kiểm tra chưa biết Thêm vào trong phương pháp qui nạp thông thư ng, SVMs có thể sử dụng cho bài toán transduction Đầu tiên là cho tập dữ liệu đã gán nhãn chưa gán nhãn Bài toán học là phải khai báo các nhãn tới các dữ liệu chưa gán nhãn càng chính xác càng tốt SVMs có thể thực hiện phương pháp transduction bằng cách tìm. .. nhãn cho chúng, cuối cùng dữ liệu vừa được gán nhãn sẽ được thêm vào tập huấn luyện ban đầu bộ học sẽ lại được huấn luyện lại Quá trình này được lặp đi lặp lại cho đến khi chấm dứt 2.2 Phương pháp học tích cực Bước chính trong phương pháp học tích cực là định nghĩa khái niệm mô hình M chất lượng mô hình (mô hình tổn thất, Loss(M)) Định nghĩa mô hình chất lượng mô hình tương ứng sẽ được thay... thất tiềm năng chúng ta lựa chọn để đưa ra câu truy vấn, câu truy vấn này sẽ đưa ra được độ tổn thất mô hình tiềm năng thấp nhất 20 CHƯƠNG III - MỘT SỐ THUẬT TOÁN HỌC TÍCH CỰC Chương này sẽ giới thiệu một số thuật toán học tích cực Cụ thể sẽ đi vào giới thiệu hai thuật toán phổ biến là perceptron Active SVM 3.1 Học tích cực dựa trên perceptron 3.1.1 Giới thiệu Một trong những phương pháp tiếp cận . cho bài toán lọc thư rác. Đề tài Tìm hiểu phương pháp học tích cực và ứng dụng cho bài toán lọc thư rác được tiến hành nhằm đưa ra được phương pháp xây. toán lọc thư rác, phương pháp học tích cực trong bài toán lọc thư rác. Chương 4 sử dụng phương pháp học tích cực dựa vào Perceptron và SVM active vào

Ngày đăng: 17/02/2014, 20:59

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w