NGHIÊN CỨU XÂY DỰNG BỘ LỌC THƯ RÁC HỖ TRỢ SONG NGỮ ANH - VIỆT

BỘ GIÁO DỤC ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** LƯƠNG QUỐC SƠN NGHIÊN CỨU XÂY DỰNG BỘ LỌC THƯ RÁC HỖ TRỢ SONG NGỮ ANH - VIỆT Luận văn thạc sỹ công nghệ thông tin Đồng Nai, 2012 BỘ GIÁO DỤC ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** LƯƠNG QUỐC SƠN NGHIÊN CỨU XÂY DỰNG BỘ LỌC THƯ RÁC HỖ TRỢ SONG NGỮ ANH - VIỆT Chuyên ngành: Công nghệ thông tin Mã số: 60,48,02.01 Luận văn thạc sỹ công nghệ thông tin Người hướng dẫn khoa học: TS VŨ ĐỨC LUNG Đồng Nai, 2012 LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sỹ công nghệ thông tin “nghiên cứu xây dựng lọc thư rác hỗ trợ song ngữ Anh - Việt” kết trình học tập, nghiên cứu khoa học độc lập, nghiêm túc Các số liệu luận văn trung thực, có nguồn gốc rõ ràng, trích dẫn có tính kế thừa, phát triển từ số liệu, tạp chí, công trình nghiên cứu công bố, website Các phương pháp nêu luận văn rút từ sở lý luận trình nghiên cứu tìm hiểu Đồng Nai, tháng năm 2012 Tác giả Lương Quốc Sơn LỜI CẢM ƠN Lời xin chân thành gửi lời cám ơn sâu sắc đến TS.Vũ Đức Lung tận tình giúp đỡ suốt thời gian học tập vừa qua, đặc biệt hướng dẫn hoàn thành đề tài Tôi chân thành cám ơn thầy cô Trung Tâm Thông Tin Tư Liệu, trường Đại Học Lạc Hồng, nơi công tác nghiên cứu tạo điều kiện hỗ trợ suốt thời gian qua Tôi xin chân thành cám ơn thầy cô khoa công nghệ thông tin tận tình giảng dạy, bảo cung cấp cho kiến thức cần thiết suốt thời gian học, xin gởi lời cám ơn chân thành đến người thân, bạn bè đồng nghiệp giúp đỡ động viên suốt thời gian học tập thời gian thực luận văn Chân thành cám ơn ! Biên Hòa, ngày 05 tháng 06 năm 2012 Lương Quốc Sơn MỞ ĐẦU 1.Tóm lược đề tài: Thư rác (spam) thư điện tử gửi hàng loạt với nội dung mà người nhận không mong đợi, không muốn xem, hay chứa nội dung không liên quan đến người nhận thường sử dụng để gửi thông tin quảng cáo Do có giá thành tương đối thấp so với phương pháp quảng cáo khác, thư rác chiếm tỷ lệ lớn ngày tăng tổng số thư điện tử gửi qua Internet Sự xuất gia tăng thư rác gây khó chịu làm thời gian người nhận mà ảnh hưởng tới đường truyền Internet làm chậm tốc độ xử lý máy chủ thư điện tử, gây thiệt hại lớn kinh tế Để loại bỏ giảm thiểu ảnh hưởng thư rác, nhiều cách tiếp cận khác nghiên cứu sử dụng Giải pháp đấu tranh với thư rác đa dạng, bao gồm từ cố gắng pháp lý việc xây dựng luật ngăn chặn phát tán thư rác giải pháp kỹ thuật nhằm phát ngăn chặn thư rác giai đoạn khác trình tạo phát tán thư Trong số giải pháp sử dụng, lọc thư theo nội dung giải pháp sử dụng rộng rãi có triển vọng Lọc thư theo nội dung phương pháp phân tích nội dung thư để phân biệt thư rác với thư bình thường, kết phân tích sau sử dụng để định chuyển tiếp thư đến người nhận hay không (trong phạm vi nghiên cứu này, nội dung thư giới hạn nội dung trình bày dạng văn bản) Do việc lọc theo nội dung đòi hỏi phân tích phần văn chứa tiêu đề hay nội dung thư, thuật toán lọc nội dung cần xây dựng phù hợp với ngôn ngữ mà thư sử dụng Hiện nay, nhiều thuật toán lọc nội dung hiệu nghiên cứu sử dụng cho thư viết tiếng Anh Trong vòng vài năm gần đây, việc sử dụng Internet nói chung thư điện tử nói riêng ngày phổ biến Việt nam Một hệ phát triển ngày có nhiều thư rác gửi tới tài khoản thư điện tử Việt nam (tài khoản có đuôi vn) Những thư rác bao gồm thư viết tiếng Anh thư viết tiếng Việt Việc xuất ngày nhiều thư rác tiếng Việt đặt yêu cầu cấp thiết phải có phương pháp lọc thư xử lý thư rác loại Do thuật toán lọc thư thông dụng nghiên cứu thử nghiệm cho tiếng Anh, để sử dụng giải pháp lọc nội dung cho thư tiếng Việt cần nghiên cứu làm rõ hiệu thuật toán phân tích nội dung thư viết tiếng Việt Bên cạnh cần thực cải tiến cho phù hợp chuyển từ phân loại nội dung tiếng Anh sang phân loại nội dung tiếng Việt Để giải vấn đề vừa nêu, phạm vi đề tài này, trọng nghiên cứu số giải pháp lọc nội dung cho thư rác tiếng Việt tiếng Anh Nội dung nghiên cứu bao gồm thử nghiệm làm rõ khả lọc thư tiếng Việt, đề xuất phân tích so sánh cải tiến với thuật toán, thử nghiệm liệu thực Sau thử nghiệm so sánh, giải pháp lọc thư có hiệu cao cài đặt lọc thư có khả tích hợp vào máy chủ thư điện tử Mục tiêu đề tài Nghiên cứu tổng quan phương pháp lọc thư rác thông dụng nay, từ đề xuất mô hình xây dựng chương trình thử nghiệm lọc thư rác viết tiếng Anh tiếng Việt Bên cạnh đó, nghiên cứu kỹ thuật tách câu, tách từ đơn, từ ghép tiếng Việt mà xét mặt tồn từ, không xét mặt ý nghĩa từ Nội dung thực đề tài Tìm hiểu thư spam: loại thư spam, đặc điểm thư spam… Đặc biệt, tìm hiểu thư spam tiếng Việt Nghiên cứu kỹ thuật sử dụng để lọc thư spam Nghiên cứu lọc spam truyền thống sử dụng Áp dụng thuật toán cho việc lọc thư spam Anh – Việt Nghiên cứu xây dựng lọc spam cải tiến từ lọc có lọc spam phù hợp với thư spam đặc biệt tiếng Việt Phạm vi ứng dụng Đề tài “NGHIÊN CỨU XÂY DỰNG BỘ LỌC THƯ RÁC HỖ TRỢ SONG NGỮ ANH - VIỆT” ứng dụng máy chủ mail, giúp cho người sử dụng loại bỏ thư có nội dung spam song ngữ Anh – Việt, giảm thiểu thời gian lãng phí người sử dụng phải tự kiểm tra nội dung thư CHƯƠNG 1: NGHIÊN CỨU TỔNG QUAN VỀ THƯ RÁC 1.1 Giới thiệu thư rác 1.1.1 Lịch sử Có thể chia lịch sử thư rác thành giai đoạn sau: 1.1.1.1 Giai đoạn thứ – năm đầu thư rác Nhiều ý kiến cho thư rác phát tán mạng diện rộng vào năm 1978, quảng cáo từ Digital Equipment Corporation (DEC) [5] Do dịch vụ thư điện tử lúc chưa tiên tiến nên người phát tán thư rác (spammer) phải đánh thủ công địa thư điện tử muốn gửi có khoảng 320 tổng số địa thư điện tử mà spammer muốn gửi nhận thư rác lần phát tán Vào 1988 xuất kiểu thư rác khác thư rác lừa đảo (như lừa đảo làm việc từ thiện, lừa đảo kiếm tiền) 1.1.1.2 Giai đoạn thứ hai – thư rác gửi thông qua phần mềm Đầu thập niên 1990, với phát triển Internet mang đến vấn nạn số lượng thư rác tăng lên nhanh chóng Lúc spammer dùng phần mềm để tự động việc gửi thư điện tử đến danh sách địa Ví dụ thư rác phát tán qua phần mềm tự động thư rác Jesus thư rác Cantel Siegel Vào 1995 Jeff Slaton – tự nhận “vua thư rác” , ông người kiếm lợi nhuận từ thư rác mà ông gửi đi, ông ép buộc nạn nhân trả phí không muốn nhận thư rác Việc làm ông tạo ý tưởng cho công ty thương mại thuê người Jeff Slaton để phát tán thư điện tử với mục đích quảng cáo giúp họ 1.1.1.3 Giai đoạn thứ ba – phần mềm chống thư rác chống lại phần mềm gửi thư rác Vào 1996 xuất phần mềm chống thư rác Spamblock, Internet Death Penalty, nhiên không làm giảm phát triển thư rác Các địa thư điện tử người dung rao bán cho công ty, tổ chức muốn thực quảng cáo thư điện tử Và từ 1997 đến phát triển thư rác vượt kiểm soát, thống kê cho thấy 97% tổng số thư điện tử gửi mạng thư không mong muốn nhận từ người dùng [9] 1.1.2 Định nghĩa Có nhiều tranh cãi việc đâu định nghĩa xác thư rác (spam email), thư rác mang tính cá nhân hóa nên khó mà nói lên nghĩa thư rác Nhiều ý kiến cho thư rác “thư điện tử (email) không mong muốn” Định nghĩa không thực xác, nhân viên nhận thư điện tử công việc từ sếp họ, thư điện tử người nhân viên không mong muốn chúng thư rác Lại có ý kiến khác cho thư rác “thư điện tử thương mại không yêu cầu từ phía người nhận” - thư bao gồm thư điện tử quảng cáo sản phẩm thư điện tử lừa gạt Nhưng định nghĩa không thực xác, làm người nghĩ thư rác giống thư đáng bỏ (junk mail) Sau có ý kiến cho thư rác “số lượng lớn thư điện tử không yêu cầu” số thư điện tử quảng cáo, thương mại chiếm đa số, có lẽ định nghĩa gần với ý nghĩa thư rác [7] Hình vẽ sau thể rõ định nghĩa thư rác: Tất thư điện tử Thư điện tử không mong muốn Thư rác Thư quảng cáo thương mại Hình 1.1: So sánh thư rác với thư điện tử khác 1.1.3 Mục đích gửi thư rác Thư rác gửi với mục đích sau: - Quảng cáo sản phẩm, dịch vụ, … tổ chức, công ty thương mại - Lợi dụng tin người dùng để lừa gạt họ, hình thức kiếm tiền trực tuyến, … - Gửi kèm virus tập tin kèm theo thư điện tử, từ đưa virus vào máy nạn nhân hệ thống mạng mà nạn nhân sử dụng Sau lấy cắp thông tin quan trọng nạn nhân hệ thống - Nói xấu, xuyên tạc đó, tuyên truyền điều sai trái trị … 1.1.4 Các đặc tính thư rác Thư rác chứa đặc tính sau: - Thư rác mang tính tương đối thư mang tính cá nhân, thư điện tử vô bổ với người với người khác lại có ích Ví dụ thư điện tử quảng cáo/ rao vặt cho sản phẩm cụ thể số người quan tâm người lại xem rác - Tính bất biến thư rác thể từ cụm từ không thay đổi lần spam (Ví dụ: Tên người, tên công ty, 56 Từ bước học từ ta xây dựng từ điển từ xấu từ tốt Tập thư rác Nội dung xấu Chương trình Tập thư tốt Từ xấu Học từ Nội dung tốt Từ tốt Hình 3.1 – Tiến trình học từ - Từ xấu: Những từ thường xuất thư spam thư ham - Từ tốt: Những từ thường xuất thư ham thư spam 3.3.4 Tiến trình phân loại ngôn ngữ Anh – Việt Phân chia nội dung thành tiếng Anh tiếng Việt, sau tiến hành phân loại nội dung tiếng Anh tiếng Việt riêng Tất nhiên, có trường hợp nội dung có tiếng Việt tiếng Anh tỷ lệ không nhiều Khi lựa chọn đặc trưng, đặc trưng đánh dấu riêng tiếng Việt tiếng Anh lưu vào bảng băm Khi nội dung xuất hiện, chọn k đặc trưng ngẫu nhiên nội dung băm vào bảng tiếng Việt tiếng Anh Nếu số lượng băm trúng bảng tiếng Việt lớn bảng tiếng Anh nội dung coi nội dung tiếng Việt ngược lại Tuy nhiên, nội dung sử dụng tiếng Việt tiếng Anh việc kết luận nội dung thuộc hai ngôn ngữ ảnh hưởng tới trình phân loại 57 Theo cách để xác định thư thuộc ngôn ngữ cần dựa vào số token ngẫu nhiên lựa chọn, lựa đủ vấn đề Để lựa chọn phù hợp, luận văn tiến hành thử nghiệm lựa chọn số token ngẫu nhiên kết thử nghiệm 1500 thư cho độ xác nhận diện email tiếng Anh hay Việt bảng 3.2 Bảng 3.2 – Bảng thực nghiệm độ xác phân loại Anh – Việt K Đặc thù Anh Việt Cả tiếng Anh Việt tokens tokens 10 tokens 12 tokens 14 tokens 100% 100% 100% 100% 100% 80% 86% 98% 98% 99% Dựa vào kết thực nghiệm ta thấy chọn 10 tokens ngẫu nhiên vào việc nhận dạng văn tiếng Anh hay Việt phù hợp 58 3.3.5 Xây dựng lọc thư rác song ngữ Anh – Việt: 3.3.5.1 Mô hình tổng quát: Bước học: Bước kiểm tra: Thư Thư Tiền xử lý Tiền xử lý Phân tích thư Phân tích thư Token(s) Token(s) Lưu trữ Database Học từ Áp dụng Bayes tính ngưỡng token(s) Lưu trữ Database Trả kết (Spam|Ham) Hình 3.2 – Mô hình tổng quát Mô hình tổng quát bao gồm công việc hệ thống chia phần rõ ràng phần học phần kiểm tra thư Sau mô tả chi tiết công đoạn 3.3.5.2 Thư đầu vào: Thu thập tập thư tốt thư xấu, gồm 3000 thư tiếng anh (trong có 1500 thư tốt, 1500 thư xấu), 1200 thư tiếng việt (trong 600 thư tốt 600 thư xấu) Lấy 1300 thư tốt tiếng anh, 1300 thư xấu tiếng anh, 500 thư tốt tiếng việt, 500 thư xấu tiếng việt để phục vụ cho mục đích học Còn lại 200 thư tốt 59 tiếng anh, 200 thư xấu tiếng anh, 100 thư tốt tiếng Việt, 100 thư xấu tiếng Việt để phục vụ cho vấn đề kiểm tra 3.3.5.3 Tiền xử lý: Thực nhiệm vụ chuẩn hóa lại nội dung thư cách + Loại bỏ thẻ định dạng HTML thư + Loại bỏ từ nối câu từ ý nghĩa thư + Các ký tự số không nói lên ý nghĩa thư + Biến đổi toàn nội dung thư thành câu đơn phân biệt Sau chuẩn hóa xong nội dung thư, tiếng hành phân loại xem thư tiếng Anh hay tiếng Việt cách: chọn 10 tokens ngẫu nhiên thư bỏ vô bảng từ điển tiếng Việt tiếng Anh Nếu số lượng tokens bảng tiếng Anh lớn bảng tiếng Việt xem thư tiếng Anh, số lượng tokens bảng tiếng Việt lớn bảng tiếng Anh xem thư tiếng Việt 3.3.5.4 Phân tích nội dung thư: 3.3.5.4.a Thư tiếng Anh: Trong hầu hết nghiên cứu lọc thư rác tiếng Anh, đặc trưng sử dụng từ riêng lẻ (word) Do đặc điểm tiếng Anh nên việc xác định từ câu đơn giản, từ phân cách với từ khác dấu cách dấu trắng khác 3.3.5.4.b Thư tiếng Việt: Đối với tiếng Việt, từ bao gồm nhiều tiếng, ví dụ từ “hàng hóa” bao gồm hai tiếng “hàng” “hóa” Trong tách tiếng cách dễ dàng việc xác định từ hoàn toàn không đơn giản 60 Quy trình tách từ với thư tiếng Việt Thư dấu câu Tách câu Từ điển Token(s) Học từ Hình 3.3 – Quy trình tách từ với thư tiếng Việt Từ thư ban đầu sau tiền xử lý, thư tiếng Việt thực quy trình Tách thư làm nhiều câu đơn dựa vào dấu câu Sau tách câu xong ta tiến hành thực bước sau: Bước 1: Lấy đặc trưng Từ câu đơn tiến hành lấy token(s) dựa vào từ điển xây dựng sẵn phương pháp khớp tối đa [3] Nếu có nhiều đặc trưng lồng đặc trưng dài lựa chọn Bước 2: Học thêm từ vào từ điển cách Sử dụng phương pháp n-grams [1] Phương pháp coi đặc trưng cụm gồm n từ nằm liền Ưu điểm lớn phương pháp đơn giản cho kết tốt Tuy nhiên, nhóm tác giả nói lựa chọn n=1,2,3 không so sánh với giá trị n khác Giả sử ta có câu: “học sinh hài lòng với cách dạy”, từ điển ta có từ “ hài lòng” bước học từ mô tả sau: Khi từ lại cần phải học là: N=2: học sinh, sinh rất, với cách, cách dạy N=3: học sinh rất, với cách dạy Sau lấy n-grams cập nhật tần số xuất liệu tạm thời sở liệu Đến ngưỡn α từ tạm chuyển vô từ điển 61 Ngưỡng α xác định sau: 𝛼= 𝑘 𝑇𝑜𝑡𝑎𝑙 𝑚𝑒𝑠𝑠𝑎𝑔𝑒 (3.23) Trong đó:  K: tần số xuất từ  Total Message: Tổng số thư Dựa vào kết thực nghiệm tách từ, thử nghiệm với khoảng 1000 từ đạt độ xác 94% ngưỡng α >= 0.25 độ xác từ chấp nhận Những từ có ngưỡng α nằm ngưỡng xếp vào tập từ cần huấn luyện tiếp tục 3.3.5.5 Các bước 3.3.5.5a Bước học: Lưu trữ vào database: Sau lấy Tokens(s) Khi thư phân tích token sử dụng để cập nhật tần số Được dùng để theo dõi số lần xuất token thư rác thư tốt Mỗi token tính xuất lần thư Ví dụ: Từ “giáo viên” xuất 50 thư rác 230 thư tốt tần suất lưu trữ từ “giáo viên” “giáo viên”|50|230 3.3.5.5.b Bước kiểm tra:  Tính ngưỡng token(s): Tính ngưỡng tokens: dựa vào token(s) phân tích từ nội dung thư tần số token(s) lưu trữ sở liệu trước công thức Naïve Bayes, áp dụng công thức tính xác suất cho token(s) sau: + Giả sử nội dung bực thư kiểm tra: content + Lớp thư rác: spam + Lớp thư tốt: ham 62 + Word1, Word2, Word3, Wordn từ đặc trưng xuất content Ta có 𝑃(𝑠𝑝𝑎𝑚|𝑐𝑜𝑛𝑡𝑒𝑛𝑡) = 𝑃(𝑐𝑜𝑛𝑡𝑒𝑛𝑡|𝑠𝑝𝑎𝑚 ) ∗ 𝑃(𝑠𝑝𝑎𝑚) 𝑇𝑜𝑡𝑎𝑙 𝑚𝑒𝑠𝑠𝑎𝑔𝑒 (3.24) Trong total xác định Total=P(content|spam)* P(spam)+ P(content|ham)* P(ham) (3.25) Với P(content|ham) P(content|spam) tính 𝑃(𝑐𝑜𝑛𝑡𝑒𝑛𝑡|ℎ𝑎𝑚) = ∏ 𝑃( 𝑤𝑜𝑟𝑑𝑖 |ham) (3.26) 1

Định dạng
Số trang	74
Dung lượng	1,04 MB

Tài liệu tham khảo	Loại	Chi tiết
[1]. N. V. Cường, N. T. T. Linh, H. Q. Thuỵ, P. X. Hiếu. Bài toán lọc và phân lớp nội dung web tiếng Việt với hướng tiếp cận entropi cực đại. Hội thảo quốc gia một số vấn đề chọn lọc của công nghệ thông tin, Hải phòng, 2005	Khác
[2]. Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Giáo trình Khai phá dữ liệu web, Nxb Giáo dục Việt Nam, 2009.TIẾNG ANH	Khác
[3]. Chih-Hao Tsai, A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm, 1996	Khác
[4]. Csaba Gulyás, Creation of a Bayesian network-based meta spam filter, using the analysis of different spam filters, 2006	Khác
[5]. Goldszmidt D., Friedman, N.Geiger, Bayesian network Classifiers Machine Learning, 2006	Khác
[6]. H. David D. Lewis, Ph.D.Ornarose, Inc. & David D. Lewis Consulting, Naive Bayes Text Classification for Spam Filtering ,2007	Khác
[7]. Jonathan A. Zdziarski, Ending Spam: Bayesian Content Filtering and the Art of Statistical Language Classification, No Starch Press, 2005 [8]. Lafferty J., Conditional ramdom fields: probabilistic models forsegmenting and labeling sequence data. In International Conference on Machine Learning, 2001	Khác