Nghiên cứu phương pháp xác định thứ tự ưu tiên của thư điện tử

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề	Nghiên cứu phương pháp xác định thứ tự ưu tiên của thư điện tử
Tác giả	Nguyễn Thanh Hà
Người hướng dẫn	PGS. TS. Trần Quang Anh, TS. Trần Hùng
Trường học	Học viện công nghệ bưu chính viễn thông
Chuyên ngành	Hệ thống thông tin
Thể loại	luận án tiến sĩ kỹ thuật
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	182
Dung lượng	1,86 MB

Nội dung

Nghiên cứu phương pháp xác định thứ tự ưu tiên của thư điện tử. Nghiên cứu phương pháp xác định thứ tự ưu tiên của thư điện tử. Nghiên cứu phương pháp xác định thứ tự ưu tiên của thư điện tử. Nghiên cứu phương pháp xác định thứ tự ưu tiên của thư điện tử. Nghiên cứu phương pháp xác định thứ tự ưu tiên của thư điện tử. Nghiên cứu phương pháp xác định thứ tự ưu tiên của thư điện tử. Nghiên cứu phương pháp xác định thứ tự ưu tiên của thư điện tử. Nghiên cứu phương pháp xác định thứ tự ưu tiên của thư điện tử. Nghiên cứu phương pháp xác định thứ tự ưu tiên của thư điện tử. Nghiên cứu phương pháp xác định thứ tự ưu tiên của thư điện tử. Nghiên cứu phương pháp xác định thứ tự ưu tiên của thư điện tử. Nghiên cứu phương pháp xác định thứ tự ưu tiên của thư điện tử. Nghiên cứu phương pháp xác định thứ tự ưu tiên của thư điện tử. Nghiên cứu phương pháp xác định thứ tự ưu tiên của thư điện tử. Nghiên cứu phương pháp xác định thứ tự ưu tiên của thư điện tử. Nghiên cứu phương pháp xác định thứ tự ưu tiên của thư điện tử. Nghiên cứu phương pháp xác định thứ tự ưu tiên của thư điện tử. Nghiên cứu phương pháp xác định thứ tự ưu tiên của thư điện tử. Nghiên cứu phương pháp xác định thứ tự ưu tiên của thư điện tử. Nghiên cứu phương pháp xác định thứ tự ưu tiên của thư điện tử. Nghiên cứu phương pháp xác định thứ tự ưu tiên của thư điện tử. Nghiên cứu phương pháp xác định thứ tự ưu tiên của thư điện tử.

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Nguyễn Thanh Hà NGHIÊN CỨU PHƯƠNG PHÁP XÁC ĐỊNH THỨ TỰ ƯU TIÊN CỦA THƯ ĐIỆN TỬ LUẬN ÁN TIẾN SĨ KỸ THUẬT Hà Nội – Năm 2023 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG Nguyễn Thanh Hà NGHIÊN CỨU PHƯƠNG PHÁP XÁC ĐỊNH THỨ TỰ ƯU TIÊN CỦA THƯ ĐIỆN TỬ Chuyên ngành : Hệ thống thông tin Mã số: 9.48.01.04 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Trần Quang Anh TS Trần Hùng Hà Nội - Năm LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Nội dung luận án có tham khảo sử dụng tài liệu, thông tin đăng tải tạp chí trang web theo danh mục tài liệu tham khảo Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày tháng năm 2023 Người cam đoan Nguyễn Thanh Hà i LỜI CẢM ƠN Lời đầu tiên, xin trân trọng cảm ơn tới Ban Giám đốc Học viện, Khoa Đào tạo Sau Đại học, Thầy Cô giáo Khoa-Phòng liên quan Học viện tạo điều kiện giúp đỡ suốt trình làm nghiên cứu sinh trường Tôi xin gửi lời cảm ơn sâu sắc đến PGS.TS Trần Quang Anh Thầy người định hướng tận tình hướng dẫn, bảo cho tơi suốt trình theo đuổi đường học thuật Những phương pháp tầm nhìn thầy sở vững cho thành tựu khoa học mà đạt Tôi xin gửi lời cám ơn chân thành đến TS Trần Hùng Thầy người hướng dẫn, tư vấn quý giá, thầy động viên, ủng hộ tơi hồn thành luận án Thầy hướng dẫn phương pháp nghiên cứu khoa học kịp thời gợi ý nhiều hướng tiếp cận cho nghiên cứu sinh Tôi xin dành yêu thương cám ơn tới gia đình, người thân ln đồng hành tơi vượt qua khó khăn suốt chặng đường dài Cuối cùng, Tôi xin chân thành cảm ơn lãnh đạo, bạn đồng nghiệp quan tạo điều kiện tốt cho thực nghiên cứu Xin chân thành cảm ơn! Hà Nội, ngày ii tháng năm 2023 MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN .ii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT vi DANH MỤC CÁC BẢNG, BIỂU viii DANH MỤC CÁC HÌNH VẼ .ix DANH MỤC CÁC KÝ HIỆU TOÁN HỌC DÙNG TRONG LUẬN ÁN x MỞ ĐẦU 1 GIỚI THIỆU TÍNH CẤP THIẾT CỦA LUẬN ÁN MỤC TIÊU CỦA LUẬN ÁN PHƯƠNG PHÁP NGHIÊN CỨU 5 CÁC ĐÓNG GÓP CỦA LUẬN ÁN .6 BỐ CỤC CỦA LUẬN ÁN CHƯƠNG – TỔNG QUAN VỀ THƯ ĐIỆN TỬ VÀ XÁC ĐỊNH THỨ TỰ ƯU TIÊN CỦA THƯ ĐIỆN TỬ 1.1 HỆ THỐNG THƯ ĐIỆN TỬ 1.1.1 Sơ lược thư điện tử 1.1.2 Cấu trúc thư điện tử 1.1.3 Mơ hình xử lý thư điện tử 11 1.1.4 Sơ lược thư rác 13 1.2 CÁC BÀI TOÁN XÁC ĐỊNH THỨ TỰ ƯU TIÊN CỦA THƯ ĐIỆN TỬ .13 1.2.1 Lọc thư rác 14 1.2.2 Dự đoán hành động người dùng thư điện tử .15 1.2.3 Xếp hạng thư điện tử 15 1.3 TỔNG QUAN NGHIÊN CỨU VỀ XÁC ĐỊNH THỨ TỰ ƯU TIÊN CỦA THƯ ĐIỆN TỬ 17 1.3.1 Nghiên cứu lọc thư rác 17 1.3.2 Nghiên cứu dự đoán hành động người dùng 36 1.3.3 Nghiên cứu xếp hạng thư điện tử 39 1.3.4 Các tiêu chí đánh giá 43 1.4 TẬP DỮ LIỆU THƯ ĐIỆN TỬ .46 1.4.1 Tập liệu Enron 46 1.4.2 Tập liệu TREC 47 1.4.3 Các tập liệu khác 48 1.4.4 Tập liệu thư điện tử tiếng Việt 49 1.5 KẾT LUẬN CHƯƠNG 57 CHƯƠNG 2: PHÁT HIỆN THƯ RÁC 59 iii 2.1 MỞ ĐẦU 59 2.1.1 Đặc điểm thư rác 59 2.1.2 Những vấn đề tồn 61 2.2 ỨNG DỤNG MẠNG NƠ-RON ĐỂ TỰ ĐỘNG LỰA CHỌN ĐẶC TRƯNG CHO BÀI TOÁN SINH TẬP LUẬT SPAMASSASSIN .64 2.2.1 Quy trình xây dựng tập luật SpamAssassin với mạng nơ-ron 64 2.2.2 Tiền xử lý biểu diễn liệu 66 2.2.3 Mơ hình mạng nơ-ron 67 2.2.4 Tạo tập luật SpamAssassin 71 2.3 ỨNG DỤNG TỐI ƯU HÓA ĐA MỤC TIÊU ĐỂ XÁC ĐỊNH ĐIỂM SỐ CHO TẬP LUẬT SPAMASSASSIN 71 2.3.1 Ứng dụng tối ưu hóa đa mục tiêu để sinh tập luật SpamAssassin .72 2.3.2 Ứng dụng phương pháp tối ưu hóa Pareto 73 2.3.3 Các giải thuật tiến hóa đa mục tiêu 74 2.3.4 Ứng dụng SPEA-II để giải toán 75 2.4 THỰC NGHIỆM 76 2.4.1 Thí nghiệm ứng dụng mạng nơ-ron để sinh tập luật SpamAssassin 76 2.4.2 Thí nghiệm ứng dụng SPEA-II để sinh tập luật 77 2.5 KẾT LUẬN CHƯƠNG 82 CHƯƠNG 3: DỰ ĐOÁN HÀNH ĐỘNG NGƯỜI DÙNG THƯ ĐIỆN TỬ .84 3.1 MỞ ĐẦU 84 3.1.1 Những khó khăn, tồn 84 3.1.2 Hướng tiếp cận giải toán 85 3.2 DỰ ĐOÁN HÀNH ĐỘNG NGƯỜI DÙNG VỚI TẬP LUẬT SPAMASSASSIN 86 3.2.1 Xây dựng máy phân loại nhị phân .87 3.2.2 Xây dựng máy phân loại đa lớp 88 3.3 ÁP DỤNG LUẬT HAM ĐỂ CẢI THIỆN TẬP LUẬT SPAMASSASSIN TRONG BÀI TOÁN DỰ ĐOÁN HÀNH ĐỘNG NGƯỜI DÙNG 92 3.3.1 Tự động gán nhãn cho liệu 92 3.3.2 Sinh tập luật SpamAssassin với luật Ham 94 3.4 ỨNG DỤNG PHƯƠNG PHÁP SD1 TRONG MƠ HÌNH DỰ ĐỐN HÀNH ĐỘNG NGƯỜI DÙNG 95 3.4.1 Cải tiến máy phân loại nhị phân mơ hình phân loại đa lớp 95 3.4.2 Cải thiện khâu tiền xử lý liệu 96 3.4.3 Sinh tập luật SpamAssassin dựa mạng nơ-ron 97 3.5 THỰC NGHIỆM 97 3.5.1 Tiêu chí đánh giá 97 3.5.2 Thí nghiệm 98 iv 3.6 KẾT LUẬN CHƯƠNG 99 CHƯƠNG 4: XẾP HẠNG THƯ ĐIỆN TỬ .102 4.1 MỞ ĐẦU 102 4.1.1 Những khó khăn tồn .103 4.1.2 Hướng tiếp cận toán 104 4.2 XẾP HẠNG THƯ ĐIỆN TỬ BẰNG PHƯƠNG PHÁP HỌC SÂU 106 4.2.1 Phương pháp học sâu xử lý thư điện tử 106 4.2.2 Tiền xử lý liệu .108 4.2.3 Biểu diễn đặc trưng mạng xã hội .109 4.2.4 Biểu diễn đặc trưng nội dung 109 4.2.5 Cấu trúc mạng nơ-ron 111 4.2.6 Huấn luyện mạng nơ-ron 112 4.3 XẾP HẠNG THƯ ĐIỆN TỬ DỰA TRÊN SPAMASSASSIN 114 4.3.1 Xây dựng máy phân loại nhị phân 115 4.3.2 Các phương án phân loại đa lớp 116 4.4 THỰC NGHIỆM 117 4.4.1 Tiêu chí đánh giá 117 4.4.2 So sánh thuật tốn tối ưu mạng nơ-ron (thí nghiệm 1) 118 4.4.3 So sánh phương án word embedding (thí nghiệm 2) 120 4.4.4 So sánh số phương pháp xếp hạng thư điện tử (thí nghiệm 3) 120 4.5 KẾT LUẬN CHƯƠNG .122 KẾT LUẬN 124 DANH MỤC CÁC CƠNG TRÌNH CƠNG BỐ .127 TÀI LIỆU THAM KHẢO 128 v DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT CLI Command Line Interface DAG Directed Acyclic Graph DAGSVM Directed Acyclic Graph Support Vector Machine ESP Email Service Provider FAR False Alarm Rate GD Gradient Descent DKIM DomainKeys Identified Mail DMARC HTML IETF ISP LMTP MDA MIME MLP MTA MUA OB-MC OB-MV OVA OVO OVR POP RBL RFC SGD SMS SMTP SPF SVM SVOR TCP TF Giao diện dòng lệnh Đồ thị định hướng khơng tuần hồn Đồ thị định hướng khơng tuần hồn với máy vector hỗ trợ Nhà cung cấp dịch vụ thư điện tử Tỷ lệ cảnh báo nhầm Thuật toán xuống dốc Giao thức xác thực người gửi DomainKeys Domain-based Message Giao thức chứng thực, tố cáo kiểm Authentication, Reporting and tra thông điệp dựa tên miền Conformance Hyper Text Markup Language Ngôn ngữ đánh dấu siêu văn Internet Engineering Task Tổ chức thiết kế phát triển Internet Force quốc tế Internet Service Provider Nhà cung cấp dịch vụ Internet Local Mail Transfer Protocol Giao thức truyền tải thư cục Mail Delivery Agent Trình chuyển phát thư Multipurpose Internet Mail Giao thức mở rộng thư điện tử Internet Extensions đa mục đích Multi-Layer Perceptron Mạng perceptron nhiều lớp Mail Transfer Agent Trình truyền tải thư Mail User Agent Trình duyệt thư điện tử Order-Based Most Confident Bỏ phiếu tự tin có thứ tự Order-Based Majority Voting Bỏ phiếu đa số có thứ tự One versus All Một tất One versus One Một One versus Rest Một khác Post Office Protocol Giao thức bưu điện Realtime Black List Danh sách đen thời gian thực Request For Comments Yêu cầu bình luận Stochastic Gradient Descent Thuật toán xuống dốc ngẫu nhiên Short Message Service Dịch vụ tin nhắn ngắn Simple Message Transfer Giao thức truyền thông điệp đơn giản Protocol Sender Policy Framework Bộ quy định dành cho người gửi thư Support Vector Machine Máy vector hỗ trợ Support Vector Ordinal Hồi quy thứ bậc dựa máy vector Regression hỗ trợ Transmission Control Giao thức điều khiển truyền dẫn Protocol Term Frequency Tần số từ khóa vi TF-IDF TLS TREC UCE UBE Term Frequency – Inverse Document Frequency Transport Layer Security Text REtrieval Conference Unsolicited Commercial Email Unsolicited Bulk Email Tần số từ khóa – Tần số tài liệu nghịch đảo Giao thức bảo mật tầng giao vận Hội nghị khai phá liệu văn Thư quảng cáo không mong muốn Thư gửi hàng loạt không mong muốn vi DANH MỤC CÁC BẢNG, BIỂU Bảng 1.1: Các tập liệu công khai thư điện tử 47 Bảng 1.2: Thống kê độ dài thư tập liệu thư điện tử tiếng Việt 56 Bảng 1.3: Thống kê người gửi thư tập liệu thư điện tử tiếng Việt .57 Bảng 1.4: Phân bổ thư theo nhãn tập liệu thư điện tử tiếng Việt 57 Bảng 2.1: Kết so sánh số phương pháp sinh tập luật SpamAssassin 77 Bảng 2.2: Số lượng thư điện tử dùng kịch 78 Bảng 2.3: Các tham số thuật toán SPEA-II 78 Bảng 2.4: So sánh hai phương pháp SSOA SPEA-II kịch 80 Bảng 2.5: So sánh hai phương pháp SSOA SPEA-II kịch 82 Bảng 3.1: Kết thí nghiệm so sánh phương pháp UAP1, UAP2 UAP3 99 Bảng 4.1: Kết so sánh ba thuật toán huấn luyện mạng nơ-ron 119 Bảng 4.2: Kết thí nghiệm so sánh cấu hình word embedding khác 120 Bảng 4.3: So sánh phương pháp EP2 với phương pháp EP1 YooEP 121 vi

Ngày đăng: 12/07/2023, 13:02

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

[1] Riedmiller, M., & Braun, H. (1993). A direct adaptive method for faster backpropagation learning: The RPROP algorithm. IEEE International Conference on Neural Networks, 1, 586–591. https://doi.org/10.1109/ICNN.1993.298623

Sách, tạp chí

Tiêu đề:	IEEE International Conference on Neural Networks, 1
Tác giả:	Riedmiller, M., & Braun, H
Năm:	1993

[2] Conventions for Encoding the Vietnamese Language VISCII: VIetnamese Standard Code for Information Interchange VIQR: VIetnamese Quoted-Readable Specification (Request for Comments RFC 1456). (1993). Internet Engineering Task Force.https://doi.org/10.17487/RFC1456

Sách, tạp chí

Tiêu đề:	Conventions for Encoding the Vietnamese Language VISCII: VIetnamese Standard Codefor Information Interchange VIQR: VIetnamese Quoted-Readable Specification
Tác giả:	Conventions for Encoding the Vietnamese Language VISCII: VIetnamese Standard Code for Information Interchange VIQR: VIetnamese Quoted-Readable Specification (Request for Comments RFC 1456)
Năm:	1993

[4] Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural Computation, 9(8), 1735–1780

Sách, tạp chí

Tiêu đề:	NeuralComputation, 9
Tác giả:	Hochreiter, S., & Schmidhuber, J
Năm:	1997

[5] Sahami, M., Dumais, S., Heckerman, D., & Horvitz, E. (1998). A Bayesian approach to filtering junk e-mail. Learning for Text Categorization: Papers from the 1998 Workshop, 62, 98–105

Sách, tạp chí

Tiêu đề:	Learning for Text Categorization: Papers from the 1998 Workshop,62
Tác giả:	Sahami, M., Dumais, S., Heckerman, D., & Horvitz, E
Năm:	1998

[6] Hastie, T., & Tibshirani, R. (1998). Classification by pairwise coupling. The Annals of Statistics, 26(2), 451–471. https://doi.org/10.1214/aos/1028144844

Sách, tạp chí

Tiêu đề:	The Annals ofStatistics, 26
Tác giả:	Hastie, T., & Tibshirani, R
Năm:	1998

[7] Sareni, B., & Krahenbuhl, L. (1998). Fitness sharing and niching methods revisited.IEEE Transactions on Evolutionary Computation, 2(3), 97–106.https://doi.org/10.1109/4235.735432

Sách, tạp chí

Tiêu đề:	IEEE Transactions on Evolutionary Computation, 2
Tác giả:	Sareni, B., & Krahenbuhl, L
Năm:	1998

[8] Platt, J. C., Cristianini, N., & Shawe-Taylor, J. (1999). Large margin DAGs for multiclass classification. Advances in Neural Information Processing Systems, 12, 547–553

Sách, tạp chí

Tiêu đề:	Advances in Neural Information Processing Systems, 12
Tác giả:	Platt, J. C., Cristianini, N., & Shawe-Taylor, J
Năm:	1999

[9] Drucker, H., Wu, D., & Vapnik, V. N. (1999). Support vector machines for spam categorization. IEEE Transactions on Neural Networks, 10(5), 1048–1054.https://doi.org/10.1109/72.788645

Sách, tạp chí

Tiêu đề:	IEEE Transactions on Neural Networks, 10
Tác giả:	Drucker, H., Wu, D., & Vapnik, V. N
Năm:	1999

[10] Page, L., Brin, S., Motwani, R., & Winograd, T. (1999). The PageRank Citation Ranking: Bringing Order to the Web (Technical Report No. 1999–66). Stanford InfoLab

Sách, tạp chí

Tiêu đề:	The PageRank CitationRanking: Bringing Order to the Web
Tác giả:	Page, L., Brin, S., Motwani, R., & Winograd, T
Năm:	1999

[11] Hasegawa, T., & Ohara, H. (2000). Automatic Priority Assignment to E-mail Messages Based on Information Extraction and User’s Action History. Intelligent Problem Solving

Sách, tạp chí

Tiêu đề:	Hasegawa, T., & Ohara, H. (2000). Automatic Priority Assignment to E-mail MessagesBased on Information Extraction and User’s Action History
Tác giả:	Hasegawa, T., & Ohara, H
Năm:	2000

[14] Graham, P. (2003). Better bayesian filtering. Proceedings of the 2003 Spam Conference, 11, 15–17

Sách, tạp chí

Tiêu đề:	Proceedings of the 2003 Spam Conference,11
Tác giả:	Graham, P
Năm:	2003

[16] Peter, I. (2004). The History of email. Internet History Project.http://www.nethistory.info/History of the Internet/email.html

Sách, tạp chí

Tiêu đề:	The History of email
Tác giả:	Peter, I
Năm:	2004

[17] Stern, H. (2004). Fast SpamAssassin score learning tool.https://svn.apache.org/repos/asf/spamassassin/trunk/masses/README.perceptron

Sách, tạp chí

Tiêu đề:	Fast SpamAssassin score learning tool
Tác giả:	Stern, H
Năm:	2004

[19] Klimt, B., & Yang, Y. (2004). The Enron Corpus: A New Dataset for Email Classification Research. Machine Learning: ECML 2004, 217–226.https://doi.org/10.1007/978-3-540- 30115-8_22

Sách, tạp chí

Tiêu đề:	Machine Learning: ECML 2004
Tác giả:	Klimt, B., & Yang, Y
Năm:	2004

[20] Bekkerman, R. (2004). Automatic categorization of email into folders: Benchmark experiments on Enron and SRI corpora. Computer Science Department Faculty Publication Series, 218. https://scholarworks.umass.edu/cs_faculty_pubs/218

Sách, tạp chí

Tiêu đề:	Computer Science Department FacultyPublication Series, 218
Tác giả:	Bekkerman, R
Năm:	2004

[21] Graham-Cumming, J. (2004, January 21). How to Beat a Bayesian Spam Filter. The MIT 2004 Spam Conference. https://lwn.net/Articles/67242/

Sách, tạp chí

Tiêu đề:	How to Beat a Bayesian Spam Filter
Tác giả:	Graham-Cumming, J
Năm:	2004

[22] Marler, R. T., & Arora, J. S. (2004). Survey of multi-objective optimization methods for engineering. Structural and Multidisciplinary Optimization, 26(6), 369–395.https://doi.org/10.1007/s00158-003-0368-6

Sách, tạp chí

Tiêu đề:	Structural and Multidisciplinary Optimization, 26
Tác giả:	Marler, R. T., & Arora, J. S
Năm:	2004

[24] Neustaedter, C., Brush, A., Smith, M., & Fisher, D. (2005, January 1). The Social Network and Relationship Finder: Social Sorting for Email Triage. Proceedings of the 2005 Conference on Email and Anti-Spam (CEAS)

Sách, tạp chí

Tiêu đề:	The SocialNetwork and Relationship Finder: Social Sorting for Email Triage
Tác giả:	Neustaedter, C., Brush, A., Smith, M., & Fisher, D
Năm:	2005

[27] Chirita, P. A., Diederich, J., & Nejdl, W. (2005). MailRank: Using ranking for spam detection. Proceedings of the 14th ACM International Conference on Information and Knowledge Management, 373–380. https://doi.org/10.1145/1099554.1099671

Sách, tạp chí

Tiêu đề:	Proceedings of the 14th ACM International Conference on Information andKnowledge Management
Tác giả:	Chirita, P. A., Diederich, J., & Nejdl, W
Năm:	2005

[28] Tran, Q. A., Duan, H., & Li, X. (2006). Real-time statistical rules for spam detection.IJCSNS International Journal of Computer Science and Network Security, 6(2B), 178–

Sách, tạp chí

Tiêu đề:	IJCSNS International Journal of Computer Science and Network Security, 6
Tác giả:	Tran, Q. A., Duan, H., & Li, X
Năm:	2006