Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 54 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
54
Dung lượng
1,73 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN VĂN CẢNH ận Lu n vă ạc th sĩ Kĩ NGHIÊN CỨU PHƯƠNG PHÁP ĐÁNH GIÁ MỨC ĐỘ ƯU TIÊN CỦA THƯ th n iê gh tN uậ ĐIỆN TỬ u LUẬN VĂN THẠC SĨ KỸ THUẬT HÀ NỘI – 2020 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - ận Lu vă n NGUYỄN VĂN CẢNH ạc th sĩ Kĩ uậ th NGHIÊN CỨU PHƯƠNG PHÁP ĐÁNH GIÁ MỨC ĐỘ ƯU TIÊN CỦA THƯ n iê gh tN ĐIỆN TỬ u Chuyên ngành: Hệ thống thông tin Mã số: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS ĐỖ XUÂN CHỢ HÀ NỘI - 2020 i LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tác giả Nguyễn Văn Cảnh ận Lu n vă ạc th sĩ Kĩ n iê gh tN uậ th u ii LỜI CẢM ƠN Tôi xin trân trọng cảm ơn thầy cô Khoa công nghệ thông tin tạo điều kiện cho môi trường học tập tốt, đồng thời truyền đạt cho vốn kiến thức quý báu, tư khoa học để phục vụ cho trình học tập cơng tác tơi Tơi xin gửi lời cảm ơn đến bạn lớp Cao học Hệ thống thơng tin M18CQIS01-B khóa 2018- 2020 giúp đỡ suốt thời gian học tập vừa qua Đặc biệt, tơi xin bày tỏ lịng biết ơn sâu sắc đến TS ĐỖ XUÂN CHỢ tận tình bảo cho tơi suốt q trình học tập nghiên cứu, giúp tơi có nhận thức đắn kiến thức khoa học, tác phong học tập làm việc, tạo điều kiện ận Lu thuận lợi để tơi hồn thành luận văn vă Cuối cùng, tơi xin gửi lời cảm ơn tới gia đình, đồng nghiệp, người thân n động viên, giúp đỡ tơi q trình hồn thành luận văn ạc th sĩ Kĩ uậ th n iê gh tN Tác giả u Nguyễn Văn Cảnh iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT vi DANH MỤC BẢNG BIỂU vii DANH MỤC HÌNH VẼ viii ận Lu MỞ ĐẦU vă n CHƯƠNG - TỔNG QUAN VỀ THƯ ĐIỆN TỬ ạc th sĩ 1.1 Khái niệm thư điện tử Kĩ uậ th iê gh tN 1.2 Lịch sử phát triển n 1.3 Thành phần cấu trúc hệ thống thư điện tử u 1.3.1 MTA(Mail Transfer Agent) 1.3.2 MDA (Mail Delivery Agent) 1.3.3 MUA (Mail User Agent) 1.4 Các giải pháp thư điện tử mã nguồn mở 1.4.1 Zimbra 1.4.2 Sendmail 1.4.3 Qmail iv 1.4.4 Postfix 1.4.5 Exim 1.5 Kiến trúc hệ thống thư điện tử mã nguồn mở Zimbra 1.6 Triển khai Zimbra MTA 12 1.6.1 Tiếp nhận gửi thư thông qua Zimbra MTA 13 1.7 Những tiện ích vai trị thư điện tử sống ngày 14 1.8 Kết luận chương 17 Lu ận CHƯƠNG – ĐÁNH GIÁ MỨC ĐỘ ƯU TIÊN CỦA THƯ ĐIỆN TỬ 18 n vă ạc th 2.1 Một số công nghệ hỗ trợ phân loại mức độ ưu tiên thư điện tử 18 sĩ Kĩ 2.1.1 Định nghĩa thư rác 18 uậ th n iê gh tN 2.1.2 Các phương pháp loc thư rác 18 u 2.2 Tổng quan học máy 23 2.2.1 Khái niệm 23 2.2.2 Trích chọn đặc trưng 25 2.2.3 Phân loại học máy 25 2.3 Phương pháp phân loại độ ưu tiên thư điện tử 33 2.3.1 Các thành phần thư điện tử 33 2.3.2 Lựa chọn đặc trưng để xét độ ưu tiên 34 2.3.3 Cách tính trọng số dựa vào đặc trưng 35 v CHƯƠNG - CÀI ĐẶT VÀ THỬ NGHIỆM 37 3.1 Thu thập tiền xử lý liệu 37 3.1.1 Thu thập liệu 37 3.1.2 Tiền xử lý liệu 38 3.2 Thực nghiệm đánh giá 38 3.3 Kết chạy thực nghiệm 41 3.3 Kết luận chương 42 Lu ận KẾT LUẬN VÀ KIỀN NGHỊ 43 n vă Kết đạt 43 Hướng phát triển luận văn 43 ạc th sĩ Kĩ uậ th n iê gh tN DANH MỤC CÁC TÀI LIỆU THAM KHẢO 44 u vi DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt KNN K-Nearest Neighbors K láng giềng gần IDF Inverse Document Nghịch đảo tần suất Frequency văn Term Frequency Tần suất xuất TF từ ận Lu n vă ạc th sĩ Kĩ n iê gh tN uậ th u vii DANH MỤC BẢNG BIỂU Bảng 1.1 Thống kê lượng email gửi hàng ngày toàn giới …………… 17 Bảng 3.1 Kết chạy thử nghiệm……………………………………………… 41 Bảng 3.2 Độ hiệu trung bình thuật tốn…………………………… 42 ận Lu n vă ạc th sĩ Kĩ n iê gh tN uậ th u viii DANH MỤC HÌNH VẼ Hình 1.1 Mơ hình hệ thống thư điện tử………………………………………… Hình 1.2 Kiến trúc hệ thống Zimbra………………………………………………11 Hình 1.3 Postfix mơi trường Zimbra……………………………………… 13 Hình 1.4 Hàng đợi tin nhắn Zimbra MTA………………………………… 14 Hình 1.5 Thống kê số lượng Incoming emails…………………………………….16 Hình 1.6 Thống kê số lượng Outgoing emails…………………………………….16 Hình 2.1 Quy trình học máy……………………………………………………….24 Hình 2.2 Bộ sở liệu chữ số viết tay…………………………………… 26 Hình 2.3 Sơ đồ thuật tốn Random Forest……………………………………… 30 ận Lu Hình 2.4 Các đặc trưng cần quan tâm…………………………………………… 35 vă Hình 3.1 Lấy liệu Google Takeout…….………………………………….37 n Hình 3.2 Lấy liệu Google Takeout …………………………………… 38 ạc th sĩ Hình 3.3 Mơ hình trình phân loại thư điện tử …………………………………39 Kĩ n iê gh tN uậ th u 30 Dữ liệu mẫu Lựa chọn Dữ liệu huấn luyện Out-of-bag (OOB) Dữ liệu dùng để đánh giá tỉ Bộ liệu dùng để xây ận Lu Lựa chọn đặc trưng vă Lựa chọn ngẫu n Lặp đến th ạc đáp ứng đủ tiêu sĩ Kĩ chí xây dựng th Xây dựng cây n iê gh thuộc tính tốt tN uậ Phân chia liệu theo u Đánh giá lỗi OOB Áp dụng vào liệu Random Forest Hình 2.3 Sơ đồ thuật tốn Random Forest 31 Thuật toán Logistic Regression Phương pháp hồi quy logistic mơ hình hồi quy nhằm dự đốn giá trị đầu rời rạc (discrete target variable) y ứng với véc-tơ đầu vào x Việc tương đương với chuyện phân loại đầu vào x vào nhóm y tương ứng Ví dụ, xem ảnh có chứa mèo hay khơng Thì ta coi đầu y = bước ảnh có mèo y = ảnh khơng có mèo Đầu vào x pixel ảnh đầu vào Sử dụng phương pháp thống kê ta coi khả đầu vào x nằm nhóm 𝑦0 xác xuất nhóm 𝑦0 biết x: p(𝑦0 |x) Ta có hàm sigmoid (logistic sigmoid function).[6] =𝜎(a) 1+exp(−a) (2.6) ận Lu p(𝑦0 |x)= n vă Vận dụng thuyết phân phối chuẩn, ta rằng: a=𝒘𝑻 x+𝒘𝟎 ạc th Đặt 𝒙𝟎 =[1,… ,1] ta viết gọn : a=𝒘𝑻 x sĩ Kĩ Thay vào công thức (2.6) bên ta có : p(𝑦0 |x)= = 𝜎(𝒘𝑻 x) Trong x uậ th 1+exp(−a) n iê Ta phải tối ưu hàm mát gh tN thuộc tính đầu vào cịn w trọng số tương ứng u Theo phương pháp Gradient Descent ta cập nhật tham số sau vòng lặp [11]: 2.2.4 Thuật toán khai phá liệu văn Thuật toán TF-IDF TF-IDF (Term Frequency – Inverse Document Frequency) kĩ thuật sử dụng khai phá liệu văn Trọng số sử dụng để đánh giá tầm quan trọng từ văn Giá trị cao thể độ quan trọng cao phụ thuộc 32 vào số lần từ xuất văn bù lại tần suất từ tập liệu Một vài biến thể TF-IDF thường sử dụng hệ thống tìm kiếm cơng cụ để đánh giá xếp văn dựa vào truy vấn người dùng TF-IDF sử dụng để lọc từ stopwords tốn tóm tắt văn phân loại văn TF: Term Frequency(Tần suất xuất từ) số lần từ xuất văn Vì văn có độ dài ngắn khác nên số từ xuất nhiều lần văn dài văn ngắn Như vậy, term frequency thường chia cho độ dài văn bản( tổng số từ văn bản) ận Lu n vă ạc th sĩ Kĩ Trong đó: th tN uậ tf(t, d): tần suất xuất từ t văn d gh f(t, d): Số lần xuất từ t văn d n iê max({f(w, d) : w ∈ d}): Số lần xuất từ có số lần xuất nhiều u văn d IDF: Inverse Document Frequency(Nghịch đảo tần suất văn bản), giúp đánh giá tầm quan trọng từ Khi tính tốn TF , tất từ coi có độ quan trọng Nhưng số từ “is”, “of” “that” thường xuất nhiều lần độ quan trọng không cao Như cần giảm độ quan trọng từ xuống Trong đó: 33 idf(t, D): giá trị idf từ t tập văn |D|: Tổng số văn tập D |{d ∈ D : t ∈ d}|: thể số văn tập D có chứa từ t Cơ số logarit công thức không thay đổi giá trị idf từ mà thu hẹp khoảng giá trị từ Vì thay đổi số dẫn đến việc giá trị từ thay đổi số định tỷ lệ trọng lượng với khơng thay đổi (nói cách khác, thay đổi số không ảnh hưởng đến tỷ lệ giá trị IDF) Việc sử dụng logarit nhằm giúp giá trị tf-idf từ nhỏ hơn, có cơng thức tính tf-idf từ văn tích tf idf từ Cụ thể, Lu ận có cơng thức tính TF-IDF hồn chỉnh sau: n vă ạc th sĩ Những từ có giá trị TF-IDF cao từ xuất nhiều văn này, Kĩ uậ th xuất văn khác Việc giúp lọc từ phổ biến giữ lại gh tN từ có giá trị cao (từ khố văn đó) n iê 2.3 Phương pháp phân loại độ ưu tiên thư điện tử u 2.3.1 Các thành phần thư điện tử Các thành phần thư điện tử thông thường bao gồm người gửi, người nhận, thời gian, tiêu đề, phần nội dung, tệp tin đính kèm Trong công việc ngày, ta nhận nhiều email nên đọc lướt qua tiêu đề để nắm nội dung sơ lược định đọc email trước Do đó, tiêu đề thường viết cụ thể ngắn gọn điều quan trọng chứa đựng nội dung Nội dung thư phần người viết người đọc trao đổi với nhau, chứa thông tin mà thư muốn truyền tải Thư điện tử khác với thư thường nên người dùng gửi thêm tập kèm theo phục vụ cho việc truyền tải thông tin cụ thể rõ ràng Thời gian gửi theo định dạng ngày tháng năm, tiêu đề, nội dung dạng văn Người gửi người nhận địa 34 hòm thư người dùng 2.3.2 Lựa chọn đặc trưng để xét độ ưu tiên Thư điện tử phương tiện dựa trao đổi qua lại Mọi người gửi nhận thư theo thời gian Một thư điện tử quan trọng hay dựa vào đặc trưng trao đổi người gửi người nhận không đơn dựa vào nội dung thư Ta dựa vào đặc trưng thư để dự đoán xem người dùng tương tác với thư nhận thời gian tới Đó mục đích phương pháp phân loại độ ưu tiên thư điện tử Có tới hàng trăm đặc trưng thư xét tới Những đặc trưng có nhiều giá trị đáng quan tâm ận Lu Thư điện tử phương tiện dựa giao dịch, đăc trưng xã hội tối quan trọng n vă việc đánh giá tầm quan trọng thư [3] Nó gửi đến từ Rõ ràng ạc th người nhận khối lượng lớn tin nhắn email từ địa định, có sĩ thể người dùng có kết nối xã hội mạnh mẽ với người gửi Nếu người dùng có tần suất Kĩ uậ th phản hồi thường xuyên với địa email người gửi chắn kết nối xã hội gh tN mạnh mẽ người Vậy đặc trưng đáng xem xét địa người gửi, người nhận, n iê tần suất phản hồi họ Đặc trưng quan trọng mà ta ý thời gian nhận u email Tiếp theo xem xét email có luồng email không Những email luồng thường chủ đề, để trả lời lại thư khác Ví dụ Gmail đánh dấu “RE” Ta trích xuất đặc trưng từ nội dung thư kỹ thuật khai thác văn Cụ thể, có thuật ngữ phổ biến chủ đề nội dung email mà người dùng nhận được, email tương lai có chứa thuật ngữ chủ đề nội dung quan trọng thuật ngữ khơng xuất Đây kỹ thuật phổ biến đề cập ngắn gọn phần mô tả hộp thư ưu tiên Google Google Khi xét đến đặc trưng nội dung dựa chủ đề nội dung email, có số thuật ngữ quan trọng chủ đề email so với nội dung Do đó, khơng nên coi tầm quan trọng tương 35 đối thuật ngữ phổ biến hai tính [2] ận Lu n vă ạc th sĩ Kĩ tN uậ th Hình 2.4 Các đặc trưng cần quan tâm [2] iê gh 2.3.3 Cách tính trọng số dựa vào đặc trưng n Đặc trưng tần suất thư gửi đến: Đếm số lần xuất địa email số u email dùng để trainning Với số lần xuất địa email 𝑥𝑖 Trọng số thứ nhất: 𝑤1 = log10 𝑥𝑖 Đặc trưng tần suất thư phản hồi: Lọc email email phản hồi Gọi số lần xuất địa email số email phản hồi 𝑥𝑗 Trọng số thứ hai: 𝑤2 = log10 𝑥𝑗 Đặc trưng tỉ lệ số lượng thư thời gian luồng email: Lọc thread thư, Loại thread khơng có reply, tính tổng thời gian thread Với thread i Gọi tổng thời gian thread t với t tính giây, số lượng thư qua lại luồng thư i n Trọng số thứ ba : 𝑤3 = log10 𝑛 𝑡 36 Sử dụng phương pháp TF-IDF, tính độ quan trọng từ nội dung email tập mẫu Với m số lượng từ nội dung thư, 𝑥𝑗 độ quan trọng từ Đặc trưng độ quan trọng nội dung thư: Trọng số thứ tư : 𝑤4 = log10 ∑𝑖=1 𝑚 𝑥𝑗 Đặc trưng độ quan trọng tiêu đề: Với n số lượng từ tiêu đề thư, 𝑥𝑖 độ quan trọng từ Trọng số thứ năm 𝑤5 = log10 ∑𝑖=1 𝑛 𝑥𝑖 [2] ận Lu n vă ạc th sĩ Kĩ n iê gh tN uậ th u 37 CHƯƠNG - CÀI ĐẶT VÀ THỬ NGHIỆM Chương tiến hành áp dụng phương pháp phân loại giới thiệu chương vào tập liệu mẫu Sau đó, đưa kết thu kết luận 3.1 Thu thập tiền xử lý liệu 3.1.1 Thu thập liệu Trong phần chương 3, liệu sử dụng liệu thu thập mạng internet Sử dụng Goolge takeout để lấy flie Mbox liệu mail tên miền @fpt.edu.vn ận Lu n vă ạc th sĩ Kĩ n iê gh tN uậ th u Hình 3.1 : Lấy liệu Google Takeout 38 ận Lu n vă th ạc Hình 3.2 : Lấy liệu Google Takeout sĩ Kĩ Bộ liệu thực nghiệm gồm 30 user: tN uậ th Tổng số mail Số mail quan trọng gh 20054 41679 n iê 61733 Số mail không quan trọng u 3.1.2 Tiền xử lý liệu Với email có tối đa 12 trường liệu Các email lấy từ tên miền @fpt.edu.vn Với email lấy với trường liệu {subject’,’from’, ‘to’,’date’,’body’} lọc bỏ email có loại ngôn ngữ khác để lại thư tiếng Việt Các email lưu tệp định dạng mbox chuyển định dang csv 3.2 Thực nghiệm đánh giá 39 Tập liệu Trích chọn đặc trưng Trích xuất đặc trưng Biểu diễn đặc chọn đặc trưng ận Lu n vă Lựa th ạc trưng sĩ Kĩ gh tN uậ th Dữ liệu thử nghiệm n iê Dữ liệu huấn luyện u Huấn luyện Sử dụng kỹ thuật học Mơ hình học máy Kết Yes/No Hình 3.3 : Mơ hình q trình phân loại thư điện tử Quá trình thực bao gồm giai đoạn: 40 - Giai đoạn huấn luyện : Đầu vào giai đoạn liệu tiền xử lý để đưa vector đặc trưng Trong bước huấn luyện, liệu phân loại theo nhãn phân loại tương ứng, sau sử dụng thuật toán học máy để đưa phân loại tương ứng phục vụ cho giai đoạn phát - Giai đoạn phát hiện: Dữ liệu giai đoạn xử lý tương tự liệu giai đoạn huấn luyện Đầu vào giai đoạn phát liệu tiền xử lý model (bộ phân loại – kết giai đoạn huấn luyện) Áp dụng tính trọng số chương ta có điểm số cụ thể cho e-mail tính hàm log tích đặc trưng Lu ận Môi trường thử nghiệm: Hệ điều hành window 10, Ngôn ngữ python n vă ạc th sĩ Kĩ n iê gh tN uậ th u 41 3.3 Kết chạy thực nghiệm Bảng 3.1: Kết chạy thử nghiệm Model User Random Forest KNN Recall AUC F1 Logistic Regression F1 Recall AUC F1 Recall chiennthe141748 0.912 0.892 0.896 0.835 0.862 0.876 0.795 0.84 0.885 dangnhha140192 0.713 0.666 0.670 0.667 0.625 0.632 0.551 0.431 0.571 datntse04909 0.953 0.915 0.916 0.846 0.878 0.885 0.715 0.812 0.853 ducnmhe130666 0.676 0.617 0.618 0.673 0.637 0.637 0.598 0.551 0.563 ducnmse05559 0.834 0.745 hiepphse04711 0.838 0.767 0.768 0.683 0.643 0.646 0.67 hieudtse04712 0.882 linhnptsb02246 ận Lu AUC n vă 0.5 0.515 0.635 0.646 0.841 0.843 0.800 0.794 0.802 0.796 0.782 0.797 0.832 0.795 0.802 0.666 0.689 0.705 0.658 0.568 phucnhse04534 0.849 0.772 0.772 0.722 0.664 0.664 0.65 0.609 0.613 quangnvse05839 0.884 0.795 0.795 0.762 0.702 0.703 0.692 0.644 0.645 quynhthse04640 0.869 0.777 0.776 0.758 0.691 0.692 0.708 0.657 0.659 sanglqse04676 0.949 0.894 0.895 0.862 0.841 0.846 0.778 0.782 0.807 toannbsb02527 0.843 0.775 0.776 0.720 0.673 0.675 0.645 0.606 0.638 tuanntse04733 0.925 0.877 0.879 0.809 0.806 0.815 0.695 0.702 0.767 tuanthsb01889 0.808 0.762 0.769 0.684 0.677 0.689 0.631 0.585 0.682 tungptse04569 0.901 0.819 0.819 0.788 0.718 0.719 0.564 0.431 0.528 tungtmse05324 0.847 0.803 0.809 0.724 0.736 0.754 0.714 0.666 0.753 ạc th 0.745 0.675 0.631 0.631 0.495 sĩ Kĩ n iê gh tN uậ th 0.694 u 42 Bảng 3.2 Độ hiệu trung bình thuật tốn Model Random Forest AUC 0.854 F1 0.795 KNN Recall AUC 0.797 Logistic Regression F1 0.746 Recall 0.722 0.728 AUC 0.668 F1 0.635 Recall 0.683 Accuracy: tính tỉ lệ số điểm dự đoán tổng số điểm tập liệu kiểm thử Recall: tỷ lệ số điểm true positive tổng số điểm thực ận Lu positive (TP+FN) Giá trị recall cao đồng nghĩa với việc TPR (true positive Rate) cao, n vă tức tỷ lệ bỏ sót điểm thực positive thấp.F1-score: harmonic mean ạc th precision recall F1 cao, phân loại tốt sĩ Kĩ 3.3 Kết luận chương uậ th tN Từ kết ta thấy với thuật toán Random Forest số tốt với n u ba thuật toán iê gh số : AUC : 0.854,F1 : 0.795,Recall : 0.797 Cho kết phân loại tốt 43 KẾT LUẬN VÀ KIỀN NGHỊ Kết đạt - Trình bày phổ biến vai trò thư điện tử sống đại - Trình bày kết nghiên cứu thư điện tử: định nghĩa, lịch sử phát triển thư điện tử, thành phần cấu trúc hệ thống thư điện tử - Các giải pháp hệ thống thư điện tử mã nguồn mở Chi tiết cài đặt kiến trúc hệ thống, thành phần mã nguồn mở Zimba Trình bày phương pháp hỗ trợ đánh giá giá mức độ ưu tiên thư điện tử - Trình bày sở lý thuyết, phương pháp đánh giá mức độ ưu tiên thư điện tử - Tiến hành thực nghiệm, đánh giá kết Quá trình thực nghiệm học viên xử lý ận Lu - n vă th ạc liệu email thu thâp internet Sử dụng thuật toán, phương pháp sĩ Kĩ trình bày chương để tính tốn trọng số từ đặc trưng thư, đưa th n iê - u Một số hướng phát triển luận văn: Hướng phát triển luận văn gh nghiệm thuật toán Random Forest tN uậ vào thuật toán học máy để thực phân lớp Thuật toán hiệu thực Nghiên cứu công nghệ ứng dụng phân loại đánh giá mức độ ưu tiên thư điện tử - Nghiên cứu tiến phương pháp đánh giá mức độ ưu tiên thư điện tử tiếng Việt 44 DANH MỤC CÁC TÀI LIỆU THAM KHẢO Tiếng Anh : [1] Biau, G (2013) Analysis of a Random Forests Model Journal of Machine Learning Research, 1063-1095 [2] Drew-Conway-John-Myles-White-Machine-Learning-for-Email_-SpamFiltering-and-Priority-Inbox-2011-OReilly-Media [3] Douglas Aberdeen, Ondrej Pacovsky, Andrew Slater Google Inc Zurich, Switzerland [4] https://www.radicati.com/wp/wp-content/uploads/2015/02/Email-Statistics- Jorma Laaksonen, Erkki Oja (1996) Classification with learning k-Nearest ạc th Neighbors n vă [5] ận Lu Report-2015-2019-Executive-Summary.pdf Mitchell, T (1997) Machine Learning [7] Milestracy, Wayne Jansen, Scott Bisker, Guidelines on Electronic Mail Securrity U.S Government Printing Office Washington, 2002 Trang thông tin Zimbra www.zimbra.com sĩ [6] Kĩ n iê gh tN uậ th [8] [9] [10] u Thirumuruganathan, S (2010) A Detailed Introduction to K-Nearest Neighbor (KNN) Algorithm Retrieved from https://saravananthirumuruganathan.wordpress.com/2010/05/17/adetailed- introduction-to-k-nearest-neighbor-knn-algorithm/ Tiếng Việt : https://vi.wikipedia.org/wiki/H%E1%BB%8Dc_m%C3%A1y#%C4%90%E1 %BB%8Bnh_ngh%C4%A9a Đã truy cập 10 09, 2019 [11] https://machinelearningcoban.com/2017/01/27/logisticregression/#mo-hinhlogistic-regression [12] https://machinelearningcoban.com/2016/12/27/categories/