1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu phương pháp đánh giá mức độ ưu tiên trong thư điện tử (Luận văn thạc sĩ)

54 81 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 54
Dung lượng 1,55 MB

Nội dung

Nghiên cứu phương pháp đánh giá mức độ ưu tiên trong thư điện tử (Luận văn thạc sĩ)Nghiên cứu phương pháp đánh giá mức độ ưu tiên trong thư điện tử (Luận văn thạc sĩ)Nghiên cứu phương pháp đánh giá mức độ ưu tiên trong thư điện tử (Luận văn thạc sĩ)Nghiên cứu phương pháp đánh giá mức độ ưu tiên trong thư điện tử (Luận văn thạc sĩ)Nghiên cứu phương pháp đánh giá mức độ ưu tiên trong thư điện tử (Luận văn thạc sĩ)Nghiên cứu phương pháp đánh giá mức độ ưu tiên trong thư điện tử (Luận văn thạc sĩ)Nghiên cứu phương pháp đánh giá mức độ ưu tiên trong thư điện tử (Luận văn thạc sĩ)Nghiên cứu phương pháp đánh giá mức độ ưu tiên trong thư điện tử (Luận văn thạc sĩ)Nghiên cứu phương pháp đánh giá mức độ ưu tiên trong thư điện tử (Luận văn thạc sĩ)Nghiên cứu phương pháp đánh giá mức độ ưu tiên trong thư điện tử (Luận văn thạc sĩ)Nghiên cứu phương pháp đánh giá mức độ ưu tiên trong thư điện tử (Luận văn thạc sĩ)Nghiên cứu phương pháp đánh giá mức độ ưu tiên trong thư điện tử (Luận văn thạc sĩ)

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN VĂN CẢNH NGHIÊN CỨU PHƯƠNG PHÁP ĐÁNH GIÁ MỨC ĐỘ ƯU TIÊN CỦA THƯ ĐIỆN TỬ LUẬN VĂN THẠC SĨ KỸ THUẬT HÀ NỘI – 2020 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN VĂN CẢNH NGHIÊN CỨU PHƯƠNG PHÁP ĐÁNH GIÁ MỨC ĐỘ ƯU TIÊN CỦA THƯ ĐIỆN TỬ Chuyên ngành: Hệ thống thông tin Mã số: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS ĐỖ XUÂN CHỢ HÀ NỘI - 2020 i LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tác giả Nguyễn Văn Cảnh ii LỜI CẢM ƠN Tôi xin trân trọng cảm ơn thầy cô Khoa công nghệ thông tin tạo điều kiện cho môi trường học tập tốt, đồng thời truyền đạt cho vốn kiến thức quý báu, tư khoa học để phục vụ cho q trình học tập cơng tác tơi Tôi xin gửi lời cảm ơn đến bạn lớp Cao học Hệ thống thơng tin M18CQIS01-B khóa 2018- 2020 giúp đỡ suốt thời gian học tập vừa qua Đặc biệt, xin bày tỏ lòng biết ơn sâu sắc đến TS ĐỖ XUÂN CHỢ tận tình bảo cho tơi suốt q trình học tập nghiên cứu, giúp tơi có nhận thức đắn kiến thức khoa học, tác phong học tập làm việc, tạo điều kiện thuận lợi để tơi hồn thành luận văn Cuối cùng, tơi xin gửi lời cảm ơn tới gia đình, đồng nghiệp, người thân động viên, giúp đỡ q trình hồn thành luận văn Tác giả Nguyễn Văn Cảnh iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT vi DANH MỤC BẢNG BIỂU vii DANH MỤC HÌNH VẼ viii MỞ ĐẦU CHƯƠNG - TỔNG QUAN VỀ THƯ ĐIỆN TỬ 1.1 Khái niệm thư điện tử 1.2 Lịch sử phát triển 1.3 Thành phần cấu trúc hệ thống thư điện tử 1.3.1 MTA(Mail Transfer Agent) 1.3.2 MDA (Mail Delivery Agent) 1.3.3 MUA (Mail User Agent) 1.4 Các giải pháp thư điện tử mã nguồn mở 1.4.1 Zimbra 1.4.2 Sendmail 1.4.3 Qmail iv 1.4.4 Postfix 1.4.5 Exim 1.5 Kiến trúc hệ thống thư điện tử mã nguồn mở Zimbra 1.6 Triển khai Zimbra MTA 12 1.6.1 Tiếp nhận gửi thư thông qua Zimbra MTA 13 1.7 Những tiện ích vai trò thư điện tử sống ngày 14 1.8 Kết luận chương 17 CHƯƠNG – ĐÁNH GIÁ MỨC ĐỘ ƯU TIÊN CỦA THƯ ĐIỆN TỬ 18 2.1 Một số công nghệ hỗ trợ phân loại mức độ ưu tiên thư điện tử 18 2.1.1 Định nghĩa thư rác 18 2.1.2 Các phương pháp loc thư rác 18 2.2 Tổng quan học máy 23 2.2.1 Khái niệm 23 2.2.2 Trích chọn đặc trưng 25 2.2.3 Phân loại học máy 25 2.3 Phương pháp phân loại độ ưu tiên thư điện tử 33 2.3.1 Các thành phần thư điện tử 33 2.3.2 Lựa chọn đặc trưng để xét độ ưu tiên 34 2.3.3 Cách tính trọng số dựa vào đặc trưng 35 v CHƯƠNG - CÀI ĐẶT VÀ THỬ NGHIỆM 37 3.1 Thu thập tiền xử lý liệu 37 3.1.1 Thu thập liệu 37 3.1.2 Tiền xử lý liệu 38 3.2 Thực nghiệm đánh giá 38 3.3 Kết chạy thực nghiệm 41 3.3 Kết luận chương 42 KẾT LUẬN VÀ KIỀN NGHỊ 43 Kết đạt 43 Hướng phát triển luận văn 43 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 44 vi DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt KNN K-Nearest Neighbors K láng giềng gần IDF Inverse Document Nghịch đảo tần suất Frequency văn Term Frequency Tần suất xuất TF từ vii DANH MỤC BẢNG BIỂU Bảng 1.1 Thống kê lượng email gửi hàng ngày toàn giới …………… 17 Bảng 3.1 Kết chạy thử nghiệm……………………………………………… 41 Bảng 3.2 Độ hiệu trung bình thuật tốn…………………………… 42 viii DANH MỤC HÌNH VẼ Hình 1.1 Mơ hình hệ thống thư điện tử………………………………………… Hình 1.2 Kiến trúc hệ thống Zimbra………………………………………………11 Hình 1.3 Postfix mơi trường Zimbra……………………………………… 13 Hình 1.4 Hàng đợi tin nhắn Zimbra MTA………………………………… 14 Hình 1.5 Thống kê số lượng Incoming emails…………………………………….16 Hình 1.6 Thống kê số lượng Outgoing emails…………………………………….16 Hình 2.1 Quy trình học máy……………………………………………………….24 Hình 2.2 Bộ sở liệu chữ số viết tay…………………………………… 26 Hình 2.3 Sơ đồ thuật tốn Random Forest……………………………………… 30 Hình 2.4 Các đặc trưng cần quan tâm…………………………………………… 35 Hình 3.1 Lấy liệu Google Takeout…….………………………………….37 Hình 3.2 Lấy liệu Google Takeout …………………………………… 38 Hình 3.3 Mơ hình q trình phân loại thư điện tử …………………………………39 30 Dữ liệu mẫu Lựa chọn Dữ liệu huấn luyện Out-of-bag (OOB) Dữ liệu dùng để đánh giá tỉ Bộ liệu dùng để xây Lựa chọn đặc trưng Lựa chọn ngẫu Lặp đến đáp ứng đủ tiêu Xây dựng Phân chia liệu theo chí xây dựng thuộc tính tốt Đánh giá lỗi OOB Áp dụng vào liệu Random Forest Hình 2.3 Sơ đồ thuật toán Random Forest 31 Thuật toán Logistic Regression Phương pháp hồi quy logistic mơ hình hồi quy nhằm dự đoán giá trị đầu rời rạc (discrete target variable) y ứng với véc-tơ đầu vào x Việc tương đương với chuyện phân loại đầu vào x vào nhóm y tương ứng Ví dụ, xem ảnh có chứa mèo hay khơng Thì ta coi đầu y = bước ảnh có mèo y = ảnh khơng có mèo Đầu vào x pixel ảnh đầu vào Sử dụng phương pháp thống kê ta coi khả đầu vào x nằm nhóm 𝑦0 xác xuất nhóm 𝑦0 biết x: p(𝑦0 |x) Ta có hàm sigmoid (logistic sigmoid function).[6] p(𝑦0 |x)= =𝜎(a) 1+exp(−a) (2.6) Vận dụng thuyết phân phối chuẩn, ta rằng: a=𝒘𝑻 x+𝒘𝟎 Đặt 𝒙𝟎 =[1,… ,1] ta viết gọn : a=𝒘𝑻 x Thay vào công thức (2.6) bên ta có : p(𝑦0 |x)= 1+exp(−a) = 𝜎(𝒘𝑻 x) Trong x thuộc tính đầu vào w trọng số tương ứng Ta phải tối ưu hàm mát Theo phương pháp Gradient Descent ta cập nhật tham số sau vòng lặp [11]: 2.2.4 Thuật tốn khai phá liệu văn Thuật toán TF-IDF TF-IDF (Term Frequency – Inverse Document Frequency) kĩ thuật sử dụng khai phá liệu văn Trọng số sử dụng để đánh giá tầm quan trọng từ văn Giá trị cao thể độ quan trọng cao phụ thuộc 32 vào số lần từ xuất văn bù lại tần suất từ tập liệu Một vài biến thể TF-IDF thường sử dụng hệ thống tìm kiếm cơng cụ để đánh giá xếp văn dựa vào truy vấn người dùng TF-IDF sử dụng để lọc từ stopwords tốn tóm tắt văn phân loại văn TF: Term Frequency(Tần suất xuất từ) số lần từ xuất văn Vì văn có độ dài ngắn khác nên số từ xuất nhiều lần văn dài văn ngắn Như vậy, term frequency thường chia cho độ dài văn bản( tổng số từ văn bản) Trong đó: tf(t, d): tần suất xuất từ t văn d f(t, d): Số lần xuất từ t văn d max({f(w, d) : w ∈ d}): Số lần xuất từ có số lần xuất nhiều văn d IDF: Inverse Document Frequency(Nghịch đảo tần suất văn bản), giúp đánh giá tầm quan trọng từ Khi tính tốn TF , tất từ coi có độ quan trọng Nhưng số từ “is”, “of” “that” thường xuất nhiều lần độ quan trọng không cao Như cần giảm độ quan trọng từ xuống Trong đó: 33 idf(t, D): giá trị idf từ t tập văn |D|: Tổng số văn tập D |{d ∈ D : t ∈ d}|: thể số văn tập D có chứa từ t Cơ số logarit công thức không thay đổi giá trị idf từ mà thu hẹp khoảng giá trị từ Vì thay đổi số dẫn đến việc giá trị từ thay đổi số định tỷ lệ trọng lượng với khơng thay đổi (nói cách khác, thay đổi số không ảnh hưởng đến tỷ lệ giá trị IDF) Việc sử dụng logarit nhằm giúp giá trị tf-idf từ nhỏ hơn, có cơng thức tính tf-idf từ văn tích tf idf từ Cụ thể, có cơng thức tính TF-IDF hồn chỉnh sau: Những từ có giá trị TF-IDF cao từ xuất nhiều văn này, xuất văn khác Việc giúp lọc từ phổ biến giữ lại từ có giá trị cao (từ khố văn đó) 2.3 Phương pháp phân loại độ ưu tiên thư điện tử 2.3.1 Các thành phần thư điện tử Các thành phần thư điện tử thông thường bao gồm người gửi, người nhận, thời gian, tiêu đề, phần nội dung, tệp tin đính kèm Trong cơng việc ngày, ta nhận nhiều email nên đọc lướt qua tiêu đề để nắm nội dung sơ lược định đọc email trước Do đó, tiêu đề thường viết cụ thể ngắn gọn điều quan trọng chứa đựng nội dung Nội dung thư phần người viết người đọc trao đổi với nhau, chứa thông tin mà thư muốn truyền tải Thư điện tử khác với thư thường nên người dùng gửi thêm tập kèm theo phục vụ cho việc truyền tải thông tin cụ thể rõ ràng Thời gian gửi theo định dạng ngày tháng năm, tiêu đề, nội dung dạng văn Người gửi người nhận địa 34 hòm thư người dùng 2.3.2 Lựa chọn đặc trưng để xét độ ưu tiên Thư điện tử phương tiện dựa trao đổi qua lại Mọi người gửi nhận thư theo thời gian Một thư điện tử quan trọng hay dựa vào đặc trưng trao đổi người gửi người nhận không đơn dựa vào nội dung thư Ta dựa vào đặc trưng thư để dự đoán xem người dùng tương tác với thư nhận thời gian tới Đó mục đích phương pháp phân loại độ ưu tiên thư điện tử Có tới hàng trăm đặc trưng thư xét tới Những đặc trưng có nhiều giá trị đáng quan tâm Thư điện tử phương tiện dựa giao dịch, đăc trưng xã hội tối quan trọng việc đánh giá tầm quan trọng thư [3] Nó gửi đến từ Rõ ràng người nhận khối lượng lớn tin nhắn email từ địa định, người dùng có kết nối xã hội mạnh mẽ với người gửi Nếu người dùng có tần suất phản hồi thường xuyên với địa email người gửi chắn kết nối xã hội mạnh mẽ người Vậy đặc trưng đáng xem xét địa người gửi, người nhận, tần suất phản hồi họ Đặc trưng quan trọng mà ta ý thời gian nhận email Tiếp theo xem xét email có luồng email không Những email luồng thường chủ đề, để trả lời lại thư khác Ví dụ Gmail đánh dấu “RE” Ta trích xuất đặc trưng từ nội dung thư kỹ thuật khai thác văn Cụ thể, có thuật ngữ phổ biến chủ đề nội dung email mà người dùng nhận được, email tương lai có chứa thuật ngữ chủ đề nội dung quan trọng thuật ngữ khơng xuất Đây kỹ thuật phổ biến đề cập ngắn gọn phần mô tả hộp thư ưu tiên Google Google Khi xét đến đặc trưng nội dung dựa chủ đề nội dung email, có số thuật ngữ quan trọng chủ đề email so với nội dung Do đó, khơng nên coi tầm quan trọng tương 35 đối thuật ngữ phổ biến hai tính [2] Hình 2.4 Các đặc trưng cần quan tâm [2] 2.3.3 Cách tính trọng số dựa vào đặc trưng Đặc trưng tần suất thư gửi đến: Đếm số lần xuất địa email số email dùng để trainning Với số lần xuất địa email 𝑥𝑖 Trọng số thứ nhất: 𝑤1 = log10 𝑥𝑖 Đặc trưng tần suất thư phản hồi: Lọc email email phản hồi Gọi số lần xuất địa email số email phản hồi 𝑥𝑗 Trọng số thứ hai: 𝑤2 = log10 𝑥𝑗 Đặc trưng tỉ lệ số lượng thư thời gian luồng email: Lọc thread thư, Loại thread khơng có reply, tính tổng thời gian thread Với thread i Gọi tổng thời gian thread t với t tính giây, số lượng thư qua lại luồng thư i n Trọng số thứ ba : 𝑤3 = log10 𝑛 𝑡 36 Sử dụng phương pháp TF-IDF, tính độ quan trọng từ nội dung email tập mẫu Với m số lượng từ nội dung thư, 𝑥𝑗 độ quan trọng từ Đặc trưng độ quan trọng nội dung thư: Trọng số thứ tư : 𝑤4 = log10 ∑𝑖=1 𝑚 𝑥𝑗 Đặc trưng độ quan trọng tiêu đề: Với n số lượng từ tiêu đề thư, 𝑥𝑖 độ quan trọng từ Trọng số thứ năm 𝑤5 = log10 ∑𝑖=1 𝑛 𝑥𝑖 [2] 37 CHƯƠNG - CÀI ĐẶT VÀ THỬ NGHIỆM Chương tiến hành áp dụng phương pháp phân loại giới thiệu chương vào tập liệu mẫu Sau đó, đưa kết thu kết luận 3.1 Thu thập tiền xử lý liệu 3.1.1 Thu thập liệu Trong phần chương 3, liệu sử dụng liệu thu thập mạng internet Sử dụng Goolge takeout để lấy flie Mbox liệu mail tên miền @fpt.edu.vn Hình 3.1 : Lấy liệu Google Takeout 38 Hình 3.2 : Lấy liệu Google Takeout Bộ liệu thực nghiệm gồm 30 user: Tổng số mail Số mail quan trọng 61733 Số mail không quan trọng 20054 41679 3.1.2 Tiền xử lý liệu Với email có tối đa 12 trường liệu Các email lấy từ tên miền @fpt.edu.vn Với email lấy với trường liệu {subject’,’from’, ‘to’,’date’,’body’} lọc bỏ email có loại ngơn ngữ khác để lại thư tiếng Việt Các email lưu tệp định dạng mbox chuyển định dang csv 3.2 Thực nghiệm đánh giá 39 Tập liệu Trích chọn đặc trưng Trích xuất đặc trưng Biểu diễn đặc chọn đặc trưng Lựa trưng Dữ liệu huấn luyện Huấn luyện Sử dụng kỹ thuật học Dữ liệu thử nghiệm Mơ hình học máy Kết Yes/No Hình 3.3 : Mơ hình q trình phân loại thư điện tử Quá trình thực bao gồm giai đoạn: 40 - Giai đoạn huấn luyện : Đầu vào giai đoạn liệu tiền xử lý để đưa vector đặc trưng Trong bước huấn luyện, liệu phân loại theo nhãn phân loại tương ứng, sau sử dụng thuật toán học máy để đưa phân loại tương ứng phục vụ cho giai đoạn phát - Giai đoạn phát hiện: Dữ liệu giai đoạn xử lý tương tự liệu giai đoạn huấn luyện Đầu vào giai đoạn phát liệu tiền xử lý model (bộ phân loại – kết giai đoạn huấn luyện) Áp dụng tính trọng số chương ta có điểm số cụ thể cho e-mail tính hàm log tích đặc trưng Môi trường thử nghiệm: Hệ điều hành window 10, Ngôn ngữ python 41 3.3 Kết chạy thực nghiệm Bảng 3.1: Kết chạy thử nghiệm Model User Random Forest Recall AUC KNN F1 Logistic Regression AUC F1 Recall AUC F1 Recall chiennthe141748 0.912 0.892 0.896 0.835 0.862 0.876 0.795 0.84 0.885 dangnhha140192 0.713 0.666 0.670 0.667 0.625 0.632 0.551 0.431 0.571 datntse04909 0.953 0.915 0.916 0.846 0.878 0.885 0.715 0.812 0.853 ducnmhe130666 0.676 0.617 0.618 0.673 0.637 0.637 0.598 0.551 0.563 ducnmse05559 0.834 0.745 0.745 0.675 0.631 0.631 0.495 0.5 0.515 hiepphse04711 0.838 0.767 0.768 0.683 0.643 0.646 0.67 0.635 0.646 hieudtse04712 0.882 0.841 0.843 0.800 0.794 0.802 0.796 0.782 0.797 linhnptsb02246 0.832 0.795 0.802 0.666 0.689 0.705 0.658 0.568 0.694 phucnhse04534 0.849 0.772 0.772 0.722 0.664 0.664 0.65 0.609 0.613 quangnvse05839 0.884 0.795 0.795 0.762 0.702 0.703 0.692 0.644 0.645 quynhthse04640 0.869 0.777 0.776 0.758 0.691 0.692 0.708 0.657 0.659 sanglqse04676 0.949 0.894 0.895 0.862 0.841 0.846 0.778 0.782 0.807 toannbsb02527 0.843 0.775 0.776 0.720 0.673 0.675 0.645 0.606 0.638 tuanntse04733 0.925 0.877 0.879 0.809 0.806 0.815 0.695 0.702 0.767 tuanthsb01889 0.808 0.762 0.769 0.684 0.677 0.689 0.631 0.585 0.682 tungptse04569 0.901 0.819 0.819 0.788 0.718 0.719 0.564 0.431 0.528 tungtmse05324 0.847 0.803 0.809 0.724 0.736 0.754 0.714 0.666 0.753 42 Bảng 3.2 Độ hiệu trung bình thuật tốn Model Random Forest AUC 0.854 F1 0.795 KNN Recall 0.797 AUC 0.746 F1 0.722 Logistic Regression Recall 0.728 AUC 0.668 F1 0.635 Recall 0.683 Accuracy: tính tỉ lệ số điểm dự đoán tổng số điểm tập liệu kiểm thử Recall: tỷ lệ số điểm true positive tổng số điểm thực positive (TP+FN) Giá trị recall cao đồng nghĩa với việc TPR (true positive Rate) cao, tức tỷ lệ bỏ sót điểm thực positive thấp.F1-score: harmonic mean precision recall F1 cao, phân loại tốt 3.3 Kết luận chương Từ kết ta thấy với thuật toán Random Forest số tốt với số : AUC : 0.854,F1 : 0.795,Recall : 0.797 Cho kết phân loại tốt ba thuật toán 43 KẾT LUẬN VÀ KIỀN NGHỊ Kết đạt - Trình bày phổ biến vai trò thư điện tử sống đại - Trình bày kết nghiên cứu thư điện tử: định nghĩa, lịch sử phát triển thư điện tử, thành phần cấu trúc hệ thống thư điện tử - Các giải pháp hệ thống thư điện tử mã nguồn mở Chi tiết cài đặt kiến trúc hệ thống, thành phần mã nguồn mở Zimba - Trình bày phương pháp hỗ trợ đánh giá giá mức độ ưu tiên thư điện tử - Trình bày sở lý thuyết, phương pháp đánh giá mức độ ưu tiên thư điện tử - Tiến hành thực nghiệm, đánh giá kết Quá trình thực nghiệm học viên xử lý liệu email thu thâp internet Sử dụng thuật tốn, phương pháp trình bày chương để tính tốn trọng số từ đặc trưng thư, đưa vào thuật toán học máy để thực phân lớp Thuật toán hiệu thực nghiệm thuật toán Random Forest Hướng phát triển luận văn Một số hướng phát triển luận văn: - Nghiên cứu công nghệ ứng dụng phân loại đánh giá mức độ ưu tiên thư điện tử - Nghiên cứu tiến phương pháp đánh giá mức độ ưu tiên thư điện tử tiếng Việt 44 DANH MỤC CÁC TÀI LIỆU THAM KHẢO Tiếng Anh : [1] Biau, G (2013) Analysis of a Random Forests Model Journal of Machine Learning Research, 1063-1095 [2] Drew-Conway-John-Myles-White-Machine-Learning-for-Email_-SpamFiltering-and-Priority-Inbox-2011-OReilly-Media [3] Douglas Aberdeen, Ondrej Pacovsky, Andrew Slater Google Inc Zurich, Switzerland [4] https://www.radicati.com/wp/wp-content/uploads/2015/02/Email-StatisticsReport-2015-2019-Executive-Summary.pdf [5] Jorma Laaksonen, Erkki Oja (1996) Classification with learning k-Nearest Neighbors [6] Mitchell, T (1997) Machine Learning [7] Milestracy, Wayne Jansen, Scott Bisker, Guidelines on Electronic Mail Securrity U.S Government Printing Office Washington, 2002 Trang thông tin Zimbra www.zimbra.com [8] [9] Thirumuruganathan, S (2010) A Detailed Introduction to K-Nearest Neighbor (KNN) Algorithm Retrieved from https://saravananthirumuruganathan.wordpress.com/2010/05/17/adetailed- introduction-to-k-nearest-neighbor-knn-algorithm/ Tiếng Việt : [10] https://vi.wikipedia.org/wiki/H%E1%BB%8Dc_m%C3%A1y#%C4%90%E1 %BB%8Bnh_ngh%C4%A9a Đã truy cập 10 09, 2019 [11] https://machinelearningcoban.com/2017/01/27/logisticregression/#mo-hinhlogistic-regression [12] https://machinelearningcoban.com/2016/12/27/categories/ ... loại mức độ ưu tiên cho thư điện tử cần thiết Chương luận văn xin trình bày phương pháp đánh giá độ ưu tiên cho thư điện tử 18 CHƯƠNG – ĐÁNH GIÁ MỨC ĐỘ ƯU TIÊN CỦA THƯ ĐIỆN TỬ Chương trình bày phương. .. thống thư điện tử Chương : Đánh giá mức độ ưu tiên thư điện tử Luận văn trình bày số cơng nghệ hỗ trơ phân loại mức độ ưu tiên thư điện tử: Phương pháp phân loại thư rác….Sau phương pháp nhằm đánh. .. trình bày phương pháp nhằm đánh giá, phân loại mức độ ưu tiên cho thư điện tử Trước đánh giá mức độ ưu tiên thư, bước loại bỏ thư rác Sau luận văn trình bày số phương pháp lọc thư rác để hỗ trợ

Ngày đăng: 03/03/2020, 14:43

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Biau, G. (2013). Analysis of a Random Forests Model. Journal of Machine Learning Research, 1063-1095 Sách, tạp chí
Tiêu đề: Journal of Machine Learning Research
Tác giả: Biau, G
Năm: 2013
[2] Drew-Conway-John-Myles-White-Machine-Learning-for-Email_-Spam-Filtering-and-Priority-Inbox-2011-OReilly-Media Khác
[3] Douglas Aberdeen, Ondrej Pacovsky, Andrew Slater Google Inc. Zurich, Switzerland Khác
[5] Jorma Laaksonen, Erkki Oja. (1996). Classification with learning k-Nearest Neighbors Khác
[7] Milestracy, Wayne Jansen, Scott Bisker, Guidelines on Electronic Mail Securrity U.S Government Printing Office Washington, 2002 Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w