Bố cục của Luận văn gồm có 3 chương: Chương 1 - Tổng quan về hệ thống thư điện tử; Chương 2 - Đánh giá mức độ ưu tiên của thư điện tử; Chương 3 - Cài đặt và thử nghiệm. Để hiểu rõ hơn mời các bạn cùng tham khảo nội dung chi tiết của Luận văn này.
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN VĂN CẢNH NGHIÊN CỨU PHƯƠNG PHÁP ĐÁNH GIÁ MỨC ĐỘ ƯU TIÊN CỦA THƯ ĐIỆN TỬ Chuyên ngành: Hệ thống thơng tin Mã số: 8.48.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - NĂM 2019 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: TS ĐỖ XUÂN CHỢ Phản biện 1: TS PHÙNG XUÂN ỔN Phản biện 2: TS HOÀNG XUÂN DẬU Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: 40 ngày 11 tháng năm 2020 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Lý chọn đề tài Thư điện tử ứng dụng sử dụng rộng rãi toàn cầu Thư điện tử giúp rút ngắn thời gian, khoảng cách việc gửi nhận thư, tiết kiệm chi phí cho q trình gửi thư Do hàng ngày người dùng nhận nhiều thư điện tử khác nên khó khăn việc xác định nhận dạng thư điện tử quan trọng cần đọc trả lời sớm Công cụ hỗ trợ phân loại mức độ ưu tiên cho thư điện tử cần thiết Từ lý trên, học viên với giúp đỡ TS Đỗ Xuân Chợ lựa chọn đề tài: “Nghiên cứu phương pháp đánh giá mức độ ưu tiên thư điện tử” Luận văn bao gồm chương: Chương 1: Tổng quan hệ thống thư điện tử Chương trình bày tổng quan hệ thống thư điện tử, số công cụ mã nguồn mở để xây dựng hệ thống thư điện tử Chương 2: Đánh giá mức độ ưu tiên thư điện tử Luận văn trình bày số cơng nghệ lọc thư rác hỗ trợ phân loại mức độ ưu tiên thư điện tử.Tiếp phương pháp nhằm đánh giá, phân loại mức độ ưu tiên cho thư điện tử Chương 3: Cài đặt thử nghiệm Tiến hành thử nghiệm phương pháp đánh giá độ ưu tiên thư điện tử chương hai 2 CHƯƠNG - TỔNG QUAN VỀ THƯ ĐIỆN TỬ Nội dung chương đề cập đến khái niệm hệ thống thư điện tử bao gồm: định nghĩa, thành phần, chức năng, kiến trúc, vai trò tầm quan trọng cần thiết việc phân loại độ ưu tiên thư điện tử 1.1 Khái niệm thư điện tử Thư điện tử gọi tắt E-Mail, dịch vụ triển khai mạng máy tính cho phép người dùng trao đổi thư từ với Nó thơng điệp gửi từ máy tính đến máy tính khác mạng máy tính mang nội dung cần thiết từ người gửi đến người nhận Thư điện tử truyền gửi nội dung chữ nội dung đa phương tiện hình ảnh, âm thanh, video… 1.2 Lịch sử phát triển Năm 1971 Ray Tomlinson thực gửi thành cơng thơng báo thư tín điện tử mạng RPANET Tomlinson sửa đổi hệ thống xử lý thông báo để người sử dụng gửi thơng báo cho đối tượng nhận không hệ thống mà hệ thống ARPANET khác Sau nhiều cơng trình nghiên cứu khác tiến hành thư tín điện tử nhanh chóng trở thành ứng dụng sử dụng nhiều ARPANET trước Internet ngày 1.3 Thành phần cấu trúc hệ thống thư điện tử Hệ thống Mail Server hệ thống tổng thể bao gồm nhiều thành phần hoạt động tương tác với Hầu hết hệ thống thư điện tử bao gồm ba thành phần MUA, MTA MDA 1.3.1 MTA(Mail Transfer Agent) Khi thư gửi đến từ MUA, MTA có nhiệm vụ nhận diện người gửi người nhận từ thông tin đóng gói phần header thư điền thơng tin cần thiết vào header Sau MTA chuyển thư cho MDA để chuyển đến hộp thư MTA, chuyển cho Remote-MTA 1.3.2 MDA (Mail Delivery Agent) Là chương trình MTA sử dụng để đẩy thư vào hộp thư người dùng Ngoài MDA cịn có khả lọc thư, định hướng thư Thường MTA tích hợp với MDA vài MDA 1.3.3 MUA (Mail User Agent) MUA chương trình quản lý thư đầu cuối cho phép người dùng đọc, viết lấy thư từ MTA Đằng sau cơng việc vận chuyển chức MUA cung cấp giao diện cho người dùng tương tác với thư, gồm có: - Soạn thảo, gửi thư - Hiển thị thư, gồm tệp đính kèm - Gửi trả hay chuyển tiếp thư - Gắn tệp vào thư gửi (Text, HTML, MIME v.v…) - Thay đổi tham số(ví dụ server sử dụng, kiểu hiển thị thư, kiểu mã hoá thư v.v…) - Thao tác thư mục thư địa phương đầu xa - Cung cấp số địa thư (danh bạ địa chỉ) - Lọc thư 1.4 Các giải pháp thư điện tử mã nguồn mở Hiện giới xuất nhiều sản phẩm xây dựng hệ thống Mail Server Trong giới mã nguồn mở nay, có nhiều hệ thống truyền tải thư điện tử MTA (Mail Transfer Agent) phát triển Nổi tiếng phổ biến số gồm có: Zimbra, Sendmail, Qmail, Postfix, Exim, Courier Mỗi MTA có ưu điểm nhược điểm riêng.[9] 1.4.1 Zimbra Zimbra, hệ thống thư điện tử hệ mới, xây dựng cộng đồng phầm mềm tự nguồn mở công ty VMWare, đáp ứng nhu cầu trao đổi thư tín điện tử hỗ trợ làm việc Hệ thống thư điện tử Zimbra cơng nghệ mã nguồn mở cho phép người dùng tiết kiệm tối đa chi phí mà đảm bảo nguyên tắc tôn trọng quyền 1.4.2 Sendmail Sendmail (http://www.sendmail.org) MTA đơn giản lâu đời dòng Unix thời xưa Ngày nay, Sendmail đa thương mại hóa bên cạnh sản phẩn miễn phí tiếp tục trì, phát triển Tuy nhiên, thiết kế theo cấu trúc khối ảnh hưởng từ cấu trúc cũ, nên Sendmail chưa đạt tính ổn định bảo mật MTA mong muốn 1.4.3 Qmail Qmail viết Bernstein, MTA dành cho hệ điều hành tựa Unix, bao gồm Linux, FreeBSD, Sun Solaris Qmail đời tất yếu thay cho Sendmail yếu điểm Do Qmail thiết kế module hóa tối ưu hóa tính từ đầu, nên có tốc độ thực thi nhanh ổn định 1.4.4 Postfix Weitse Venema, tác giả phần mềm miễn phí tiếng TCP Wrappers, SATAN Logdaemon, ơng khơng hài lịng sử dụng MTA có (bao gồm Qmail), vậy, ơng viết Postfix (http://www.postfix.org) Postfix MTA mới, có khả thực thi cao, thừa kế cấu trúc thiết kế tốt từ Qmail, giữ tính tương thích tối đa với Sendmail.[14] 1.4.5 Exim Philip Hazel đa phát triển Exim (http://www.exim.org) trường đại học Cambridge Nó thiết kế theo xu hướng nhỏ đơn giản đảm bảo tính Tuy nhiên, Exim thiết kế theo cấu trúc khối, hai yếu tố quan trọng bảo mật khả thực thi lại không coi trọng [14] 1.5 Kiến trúc hệ thống thư điện tử mã nguồn mở Zimbra Kiến trúc hệ thống thư điện tử nguồn mở Zimbra bao gồm lõi sau [6]: Các mã nguồn mở tích hợp Zimbra: Linux®, Apache Tomcat, Postfix, MySQL®, OpenLDAP® - Giao thức chuẩn sử dụng là: SMTP, LMTP, SOAP, XML, IMAP, POP - Công nghệ sử dụng để thiết kế là: Java, JavaScript thin client, DHTML - Trình duyệt dựa giao diện giao diện khách hàng, giao diện cho phép người dùng dễ dàng truy cập vào tất chức Zimbra Collaboration Suite (ZCS) 1.6 Triển khai Zimbra MTA - 1.6.1 Tiếp nhận gửi thư thông qua Zimbra MTA 1.7 Những tiện ích vai trị thư điện tử sống ngày Thư điện tử ứng dụng sử dụng rộng rãi toàn cầu Thư điện tử giúp rút ngắn thời gian, khoảng cách việc gửi nhận thư, tiết kiệm chi phí cho q trình gửi thư 6 Việc viết thư điện tử nhanh chóng tiện lợi, truyền tải đầy đủ thông điệp mà người dùng muốn gửi bao gồm hình ảnh, âm thanh, nội dung văn … với dung lượng lớn theo dạng nhập trực tiếp vào khung soạn thảo đính kèm Có 3,9 tỷ người dùng email toàn giới Năm nay, số lượng người dùng email đạt mốc 3,9 tỷ, điều có nghĩa 50% dân số giới sử dụng email Năm 2020, số lượng người dùng email tăng lên tỷ Theo số liệu thống kê tiếp thị qua email gần đây, tốc độ tăng trưởng người dùng dự đoán bốn năm tới 3%, tức khoảng 100 triệu người dùng năm Vì vậy, vào năm 2023, số lượng người dùng email toàn giới xấp xỉ 4,3 tỷ, có khoảng 5,59 tỷ tài khoản email hoạt động 1.8 Kết luận chương Qua thống kê trên, hàng ngày người dùng thường nhận nhiều thư điện tử khác nên khó khăn việc xác định nhận dạng thư điện tử quan trọng cần đọc trả lời sớm, thư để theo dõi Vì ta phải dùng đến khái niệm “Mức độ ưu tiên” với thư điện tử Theo định nghĩa tiếng Anh “Mức độ ưu tiên” “Priority” sử dụng để so sánh hai vật hai điều kiện, mà vật/điều kiện phải quan tâm nhiều vật/điều kiện khác phải giải trước chuyển sang (những) vật/điều kiện Công cụ hỗ trợ nhận dạng phân loại mức độ ưu tiên cho thư điện tử cần thiết Chương luận văn xin trình bày phương pháp đánh giá độ ưu tiên cho thư điện tử 7 CHƯƠNG – ĐÁNH GIÁ MỨC ĐỘ ƯU TIÊN CỦA THƯ ĐIỆN TỬ Chương trình bày phương pháp nhằm đánh giá, phân loại mức độ ưu tiên cho thư điện tử 2.1 Một số công nghệ phân loại thư rác hỗ trợ phân loại mức độ ưu tiên thư điện tử 2.1.1 Định nghĩa thư rác Hiện chưa có định nghĩa hồn chỉnh, chặt chẽ thư rác Có quan điểm coi thư rác thư quảng cáo khơng u cầu (Unsolicited Commercial Email-UCE), có quan điểm rộng cho thư rác bao gồm thư quảng cáo, thư quấy rối, thư có nội dung không lành mạnh (Unsolicited Bulk Emai -UBE) Nội dung thông dụng định nghĩa thư rác: Thư rác (spam mail) thư điện tử không yêu cầu, không mong muốn gửi hàng loạt tới người nhận 2.1.2 Các phương pháp loc thư rác 2.1.2.1 Phương pháp dùng danh sách trắng đen 2.1.2.2 Phương pháp lọc theo từ khóa 2.1.2.3 Phương pháp lọc dựa mạng xã hội 2.1.2.4 Phương pháp lọc thư rác dùng chuỗi hỏi đáp 2.1.2.5 Lọc thư rác dựa xác suất thống kê học máy Đầu tiên phân loại thư thành thư rác thư hợp lệ Một thuật tốn áp dụng để trích chọn đánh trọng số cho đặc trưng thư rác theo cách (thường áp dụng cơng thức xác suất) Sau trích chọn đặc trưng, hai tập thư rác thư hợp lệ sử dụng để huấn luyện phân loại tự động Quá trình huấn luyện dựa phương pháp học máy 8 2.1.2.6 Phương pháp lọc SpamAssassin 2.2 Tổng quan học máy 2.2.1 Khái niệm Sự phát triển nhanh chóng kỹ thuật khai phá liệu đưa Học máy thành lĩnh vực riêng biệt Khoa học máy tính Học máy lĩnh vực Trí tuệ nhân tạo liên quan đến việc nghiên cứu xây dựng kĩ thuật cho phép hệ thống "học" tự động từ liệu để giải vấn đề cụ thể [11] Quy trình chung tiến trình học máy gồm bước sau: - Nhập liệu - Xử lý liệu Tại bước này, chuyển đổi, làm chuẩn hóa để phù hợp với thuật tốn Sau đó, liệu chia thành hai tập – ‘tập huấn luyện’ ‘tập thử nghiệm’ - Huấn luyện mơ hình - Thử nghiệm mơ hình - Triển khai mơ hình 2.2.2 Trích chọn đặc trưng Trong ví dụ đưa trên, cần phải trích xuất thuộc tính từ liệu đầu vào để đưa vào thuật tốn Ví dụ, với trường hợp tính giá nhà, liệu biểu diễn dạng ma trận đa chiều, với cột thuộc tính dịng giá trị thuộc tính Trong trường hợp hình ảnh, liệu biểu diễn dạng giá trị RGB pixel Các thuộc tính gọi đặc trưng, ma trận vector đặc trưng Quá trình trích xuất liệu từ tệp tin gọi trích xuất đặc trưng Mục đích q trình thu tập liệu chi tiết không dư thừa 2.2.3 Phân loại học máy 2.2.3.1 Học có giám sát học khơng giám sát Đối với học có giám sát, việc học dựa liệu dán nhãn Trong trường hợp này, dự đoán đầu (outcome) liệu (new input) dựa cặp (input, outcome) biết từ trước Học có giám sát chia nhỏ thành hai loại chính: - Phân lớp (Classification) Dựa vào tập liệu dán nhãn, với nhãn định nghĩa lớp, dự đoán xem liệu chưa biết thuộc vào lớp Số lớp thường nhỏ hữu hạn Hồi quy (Regression) Nhãn khơng chia thành nhóm mà giá trị thực cụ thể Ví dụ dự đốn mức giá nhà thuộc loại Ngược lại với học có giám sát, học khơng giám sát, liệu không dán nhãn Ở đây, mục tiêu tìm số mẫu tập liệu chưa phân loại, thay dự đốn số giá trị Một tốn quen thuộc học khơng giám sát phân cụm (clustering) Phân cụm việc tìm kiếm điểm chung liệu tập liệu chia chúng thành cụm tương ứng dựa vào điểm chung Ví dụ: phân nhóm khách hàng dựa hành vi mua hàng 2.2.3.2 Một số kỹ thuật học máy K-Nearest Neighbors K-Nearest Neighbors (KNN) thuật toán đơn giản (mà hiệu vài trường hợp) số thuật toán học máy KNN thuật toán phi tham số, tức khơng đưa dự đoán cấu trúc liệu Khi huấn luyện, thuật tốn khơng học - 10 điều từ liệu huấn luyện (đây lý thuật toán xếp vào loại lazy learning) KNN áp dụng vào hai loại tốn học có giám sát Phân lớp Hồi quy Trong hai toán, kết dự đoán điểm liệu suy trực tiếp từ k điểm liệu gần tập liệu huấn luyện Đối với toán phân lớp, kết đầu lớp mà liệu thuộc về, dựa việc bình chọn (majority vote) k điểm gần Có nhiều phương pháp đo khoảng cách điểm để tìm điểm gần Các phương pháp phổ biến bao gồm khoảng cách Hamming, khoảng cách Manhattan, khoảng cách Minkowski: Khoảng cách Hamming: (2.1) ∑ Khoảng cách Manhattan: ( ) ∑ Khoảng cách Minkowski = (∑ (2.3) (2.2) ) Phương pháp phổ biến biến liên tục khoảng cách Euclidean, định nghĩa công thức (2.4) đây: dEuclidean = √∑ ( ) ; p q điểm không gian n (2.4) Thuật tốn Random Forest Random Forest dựa tính ngẫu nhiên (random) tạo nên từ nhiều định (forest – “rừng”) Thuật tốn mơ tả sau : 11 Các xây dựng dựa 2/3 liệu tập liệu huấn luyện (62.3%) Dữ liệu lựa chọn ngẫu nhiên - Một số biến dự đoán chọn ngẫu nhiên từ tổng số biến dự đốn Sau đó, cách phân chia tốt biến lựa chọn dùng để phân chia nút Theo mặc định, số lượng biến chọn bậc hai tổng số thuộc tính dùng để dự đốn khơng đổi - Tỉ lệ dự đoán sai tính tốn dựa vào phần liệu cịn lại (dữ liệu out-of- bag) - Mỗi huấn luyện đưa kết phân loại, gọi “bỏ phiếu” Lớp nhận nhiều “phiếu” chọn kết cuối [1] Thuật toán Logistic Regression - Phương pháp hồi quy logistic mơ hình hồi quy nhằm dự đốn giá trị đầu rời rạc (discrete target variable) y ứng với véc-tơ đầu vào x Việc tương đương với chuyện phân loại đầu vào x vào nhóm y tương ứng Ví dụ, xem ảnh có chứa mèo hay khơng Thì ta coi đầu y = bước ảnh có mèo y = ảnh mèo Đầu vào x pixel ảnh đầu vào Sử dụng phương pháp thống kê ta coi khả đầu vào x nằm nhóm xác xuất nhóm biết x: p( |x) Ta có hàm sigmoid (logistic sigmoid function).[8] p( |x)= = ( ) (2.6) ( ) Vận dụng thuyết phân phối chuẩn, ta rằng: a= x+ Đặt =[1,… ,1] ta viết gọn : a= x 12 Thay p( |x)= vào ( công = ( ) thức (2.6) bên ta có : x) Trong x thuộc tính đầu vào w trọng số tương ứng Ta phải tối ưu hàm mát Theo phương pháp Gradient Descent ta cập nhật tham số sau vòng lặp [12]: 2.2.4 Thuật toán khai phá liệu văn Thuật toán TF-IDF TF-IDF (Term Frequency – Inverse Document Frequency) kĩ thuật sử dụng khai phá liệu văn Trọng số sử dụng để đánh giá tầm quan trọng từ văn TF: Term Frequency(Tần suất xuất từ) số lần từ xuất văn Vì văn có độ dài ngắn khác nên số từ xuất nhiều lần văn dài văn ngắn Như vậy, term frequency thường chia cho độ dài văn bản( tổng số từ văn bản) Trong đó: tf(t, d): tần suất xuất từ t văn d f(t, d): Số lần xuất từ t văn d 13 max({f(w, d) : w ∈ d}): Số lần xuất từ có số lần xuất nhiều văn d IDF: Inverse Document Frequency(Nghịch đảo tần suất văn bản), giúp đánh giá tầm quan trọng từ Khi tính tốn TF , tất từ coi có độ quan trọng Nhưng số từ “is”, “of” “that” thường xuất nhiều lần độ quan trọng không cao Như cần giảm độ quan trọng từ xuống Trong đó: idf(t, D): giá trị idf từ t tập văn |D|: Tổng số văn tập D |{d ∈ D : t ∈ d}|: thể số văn tập D có chứa từ t Việc sử dụng logarit nhằm giúp giá trị tf-idf từ nhỏ hơn, có cơng thức tính tf-idf từ văn tích tf idf từ Cụ thể, có cơng thức tính TF-IDF hồn chỉnh sau: 2.3 Phương pháp phân loại độ ưu tiên thư điện tử 2.3.1 Các thành phần thư điện tử Các thành phần thư điện tử thông thường bao gồm người gửi, người nhận, thời gian, tiêu đề, phần nội dung, tệp tin đính kèm 2.3.2 Lựa chọn đặc trưng để xét độ ưu tiên Thư điện tử phương tiện dựa trao đổi qua lại Mọi người gửi nhận thư theo thời gian Thư điện tử phương tiện dựa giao dịch, đăc trưng xã hội tối 14 quan trọng việc đánh giá tầm quan trọng thư [3] Đặc trưng đáng xem xét địa người gửi, người nhận, tần suất phản hồi họ Đặc trưng quan trọng mà ta ý thời gian nhận email Tiếp theo xem xét email có luồng email khơng Những email luồng thường chủ đề, để trả lời lại thư khác Ví dụ Gmail đánh dấu “RE” Ta trích xuất đặc trưng từ nội dung thư kỹ thuật khai thác văn Cụ thể, có thuật ngữ phổ biến chủ đề nội dung email mà người dùng nhận được, email tương lai có chứa thuật ngữ chủ đề nội dung quan trọng thuật ngữ khơng xuất [2] 2.3.3 Cách tính trọng số dựa vào đặc trưng Đặc trưng tần suất thư gửi đến: Đếm số lần xuất địa email số email dùng để trainning Với số lần xuất địa email Trọng số thứ nhất: Đặc trưng tần suất thư phản hồi: Lọc email email phản hồi Gọi số lần xuất địa email số email phản hồi Trọng số thứ hai: Đặc trưng tỉ lệ số lượng thư thời gian luồng email: Lọc thread thư, Loại thread khơng có reply, tính tổng thời gian thread Với thread i Gọi tổng thời gian thread t với t tính giây, số lượng thư qua lại luồng thư i n Trọng số thứ ba : Sử dụng phương pháp TF-IDF, tính độ quan trọng từ nội dung email tập mẫu Với m số lượng từ nội dung thư, độ quan trọng từ Đặc trưng độ quan trọng nội dung thư: Trọng số thứ tư ∑ : 15 Đặc trưng độ quan trọng tiêu đề: Với n số lượng từ tiêu đề thư, độ quan trọng từ Trọng số ∑ thứ năm = [2] 2.3 Kết luận chương Chương đưa số phương pháp lọc thư rác để hỗ trợ cho việc phân loại độ ưu tiên thư điện tử dùng danh sách trắng, đen; lọc theo từ khóa, lọc dựa vào mạng xã hội, lọc dùng chuỗi hỏi đáp, lọc dựa học máy, phương pháp dùng lọc SpamAssassin Bên cạnh nhìn tổng quan khái niệm học máy giới thiệu số thuật toán sử dụng luận văn, bao gồm KNN, Logistic Regression, Random Forest Phương pháp phân loại độ ưu tiên thư điện tử giới thiệu cuối chương Dữ liệu đầu vào xử lý thư điện tử tiếng Việt gồm trường thông tin: người gửi, thời gian, tiêu đề, nội dung Chương đưa cách lựa chọn đặc trưng Các đặc trưng xét đến đặc trưng xã hội: người gửi, đặc trưng thời gian: thời gian nhận thư, đặc trưng nội dung : tiêu đề thư, nội dung thư Từ cách đặc trưng lựa chọn, chương trình bày cách tính năm trọng số để đưa vào mơ hình học máy Kết mong muốn đạt có thư ta phân vào hai nhóm: Quan trọng Khơng quan trọng Chương luận văn trình bày thực nghiệm kết đạt 16 CHƯƠNG - CÀI ĐẶT VÀ THỬ NGHIỆM Chương tiến hành áp dụng phương pháp phân loại giới thiệu chương vào tập liệu mẫu Sau đó, đưa kết thu kết luận 3.1 Thu thập tiền xử lý liệu 3.1.1 Thu thập liệu Trong phần chương 3, liệu sử dụng liệu thu thập mạng internet Sử dụng Goolge takeout để lấy flie Mbox liệu mail tên miền @fpt.edu.vn Bộ liệu thực nghiệm gồm 30 user: Tổng số mail Số mail quan trọng 61733 20054 Số mail không quan trọng 41679 3.1.2 Tiền xử lý liệu Với email có tối đa 12 trường liệu Các email lấy từ tên miền @fpt.edu.vn Với email lấy với trường liệu {subject’,’from’,’date’,’body’} lọc bỏ email có loại ngơn ngữ khác để lại thư tiếng Việt Các email lưu tệp định dạng mbox chuyển định dang csv 3.2 Thực nghiệm đánh giá 17 Tập liệu mẫu Trích chọn đặc trưng Biểu diễn đặc trưng Ma trận tần suất Lựa chọn đặc trưng Dữ liệu huấn luyện Huấn luyện Dữ liệu thử nghiệm Mơ hình học máy Sử dụng kỹ thuật Kết Yes/No Hình 3.3 : Mơ hình trình phân loại thư điện tử Quá trình thực bao gồm giai đoạn: - Giai đoạn huấn luyện : Đầu vào giai đoạn liệu tiền xử lý để đưa vector đặc trưng Trong bước huấn luyện, liệu phân loại theo nhãn phân loại tương ứng, sau sử dụng thuật tốn học máy để đưa phân loại tương ứng phục vụ cho giai đoạn phát - Giai đoạn phát hiện: Dữ liệu giai đoạn xử lý tương tự liệu giai đoạn huấn luyện Đầu vào giai đoạn phát liệu tiền xử lý model (bộ phân loại – kết giai đoạn huấn luyện) 18 Áp dụng tính trọng số chương ta có điểm số cụ thể cho e-mail tính hàm log tích đặc trưng Mơi trường thử nghiệm: Hệ điều hành window 10, Ngôn ngữ python 3.3 Kết chạy thực nghiệm Bảng 3.1: Kết chạy thử nghiệm Model User Random Forest AUC F1 Recall AUC KNN F1 Logistic Regression Recal l AUC F1 Recall 0.84 0.885 dangnhha14019 0.713 0.666 0.670 0.667 0.625 0.632 0.551 0.431 0.571 chiennthe14174 0.912 0.892 0.896 0.835 0.862 0.876 0.795 datntse04909 0.953 0.915 0.916 0.846 0.878 0.885 0.715 0.812 0.853 ducnmhe13066 0.676 0.617 0.618 0.673 0.637 0.637 0.598 0.551 0.563 ducnmse05559 0.834 0.745 0.745 0.675 0.631 0.631 0.495 0.5 0.515 hiepphse04711 0.838 0.767 0.768 0.683 0.643 0.646 0.67 0.635 0.646 hieudtse04712 0.882 0.841 0.843 0.800 0.794 0.802 0.796 0.782 0.797 linhnptsb02246 0.832 0.795 0.802 0.666 0.689 0.705 0.658 0.568 0.694 phucnhse04534 0.849 0.772 0.772 0.722 0.664 0.664 0.65 0.609 0.613 quangnvse0583 0.884 0.795 0.795 0.762 0.702 0.703 0.692 0.644 0.645 quynhthse0464 0.869 0.777 0.776 0.758 0.691 0.692 0.708 0.657 0.659 sanglqse04676 0.949 0.894 0.895 0.862 0.841 0.846 0.778 0.782 0.807 toannbsb02527 0.843 0.775 0.776 0.720 0.673 0.675 0.645 0.606 0.638 tuanntse04733 0.925 0.877 0.879 0.809 0.806 0.815 0.695 0.702 0.767 tuanthsb01889 0.808 0.762 0.769 0.684 0.677 0.689 0.631 0.585 0.682 tungptse04569 0.901 0.819 0.819 0.788 0.718 0.719 0.564 0.431 0.528 tungtmse05324 0.847 0.803 0.809 0.724 0.736 0.754 0.714 0.666 0.753 19 Bảng 3.2 Độ hiệu trung bình thuật toán Model Random Forest AUC 0.854 F1 0.795 KNN Recall AUC 0.797 0.746 F1 0.722 Logistic Regression Recall AUC 0.728 0.668 F1 0.635 Recall 0.683 Accuracy: tính tỉ lệ số điểm dự đoán tổng số điểm tập liệu kiểm thử Recall: tỷ lệ số điểm true positive tổng số điểm thực positive (TP+FN) Giá trị recall cao đồng nghĩa với việc TPR (true positive Rate) cao, tức tỷ lệ bỏ sót điểm thực positive thấp.F1-score: harmonic mean precision recall F1 cao, phân loại tốt Từ kết ta thấy với thuật toán Random Forest số tốt với số : AUC : 0.854,F1 : 0.795,Recall : 0.797 Cho kết phân loại tốt ba thuật toán 3.3 Kết luận chương Chương trình bày trình thử nghiệm mơi trường windown 10, ngơn ngữ lập trình python Các liệu thu thập công cụ google takeout Các liệu thư điện tử có tối đa tới 12 trường liệu, bao gồm thư có loại ngơn ngữ khác định dạng Mbox Dữ liệu tiền xử lý lại thư Tiếng Việt bao gồm trường thông tin dạng file csv Chương nêu mơ hình thực phân loại độ ưu tiên thư điện tử, kết thực nghiệm trình phân loại Dựa vào kết thực nghiệm ta thấy với thuật toán Random Forest số tốt với số : AUC : 0.854,F1 : 0.795,Recall : 0.797 Cho kết phân loại tốt ba thuật toán 20 KẾT LUẬN VÀ KIỀN NGHỊ Kết đạt - Trình bày phổ biến vai trò thư điện tử sống đại - Trình bày kết nghiên cứu thư điện tử: định nghĩa, lịch sử phát triển thư điện tử, thành phần cấu trúc hệ thống thư điện tử - Các giải pháp hệ thống thư điện tử mã nguồn mở Chi tiết cài đặt kiến trúc hệ thống, thành phần mã nguồn mở Zimba - Trình bày phương pháp hỗ trợ đánh giá giá mức độ ưu tiên thư điện tử - Trình bày sở lý thuyết, phương pháp đánh giá mức độ ưu tiên thư điện tử - Tiến hành thực nghiệm, đánh giá kết Quá trình thực nghiệm học viên xử lý liệu email thu thâp internet Sử dụng thuật toán, phương pháp trình bày chương để tính tốn trọng số từ đặc trưng thư, đưa vào thuật toán học máy để thực phân lớp Thuật toán hiệu thực nghiệm thuật toán Random Forest Hướng phát triển luận văn Một số hướng phát triển luận văn: - Nghiên cứu công nghệ ứng dụng phân loại đánh giá mức độ ưu tiên thư điện tử - Nghiên cứu tiến phương pháp đánh giá mức độ ưu tiên thư điện tử tiếng Việt ... loại mức độ ưu tiên cho thư điện tử cần thiết Chương luận văn xin trình bày phương pháp đánh giá độ ưu tiên cho thư điện tử 7 CHƯƠNG – ĐÁNH GIÁ MỨC ĐỘ ƯU TIÊN CỦA THƯ ĐIỆN TỬ Chương trình bày phương. .. thống thư điện tử Chương 2: Đánh giá mức độ ưu tiên thư điện tử Luận văn trình bày số công nghệ lọc thư rác hỗ trợ phân loại mức độ ưu tiên thư điện tử. Tiếp phương pháp nhằm đánh giá, phân loại mức. .. số hướng phát triển luận văn: - Nghiên cứu công nghệ ứng dụng phân loại đánh giá mức độ ưu tiên thư điện tử - Nghiên cứu tiến phương pháp đánh giá mức độ ưu tiên thư điện tử tiếng Việt