Có thể xem bài toán phân loại email tự động vào thư mục như là trường hợp đặc biệt của phân loại văn bản nói chung. Đó là quá trình gán email vào một trong các thư mục đã xác định trước. Tuy nhiên do đặc điểm của email nên bài toán này có nhiều phức tạp và khác biệt với bài toán phân loại văn bản theo chủ đề. Nội dung email thường rất ngắn, nhiều ký tự, ký hiệu viết tắt. Trong một email có thể có nhiều chủ đề được thảo luận. Đặc biệt nội dung và cách sắp xếp email theo thư mục phụ thuộc vào ý thích của người dùng và thường rất khác nhau giữa người này với người kia. Do đó, các hướng tiếp cận truyền thống trong phân loại văn bản khi áp dụng vào phân loại email gặp phải những khó khăn nhất định.
Một khó khăn khác của bài toán phân loại email là thiếu tập dữ liệu email thử nghiệm lớn vì vấn đề bảo toàn tính riêng tư. Đó là một hạn chế cho việc nghiên cứu vì không thể so sánh kết quả các phương pháp phân loại khác nhau. Phần lớn các nghiên cứu sử dụng tập email cá nhân. Các tập này thường rất nhỏ, khoảng dưới năm người dùng. Việc tổ chức email rất khác biệt giữa các người dùng nên cần phải thử nghiệm trên tập dữ liệu lớn trước khi quyết định phương pháp nào tốt nhất cho bài toán phân loại email. Vào năm 2004, tập dữ liệu email lớn từ tập đoàn Enron đã được công bố rộng rãi trên web8. Tập dữ liệu này gồm 619.446 email của 158 người và trung bình mỗi người dùng có khoảng 0.5 MB dữ liệu email. Trên tập dữ liệu Enron này có một số phân tích, thử nghiệm so sánh giữa các phương pháp phân loại truyền thống sử dụng mô hình không gian vectơ như Naïve Bayes, SVM, Maximum Entropy [18], [48].
Tập dữ liệu email thô thường lộn xộn, không có cấu trúc và Enron không phải là ngoại lệ. Luận án thực hiện các bước làm sạch, tiền xử lý và tổ chức lại dữ liệu trước khi đưa vào quá trình huấn luyện như sau.
Làm sạch dữ liệu:
Mỗi người dùng trong Enron thường có những thư mục được tạo tự động bằng chương trình hỗ trợ quản lý email như: Inbox, Sent, Trash, Drafts. Những thư mục này gọi là thư mục mặc định và không có chủ đề rõ ràng. Thư mục mặc định thường không được hỗ trợ trong các công cụ phân loại tự động.
Luận án phân loại các thư mục không có chủ đề thành ba nhóm chính sau:
Nhóm những thư mục được tạo tự động bởi chương trình hỗ trợ quản lý email, như “Sent Items” trong Microsoft Outlook hay “sent-mail” trong Pine.
Nhóm những thư mục chuẩn cho mọi người. Trong Enron, tên thư mục thuộc nhóm này là “all_document”, “disscussion_threads”,…
Nhóm thư mục lưu trữ được tạo bởi người dùng. Ví dụ như trong trường hợp người dùng muốn đặt những email chưa kịp đọc vào thư mục chuẩn bị đọc.
Những thư mục thuộc hai nhóm đầu sẽ không được xem xét trong quá trình thử nghiệm. Những thư mục thuộc nhóm thứ ba không bị loại bỏ vì nó hoàn toàn phụ thuộc vào từng người dùng riêng rẽ. Sở thích của người dùng trong việc tạo những thư mục loại này là rất khác nhau.
Loại bỏ các thư mục nhỏ
Thông thường người dùng muốn tạo ra những thư mục khác nhau nhằm phục vụ cho công việc quản lý của mình. Những thư mục này lúc đầu sẽ có rất ít email. Điều này gây khó khăn cho các công cụ phân loại tự động vì dữ liệu cho việc học quá nhỏ. Mỗi công cụ thường yêu cầu số lượng email tối thiểu để việc học có kết quả. Khi thử nghiệm, chỉ những thư mục có số email lớn hơn hay bằng ba mới được dùng cho việc
huấn luyện. Những thư mục chỉ có một hay hai email không xem xét do đặc trưng quá ít.
Làm phẳng các thư mục lồng nhau
Luận án coi một thư mục bất kỳ có chứa email là những thư mục riêng rẽ. Những thư mục này có thể chứa những thư mục khác. Ví dụ: trong Enron, người dùng là beck-s có 2 thư mục: \prc { email } và \prc\2000_year_end { email }. Khi đó hai thư mục này sẽ được đối xử ngang nhau khi phân loại.
Trong Bảng 3.1 là một số người dùng tiêu biểu của tập dữ liệu Enron được chọn thử nghiệm sau khi đã làm sạch dữ liệu và loại bỏ thư mục nhỏ.
Ký hiệu: KTTL -kích thước của email. KTLop - là kích thước thư mục (lớp).
Bảng 3.1. Thống kê trên tập dữ liệu ENRON [CT10]
Ngƣời dùng Số lƣợng thƣ mục Số lƣợng email KTLop nhỏ nhất (số email) KTlop lớn nhất (số email) KTTL nhỏ nhất (số từ) KTTL lớn nhất (số từ) beck-s 101 1971 3 166 45 2620 farmer-d 25 3672 5 1192 43 3507 kaminski-v 41 4477 3 547 44 7885 kitchen-l 47 4015 5 715 47 44926 lokay-m 11 2489 6 1159 45 4456 sander-r 30 1188 4 420 55 19331 williams-w3 18 2769 3 1398 49 2287
Khi thử nghiệm, luận án dùng phương pháp đánh giá chéo (k-fold cross- valiadtion) để xác định độ chính xác phân loại trung bình. Trong mỗi lần thử nghiệm, 90% dữ liệu sẽ được dùng cho việc huấn luyện, 10% còn lại sẽ kiểm nghiệm độ chính xác của phương pháp phân loại.
thư mục, độ chính xác phân loại bằng tổng số email phân loại đúng chia cho tổng số email phân loại.
Luận án chia các thư mục của Enron thành 6 loại với kích thước: nhỏ hơn 35 email, từ 36 đến 75 email, từ 76 đến 165 email, từ 166 đến 255 email, từ 255 đến 475 email và trên 476 email. Kích thước thư mục được chia theo chiều tăng gần gấp đôi nhằm tiện đánh giá. Độ chính xác của từng loại thư mục là độ chính xác trung bình của các thư mục thuộc cùng một loại.
Trong Bảng 3.2 là mô tả các hệ thống phân loại email đã được cài đặt và thử nghiệm. Hệ thống eClass là cải tiến của eMailSift [12] với việc xây dựng vectơ đại diện thư mục (tương tự qui trình đã mô tả trong mục 3.3.4) và thực hiện phân loại email với độ đo tương tự Dice. Hệ thống eTCG là ký hiệu cho hệ thống triển khai qui trình phân loại dựa trên kỹ thuật khai thác đồ thị mà luận án đã đề xuất trong mục 3.3 (được cụ thể hóa trong các Hình 3.1, Hình 3.2) và áp dụng trên email.
Bảng 3.2. Mô tả các hệ thống thử nghiệm
Hệ thống Mô hình biểu diễn
văn bản Mô tả phƣơng pháp
eMailSift Mô hình đồ thị hình sao
Dùng Subdue tìm đồ thị con đại diện, phân loại bằng cách so khớp với đồ thị con đại diện có thứ hạng cao nhất.
eClass Mô hình đồ thị hình sao
Dùng Subdue tìm đồ thị con phổ biến, xây dựng vectơ nhị phân đại diện thư mục, phân loại bằng độ đo tương tự Dice.
eTCG Mô hình đồ thị đơn giản
gSpan cải tiến khai thác đồ thị có hướng, độ đo tương tự Dice, đỉnh đồ thị tạo từ đơn vị “từ”
Hệ thống eClass hoạt động tương đối tốt với tất cả các loại thư mục. Độ chính xác phân loại có xu hướng tăng dần khi kích thước thư mục tăng lên như trong biểu đồ của Hình 3.6.
Luận án so sánh phương pháp phân loại so khớp dựa trên thứ hạng đồ thị đại diện thư mục của eMailSift [12] với phương pháp cải tiến của eClass: so khớp với độ đo
Dice. Biểu đồ trong Hình 3.7 cho thấy kết quả phân loại theo thư mục của eClass nhỉnh hơn phương pháp so khớp theo thứ hạng của eMailSift. Đó là do thay vì chỉ xác định sự trùng khớp với đồ thị con đại diện có thứ hạng cao nhất (trong eMailSift) thì eClass tính độ phủ của thư mục so với email mới nên khắc phục được nhược điểm khó xác định chính xác thư mục đích khi email mới trùng khớp với nhiều đồ thị con đại diện của các thư mục. Như vậy với việc cải tiến eMailsft bằng độ đo tương tự Dice, chất lượng phân loại đã tăng lên.
Hình 3.6. Kết quả phân loại email theo kích thƣớc thƣ mục [CT10]
Hình 3.7. Kết quả phân loại theo thƣ mục của eClass và eMailSift [CT10]
<35 36-75 76-175 176-255 256-475 >475 eClass 48.5 75.2 73.1 77.8 79.5 83.6 0 20 40 60 80 100 Đ ộ ch ín h xá c Kích thƣớc thƣ mục Độ chính xác theo thƣ mục 0 10 20 30 40 50 60 70 80 90 Độ ch ính xá c Kích thƣớc thƣ mục
So sánh eClass với eMailSift
eMailSift eClass
Trong Hình 3.8 là biểu đồ so sánh kết quả phân loại theo thư mục giữa eClass và eTCG. Hệ thống eTCG của qui trình phân loại đã đề xuất cho kết quả phân loại tốt hơn eClass ở phần lớn các loại kích thước thư mục, đặc biệt khi kích thước thư mục tăng lên. Có thể thấy phương pháp biểu diễn bằng đồ thị đơn giản lưu trữ được các thông tin cấu trúc mà đồ thị hình sao đã bỏ qua. Mô hình đồ thị hình sao nắm bắt được các thông tin cấu trúc của email (như phần tiêu đề, phần nội dung), mối quan hệ giữa từ với các phần cấu trúc (đồng hiện của từ trong các phần tiêu đề, nội dung, ....). Tuy nhiên, các thông tin về sự liền kề của từ, thứ tự, vị trí của từ trong email thì lại bị loại bỏ. Chính vì vậy mà chất lượng phân loại bằng biểu diễn đồ thị hình sao eClass thấp hơn eTCG. Điều này chứng tỏ mô hình biểu diễn đồ thị đơn giản phù hợp cho việc biểu diễn văn bản trong bài toán phân loại văn bản. Bên cạnh đó, thuật toán gSpan cải tiến cũng làm tăng khả năng thực thi của hệ thống do độ phức tạp tính toán của gSpan cải tiến thấp hơn ít nhất là 1.5 lần so với thuật toán Subdue.
So sánh độ chính xác phân loại theo người dùng
Phương pháp phân loại Naïve Bayes thường được dùng như phương pháp cơ sở của bài toán phân loại văn bản. Phương pháp phân loại Naïve Bayes dự đoán thư mục cho email mới dựa trên vectơ đặc trưng. Ở đây luận án sử dụng phép làm trơn Laplace để chuẩn hóa phương pháp Naïve Bayes. Độ chính xác phân loại theo từng người dùng được tính bằng tỷ lệ số email phân loại đúng với tổng số email đã thử nghiệm phân loại trên người dùng đó.
Kết quả trên biểu đồ Hình 3.9 cho thấy độ chính xác phân loại khá khác biệt tùy theo người dùng trong cả ba hệ thống.
Hình 3.9. Độ chính xác phân loại theo ngƣời dùng [CT10]
Dựa trên kết quả phân loại, chúng ta thấy eClass và eTCG phân loại tương đối tốt với người dùng có nhiều thư mục và nội dung thư mục không đồng nhất, cũng như khá tốt đối với các thư mục thưa. Nói chung, eTCG cho kết quả phân loại tốt hơn cả.
0 20 40 60 80 100 Độ chính xác N gƣ ời d ùn g
cải tiến nhanh hơn gấp rưỡi so với thuật toán Sudue nên hiệu quả phân loại của eTCG tốt hơn nhiều. Thời gian huấn luyện trung bình của eTCG là 3.5 x 10-3 giây/ email và thời gian thực hiện phân lớp tính từ thời điểm tiền xử lý email mới cho đến khi phân lớp hoàn tất trung bình là 2.9 x 10-3 giây/email (trên máy tính Intel Core Duo 2.56Ghz, 2GB RAM).
Từ các kết quả thử nghiệm, có thể nhận thấy qui trình phân loại đề xuất dựa trên biểu diễn bằng đồ thị đơn giản và kỹ thuật khai thác đồ thị phổ biến có thể áp dụng hiệu quả trên dữ liệu email.
Nhìn chung, kết quả phân loại email theo người dùng chưa được cao như kết quả phân loại kiểu văn bản khác. Các kết quả phân loại của các nghiên cứu [18], [48] trên tập dữ liệu Enron cũng cho độ chính xác tương tự. Nó chứng tỏ sự phức tạp của bài toán phân loại email so với bài toán phân loại văn bản truyền thống. Độ chính xác phân loại xét theo người dùng bị ảnh hưởng rất nhiều bởi cách tổ chức thư mục của người dùng đó. Một người dùng tổ chức thư mục mà nội dung email tập trung thì việc tìm đặc trưng cũng như kết quả phân loại sẽ chính xác hơn.