Tình hình nghiên cứu trên thế giới
Lọc thư rác theo nội dung không phải là phương pháp mới. Có nhiều nghiên cứu trình bày kết quả thử nghiệm liên quan tới giải pháp này như [Drucker 1999, Androutsopoulos2000, Schneider 2004, Metsis2006] (phần tổng quan về kết quả nghiên cứu liên quan đã được trình bầy trong các mục 3.2 và 3.3). Một số hệ thống lọc thư được thương mại hoá cũng sử dụng lọc nội dung như phương pháp lọc chính [gmail, yahoo, hotmail]. Tuy nhiên, các nghiên cứu về lọc nội dung mới chỉ tập trung vào trường hợp thư điện tử viết bằng tiếng Anh. Do nội dung thư phục thuộc vào đặc điểm ngôn ngữ nên khi phân loại thư trên những ngôn ngữ khác, cần có những nghiên cứu làm rõ vấn đề tiền xử lý ngôn ngữ và khả năng áp dụng các phương pháp phân loại thông dụng.
Tình hình nghiên cứu về lọc thư rác tại Việt nam
Ở Việt nam, cùng với sự phổ biến nhanh chóng của Internet trong vài năm gần đây, số lượng thư rác viết bằng tiếng Việt, nhắm vào những tài khoản thưđiện tử tiếng Việt (có đuôi .vn) cũng tăng lên nhanh chóng. Tình trạng này đặt ra vấn đề nghiên cứu các giải pháp phát hiện thư rác cho thư tiếng Việt. Vấn đề này bắt đầu được một số nhóm nghiên cứu tại các trường Đại học quốc gia Hà nội, Đại học Bách khoa Hà nội, Trung tâm an ninh thông tin Viện kỹ thuật quân sự, Học viện Công nghệ bưu chính viễn thông quan tâm. Đặc biệt, lọc thư rác tiếng Việt được coi là một trong những chủđề quan trọng của đề tài cấp nhà nước về xây dựng hệ thống lọc thông tin tại cổng quốc gia đã được đưa ra đấu thầu và xét duyệt trong năm 2006 vừa qua.
Tuy nhiên, các kết quả nghiên cứu về vấn đề lọc thư rác tiếng Việt hiện đang còn khá khiêm tốn. Theo như chúng tôi được biết, kết quả duy nhất về lọc thư rác tiếng Việt là bài báo được báo cáo tại Hội thảo quốc gia về công nghệ thông tin tại Hải phòng năm 2005 của nhóm tác giả thuộc trường Đại học Công nghệ [Lan 2005] 2. Trong bài báo này, nhóm tác giả không đưa ra giải pháp đặc thù nào cho thư rác tiếng Việt mà chỉ tiến hành thử nghiệm trên tập thư tiếng Việt sử dụng giải pháp như đối với thư tiếng Anh. Cụ thể, nội dung thư được biểu diễn dưới dạng
2
Nếu không kể tới kết quả ban đầu của đề tài này được công bố tại Hội thảo quốc gia về công nghệ thông tin tại Đà lạt tháng 6/2006
các từ đơn giống như đối với thư tiếng Anh sau đó được phân loại bằng cách sử dụng một biến thể của phương pháp Bayes đa trị. Hiệu quả phân loại được thử nghiệm trên dữ liệu bao gồm 200 thư rác và 230 thư bình thường, tất cảđều là thư tiếng Việt. Kết quả phân loại chính xác khoảng 92%. Trên thực tế, giả thiết bộ lọc thư chỉ nhận được toàn thư tiếng Việt là không hợp lý, hệ thống thư điện tử thông thường bao giờ cũng nhận được cả thư tiếng Việt và tiếng Anh.
Vấn đề phân loại văn bản tiếng Việt và tình hình nghiên cứu trong nước
Về bản chất, lọc thư theo nội dung là trường hợp riêng của phân loại văn bản. Bài toán phân loại văn bản tiếng Việt là một trong những nội dung nghiên cứu được chú ý trong vài năm gần đây với một số kết quả nghiên cứu đã được công bố. Những kết quả nghiên cứu chính liên quan tới kỹ thuật xác định đặc trưng biểu diễn văn bản và thử nghiệm kỹ thuật phân loại. Dưới đây, chúng tôi sẽ điểm qua các kết quả này.
Tách đặc trưng cho văn bản tiếng Việt. Nhiều phương pháp tách đặc trưng đã được thử nghiệm cho văn bản tiếng Việt. Trong sốđó phải kểđến phương pháp sử dụng n-grams [Cường 2005]. Phương pháp này coi mỗi đặc trưng là một cụm gồm
n từ nằm liền nhau. Ưu điểm lớn nhất của phương pháp này là đơn giản và cho kết quả khá tốt. Tuy nhiên, nhóm tác giả nói trên lựa chọn ngay n=1,2,3 và không so sánh với những giá trịn khác. Chi tiết về phương pháp này sẽđược đề cập tới trong một phần sau của báo cáo.
Một phương pháp xác định đặc trưng khác là sử dụng từđiển [Giang 2005]. Một cụm từ trong văn bản được coi là đặc trưng nếu trùng với một thuật ngữ trong từđiển. Nếu có nhiều đặc trưng lồng nhau thì đặc trưng dài nhất sẽ được lựa chọn. Phương pháp này đòi hỏi lượng bộ nhớ tương đối lớn để lưu từđiển.
Các kỹ thuật xử lý ngôn ngữ tự nhiên như sử dụng mô hình Markov ẩn, mô hình ngữ pháp và các mô hình thống kê cũng được sử dụng cho xác định đặc trưng tiếng Việt [Hà 2003, Hùng 2006]. Nguyên tắc chung của nhóm giải pháp này là sử dụng bộ ngữ liệu để xây dựng mô hình thống kê cho việc xuất hiện các đặc trưng trong văn bản. Mô hình sau đó sẽđược sử dụng để hướng dẫn việc tách đặc trưng từ văn bản mới. Kết quả thử nghiệm phương pháp loại này cho kết quả khả quan, tuy nhiên nhóm giải pháp này thường đòi hỏi thời gian thống kê cũng như tách đặc trưng lớn hơn so với hai giải pháp nói trên.
Phương pháp phân loại. Phương pháp phân loại được thử nghiệm cho phân
loại văn bản tiếng Việt cũng là những phương pháp đã được trình bầy trong phần 3.3. Cụ thể, sau khi tách đặc trưng như trình bầy ở trên, văn bản tiếng Việt được thử nghiệm phân loại bằng SVM [Giang 2005], Bayes đơn giản [Lan 2005],
phương pháp entropy cực đại [Cường 2005]. Điều đáng nói là đa số các tác giả chỉ thử nghiệm từng phương pháp phân loại riêng lẻ và không có so sánh với những phương pháp phân loại khác trên cùng bộ dữ liệu thử nghiệm.
Các vấn đề cần giải quyết
Mặc dù đã có một số kết quả bước đầu như nhắc tới ở trên, các nghiên cứu về lọc thư tiếng Việt mới chỉ dừng lại ở việc nghiên cứu một số khía cạnh của việc lọc thư tiếng Việt. Cần có những nghiên cứu mang tính hệ thống và so sánh ưu nhược điểm các giải pháp khác nhau.
Khi lựa chọn giải pháp lọc nội dung cho thư tiếng Việt cần chú ý tới một số vấn đề sau. Thứ nhất, cần lựa chọn phương pháp tách từ tiếng Việt vừa nhanh vừa cho kết quả phân loại tốt. Thứ hai, cần giải quyết vấn đề thư viết bằng tiếng Việt có dấu và không dấu. Thứ ba, cần kết hợp lọc thư cho cả thư viết bằng tiếng Anh và thư viết bằng tiếng Việt. Thứ tư, cần xác định chất lượng lọc thư tiếng Việt khi sử dụng những phương pháp phân loại khác nhau. Trong báo cáo này, chúng tôi sẽ trình bày một số giải pháp cho bốn vấn đề nêu trên và kết quả thử nghiệm trên dữ liệu thực.