Tình hình nghiên cứu

4. Phạm vi ứng dụng

3.3.2. Tình hình nghiên cứu

Bài tốn lọc thư rác đã cĩ rất nhiều phương pháp giải quyết triệt để và mang lại những kết quả thành cơng. Tuy nhiên, đa phần các cơng trình nghiên cứu chỉ tập trung giải quyết thư rác tiếng Anh, cịn lĩnh vực thư rác tiếng Việt thì chưa can thiệp. Trở ngại lớn nhất là cấu trúc tiếng Việt khác biệt hồn tồn so với cấu trúc tiếng Anh đã trình bày ở trên.

Dựa trên các nghiên cứu đã cĩ của Foo và Li [5], Le [9], D.Dien [3], H.Nguyen et al [7], việc tách từ xử lý tiếng Việt, chia là 2 hướng chính nghiên cứu là dựa trên “từ” và dựa trên ký tự.

Các hướng tiếp cận dựa trên “từ”, cĩ 3 nhĩm: dựa vào thống kê, dựa vào từ điển và nhĩm lai, nhĩm tách trọn vẹn từ trong câu. Các giải pháp theo hướng tiếp cận dựa vào thống kê cần dựa vào thống kê như số lượng từ, tần số xuất hiện của từ cũng như xác suất xuất hiện của từ trong một tập dữ liệu cơ sở. Do đĩ, tính hiệu quả của các giải pháp này chủ yếu dựa vào dữ liệu huấn luyện cụ thể đã được đưa vào sử dụng và bổ sung dữ liệu mới cho tập huấn luyện. Tuy nhiên, khuyết điểm của hướng tiếp cận này là khĩ khăn trong việc xây dựng tập huấn luyện cơ sở đủ lớn rộng, bao gồm nhiều lĩnh vực, chủ đề khác nhau và tồn diện.

Trong hướng tiếp cận dựa vào tự điển, cần phải phân tích từ tập dữ liệu cơ sở thành tập các từ, sau đĩ đem so sánh dựa vào bộ từ điển cĩ sẵn để tính độ tin cậy của từ. Tuy nhiên, việc xây dựng bộ từ điển và ý nghĩa cụ thể của tiếng Việt chưa hồn chỉnh và khơng mang tính khả thi.

Các hướng tiếp cận dựa trên ký tự (dựa trên “tiếng” trong tiếng Việt) cĩ thể chia làm hai nhĩm nhỏ: uni-gram và n-gram. Các phương pháp này tuy đơn giản nhưng

đã đem lại nhiều kết quả quan trọng trong việc xử lý tiếng Hoa (Foo và Li [5],

Yiming Yang [11] ). Trong bài báo khác, cũng đã xuất hiện phân loại từ tiếng Việt theo hướng tiếp cận này. Le [9] đã xây dựng 10 MB dữ liệu thơ và sử dụng quy hoạch động để tối ưu hĩa tần số xuất hiện của các từ sử dụng trong tập dữ liệu cơ sở.

Trong một bài báo khác, H. Nguyen et al [7] thay vì sử dụng dữ liệu thơ, tác giả đã dùng thơng tin thống kê trực tiếp từ Internet và sử dụng giải thuật di truyền để tìm ra những cách phân đoạn văn bản tối ưu nhất của cùng một văn bản.

Bài tốn phân loại văn bản

Những nguyên tắc bộ lọc thống kê